Loading AI tools
підібрана й оброблена сукупність текстів, які є базою для дослідження мови З Вікіпедії, вільної енциклопедії
У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.
Серед безлічі визначень корпусу можна виділити його основні характеристики:
Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:
Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.
Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів[1]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:
Зовнішні відеофайли | |
---|---|
Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016 |
Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:
Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси[2].— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.