Корпус текстів

У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.

Основні властивості корпусу

Серед безлічі визначень корпусу можна виділити його основні характеристики:

електронний — у сучасному розумінні корпус має бути в електронному вигляді
репрезентативний — повинен добре «представляти» об'єкт, який моделює
розмічений — головна відмінність корпусу від колекції текстів
прагматично орієнтований — створюється під певну задачу

Класифікація корпусів

Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:

паралельні — сукупність текстів та їх перекладів на одну або кілька мов
зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами

Remove ads

Розмітка корпусів

Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.

Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів^[1]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:

можливість одночасного розмічання одного документа декількома людьми
не вимагають встановлення додаткових програмних засобів, крім браузера
гнучке розмежування прав доступу
відображення поточного прогресу процесу розмітки
можливість модифікації розмічуваного корпусу

Інтернет як корпус

Коротка інформація Зовнішні відеофайли ...

Зовнішні відеофайли
	Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:

Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси^[2].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Remove ads

Застосування

Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.

Remove ads

Див. також

Примітки

Loading content...

Література

Loading content...

Посилання

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads