Loading AI tools
З Вікіпедії, вільної енциклопедії
Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.
Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.
За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту.
Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.
Нині в науковому словнику лінгвістів з'являються дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.
Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.
Цінність корпусу вбачається в наступному:
Робота з корпусами, тобто з масивами текстів, представленими в електронному вигляді, стала одним з основних методів лінгвістичних досліджень. Так, ще в 1960-і роки створювався Браунівський корпус (США)[1], який включає 1 млн слів. Відтоді виникла ціла низка аналогічно побудованих корпусів: LOB корпус (британська англійська у 1960-х роках), Колхапур ( індійська англійська [en]), Веллінгтон (новозеландська англійська, Австралійський корпус англійської мови (австралійська англійська), корпус Фраун (на початку 1990-х років американська англійська), а також FLOB Корпус (1990-ті роки британська англійська). Міжнародний корпус англійської мови і Британський національний корпус British National Corpus [Архівовано 25 лютого 2011 у Wayback Machine.] включають колекцію зі 100 млн слів розмовного та письмового тексту. Наповнюються інші національні корпуси мов (угорський, італійський, хорватський, чеський, японський) обсягом 100 млн слів. На початку XXI ст. створили American National Corpus [Архівовано 13 травня 2008 у Wayback Machine.], 100 млн слів і Gigaword corpora (англійська, арабська, китайська), що включає 1 млрд слів.
Крім корпусу живих мов, з колекцій текстів зробили комп'ютерні корпуси стародавніх мов. Наприклад, з 1970-х років створюється база єврейської Біблії.[2][3] У Корпусі арабської мови Корану [en] зібрано понад 77 тисяч слів.[4]
Перший комп'ютеризований лінгвістичний корпус був розроблений 1971 року Монреальським французьким проектом, що містить один мільйон слів.[5][6]
Існування корпусів текстів дає можливість значно розширити й автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.
Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.
Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.
Існують різні типи розмітки:
Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.
В історії корпусної лінгвістики є два ключові моменти, які варто відзначити. По-перше, хоча загально вважається, що ця галузь виникла активно у 60-х роках ХХ століття разом із появою перших комп'ютерних корпусів, У. МакЕнері та А. Вільсон вказують на те, що корпусна лінгвістика має свої коріння в більш ранні періоди. По-друге, якщо розглядати корпусну лінгвістику як вивчення мови на основі реальних прикладів її вживання, то важливо відзначити, що емпіричні дослідження з використанням масштабних корпусів мовних даних відбувалися навіть до початку комп'ютерної ери. Це свідчить про те, що ідея корпусу та його використання поступово розвивалася від "кам'яного віку" до сучасних електронних баз даних. Наприклад, проект "The Survey of English Usage", започаткований у 1959 році Рендольфом Квірком в University College London, є одним із найважливіших у цьому контексті. Початково цей проект базувався на картонних картках, що містили зразки мовлення громадян. Тільки пізніше дані були перенесені у електронний формат. Сьогодні ж цю базу можна оглянути на веб-сайті проекту.
У західному світі становлення корпусної лінгвістики відзначається важливими етапами, серед яких варто виділити період створення перших корпусів. Цей час, припадаючи на 1960-ті роки, був визначним завдяки ряду масштабних досліджень, що стимулювали ідею формування корпусів, які ми зараз знаємо.
Один з найперших комп'ютерних корпусів - Браунівський корпус, був складений у Браунівському університеті в США. Створення цього корпусу було спрямоване на вивчення лінгвістичних особливостей американського варіанту англійської мови. Зразки текстів для корпусу відбиралися з різних жанрів англомовної друкованої прози, опублікованої в 1961 році. Перша версія корпусу містила 500 текстових уривків обсягом приблизно 1 мільйон слів. Цей корпус супроводжувався обширною статистичною обробкою, включаючи частотний і алфавітно-частотний словник, а також різноманітні статистичні розподіли. Започаткований успіх Британського національного корпусу, спрямованого на вивчення британського варіанту англійської мови, надихнув створення американського еквіваленту. У 1999 році було створено консорціум Американського національного корпусу, а в наступних роках були випущені перша та друга частини цього корпусу. Особливістю Американського національного корпусу є те, що він включає жанри, що ще не були представлені у Британському національному корпусі, такі як особисті електронні тести, Інтернет-чати та веб-сторінки.
У 2000-і роки спостерігається швидкий розвиток корпусної лінгвістики, що виявляється у значній кількості нових досліджень у цій галузі. Наприклад, дослідження у лексичній граматиці, лексикографії, когнітивній лінгвістиці, прагматиці, дискурс-аналізі, стилістиці, перекладознавстві та інших напрямках. Крім того, корпуси створюються для багатьох мов світу, що свідчить про загальний інтерес до корпусної лінгвістики.
Нові досягнення у цій галузі публікуються у відомих міжнародних наукових журналах, таких як Corpus, Corpus Linguistics and Linguistic Theory, ICAME Journal. На сьогоднішній день майже для кожної європейської мови існують корпуси текстів різного типу, обсягу та структури. Створення національного корпусу вважається проявом поваги до рідної мови, і хоча українська корпусна лінгвістика ще розвивається, вже здійснено значні досягнення у цій галузі.
В Україні перший доступний для пошуку в інтернеті корпус текстів української мови розроблено співробітниками лабораторії комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Н. П. Дарчук у 2004 році.[7] Обсяг корпусу — понад 100 млн слововживань. Корпус доступний для пошуку онлайн з 2010 року.
У корпусі зберігаються публіцистичні, художні, наукові, законодавчі, поетичні, фольклорні тексти, опрацьовані автоматичним лінгвістичним аналізатором. Кожній одиниці тексту (морфемі, слову, словосполученню, реченню) приписана супровідна інформація: частиномовна належність, граматична форма, синтаксична функція, контекст тощо. Корпус надає інформацію двох типів:
З 2012 року доступні онлайн паралельні українсько-російський та російсько-український корпуси [Архівовано 20 квітня 2013 у Wayback Machine.] у складі Національного корпусу російської мови.
З 2014 року активно розвивається Український вебкорпус Лейпцизького університету (Німеччина) Містить тексти з інтернету, без морфологічної розмітки.
З 2017 року діє Генеральний регіонально анотований корпус української мови (ГРАК [Архівовано 1 вересня 2018 у Wayback Machine.]). Обсяг десятої версії корпусу понад 650 млн токенів.
ГРАК містить тексти 1816—2020 років, має розгалужену метарозмітку. Тексти корпусу датовано (роком написання і роком публікації), розмічено за автором, стилем, жанром, регіоном чи країною створення, правописом тощо. У ГРАКу вперше представлено великий корпус текстів діаспори (близько 40 млн токенів). ГРАК містить оригінальні та перекладні українські тексти. Морфологічну анотацію корпусу здійснено за допомогою інструмента аналізу української мови на основі словника ВЕСУМ та рушія LanguageTool. Для пошуку в корпусі використано корпусний менеджер NoSketchEngine, який дає можливість шукати в цілому корпусі або частині корпусу, отримувати конкорданси, частотні списки, завантажувати результати для подальшої роботи з ними. На сайті ГРАКа доступні додаткові інструменти, такі як інструмент для візуалізації результатів пошуку у вигляді графіків частотності за роками, інструмент для пошуку за великим списком, інструмент для аналізу складу корпусу.
2018 року було презентовано українсько-польський корпусний проєкт «Лабораторія української», у межах якого є корпус зі знятою вручну омонімією та синтаксичною розміткою обсягом 140 тис. слів, вебкорпус обсягом майже 3 млрд слів (Україна, Польща), паралельні корпуси. Морфологічну розмітку корпусів здійснено за допомогою системи Universal Dependencies. Пошук працює на основі NoSketchEngine.
Браунський український корпус [Архівовано 26 липня 2020 у Wayback Machine.] — на стадії розроблення
Lang-uk [Архівовано 31 липня 2019 у Wayback Machine.] Корпуси українських текстів, доступні для завантаження: новини, Вікіпедія, художні тексти, веб. Обсяг близько 600 млн токенів.
Корпус бібліотеки «Чтиво» [Архівовано 6 липня 2019 у Wayback Machine.]: автоматично розпізнані тексти книжок. Обсяг близько 600 млн токенів. Пошук здійснюється дослівно (без лематизації та морфологічного аналізу).
Укладено корпус текстів великої прози І. Франка із роззначенням мовлення автора і прямого мовлення, а також морфологічною та семантичною анотацією.
Простір електронних текстових корпусів дав можливість результативного використання електронних конкордансів, які відкривають перспективи моделювання мовної картини світу. Конкорданс є спеціалізованою лінгвістичною прикладною програмою, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів. Функцію конкордансу можна порівняти з функцією пошуку в текстовому редакторові, проте можливості конкордансу ширші — він аналізує не один, а відразу декілька текстів або корпусів електронних текстів, при цьому конкорданс виводить на екран інформацію про контекст використання заданих мовних одиниць. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучуваності тієї або іншої мовної одиниці, а також дає можливість звертатися до конкретного тексту, в якому був знайдений приклад.
Існують такі конкорданси для українських текстів:
- електронний конкорданс повних творів Григорія Сковороди на сайті Албертського університету в Канаді[9],
- онлайн конкорданс роману Івана Франка «Перехресні стежки» (автори: Бук С., Ровенчак А.) на сторінці Львівського університету.[10]
Безумовно, корпусна лінгвістика яскраво і чітко репрезентує себе в одному з перспективних напрямів — комп'ютерної лексикографії. Електронні словники і енциклопедії розробляються сьогодні як автономні і мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей в порівнянні з друкарськими аналогами:
Значний досвід досліджень в комп'ютерній лексикографії дозволяє розширити можливості вивчення смислової структури політичного слова. Так, сьогодні в наукових проектах активно розробляється ідея, пов'язана з організацією концептуального простору мови політики з позиції гіпертекстової єдності.
Кажучи про специфіку змісту такого словника, відзначимо, що слово в електронному варіанті реалізується в семантичному макрополі, що складається з декількох полів, збудованих в певну систему:
Комп'ютерне забезпечення словника довідкового типу складається з двох складових:
Наведемо лексикографічний віртуальний портрет слова ескалація.
Слово в електронному словнику представлене в 4-х полях:
Саме 3-і і 4-і поля можуть описати динаміку розвитку семантики слова. Наприклад, слово ескалація в сучасних словниках політичної мови представлено з імпліцитним негативним прагматичним компонентом, обумовленим категоріальною семою дія, направлена на негативний результат, що підтверджується «Полем ілюстрацій».
Таким чином, словник є систематизований алфавітний масив ядерної політичної лексики. Пропоноване лексикографічне дослідження дає можливість виявити основні тенденції в розвитку ядерної політичної лексики, забезпечити доступність словника за рахунок ефективної системи пошуку, а також зберігати великий обсяг інформації за рахунок гіперпосилань.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.