Loading AI tools
З Вікіпедії, вільної енциклопедії
Генеральний регіонально анотований корпус української мови (ГРАК; англ. General Regionally Annotated Corpus of Ukrainian, GRAC) — це корпус української мови обсягом понад 1,7 млрд токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик.
Корпус можна використати для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо. Корпус не є взірцем нормативної української мови, в ньому можуть трапитися слова і сполучення, які не відповідають сучасним нормам літературної мови.
Корпус охоплює період з 1816 по 2023 р. і на 3 грудня 2023 року містить понад 150 тисяч текстів близько 35000 авторів.
У 10-й версії корпусу, доступній для пошуку з 20 жовтня 2020 року, 35 % становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії.
З нехудожніх текстів:
Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема «Словарь української мови» Б. Грінченка і «Російсько-український словник сталих виразів» І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів.
Близько 20 % текстів в корпусі є перекладами. Корпус містить переклади з >80 мов, найбільше — з англійської та російської.
Тексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст.
В основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму.
Один текст може належати до кількох регіональних підкорпусів (якщо автор або перекладач народився, вчився, жив тривалий час в різних регіонах).
Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). Це здебільшого тексти емігрантів 1940-х років і, менша частка, — 1917-1920-х рр.
ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u.
Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки).
На базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми[1] та частотності літер і їх сполучень для розроблення шрифтів[2].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.