СинТагРус
первый аннотированный корпус текстов русского языка, разрабатываемый с 1998 года, основан на идеологии многоцелевого лингвистического проц / Материал из Википедии — свободной encyclopedia
Уважаемый Wikiwand AI, давайте упростим задачу, просто ответив на эти ключевые вопросы:
Перечислите основные факты и статистические данные о СинТагРус?
Кратко изложите эту статью для 10-летнего ребёнка
СинТагРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[⇨]. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов[⇨].
СинТагРус | |
---|---|
Объем корпуса | более 1,5 миллионов слов |
Язык | русский |
Основные типы разметки | морфологическая, синтаксическая, лексико-семантическая |
Составители | Лаборатория компьютерной лингвистики ИППИ РАН |
Дата создания | 1998 год |
Доступ | бесплатный |
Лицензия | проприетарная |
Сайт | proling.iitp.ru/ru/proje… |
СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XML[⇨].
СинТагРус распространяется по некоммерческой лицензии[⇨]. Кроме того, корпус был также преобразован в различные форматы[⇨]; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.