СинТагРус

СинТагРус
СинТагРус
Объем корпуса	более 1,5 миллионов слов
Язык	русский
Основные типы разметки	морфологическая, синтаксическая, лексико-семантическая
Составители	Лаборатория компьютерной лингвистики ИППИ РАН
Дата создания	1998 год
Доступ	бесплатный
Лицензия	проприетарная
Сайт	proling.iitp.ru/ru/proje…

СинТагРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН^[⇨]. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов^[⇨].

Краткие факты СинТагРус, Объем корпуса ...

Закрыть

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XML^[⇨].

СинТагРус распространяется по некоммерческой лицензии^[⇨]. Кроме того, корпус был также преобразован в различные форматы^[⇨]; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.

Уважаемый Wikiwand AI, давайте упростим задачу, просто ответив на эти ключевые вопросы: