Universal Dependencies
ウィキペディア フリーな encyclopedia
Universal Dependencies (UD) は、世界の言語に対するツリーバンク[1]を構築する国際的な共同プロジェクトである。これらのツリーバンクは自由にアクセス可能であり、利用することができる。主な応用分野は、自然言語処理 (NLP) の分野における自動テキスト処理と、特に言語類型論の観点から見た自然言語の構文および文法に関する研究である。本プロジェクトの主要な目的は、言語間でアノテーションの一貫性を達成することであるが、必要に応じて言語固有の拡張を許容している。アノテーション体系は、Stanford Dependencies[2]、Google universal part-of-speech tags[3]、形態統語タグセットのための Interset interlingua[4]の3つの関連プロジェクトにその起源を持つ。UD のアノテーション体系では、句構造木ではなく依存構造木の形式で表現が用いられる。現在 (2022年1月)、UD のインベントリには100以上の言語に対する200以上のツリーバンクが存在する。