UWN project

З Вікіпедії, вільної енциклопедії

Проє́кт UWN (англ. UWN project) — науково-дослідний проєкт, присвячений створенню лексико-семантичної онтологічної бази знань української та, в перспективі, російської мови. Як основу для побудови онтології проєкт використовує характерні для сімейства WordNet структурні елементи: синсети (набори синонімів, що описують єдине поняття) та набори семантичних (22 типи) і лексичних (12 типів) зв'язків. Не зважаючи на схожість логічних структур, архітектурно створювана в проєкті онтологія суттєво відрізняється як від онтологій типу WordNet, так і від інших проєктів, що можуть розглядатися як бази загальних знань доступних для автоматичного використання (ConceptNet, Cyc, Wikipedia). З точки зору архітектури UWN належить до онтологій створених на базі СУБД, що дозволило об'єднати в одному місці дані про зовнішній світ та логіку їх обробки. Базова архітектура UWN описана в статті [1]

Історія

Узагальнити
Перспектива

Перша версія онтологічної бази знань була розроблена в 2009, тоді ж на основі даних WordNet в рамках державної цільової науково-технічної програми "Образний комп'ютер" [Архівовано 10 травня 2013 у Wayback Machine.] на базі UWN було створено та апробовано семантичну метапошукову систему для пошуку англійською мовою в мережі Інтернет. Офіційною датою народження UWN вважається 1 липня 2010, коли до розвитку проєкту приєднався колектив фахівців факультету кібернетики КНУ ім. Т. Шевченка. На цей час в проєкті взяло участь уже понад 100 студентів, аспірантів та викладачів факультету. Керівництво проєктом здійснює декан факультету Анісімов Анатолій Васильович.

Найбільший внесок в розбудову проєкту зробили фахівці з комп'ютерної лінгвістики кафедри МІ [Архівовано 21 лютого 2012 у Wayback Machine.]. Даною групою було розроблено методики асоціативно-семантичного контекстного аналізу з використанням онтологій, що базуються на обчисленні семантичних відстаней між ключовими елементами тексту. Дані методики було використано при розробці алгоритмів для вирішення прикладних задач з автоматичної інтелектуальної обробки природномовних текстів (таких як визначення тематик текстів, семантична фільтрація потоків даних за змістом, смислове покращення якості машинного перекладу, семантичний пошук в Інтернет, аналіз настрою тексту та багато інших). Ключові ідеї групи описано в роботах [2], [3], [4], [5]. Саме ці практично апробовані алгоритми та моделі було покладено в основу програмного комплексу призначеного для обробки природномовних текстів в середині UWN.

Основні завдання проєкту

Проєкт має вирішити наступні завдання [6]:

  1. створення англомовної, україномовної та російськомовної лексикографічних баз знань універсального характеру
  2. забезпечення міжмовних зв'язків між концептами онтологій
  3. створення гнучкої архітектури системи, що дозволяє вносити значні зміни в структуру даних без впливу на стандартний процес роботи UWN
  4. реалізація принципу "логіка та дані в одному місці"
  5. забезпечення онлайн доступу до онтологічної бази
  6. забезпечення сумісної та одночасної роботи користувачів та автоматизованих систем
  7. вичерпність бази (обсяг даних понад 120000 концептів)

Архітектура

Узагальнити
Перспектива

Базова архітектура UWN описана в статті[1]. Проте, з моменту свого створення система зазнала ряду значних змін пов'язаних з розбудовою бази знань, розширенням наявного лінгвістичного функціонала, змінами в механізмах безпеки і логування та забезпеченням одночасної роботи великої кількості користувачів. Основні принципи що мали виконуватися при створенні архітектури[7]:

  1. заснована на СУБД
  2. онтології кожної мови реалізовано у вигляді окремих логічних одиниць
  3. серверну логіку згруповано за функціональним призначенням у програмні одиниці - пакети
  4. відсутність прямого доступу до даних
  5. наявність спеціальних інтерфейсів (API) для забезпечення роботи з даними та логікою онтології
  6. розділення рівня доступу за системами та користувацькими профілями
  7. наявність централізованого контролю за доступом до даних та систем
  8. гнучкість системи, здатність до розширення новими функціями, системами та даними без втрати наявної функціональності
  9. забезпечення сумісної роботи великої кількості користувачів в т.ч. через різні системи
  10. можливість включення до системи нових підсистем для збору, аналізу та показу аналітичних даних


Використання СУБД як платформи дозволяє широко застосовувати дворівневу (клієнт-серверну) архітектуру, де СУБД виконує роль сервера та БД, а web- або десктоп- додаток роль клієнта. Основними елементами бази даних є наступні блоки (схеми) [8]:

  • ua_guest – схема, що використовується для підключення до БД всіма клієнтами.
  • ua_security – схема, що відповідає за розрізнення профілів доступу систем-додатків, інтерфейси доступу до серверної логіки, механізми логування і т.д.
  • ua_ontology – схема, що зберігає інформацію про наповнення україномовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
  • en_ontology – схема, що зберігає інформацію про наповнення англомовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
  • ru_ontology – схема, що запланована для зберігання інформації російськомовної онтології.
  • ua_alg – схема, що призначена для зберігання різноманітних семантичних алгоритмів та методів вимірювання ступеня семантичної зв’язності.
  • ua_morphology – схема, що призначена для зберігання морфологічної інформації для української мови, також на базі даної схеми працюють алгоритми перевірки правопису та підбору варіантів правильного написання слова.
Thumb
Діаграма основних структурних елементів СУБД UWN


В цілому, внутрішня структура UWN є досить складною та сильно взаємозв’язаною, але назовні система пропонує ряд простих у використанні та добре задокументованих інтерфейсів (API). Наразі існує два типи інтерфейсів доступу до БД:

1) старий – інтерфейс типу get, який пропонує лише методи отримання інформації з онтології. Серед них: пошук синсетів, у які входить певне слово; побудова ієрархічних дерев за різними типами зв’язку; пошук синонімів і т.д. Цей інтерфейс використовується в ескізному проєкті семантичної пошукової системи та альфа-версіях клієнтів для перегляду наповнення онтології.

2) новий – інтерфейс типу get/set, призначений, в першу чергу, для внесення змін в БД. Використовується в клієнтських додатках типу онтокоректорів та онторедакторів.


Джерела

Сайт проєкту UWN

Твіттер проєкту UWN [Архівовано 10 вересня 2016 у Wayback Machine.]


Література

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.