UWN project
З Вікіпедії, вільної енциклопедії
Проє́кт UWN (англ. UWN project) — науково-дослідний проєкт, присвячений створенню лексико-семантичної онтологічної бази знань української та, в перспективі, російської мови. Як основу для побудови онтології проєкт використовує характерні для сімейства WordNet структурні елементи: синсети (набори синонімів, що описують єдине поняття) та набори семантичних (22 типи) і лексичних (12 типів) зв'язків. Не зважаючи на схожість логічних структур, архітектурно створювана в проєкті онтологія суттєво відрізняється як від онтологій типу WordNet, так і від інших проєктів, що можуть розглядатися як бази загальних знань доступних для автоматичного використання (ConceptNet, Cyc, Wikipedia). З точки зору архітектури UWN належить до онтологій створених на базі СУБД, що дозволило об'єднати в одному місці дані про зовнішній світ та логіку їх обробки. Базова архітектура UWN описана в статті [1]
Історія
Узагальнити
Перспектива
Перша версія онтологічної бази знань була розроблена в 2009, тоді ж на основі даних WordNet в рамках державної цільової науково-технічної програми "Образний комп'ютер" [Архівовано 10 травня 2013 у Wayback Machine.] на базі UWN було створено та апробовано семантичну метапошукову систему для пошуку англійською мовою в мережі Інтернет. Офіційною датою народження UWN вважається 1 липня 2010, коли до розвитку проєкту приєднався колектив фахівців факультету кібернетики КНУ ім. Т. Шевченка. На цей час в проєкті взяло участь уже понад 100 студентів, аспірантів та викладачів факультету. Керівництво проєктом здійснює декан факультету Анісімов Анатолій Васильович.
Найбільший внесок в розбудову проєкту зробили фахівці з комп'ютерної лінгвістики кафедри МІ [Архівовано 21 лютого 2012 у Wayback Machine.]. Даною групою було розроблено методики асоціативно-семантичного контекстного аналізу з використанням онтологій, що базуються на обчисленні семантичних відстаней між ключовими елементами тексту. Дані методики було використано при розробці алгоритмів для вирішення прикладних задач з автоматичної інтелектуальної обробки природномовних текстів (таких як визначення тематик текстів, семантична фільтрація потоків даних за змістом, смислове покращення якості машинного перекладу, семантичний пошук в Інтернет, аналіз настрою тексту та багато інших). Ключові ідеї групи описано в роботах [2], [3], [4], [5]. Саме ці практично апробовані алгоритми та моделі було покладено в основу програмного комплексу призначеного для обробки природномовних текстів в середині UWN.
Основні завдання проєкту
Проєкт має вирішити наступні завдання [6]:
- створення англомовної, україномовної та російськомовної лексикографічних баз знань універсального характеру
- забезпечення міжмовних зв'язків між концептами онтологій
- створення гнучкої архітектури системи, що дозволяє вносити значні зміни в структуру даних без впливу на стандартний процес роботи UWN
- реалізація принципу "логіка та дані в одному місці"
- забезпечення онлайн доступу до онтологічної бази
- забезпечення сумісної та одночасної роботи користувачів та автоматизованих систем
- вичерпність бази (обсяг даних понад 120000 концептів)
Архітектура
Узагальнити
Перспектива
Базова архітектура UWN описана в статті[1]. Проте, з моменту свого створення система зазнала ряду значних змін пов'язаних з розбудовою бази знань, розширенням наявного лінгвістичного функціонала, змінами в механізмах безпеки і логування та забезпеченням одночасної роботи великої кількості користувачів. Основні принципи що мали виконуватися при створенні архітектури[7]:
- заснована на СУБД
- онтології кожної мови реалізовано у вигляді окремих логічних одиниць
- серверну логіку згруповано за функціональним призначенням у програмні одиниці - пакети
- відсутність прямого доступу до даних
- наявність спеціальних інтерфейсів (API) для забезпечення роботи з даними та логікою онтології
- розділення рівня доступу за системами та користувацькими профілями
- наявність централізованого контролю за доступом до даних та систем
- гнучкість системи, здатність до розширення новими функціями, системами та даними без втрати наявної функціональності
- забезпечення сумісної роботи великої кількості користувачів в т.ч. через різні системи
- можливість включення до системи нових підсистем для збору, аналізу та показу аналітичних даних
Використання СУБД як платформи дозволяє широко застосовувати дворівневу (клієнт-серверну) архітектуру, де СУБД виконує роль сервера та БД, а web- або десктоп- додаток роль клієнта. Основними елементами бази даних є наступні блоки (схеми) [8]:
- ua_guest – схема, що використовується для підключення до БД всіма клієнтами.
- ua_security – схема, що відповідає за розрізнення профілів доступу систем-додатків, інтерфейси доступу до серверної логіки, механізми логування і т.д.
- ua_ontology – схема, що зберігає інформацію про наповнення україномовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
- en_ontology – схема, що зберігає інформацію про наповнення англомовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
- ru_ontology – схема, що запланована для зберігання інформації російськомовної онтології.
- ua_alg – схема, що призначена для зберігання різноманітних семантичних алгоритмів та методів вимірювання ступеня семантичної зв’язності.
- ua_morphology – схема, що призначена для зберігання морфологічної інформації для української мови, також на базі даної схеми працюють алгоритми перевірки правопису та підбору варіантів правильного написання слова.
В цілому, внутрішня структура UWN є досить складною та сильно взаємозв’язаною, але назовні система пропонує ряд простих у використанні та добре задокументованих інтерфейсів (API). Наразі існує два типи інтерфейсів доступу до БД:
1) старий – інтерфейс типу get, який пропонує лише методи отримання інформації з онтології. Серед них: пошук синсетів, у які входить певне слово; побудова ієрархічних дерев за різними типами зв’язку; пошук синонімів і т.д. Цей інтерфейс використовується в ескізному проєкті семантичної пошукової системи та альфа-версіях клієнтів для перегляду наповнення онтології.
2) новий – інтерфейс типу get/set, призначений, в першу чергу, для внесення змін в БД. Використовується в клієнтських додатках типу онтокоректорів та онторедакторів.
Джерела
Твіттер проєкту UWN [Архівовано 10 вересня 2016 у Wayback Machine.]
Література
Wikiwand - on
Seamless Wikipedia browsing. On steroids.