Loading AI tools
З Вікіпедії, вільної енциклопедії
Розпізнавання іменованих сутностей (РІС) (також відоме як ідентифікація об'єктної сутності, фрагментація об'єктної сутності та видобуток об'єктної сутності) — це підзадача видобування інформації, яка намагається знайти і класифікувати іменовані сутності в неструктурованому тексті в заздалегідь визначені категорії, такі як імена людей, організації, місця, медичні коди[en], час, кількості, грошові значення, відсотки тощо.
Більшість досліджень у системах РІС було структуровано як отримання не коментованого блоку тексту, такого як:
Джим купив 300 акцій корпорації Acme у 2006.
І створення коментованого блоку тексту, який виділяє імена об'єктів:
[Джим]Особа купив 300 акцій [корпорації Acme]Організація у [2006]Час.
У цьому прикладі було виявлено та класифіковано ім'я особи, що складається з одного токену, назва компанії з двох токенів та часового виразу.
Сучасні системи РІС для англійської мови показують продуктивність близьку до людської. Наприклад, найкраща система, що коментувала MUC-7[en], набрала 93,39 % оцінки F1, а анотатори — 97,60 % і 96,95 %.[1][2]
До визначних платформ РІС належать:
У виразі іменована сутність, слово «іменована» обмежує завдання для тих сутностей, для яких можна поставити у відповідність один або кілька рядків, таких як слова або фрази, послідовно для деяких референтів. Це тісно пов'язане з жорсткими позначеннями[en], визначеними Кріпке[3][4], хоча на практиці РІС має справу з багатьма іменами та референтами, які не є філософськи «жорсткими». Наприклад, автомобільна компанія, створена Генрі Фордом в 1903 році, може називатися Ford або Ford Motor Company, хоча «Ford» також може посилатися на багато інших суб'єктів (див. Ford). Жорсткі позначення включають власні імена, а також назви певних біологічних видів і речовин,[5] за виключенням займенників (наприклад, «він», див. вирішення кореферентності), описів референтів за їх властивостями (див. також De dicto і de re[en]), а також назв видів речей, на відміну від об'єктів (наприклад, «Банк»).
Повне розпізнавання іменованої сутності часто розбивається, концептуально і, можливо, також в реалізації,[6] як дві різні задачі: виявлення імен та класифікація їх по типу сутностей (наприклад, особи, організації, місця та інші[7]). Перша фаза, як правило, зводиться до проблеми сегментації: імена визначаються як суміжні проміжки токенів, без вкладеності, таким чином «Банк Америки» є єдиним ім'ям, попри те, що всередині цього імені підрядок «Америки» є іншим ім'ям. Задача сегментування є формально подібною до поверхнево-синтаксичного аналізу. Другий етап вимагає вибору онтології, за допомогою якої можна організувати категорії речей.
Часові вирази[en] та деякі числові вирази (наприклад, гроші, відсотки тощо) також можуть розглядатися як іменовані сутності в контексті завдання РІС. Хоча деякі приклади таких типів є гарними прикладами жорстких позначень (наприклад, 2001 рік), є також багато недійсних (наприклад, я беру відпустки в «червні»). У першому випадку 2001 рік відноситься до 2001-го року григоріанського календаря. У другому випадку місяць червень може стосуватися місяця невизначеного року (минулий червень, наступний червень, кожен червень тощо). Можна стверджувати, що визначення іменованої сутності в таких випадках втрачається з практичних причин. Таким чином, термін іменована сутність не є строгим і часто має пояснюватися в контексті, в якому він використовується.[8]
У літературі були запропоновані певні ієрархії типів іменованих сутностей. Категорії BBN[en], запропоновані в 2002 році, використовуються для питально-відповідної системи і складаються з 29 типів і 64 підтипів.[9] Розширена ієрархія Секіна, запропонована в 2002 році, складається з 200 підтипів.[10] Зовсім недавно, в 2011 році Ріттер використовував ієрархію на основі загальних типів об'єктів Freebase в новаторських експериментах РІС через соціальні медіа.[11]
Для оцінки якості результату системи РІС було визначено декілька заходів. Поки що точність на рівні токена є єдиною з можливістю, вона страждає від двох проблем: переважна більшість токенів у реальному тексті не є частиною імен сутностей, як вони зазвичай визначаються, тому точність основної лінії (завжди передбачати «не об'єктна сутність») екстравагантно високий, зазвичай > 90 %. Також неправильний прогноз повного проміжку назви об'єкта не карається належним чином (пошук лише імені особи, коли її прізвище стоїть одразу після імені, оцінюється як ½ точності).
На академічних конференціях, таких як CoNLL, варіант оцінки F1 був визначений наступним чином:
З визначення вище випливає, що будь-яке передбачення, яке пропускає один токен, містить в собі помилковий токен, або має неправильний клас, є жорсткою помилкою і не сприяє ані влучності, ані повноті.
Запропоновано моделі оцінювання, що базуються на узгодженні токена з токеном.[12] Такі моделі здатні обробляти також збіги, які частково перекриваються, але повністю оцінювати тільки точні збіги. Вони дозволяють більш тонку оцінку і порівняння екстракційних систем, враховуючи також ступінь невідповідності в неточних прогнозах.
Системи РІС були створені з використанням лінгвістичних методів граматики, а також статистичних моделей, таких як машинне навчання. Системи граматики, створені вручну, зазвичай отримують більшу влучність, але ціною меншої повноти і місяцями роботи досвідчених лінгвістів[13]. Статистичні системи РІС зазвичай вимагають великого обсягу вручну анотованих навчальних даних. Було запропоновано напівкеровані підходи, щоб уникнути частини зусиль анотації.[14]
Багато різних типів класифікаторів були використані для виконання РІС з машинним навчанням, причому умовні випадкові поля є типовим вибором.[15]
Дослідження показують, що навіть найсучасніші системи РІС є крихкими, що означає, що системи РІС, розроблені для одного домену, зазвичай не працюють добре в інших областях.[16] Значні зусилля приділяються налаштуванню систем РІС для успішної роботи в новому домені; це справедливо як для систем, заснованих на правилах, так і для статистичних систем.
Рання робота в системах РІС у 1990-х роках була спрямована, насамперед, на видобуток інформації з журналістських статей. Потім увагу звернулося на обробку військових відправлень і звітів. Пізніші етапи оцінки автоматичного видобутку вмісту[en] також включали кілька типів неформальних текстових стилів, таких як блоги та текстові транскрипції з телефонних розмов. Починаючи з 1998 року, існує велика зацікавленість у ідентифікації сутностей у молекулярній біології, біоінформатиці та обробці природних мов. Найбільш поширеним об'єктом інтересу в цьому домені були назви генів і генних продуктів. Також існує значний інтерес до розпізнавання хімічних об'єктів та наркотиків у контексті конкурсу CHEMDNER, в якому беруть участь 27 команд.[17]
Незважаючи на високий показник F1, що міститься в наборі даних MUC-7, проблема розпізнавання іменованих сутностей ще далеко не вирішена. Основні зусилля спрямовані на скорочення праці з анотаціями шляхом використання напівкерованого навчання,[18][19] надійної роботи в різних областях[20][21] і масштабування до дрібнозернистих типів об'єктів.[22][23] Протягом останніх років багато проектів перейшли до краудсорсингу, що є перспективним рішенням, яке дозволить отримати сукупність якісних людських суджень для таких підходів розв'язання РІС, як кероване та напівкероване навчання.[24] Іншою складною задачею є розробка моделей для роботи з мовними складними контекстами, такими як Twitter і пошукові запити.[25]
Є дослідники, які зробили деякі порівняння про показники РІС з різних статистичних моделей, таких як ПММ (Прихована марковська модель), МЕ (Максимум ентропії[en]), і УВП (Умовне випадкове поле) і набори функцій.[26] Деякі дослідники нещодавно запропонували напівкеровану модель навчання на основі графів для задач, пов'язаних з мовними специфічними РІС.[27]
Нещодавно з'явилася задача ідентифікації «важливих виразів» у тексті та перехресного їх з'єднання з Вікіпедією.[28][29][30] Нижче наведено приклад виведення системи Вікіфікації:
<ENTITY url="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>
Ще одним напрямком, що прогресує, але залишається складним, є застосування РІС до Твіттера та інших мікроблогів.[31]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.