Loading AI tools
вид обробки природної мови З Вікіпедії, вільної енциклопедії
Вклада́ння слі́в (англ. word embedding) — це загальна назва низки методик мовного моделювання та навчання ознак в обробці природної мови (ОПМ), в яких слова або фрази зі словника відображують у вектори дійсних чисел. Концептуально воно дає математичне вкладення з простору з багатьма вимірами, по одному на слово, до неперервного векторного простору набагато нижчої розмірності.
До методів породжування цього відображення належать нейронні мережі,[1] зниження розмірності на матриці суміжності[en] слів,[2][3][4] імовірнісні моделі,[5] метод поясненної бази знань,[6] та явне представлення в термінах контексту, в якому з'являються слова.[7]
Було показано, що вкла́дення слів та фраз, коли їх використовують як базове представлення входу, підсилюють продуктивність в задачах ОПМ, таких як синтаксичний аналіз[8] та аналіз тональності тексту.[9]
В мовознавстві вкладання слів обговорювали в дослідницькій області дистрибутивної семантики. Її метою є кількісне оцінювання та категоризування семантичних подібностей мовознавчих елементів на основі їхніх розподільних властивостей у великих вибірках мовних даних. Основну ідею, що «слово характеризується товариством, якого воно тримається», популяризував Ферт[en].[10]
Поняття семантичного простору з лексичними елементами (словами або кількаслівними термінами), представленими як вектори або вкладення, ґрунтується на обчислювальних викликах вловлювання розподільних властивостей та використання їх для практичного застосування, щоби вимірювати подібність між словами, фразами, або цілими документами. Першим поколінням моделей семантичного простору є векторної моделі для інформаційного пошуку.[11][12][13] Такі векторні моделі для слів та їхніх розподільних даних, втілені у своєму найпростішому вигляді, дають в результаті дуже розріджений векторний простір високої розмірності (пор. прокляття розмірності). Зниження числа вимірів із застосуванням лінійних алгебричних методів, таких як сингулярний розклад матриці, призвело потім до впровадження латентно-семантичного аналізу наприкінці 1980-х, та підходу Випадкового індексування[en] для збирання контекстів суміжності слів.[14][15][16][17][18] 2000 року Бенжіо[en] та ін. запровадили в низці праць «Нейронні ймовірнісні моделі мови» для зниження високої розмірності представлень слів у контекстах шляхом «навчання розподіленого представлення для слів».[19][20] Вкладання слів буває двох різних стилів: в одному слова виражають як вектори суміжних слів, а в іншому слова виражають як мовознавчі контексти, в яких ці слова трапляються, ці різні стилі досліджено в праці Лавеллі та ін. 2004 року.[21] Ровейс та Сол опублікували в «Science», як використовувати «локально лінійне вкладання» (ЛЛВ, англ. locally linear embedding, LLE), щоби виявляти представлення структур даних високої розмірності.[22] Більшість нових методик вкладання слів після 2005 року покладаються на нейромережну архітектуру замість більш імовірнісних та алгебричних моделей, з часу деяких засадничих праць Йошуа Бенжіо з колегами.[23][24]
Цей підхід було перейнято багатьма дослідницькими групами після зроблених близько 2010 року вдосконалень в теоретичній праці над якістю векторів та швидкістю тренування цієї моделі, та апаратних досягнень, що дали можливість з користю досліджувати ширший простір параметрів. 2013 року команда в Google під проводом Томаша Міколова створила word2vec, інструментарій вкладання слів, що може тренувати векторні моделі швидше за попередні підходи. Підхід word2vec широко використовували в експериментах, він сприяв підвищенню зацікавлення вкладаннями слів як технологією, зміщуючи напрямок досліджень від спеціалізованих досліджень до ширших експериментів, і врешті-решт проклавши шлях до практичного застосування.[25]
Одним з головних обмежень вкладань слів (векторних моделей слів у цілому) є те, що слова з кількома значеннями об'єднуються в єдине представлення (єдиний вектор в семантичному просторі). Іншими словами, багатозначність та омонімія не обробляються належним чином. Наприклад, в реченні «The club I tried yesterday was great!» не ясно, чи термін «club» стосується словосенсу «багатошаровий бутерброд[en]», «бейсбольний клуб», «молитовня[en]», «ключка для гри в гольф[en]», чи будь-якого іншого сенсу, який може мати слово «club». Необхідність розміщення декількох сенсів на слово в різних векторах (багатосенсові вкладення, англ. multi-sense embeddings) стало мотивацією декількох внесків до ОПМ для розділення односенсових вкладень на багатосенсові.[26][27]
Більшість підходів, які виробляють багатосенсові вкладення, може бути поділено на дві головні категорії згідно їхнього представлення сенсу, а саме спонтанні, та на основі знань.[28] Заснований на word2vec'овій пропуск-грамі (англ. skip-gram), багатосенсовий пропуск-грам (БСПГ англ. Multi-Sense Skip-Gram, MSSG)[29] виконує словосенсове розділення та вкладання одночасно, вдосконалюючи тривалість свого тренування, виходячи з певного числа сенсів для всіх слів. В непараметричній багатосенсовій пропуск-грамі (НП-БСПГ, англ. Non-Parametric Multi-Sense Skip-Gram, NP-MSSG) це число може мінитися залежно від кожного слова. Поєднуючи попереднє знання лексичних баз даних (наприклад, WordNet, ConceptNet[en], BabelNet[en]), вкладення слів та воднозначнення сенсу слів, анотування найбільш підхожим сенсом (АНПС англ. Most Suitable Sense Annotation, MSSA)[30] мітить словосенси шляхом спонтанного підходу та підходу на основі знань, розглядаючи контекст слова в наперед визначеному ковзному вікні. Щойно слова було воднозначнено, їх можливо використовувати в стандартній методиці вкладання слів, тож виробляються багатосенсові вкладення. Архітектура АНПС дозволяє процесові воднозначнювання та анотування виконуватися рекурентно, самовдосконалювальним чином.
Відомо, що застосування багатосенсових вкладень покращує продуктивність в низці задач ОПМ, таких як розмічування частин мови, ідентифікація семантичних відношень, та семантична пов'язаність[en]. Проте схоже, що задачі, пов'язані з розпізнаванням іменованих сутностей та аналізом тональності тексту, від представлення кількома векторами не виграю́ть.[31]
Вкладення слів для N-грамів у біологічних послідовностях (наприклад, ДНК, РНК та протеїнах) для застосувань у біоінформатиці було запропоновано Асґарі та Мофрадом.[32] Назване біо-векторами (БіоВек, англ. bio-vectors, BioVec) для позначування біологічних послідовностей в цілому, й протеїн-векторами (ПротВек, англ. protein-vectors, ProtVec) для протеїнів (послідовностей амінокислот) та ген-векторами (ГенВек, англ. gene-vectors, GeneVec) для послідовностей генів, це представлення можливо широко використовувати в застосуваннях глибокого навчання в протеоміці та геноміці. Результати, представлені Асґарі та Мофрадом,[32] дозволяють припустити, що БіоВектори можуть характеризувати біологічні послідовності в термінах біохімічних та біофізичних інтерпретацій закономірностей, що лежать в їх основі.
Вектори́ думо́к[en] (англ. thought vectors) — це розширення вкладання слів на цілі речення або навіть документи. Деякі дослідники сподіваються, що вони можуть вдосконалити якість машинного перекладу.[33]
До програмного забезпечення тренування та використання вкладень слів належать word2vec Томаша Міколова, GloVe Стенфордського університету,[34] GN-GloVe,[35] ELMo AllenNLP,[36] BERT,[37] fastText, Gensim[en],[38] Indra[39] та Deeplearning4j. Для знижування розмірності простору векторів слів та унаочнювання вкладень слів та кластерів[en] використовують як метод головних компонент (МГК, англ. PCA), так і t-розподілене вкладення стохастичної близькості (англ. t-SNE).[40]
Наприклад, fastText також використовують, щоби обчислювати вкладення слів для корпусів текстів у Sketch Engine, доступних онлайн.[41]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.