Обработка на естествен език

From Wikipedia, the free encyclopedia

Обработката на естествения език (ОЕЕ) или компютърната обработка на естествен (човешки) език (на английски: natural language processing, NLP) е подобласт на науката за изкуствения интелект и компютърната лингвистика. Тя се занимава с автоматичното генериране и разпознаване на естествените човешки езици.[1] Системите за езиково генериране преобразуват информация от компютърни бази от данни в човешки език, а системите за автоматично разбиране на даден естествен език преобразуват езикови записи във формално представяне, достъпно за обработка от компютърни програми.

Целта е компютърът да може да „разбира“ съдържанието на документите, включително нюансите от контекста. След това технологията може да извлича информация и идеи от документите, както и да категоризира и организира самите документи.

Предизвикателствата при обработката на естествен език често включват разпознаване на реч и генериране на естествен език.

История

Обработката на естествен език започва през 1950-те. В статията си „Изчислителна техника и интелигентност“ от 1950 г. Алън Тюринг предлага критерий за интелигентност (днес се нарича тест на Тюринг): задача, която включва автоматизирана интерпретация и генериране на естествен език.[2]

ОЕЕ базирана на символи (1950-те – началото на 1990-те)

Идеята за символната ОЕЕ е заложена в мисловния експеримент „китайска стая“ на Джон Сърл: дадени са някакви правила (напр. китайски разговорник с въпроси и техните отговори), компютърът прилага тези правила върху данните, с които се сблъсква, като така емулира разбирането на естествения език.

Статистическа ОЕЕ (1990-те до 2010-те)

До 1980-те повечето системи за обработка на естествен език се основават на сложни списъци от ръчно зададени правила. Но въвеждането на алгоритми за машинно обучение от края на 1980-те водят революция в ОЕЕ. Това се дължи както на постоянното нарастване на изчислителната мощност, така и на постепенното намаляване на влиянието на теориите на Чомски в лингвистиката, теоретични основи, които обезкуражават новидете видове корпусна лингвистика.[3]

Невронна ОЕЕ (настоящо)

През 2010-те представителното обучене и дълбоките невронни мрежи водят до широко разпространение на ново поколение от методи. Важна причина за тези промени са рекордните резултати от новите техники[4][5], например в езиковото моделиране,[6] синтактичния анализ[7][8] и много други. Подобни резултати са все по-важни в медицината и здравеопазването, където ОЕЕ помага в анализа на лекарски бележки и електронни здравни картони, правейки ги недостъпни за изучаване и подобряване на здравните грижи.[9] Тези методи излизат и отвъд човешките езици, например в интерпретацията на ДНК.

Източници

Wikiwand - on

Seamless Wikipedia browsing. On steroids.