From Wikipedia, the free encyclopedia
Sprogteknologi (eng. Natural Language Processing, eller NLP) er et tværfelt mellem datalogi, kunstig intelligens og lingvistik som handler om behandling af naturlige sprog, såsom dansk og engelsk, ved hjælp af computere. Sprogteknologi er derfor relateret til forskningsområdet Menneske-datamaskine interaktion (HCI).
NLP som forskningsområde startede generelt i 1950erne, selvom der findes enkelte tidligere forekomster. I 1950 udgav Alan Turing sin berømte artikel, Computing Machinery and Intelligence som foreslår hvad man i dag kalder for Turing-testen som et kriterium for intelligens.
Dette kriterium går ud på at et computerprogram skal kunne udgive sig for at være et menneske i en skriftlig samtale mellem en menneskelig dommer, sådan at dommeren ikke med overvejende sandsynlighed kan afgøre om samtalen er med et menneske eller en computer på basis af samtalens indhold.
Georgetown-IBM-eksperimentet i 1954 gik ud på automatisk at oversætte over 60 sætninger fra russisk til engelsk. Forfatterne påstod dengang at maskinoversættelse ville være et løst problem inden for tre til fem år, selvom udviklingen viste sig at gå meget langsommere. Da man i 1966 udgav ALPAC-rapporten hvor man konkluderede at de seneste ti års forskning ikke havde været så frugtbar, som man forventede, faldt den økonomiske støtte dramatisk. Indtil 1980erne var forskningsområdet mindre aktivt. Da blev de første statistiske maskinoversættelsessystemer udviklet.
Blandt mere velkendte NLP-systemer fra 1960erne fandtes SHRDLU, som arbejdede i begrænsede blokverdener med begrænsede ordforråd, ELIZA, som var en simulering af en Rogeriansk psykoterapeut, skrevet af Joseph Weizenbaum i perioden 1964-1966. Næsten uden information om hvordan mennesker tænker eller føler er programmet ELIZA i stand til at udvise nærmest menneskelig interaktion i form af spørgsmål. For eksempel kan en patient sige "My head hurts," hvortil ELIZA kunne svare "Why do you say your head hurts?"
I 1970erne blev flere konceptuelle ontologier udgivet, som var samlinger af viden om den virkelige verden struktureret i form af data som et program kunne behandle. Nogle eksempler er MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979), og Plot Units (Lehnert 1981). I denne tid blev der også skrevet mange chatbots som fx PARRY, Racter og Jabberwacky.
Indtil 1980erne var de fleste NLP-systemer baseret på komplekse mængder af håndskrevne regler. I starten af 1980erne skete en revolution i form af maskinlæringsalgoritmer til sprogbehandling. Dette skete som resultat af den tids øgede regnekraft og at Chomskianske lingvistiske teorier, hvori man generelt affordrer den korpuslingvistik som anvendes inden for maskinlæring, aftog i dominans.
Nogle af de tidligste maskinlæringsalgoritmer såsom beslutningstræer resulterede i systemer med if-then-regler som svarer meget til de eksisterende systemer med håndskrevne regler. Efterfølgende har man dog i stigende grad fokuseret på statistiske modeller hvor man anvender blødere, probabilistiske afgørelser. -- ***Her mangler noget om cache-baserede systemer***
Mange af de tidlige fremskridt inden for NLP skete inden for maskinoversættelse, blandt andet hos IBM Research hvor gradvist mere komplicerede statistiske modeller blev udviklet. Her bliver flersprogede korpusser anvendt fra blandt andet Canadas parlament og EU, da man her har regler om at alle lovtekster skal oversættes til alle medlemslandenes officielle sprog. En stor begrænsning i korpusbaserede systemer er at disse korpusser er dyre og svære at lave. Derfor er et forskningsområde opstået til at lære mere effektivt fra begrænsede mængder af data.
Senere forskning har fokuseret på læringsalgoritmer der er usuperviserede, hvor man ikke på forhånd har annoteret sit korpus med sit ønskede resultat, eller semi-superviserede, hvor man kun delvist annoterer sit korpus. Dette gør resultatet mere upræcist, men til gengæld har man en gigantisk mængde af ikke-annoteret data, for eksempel i form af World Wide Web, så man kan kompensere for kvaliteten.
Følgende er en række populære forskningsområder inden for NLP. Nogle af disse er problemstillinger som har en direkte anvendelse, mens andre er abstrakte og er delproblemer i større problemstillinger. Det som definerer et selvstændigt problemområde er ikke udelukkende mængden af forskning, men også at det er veldefineret, at der findes en standardmetrik og et standardkorpus til at evaluere opgaven med, samt eventuelle konkurrencer mellem forskellige metoder.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.