From Wikipedia, the free encyclopedia
Arvutilingvistika ehk arvutuslingvistika on teadusharu, mis ühendab keeleteaduse ja arvutiteaduse. Arvutuslingvistika põhiülesanded võib jagada kaheks: keele analüüs ja keele genereerimine ehk süntees.
Arvutilingvistika erineb keeletehnoloogiast ja masintõlkest, kuid on mõlema valdkonnaga seotud.[1][2] Arvutilingvistika rakendused hõlmavad keeleressursse ja -töötlusvahendeid ning kõik rakendused koos on keeletehnoloogia.[2] Keeletehnoloogia ja arvutilingvistika tegelevad mõlemad loomuliku keele automaattöötlusega, kuid arvutilingvistika läheneb probleemidele teoreetilisema ja keeletehnoloogia rakenduslikuma nurga alt. Masintõlge on üks arvutilingvistika kasutusaladest.
Arvutilingvistika jaguneb teoreetiliseks ja rakenduslikuks valdkonnaks. Teoreetises arvutilingvistikas uuritakse inimese keelelisi võimeid. Rakenduslikus arvutilingvistikas tehkase tööd keeleressurssidega, luuakse ja arendatakse keele automaattöötluseks vajalikku tarkvara.[3] Keeleressursside alla kuuluvad keelekorpused, leksikaalsed andmebaasid ja formaalsed grammatikad.[4]
Arvutilingvistika kui üks tehisintellekti suundadest tekkis XX sajandi 50. aastatel. Selle arengu põhietapid on suures osas samad mis tehisintellekti arenguetapid.
Teadusharu algfaasis ehk 50. aastate keskpaigast 70. aastateni keskenduti peamiselt praktilistele rakendustele nagu masintõlge ja kvaliteeditagamine (QA).[5]
60. aastate keskel hakati looma loomuliku keele mõistmisele ja dialoogile suunatud süsteeme. Parim näide sellest on Joseph Weizenbaumi ELIZA, mille eesmärk oli jäljendada Carl Rogersi kliendikeskset lähenemist rakendavat psühholoogi. ELIZA luges kasutajalt sisendi, otsis sellele salvestatud mustrite hulgast vaste ja tagastas sobiva väljundmalli koos sisendinfoga. Samuti tekkisid 60. aastatel tehisintellektil põhinevad lähenemised. [5]
70. aastatel hakati keeletöötlust siduma psühholoogiaga, misläbi kujunes välja mitu lähenemist. M. Ross Quilliani "Semantilise mälu" mudelit (1968), mis tuvastab sõna tähenduse mõistevõrgus "aktiveerimise levitamise" teel, uurisid edasi Rumelhart, Lindsay ja Norman (1972) ning see on üks arvutilingvistika uurimissundadest tänapäevani. Samuti kujunes välja Roger Schanki kontseptuaalse sõltuvuse teooria, mida uuriti mitu aastakümmet ja mille läbi jõuti järeldusele, et keel mõistmine ja selle põhjal järelduste tegemine põhineb taustteadmistel.[5]
Teoreetilisele poolele hakati tähelepanu pöörama 70. aastatel. [5]
80. aastate lõpust 1995. aastani mindi üle korpuspõhisele statistisele lähenemisele. [5]
Tehisintellekti ja arvutilingvistika arengu tõukeks oli arvutite ilmumine 1940. aastatel ja nende edukas kasutamine Teises maailmasõjas. Usutakse, et tehisintellekti ülesannete mõistmise esimeseks etapiks on Alan Turingi artikkel "Kas masinad suudavad mõelda?" ("Can machines think?"). Selles klassikalises artiklis oletab Turing, et tehisintellektist saab rääkida siis, kui inimene ei suuda arvuti ja inimkõne vahel vahet teha. Sellest ideest on kujunenud üldtuntud Turingi test, mis on kirjeldatud artiklis "Arvutusmasinad ja intellekt" [6] ("Computing machinery and intelligence"), mis ilmus aastal 1950 filosoofiaajakirjas Vaim (ingl Mind).
Uue arvutite põlvkonna ja programmeerimiskeelte ilmumisega hakati tegelema masintõlkega. Tegelikult olid esimesed ideed masintõlke kohta väljendatud juba 1947. aastal Ameerika Ühendriikides kohe pärast esimeste arvutite ilmumist. Esimene masintõlke avalik demonstratsioon toimus aga 7. jaanuaril 1954 ja seda nimetati "Georgetowni eksperimendiks" (ingl Georgetown-IBM experiment), sest seda korraldas Georgetowni ülikool ja IBM. Eksperiment koosnes sellest, et masin tõlkis automaatselt üle 60 venekeelse lause inglise keelde.
Vene keel (lause tõlkimiseks) | Inglise keel (masintõlge) | Eesti keel (inimtõlge) |
---|---|---|
Мы передаем мысли посредством речи. | We transmit thoughts by means of speech. | Meie edastame mõtteid kõne abil. |
Величина угла определяется отношением длины дуги к радиусу. | Magnitude of angle is determined by the relation of length of arc to radius. | Nurga suurus määratakse kaare pikkuse ja raadiuse suhtega. |
Международное понимание является важным фактором в решении политических вопросов. | International understanding constitutes an important factor in decision of political questions. | Rahvusvaheline mõistmine on oluline faktor poliitiliste küsimuste lahendamises. |
1964. aastal loodi Ameerika Ühendriikides komitee ALPAC ehk loomulike keelte automaattöötluse konsultatiivkomitee (ingl Automatic Language Processing Advisory Committee), et hinnata arvutuslingvistika ja masintõlke senist edu ja saavutusi. 1966. aastal avaldatud aruandes väljendas komitee tugevat skeptilisust masintõlke uuringute edu kohta ja rõhutas arvutuslingvistika algtõdedel põhineva teadustöö olulisust. Peagi pärast aruande ilmumist vähendas valitsus drastiliselt masintõlke kui teadusharu rahastamist, aeglustades masintõlke uurimise edasist arengut. ALPAC-i 1966. aasta aruande puhul on oluline, et see käsitles ainult üht masintõlke kasutamise eesmärki: Ameerika Ühendriikide valitsuse ja sõjaväe võimalusi venekeelsete dokumentide analüüsimisel. Aruanne jättis kõrvale masintõlke ja masintõlkesüsteemide muud funktsioonid ning imelikul kombel ei käsitletud ka ühtki teist võõrkeelt.[7] Aruande avaldamise tagajärjel langes masintõlge Ameerikas ligemale kümneks aastaks arvutilingvistika üheks vähem tähtsaks aspektiks. Seevastu Kanadas, Prantsusmaal ja Saksamaal uuringud jätkusid.[8] Olgugi et ALPAC 1966. aasta aruanne andis tugeva löögi masintõlke arengule, ei tähendanud see arvutilingvistika olulisuse vähenemist teaduses – rohkem rõhku hakati lihtsalt panema teistele, teoreetilisematele, külgedele.
Arvutuslingvistika rakendusena arendatakse loomuliku keele mudeleid. Iga sellise mudeli arendusel on oluline seada paika hinnangumeetod, mis sätestaks arenduse suuna. Hinnangumeetodit võib koostada mitmel viisil; näiteks võib hinnangumeetod olla sisemine või välimine. Sisemise hinnangumeetodi puhul defineeritakse eelnevalt etalontulemus ja võrreldakse keelemudelite tulemusi selle etaloniga; välimise hinnangumeetodi puhul ei ole etaloni ja erinevate keelemudelite tulemusi võrreldakse otse üksteisega. Sisemist hindamist on lihtsam automatiseerida, kuid keerukamate eesmärkide korral pole etaloni defineerimine triviaalne. Näiteks kui eesmärgiks on luua programm dialoogilausete automaatseks semantilise "eesmärgiga" märgendamiseks, saaks etaloni defineerida käsitsi dialoogikatkendeid märgendades, sest arvuti keeleoskustaseme lähendamine inimese omale on üks arvutuslingvistika põhiülesandeid – ent ka erinevad inimesed võivad parima võimaliku märgenduse suhtes eriarvamustele jääda.
Tänapäeval on rakendatakse arvutilingvistikat teadus- ja riigiasutustes, kuid selle abil loodu on iga päev kasutatav ja kättesaadav ka tavatarbijale. Eriala saab Eestis õppida Tartu Ülikoolis bakalaureuse- ja magistriõppes.[9]
Eesti keele jaoks on loodud Microsoft Office’i speller, poolitaja ja tesaurus. Samuti on loodud optiline tekstituvastus, kõnesüntees, kaks masintõlkeprogrammi (eesti ja vene) ja kümme elektroonilist sõnaraamatut.[3]Korpuste kasutusmugavuse suurendamiseks on Eestis loodud mitmeid märgendusprogramme.[3]
Suulise keele töötlusega tegelevad valdkonnad on kõnesüntees, kõnetuvastus ja kõnelejatuvastus. Kõnesünteesi abil teisendatakse ortograafiline tekst loomuliku kõlaga kõneks. Kõnesüntesaatori loomiseks uuritakse suulist suhtlust, tehakse arvutile selgeks kõnelemise eripärad, genereeritakse meloodiakontuur ja kõnesignaal. Kõnetuvastuse abil teisendatakse arvutisse sisestatud kõnesignaal tekstiks. Selle rakendused on näiteks kontoritarkvara, infootsing ja dikteerimine. Kõnelejatuvastuse abil tehakse kindlaks kõneleja isik. Identifitseerimisel otsitakse võrdlusmaterjali hulgast sobivaim vaste. Verifitseerimisel võrreldakse registreeritud isiku kõnenäidet varem salvestatud mudeliga. Kõnelejatuvastust kasutatakse politseis ning turvameetmena. Eesti keele jaoks on loodud kõnesüntesaator ning väikesemahulisi sõnastikke sisaldavaid kõnetuvastussüsteeme. Tallinna Tehnikaülikooli keeletehnoloogia laboratooriumis uurimitakse ja töödeldakse suulist kõnet.[10]
Keeleanalüüs hõlmab morfoloogilist analüüsi ja sünteesi, süntaksianalüüsi ehk parsimist, semantilist analüüsi ja pragmaatilist analüüsi.[11]
Arvutimorfoloogia on arvutilingvistika allharu, milles uuritakse arvuti abil morfoloogiat ning loob sõnavorme analüüsivaid ja sünteesivaid töövahendeid. Töövahendeid kasutatakse sõnastike loomisel ja uuendamisel, õpikute sõnavara analüüsimisel, tekstituvastuses ja korpuste märgendamisel.[12] Eestis on loodud ja kasutusel morfoloogiline süntesaator ja analüsaator Etmrf (varem tuntud kui Estmorf) koos statistilise ühestajaga Esthymm.[11][4][13]
Eestis tegelevad morfoloogilise analüüsi ja sünteesiga Tartu Ülikool ja Eesti Keele Instituut (EKI). Tartu Ülikool töötas Lisaks Etmrfile välja ka kahetasemelise mudeli rakenduse eesti keele jaoks. EKI arendab avatud morfoloogiamudelit: kirjeldatakse ja lahendatakse nähtusi aktiivsete morfoloogiareeglite abil ning analüüsitakse tundmatuid sõnu tüübituvastusreeglite abil.[12][13]
Morfoloogilise ühestamise abil leitakse morfoloogiaanalüsaatori pakutavate morfoloogiliste tõlgenduste hulgast konteksti sobivad. Arvutilingvistika abil on protsessi automatiseeritud ning kasutusele võetud statistikal põhinevad (T3mesta, TreeTagger, TnT) ja reeglipõhised (kitsenduste grammatika programm ESTKG) morfoloogilised ühestajad.[11][4] Morfoloogilise ühestaja töö lihtsustamiseks loodi 2001. aastal Tartu Ülikoolis loomulikku keelekasutust kajastav ühestatud sõnatähendustega korpus.[14]
Süntaktiline analüüs on eesti keele kontekstis lauseliikmete funktsiooni kindlaks määramine. Selle jaoks on loodud eesti keele automaatne süntaksianalüsaator.[14]
Semantilise analüüsi hõlbustamiseks on loodud leksikaal-semantiline andmebaas ehk tesaurus Eesti Wordnet. Sõnatähenduste ühestamise lihtsustamiseks on kirjutatud andmebaasile toetuv automaatne ühestamisprogramm Semyhe.[14]
Pragmaatilises analüüsis on Eestis peamiselt pööratud tähelepanu dialoogi modelleerimisele, mille eesmärk on arvutiga suhtlemine loomulikus keeles ja inimestevahelise suhtluse reeglite kohaselt.[15] Tartu Ülikoolis uuritakse dialooge suulise kõne baasil Eesti dialoogikorpuse abil. Eesti dialoogikorpus loodi Tartu Ülikoolis välja töötatud dialoogiteooria ja eksperimentaalsete algoritmide põhjal.[16][15]
Masintõlkega hakati Eestis tegelema 1950. aastatel, mil Tartu Ülikooli uurimisrühm hakkas matemaatilisi tekste vene keelest eesti keelde tõlkima, kuid varsti töö seiskus. 2004. aastal võeti Tartu Ülikoolis uurimisaluseks statistiline masintõlge ning õppimisandmeteks loodi Eesti ja Euroopa Liidu seadusandlike aktide alusel paralleelkorpus. 2007. aastal dokumenteeriti esimesed tõlkimise katsed. Uuritakse ka õppimisandmeid ja nende kvaliteeti.[17]
Üks laialt kasutatavaid masintõlkesüsteeme on 1960. alguses loodud reeglipõhist morfoloogiat kasutav SYSTRAN, mis ühendati 2010. aastate alguses statistiliste masintõlke tehnikatega. Masintõlget kasutavad masintõlke teenused Google Translate ja Microsofti Bing Translator, samuti paljud USA ja Euroopa riigiametid. On olemas ka väikeste keelegruppide jaoks mõeldud masintõlkevahendid.[18]
Andmeotsingut kasutatakse arvutlingvistika kontekstis peamiselt dokumendihalduses. Dokumendiotsing ja -rühmitamine on andmeanalüüsis kasulikud ja tihti andmete ekstraheerimise (ingl data extraction) või tekstikaeve eelsammud. [19]
Dokumendiotsing on üks andmeotsingu alaliik, mis võimaldab dokumente seotud sõnade või fraaside abil kiiresti leida. Dokumendirühmitamine toetab mitmeid masintöötlusprotsesse ning lihtsustab suurte andmehulkade töötlemist. Seda kasutatakse andmeanalüüsis, bioloogilistes ja meditsiinilistes uuringutes, epidemioloogias, turu-uuringutes ja ostusoovitustes, haridusuuringutes, sotsiaalsete võrgustike analüüsis, geoloogilises analüüsis jms.[19]
Loomulikus keeles kasutajaliideste alla kuuluvad dialoogsüsteemid ja rakendustarkvara.[20] Dialoogsüsteemid jagunevad ekspertsüsteemideks ja vestlusprogrammideks. [21]Andmebaaside front-end kasutajaliidesed kasutavad samuti masintöötlustehnoloogiaid. Kuna kõik andmebaasipäringud toimuvad kokkulepitud reeglite alusel, tagab kindel küsimussüntaks kasutusmugavuse.[22]
Ekspertsüsteemid klassifitseerivad küsimuse, ekstraheerivad andmed tekstikorpustest ja muudest allikatest ning kitsendavad vastuse lõikudeks ja lauseteks. Sarnaselt töötavad ka teadmistepõhistele (kvantitatiivsetele) küsimustele vastavad liidesed, näiteks arvutuslik teadusmootor WolframAlpha ning IBMi superarvuti ja tehisintellekt Watson. Watson kasutab vastuste otsimiseks Wordneti, Vikipeediat, tesauruseid, uudisartikleid ja ilukirjanduslikke tekste.[22]
Vestlusprogrammid on loodud chatbot’idega samadel põhimõtetel ja kasutavad inimsuhtlusele omaseid tunnuseid.[20] [23] Tulevikus on eesmärk luua semantilise ja episoodilise mäluga emotsionaalseid, empaatilisi dialoogsüsteeme, kes omandavad infot inimese kohta ja on kasulikud nõuandjana eri eluvaldkondades.[23]
Rakendustarkvaras kasutatakse dialoogsüsteeme videomängudes ja virtuaalmaailmades. Õppeabivahenditena on dialoogi modelleerimise abil loodud kollaboratiivsed probleemilahendus-, õpetlikud dialoog- ja tuutorsüsteemid. Häälepõhised veebiteenused ja -assistendid põhinevad keeletuvastusel ning neid kasutatakse näiteks auto juhisüsteemides, telefonidiktsiooni kasutavates rakendustes, klienditoeteenustes ja tervisenõustamises. Olemas on ka häälassistendid nagu Apple’i Siri ja Androidi Iris.[23]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.