From Wikipedia, the free encyclopedia
Kõnetuvastus (inglise keeles speech recognition, lühend SR) on inimkõne sisu automaatne äratundmine arvutustehnika vahenditega[1].
See artikkel vajab toimetamist. (Juuni 2012) |
Arvutite kõnetuvastus jõudis praktilise tasemeni 1990. aastatel, kui United Airlines vahetas oma lennuinfo klaviatuurisüsteemi süsteemiga, mis kasutab lennunumbrite ja linnanimede kõnetuvastust.
Kuigi arvuteid on võimalik juhtida häälkäskudega, on enamik kasutajaid jäänud siiski klaviatuuri ja hiire juurde, kuna need on siiani mugavamad. Tänapäeval on kõnetuvastus juba levinud nutitelefonidele.
1952. aastal lõid firma Bell Labs teadlased süsteemi, mille ülesandeks oli kõneleja lausutud üksikute numbrite tuvastamine kõnesignaalis olevate vokaalide formantsageduste põhjal [2]. 1950. ja 1960. aastate jooksul uuriti kõnetuvastust piiratud sõnavara ja selgelt eraldatud sõnade puhul. Samuti tehti katseid kõne sõnadeks segmenteerimisel ja süsteemi võimaliku sõnavara suurendamisel. Rõhk oli reeglipõhistel mudelitel.
1970. aastatel laiendati sõnavara. Meetoditest tehti esimesi katsetusi statistiliste meetoditega, s.h Markovi peitmudel (HMM) ja lineaarprognoos (LPC). Kasutati ka võtmesõnade tuvastamist. 1970. aastatel tuldi välja ka avalikkusele suunatud kõnetuvastusteenustega, näiteks häälvalimine.
1980. aastatest hakati reeglipõhise lähenemise kõrval rohkem tähelepanu pöörama statistilistele meetoditele (HMM, tehisnärvivõrgud[3]) ja masinõppele. IBMis loodi kõnetuvastusmasin Tangora, mis suutis teisendada öeldud lauseid tähejadadeks ja trükkida need paberile[4]. Oluline oli sõnastiku suurus (20 000 sõna) ja masina kasutatav keelemudel, mis hindas, kui tõenäoline on tuvastatud sümbolite järjekorra tõenäosus.
1990. aastatel ületas tüüpiliste kommertskõnetuvastusprogrammide sõnavara keskmise inimese sõnavara hulga. 1993. aastal tõi IBM turule esimese laiatarbe kõnetuvastussüsteemi.
2000. aastatel tehti DARPA toetusel kõnetuvastuse uuringuid firmades Effective Affordable Reusable Speech-to-Text (EARS) ja Global Autonomous Language Exploitation (GALE). NSA alustas võtmesõnade tuvastusega suurtes kõnekorpustes 2006. aastal. Google tegi esimesi edusamme 2007. aastal kõnetuvastuse alal, nüüdseks on sellest välja kasvanud Google'i häälotsinguteenus.
Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratooriumis tehti esimesed eksperimendid eestikeelse kõnetuvastusega juba 1980. aastate lõpus. Aktiivsemalt hakati tuvastusega tegelema 2000. aastate keskel. Suure tõuke andis sellele kahe mahuka eestikeelse kõne andmebaasi (BABEL ja Eesti SpeechDat) loomine, mis võimaldasid treenida juba üsna hästi toimivaid akustilisi mudeleid. Kõneandmebaaside loomine ongi labori üks tähtsamaid tegevusi, mis toetab teisi uurimissuundi. Põhiliseks kõnetuvastusega seotud uurimisobjektiks on olnud keelemudel.
Statistilises kõneanalüüsis kasutatakse nii akustilisi mudeleid kui keelemudeleid. Akustiliste mudelite eesmärgiks on leida kõige sobivamad vasted sisendsignaalile. Keelemudel aitab otsustada, kas leitud vaste sobib ka keele vaatenurgast: koosneb keeles olevatest sõnadest, on grammatiliselt korrektne jne. Akustilisele mudelile ja keelemudelile vastavust kontrollitakse statistiliste mudelite abil:
Analüüsimisel rakendatakse mitmesuguseid digitaalse signaalitöötluse meetodeid [5]:
Kõnetuvastussüsteemide jõudlust mõõdetakse täpsuse ja kiiruse põhjal. Täpsust hinnatakse tavaliselt sõna veasagedus (WER – Word Error Rate) põhjal, samas kiirust mõõdetakse reaalajas. Teised mõõdupulgad võivad olla üksiksõna veasagedus (SWER – Single Word Error Rate) ja käsu edusagedus (CSR – Command Success Rate). Kõnetuvastus on riistvara poolest siiski väga keeruline probleem. Inimeste hääled erinevad nii aktsendi, häälduse, liigenduse, sügavuse, nasaalsuse, helikõrguse, -tugevuse ja kiiruse poolest. Häirivad on ka taustahelid ja kajad. Keele täpsuse äratundmine sõltub mitmest tegurist:
Kõnetuvastust mõjutavad mitmesugused tegurid [6]:
Kõne äratundmise täpsus sõltub mitmest tegurist [3].
Masinlik kõnetuvastus on mitmest faasist koosnev protsess. Arvutuslikult on ülesanne helimustri äratundmises või klassifitseerimises kategooriasse, mis esindavad tähendust inimesele. Keerulise helisignaali lõhkumisel väiksemateks helisignaalideks luuakse erinevad tasemed. Madalaimal tasemel, mil heli on kõige fundamentaalsem, suudab arvuti lihtsaid tõenäolisusreegleid kasutades kontrollida, mida heli esindab. Kõrgemal tasemel kombineeritud helide puhul määrab uus reeglite kogu, mida uus keeruline heli võiks esindada. Kõige kõrgema taseme reeglite kogu määratleb väljendite tähenduse. Selleks, et laiendada meie kõneteadust, tuleks arvesse võtta neuronvõrgud.
Dikteerimise käigus tehtud vigade parandamiseks on mitmeid viise. Viimasena öeldud fraasi parandamiseks võib kasutaja öelda "Paranda see". Üksiku sõna parandamiseks võib öelda parandatava sõna järel "Paranda". Kui sõna ilmneb mitu korda, tõstetakse kõik esinemisjuhud esile ning kasutaja võib valida, millist soovite parandada. Samuti võib funktsiooni "Kõnesõnastik" kasutades lisada korduvalt valesti kuuldud või tuvastamatuid sõnu.
Kõnetuvastuse toetamiseks ei vaja lisatarkvara operatsioonisüsteemid Windows Vista, 7 ja 8. Windows XP vajab kasutajaliidese pakkumiseks Microsoft Plusi, Microsoft Office XP või Microsoft .NET Speechi SDK-d.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.