From Wikipedia, the free encyclopedia
Ahotsaren ezagupena ahozko hizkuntzaren ezagutza eta honen testu transformazioa jorratzen ditu. Teknologia hau ahots indibiduala ezagutzeko prestatuta dauden sistemek egiten duten diktaketa jarraia eta oso zehatzetik, domeinu berezietan eta edozein erabiltzailerekin lan egiten duten sistemetaraino hedatzen da.
Ahotsaren Ezagupenaren helburu nagusia mintzatutako aginduen bidez gizaki-makina elkarrekintza egokia proportzionatzea da. Horrela, teknologia honek proportzionatzen dituen emaitzak beste alternatibetatik (teklatu, panel, sagua, etab.) eratorritakoekin kontrastatu beharko dira gizaki-makina elkarrekintzaren prozesuaren kontrol egokia proportzionatzen dutenentz jakiteko. Ahotsaren Ezagupenean oinarritutako sistemak eta beste alternatibak ezberdintzen dituzten ezaugarri nagusiak hauexek dira: komando eta kontrol operazioetan hizketa erabiltzeak suposatzen duen naturaltasuna, eta zehaztasuna eta sendotasuna erabiltzaile eta inguru ezberdinentzako komunikazioan. Lehenengo ezaugarriak Ahotsaren Teknologian oinarritutako sistemen berezko abantaila errepresentatu beharko luke. Baina esperientziak erakutsi digu, hizketa pertsonen arteko komunikazio modu naturala bada ere, gizaki-makina arteko elkarrizketan ez dela legezkoa. Bigarren ezaugarria Ahotsaren Ezagupenaren aplikazioen aurrean kritikoagoa agertzen da. Ahotsaren Ezagupenaren inguruan egindako ikerketen gaurregungo egoerak laborategiek kontrolatutako inguruetan aritzen diren sistemen emaitza ezin hobeak eman ditu. Hala eta guztiz ere, teknologia honen aplikazio erreal batek exigitzen du funtzionamendu bat mundu errealean, non arazoen zailtasun maila garrantzi handiagoko kontua da.
Aplikazio erreal bat bilatzeko premisa hori dela eta, gizaki-makina arteko elkarrizketarako Ahotsaren Ezagupenak proposatzen duen komunikazio modelo generikoa honela adierazi daiteke modu erraz batean:
Estatu Batuetan hizketa-ezagutzearen aplikazio komertzialik ezagunena osasun arreta izan da; eta gehienbat, "medical transcriptionist(MT)"-ena. Industria jakituen arabera, hizketa-ezagutzea, transkripzioa guztiz ezabatzeko modu bat bezala saldu zen, transkripzio prozesua eraginkorragoa egin ordez, eta horregatik ez zen ontzat hartu. Gainera, ondo erabiltzeko aldaketak egin behar izan ziren lanean. Hizketa-ezagutzearen mugarik nagusiena softwarearekin konparatzen dela da. Diktaketa narratiboak interpretazio altua eskatzen du gizaki batengandik eskuratua. Beste muga bat, erabiltzaileari edo sistemaren hornitzaileari eskatutako denbora handia izan da programa informatikoak sortzerako orduan.
ASRan askotan egiten den bereizketa artificial syntax systems eta natural language processing artekoa da. Aplikazio hauetako bakoitzak beraien helburu eta erronka propioak dituzte.
Osasunaren arretan, hizketa-ezagutzearen hobekuntzaz geroztik, mediku transkripzinalistak (MT) ez dira zaharkituak geratu oraindik. Materian adituak diren hainbat jakintsuek aurreikusi dute hizketa-ezagutzearen bitartez, zerbitzu hauek birbanatuak izan behar direla ordezkatuak izan beharrean.
Hizketa-ezagutzea bi ataletan banatzen da osasun dokumentazioaren prozesuan, frontend eta backend.
Front-end SR. Arakatutako hitzak hitz egin eta gero azaltzen dira, eta diktatzailea da dokumentua editatzeaz eta sinatzeaz arduratzen dena. Inoiz ez doa MT/editor baten bitartez.
Back-end edo diferitu SR da non hornitzaileak edizio digitala ezartzen duen tokia, eta ahotsa hizketa ezagutzeko makina batetik pasatzen da eta ezagututako dokumentu hori MT/editorera doa ahots originalarekin batera, proiektua editatu eta amaitzen duena.
Erregistro mediku elektroniko askok aplikazio efektibo izan daitezke eta errestasun handiagoarekin egin daitezke. Kontsultak, bilaketak, etab. azkarrago egin daitezke hizketa-ezagutzeko prozesu baten bitartez teklatuarekin baino.
Azkenengo hamarkadan ahalegin handiak egin dira hizketa-ezagutzea probatzeko eta ebaluatzeko gerrako hegazkinetan. 'Hizketa-ezagutzearen programa berezienak hiru herrialdeetan eman dira. Estatu Batuetan , "Advanced Fighter Technology Integration" taldearena da; Frantzian "Mirage" motako hegazkinetan instalatzean, eta Britainia Handian hegazkinen plataformen barietatea adosten diren programetan. Programa hauetan, hizketa-ezagutzea duten sistemak bikain funtzionatu dute gerra hegazkinetan, eta aplikazio hauek gehitu dituzte: irrati frekuentzi desberdinak erakartzea, autopilotu sistemaren ordenetara egotea, puntu kardinaletan eta parametroetan armak liberatzea eta aire-bisualizatzaileak kontrolatzea. Gehienetan, nahiz eta bokabulario oso mugatua izan, oso ongi erabili da, eta ahalegin handiena hizketa-ezagutzea hegazkin sisteman integratzea izan da.
Hauek dira programak frogatu osteko ondorio garrantzitsuenak:
Laborategi-ikerketa sendo honek adierazi duenez, hizketa-ezagutzeak mundu militarrean emaitza onak izan ditu.
JAS-39 Gripem Cabinako suediar pilotuekin lan egiterako orduan, ezagutza hondatua aurkitu zuen G kargen gehikuntzarekin. Ikerketa honek ere kasu guztietako emaitzak hobetzeko balio izan du. Espero zenaren ordez, ez ziren aurkitu zailtasunik pilotuen hizkera etenean, baina honek ezagutze prozesuan arazoak sortu ditu bokabulario mugatuan, eta denaren gainetik, sintaxian.
"Eurofighter Typhoon"-a, orain Britainia Handiko RAF-arekin zerbitzuan, menpeko-bozgoragailu sistema bat erabiltzen du; hau da, pilotu bakoitzak plantilla bat egitea eskatzen duela. Sistema ez da erabiltzen segurtasunerako edo lan kritikoak egiteko, baizik eta kabinaako hainbat funtzio gehiago betetzeko. Sistema, pilotuaren lanaren murrizketa bat bezala ikusten da, eta gainera, pilotuak ahotsaren bitartez aginduak bidali ahal dizkio bere buruari.
Ezagutze-prezisio altua lortzeko arazoak ingurumenagatik eta ehizagatik dira. Hala ere, beste arazo batzuk daude helikopteroetako hizketa-ezagutzean; hala nola, zarata handia, eta aurpegi maskara bat ez erabiltzea, honek mikrofonoan zarata murrizten duelako. Azkenengo hamarkadan programen frogak egin dira hizketa-ezagutzean helikoptero sistemen inguruan, bereziki Estatu Batuetako Armadan. Frantzian lan egiteak Puma helikopteroetan hizketa-ezagutzeko sistema sartzea ekarri du; baita Kanadan ere sistema honek emaitzak eman ditu. Emaitzak eragingarriak izan dira, eta ahotsaren aplikazioak hauek izan dira: komunikazio irratien kontrola eta nabegazio sistemen ezarpena.
Militarren formakuntzarako, aireko kontrolatzaileak hizketa-ezagutzeko aplikazio egokiak dira. ATC sistema askok pertsona bat behar dute "seudo-piloto" baten moduan jokatzeko eta praktiketako kontroladorearekin hitz egiteko. Hizketa ezagutzeko eta sintesizatzeko teknikak "seudo-pilotoa" ezabatzeko aukera ematen dute. Kontrolaren lanak, aireko trafikoaren irteeraren kontrolatzailearen diskurtso nagusiagatik ezagutzen dira.
Estatu Batuak gertaera serie bat babestu du hizketa-ezagutzearen bitartez. Oro har, doitasunaren azterketa ez dagokio sistema eta ikaslearen arteko elkarrekintzari. Estatu Batuetako marinak, esfortzu handi bat babestu du ATC sistemen eraketan. Ezagutzailea lexikoan mugatuta ikusi arren, programaren helburuetako bat kontrolatzaileei lexiko zabalagoa erakustea izan zen, ATCren eginkizunetarako lexiko berezi bat. Frantzian egindako ikerketa, hizketa-ezagutzearen zabalkuntzan oinarritu da, batez ere gramatikari dagokionari.
USAF-k,USMC-k eta Estatu Batuetako armadak, ATC simuladoreak erabiltzen ari da ahots ezagutzaren bitartez. Software honek ahots ezagutza erabiltzen du airez eta lurrez doazen ibilgailuen kontrolerako sasi-pilotoen beharrik euki gabe.
ASR-a telefonoaren esparruan ohikoa bilakatzen ari da eta simulazio nahiz zori-jokoen esparruan gero eta arruntagoa bihurtzen ari da. Konputazio orokor pertsonalean, hitz prozesaketaren integrazioaren maila altuaz aparte, ASR-ak ez du espero zen hazkundea izan dokumentuen produkzioaren esparruan.
Mugikorren prozesadoreak izan duen abiaduraren hobekuntzak, Symbian eta Mobile Smartphones-entzako hitzaldi egokitua posible izatea eragin du. Hizketa-testu ohizko programak luzeegiak dira eta CPU-aren energia gehiegi behar dute Pocket PC-arentzako praktikoak izan daitezen. Hitzaldia, Erabiltzailearen Interfaze bezala erabili ohi da gehienetan, ahots komandu aurrezehaztu edo pertsonalizatuak eratzeko. Esparru honetako software hornitzaile nagusiak hurrengoak dira: Microsoft Corporation (Microsoft Voice Command); Nuance Communications (Nuance Voice Control); Vito Technology (VITO Voice2Go); Speereo Software (Speereo Voice Translator). MyCaption for BlackBerry (http://www.mycaption.com)
Hau batez ere eskuak erabili ezin edo haiek erabiltzeko arazoak dituzten pertsonentzat dago pentsatuta. Teklatua erabiltzen duten pertsonek eta RSI-a garatu dutenek, hizketa-ezagutzearen merkatu urgentean bilakatu zen. Hizketa-ezagutzea gorren telefonian erabiltzen da, ahots buzoian eta azpitituluetan kasurako. Minusbaliotasunekin, paperetik ikasteko arazoak dituzten pertsonek, programa honen bidez baliatu al dira haientzako laguntza ona izan baitaiteke.
Hizketa ezagutzeko sistemen funtzionamendua zehaztasun eta abiadura parametroen bidez neurtzen da noramlean. Sistemaren funtzionamenduaren zehaztasuna Hitz Okerren Tasa (Word Error Rate), abiadura berriz Denbora Faktore Errealaren bitartez neurtzen da. Zehaztasunaren beste neurri batzuk Hitz Bakunen Okerren Tasa (Single Word Error Rate) eta Aginduen Arrakasta Tasa (Command Success Rate).
Hizketa ezagutzeko sistemen erabiltzaile askok batera datoz diktaketa makinek kontrolpeko egoeretan funtzionamendu oso egokia dutela esatean. Halaber, badago nolabaiteko desadostasuna Hizketa Ezagutza eta diktaketa terminoen arteko elkartrukean.
Komertzializatuak izan diren hiztunaren menpekoak diren diktaketa sistemek, normalean, entrenamendu aldi laburra behar dute. Gainera, erritmo arruntean eta hiztegi zabal batekin osatutako hizketak atzeman ditzakete. Enpresa gehienek ezagutza softwareak %98 eta %99 arteko zehaztasuna lor dezakete egoera egokietan funtzionatzen badute. Egoera egokiak erabiltzaileek hurrengo jarrerak hartzen dituzte euren gain:
Honek azaltzen du zergatik erabiltzaile batzuek, azentu gogor bat dutenek esate baterako, zehaztasun tasa txikiagoak lortzen dituzten. Hizketa-ezagutze automatikoa bideoen bitartez ospe handiko bilaketa-teknologia bilakatu da, bideo bilaketa konpainia askok erabilia hain zuzen ere. Hiztegi mugatuko sistemek, entrenamendurik behar ez dutenek, hiztun gehienek erabiltzen dituzten hitz kopuru txikia ezagutu ditzakete. Horrelako sistemak organizazio handietan erabili ohi dira jasotzen dituzten telefono deietarako.
Ezagutzaile batek egin beharreko lehenengo gauza sisteman sartuko den ahozko seinalea prozesatzea da, guk egin behar dugun zereginerako nabarmena den informazio akustikoa erauzteko helburuarekin.
Patroien ezagupena ezagupen sistema guztien teknika zehatzena da. Modulu honek, ahotsaren errepresentazio parametrikotik hasita, klasifikazio prozesu bat egiten du patroi multzo bat erabiliz. Patroi hauek sistemaren entrenamendu fase batetik lortzen dira eta unitate linguistiko (hitzak, silabak, soinuak, fonemak) multzo bat agertzen dute. Prozesu honen berezitasun handiena, zeinak bere zailtasuna azpimarratzen duen, ahotsaren abiadurek edota modu ezberdinek ekoiztutako unitate linguistiko batek aurkeztu dezakeen barietate denborala da. Hori dela eta, patroien ezagupenerako erabilitako lehenengo teknikak Programazio Dinamikoko algoritmoen bidezko Lerrokadura Denboralean (DTW teknikak) oinarritutakoak izan ziren. Geroago iraupen aldakorreko sekuentziak adierazteko prozesu estokastikoen modelaketak permititzen duen malgutasun handienari heldu egin zitzaion. DTW tekniken alternatiba zehazki Markov -n Modelo Ezkutuak (HMM) izan ziren. Gaur egun Sare Neuronalek (Redes Neuronales) erakutsitako potentziak eta klasifikaziorako kapazitate ezin hobeek bihurtzen dute hauek HMM -ren alternatiba posiblea.
Ezagupen sistema baten aurrean hitz egiteko funtsezko hiru modu bereizten dira:
Arestian aipatutako funtsezko hiru moduez gain, ahotsaren ezagutzaileek, hizketaren modelaketa indartsu bat egin ahal izateko, hurrengo hiru aspektuei aurre egin behar diete:
Mintzalariaren menpekotasun mailak zehazten du sistemak mintzalari mugatu bati egokitutako unitate linguistikoen patroiak eransten dituen eta, beraz, berarentzat bakarrik funtzionatuko du zuzenki, edo patroiek edozein hiztunentzat baliogarri izatea nahi baldin baduten. Lehenengo kasuan mintzalariaren menpeko ezagupenaz hitz egiten da, bigarrenean mintzalariarengandik independentea den ezagupenaz.
Ezagutzaile baten prestamenak hiztegiaren tamaina eta zailtasun mailaren menpean daude neurri handi baten. Hau da, sistemak ezagutu dezakeen hitz kopuruaren eta hauen ezagupenaren zailtasun handiago edo txikiagoaren menpe hitzen arteko antzekotasun fonetikoaren arabera. Gaur egun hiztegi txiki (50 hitz baino gutxiago), ertain (50etik 500erainoko bitarteko hitzak) zein handietarako (500 hitz baino gehiago) sistemak diseinatzen dira.
Hiztegiaren beste dimentsio garrantzitsu bat hiztegi finko eta malguen arteko bereizgarritasunari dagokiona da. Aplikazio zehatz bat, ezagupena egiten ari denean, beti hiztegi finko baten gainean arituko da. Baina kasu askotan hiztegi hori aldatu edo gaurkotu egin beharko da hitz berriak ezabatu edota sartzeko. Tradizionalki, hiztegiaren aldakuntza batek sistemaren patroien berrantolaketa eta datu-base berri bat biltzeko prozesu luze eta neketsu bat hastea suposatzen zuen. Gaur egun badaude hainbat hurbilketa hiztegi malgua duen sistema bat lortzeko, zeinak ez baitu behar berrantolaketa hiztegi berri bakoitzarentzat.
Hiztegiko hitzak gehiagotu egiten diren heinean, konbinazio posibleak ere hazi egiten dira modu esponentzialean. Horregatik, ezinbestekoa bihurtzen da murrizketak barneratzea. Murrizketa horiek arau sintaktiko eta semantikoetan oinarritutako gramatikak dira eta hitz kopurua murriztea dute helburu.
Eginkizun zehatz batek suposatzen duen zailtasun maila mugatzeko erabiltzen den neurriari harridura (perplejidad) esaten zaio. Beraz, harridura maila baxu batek hautagai dauden hitz kopurua ere baxua dela adierazten du, eta harridura maila altu batek kopurua altua dela eta hortaz, ezagupena zailagoa izango da.
80. hamarkadaren hasieran Estatu Batuetako hamar konpainia baino gehiagok mintzalariaren menpeko hitz isolatuentzako ezagutzaileak eskaintzen zituzten, zeinek 300 hitzez osotutako hiztegiak zeuzkaten. VERBEX eta NEC enpresek bakarrik mintzalariarengandik independentea den eta hitz lotuak ezagutu ditzakeen sistema bat eskaintzen zuten. Momentu horretan Ahotsaren Ezagupenaren egoera honela laburbildu daiteke:
Beste alde batetik, banda - zabalean (ancho de banda) zeuden mugak eta zarataren aurreko sentsibilitatea zirela eta, hauetariko ezagutzaile batzuk bakarrik lan egiten zuten sare telefonikoaren gainean. Garai honetan telekomunikazioen esparruaren barneko Ahotsaren Ezagupenaren hiru aplikazio bakarrik aurkitzen ditugu literaturan:
Azken hamar urteetan zehar Ahotsaren Ezagupenaren gainean egindako ikerketen ondorioz, asko dira gaur egun mintzalariarengandik independenteak diren hitz isolatuentzako (digituak eta komando kopuru txiki bat) ezagutzaileak dauzkaten konpainiak. Sistema hauek, gehienbat, telekomunikazio aplikazioetan erabiltzeko diseinatuta daude.
Etorkizun handiena daukaten ezagupen-sistemen bilakaera, hiztegi handietarako ezagupenak eta hizketa jarraiak, hurrengo sistema esperimentalak dauzkate errepresentatzaile onenak bezala:
BBN -k garatuta. Byblos feniziar hiri baten izena da, non eskritura fonetikoaren lehenengo aztarna aurkitu zen. Izendapen honek oinarri fonetiko baten gainean sistemak garatzeko gaur egun ipintzen den gogoa azpimarratzen du. Sistema honek, mintzalariaren menpeko sistema bat izan arren, N-best algoritmoetan oinarritutako ezagupen azkarra egiten duen prozedura berri eta eraginkor bat sortarazi du.
IBM -n garatuta. Hau ere hiztegi handietarako mintzalariaren menpeko sistema bat da. Bere interes printzipala da 1200 hitzez osotutako 100 esaldi irakurtzeko 20 minutu besterik ez behar duen dituen mintzalari berri batekiko egokitutako prozesua.
Carnegie-Mellon Unibertsitatean (CMU) garatuta. Hiztegi handietarako mintzalariarengandik independentea den ezagupen-sistema aitzindari bat da. Bere arestiko berrikuntza VOCIND prozedura da, zeinak sistema egiten duen hiztegitik independentea.
Lincoln laborategian garatuta. Bere emaitza printzipala ahots azkarreko modelaketa da.
SRI International -ean garatuta. Bere berrikuntza printzipala garrantzizko aspektu fonetikoek (hitzen arteko koartikulazioa, besteak beste) zehaztutako errepresentazioa izan zen.
ATR -n garatutako sistema japoniar hau fonema edo hitz modeloen bitarteko egiturarik erabiltzen ez duten soinuen modelaketaren prozedura zehatzean oinarrituta dago.
Izen berbera daukan zentru italiarrean garatutako sistema honen berrikuntza printzipala bilakuntza azkarra egiten duen sistema bat da. Bilakuntza azkar honek lehenengo eta behin deszifraketa sinple eta azkar bat egiten du eta gero bilaketa zehatzago bat.
Izen bereko enpresak garatutako sistema honek hizketa jarrairako ezagupen prozesu azkarra eta 10.000 hitzetako hiztegi berria dauzka.
AT&T -k eta Bell Northern Research -k (BNR) egindako sistema telefonikoak. Sistema biek zerbitzu telefonikoen automatizazio-aplikazioetarako prozedura zehatzak dauzkate.
Hizketa-ezagutze automatikozko konferentziak urtero edo egiten dituzte ICASSP, Eurospeech/ICSLP (orain Interspeech bezala ezagututa) eta IEEE ASRU bezalako erakundeek. Hizketa Naturalen Prozesaketaren arloan dauden konferentziak hizketa prozesamenduari buruzko lanak erabiltzen hasi dira. Aldizkari garrantzitsuak IEEE Transactions on Speech and Audio Processing, Computer Speech and Language eta Speech Communication dira. Lawrence Rabinerek idatzitako liburua, Fundamentals of Speech Recognition erabilgarria izan daiteke oinarrizko ezagutza bat lortzeko, baina nahiko zahartuta geratu da gaur egun. Frederick Jelineken Statistical Methods for Speech Recognition beste iturri on bat da arlo honi buruzko informazioa lortzeko, Xuedong Huangen Spoken Language Processing. Oraindik berriagoa Computer Speech da, Manfred R. Schroederek idatzia. Sistema modernoenetan erabilitako teknikak ezagutzeko gobernuek bultzatutako ebaluaziok dira (DARPAk antolatutakoa kasu).
Dohainik dauden iturrien artean, HTK liburua hasiera ona liteke hizketa-ezagutze automatikoari buruz ikasteko eta esperimentatzen hasteko. Carnegie Mellon Universityren SPHINXek presentatzen dituen tresnak iturri onak dira baita ere. AT&T, GRM eta DCD liburutegiak hizketa-ezagute automatikorako hiztegia zabala duten software askeko beste aukera bat dira.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.