From Wikipedia, the free encyclopedia
Hizkuntza-eredu bat hitzen sekuentzien gaineko probabilitate-banaketa bat da. m luzerako hitzen edozein sekuentzia emanda, hizkuntza-eredu batek probabilitate bat esleitzen dio sekuentzia osoari: Hizkuntza ereduetako probabilitateak kalkulatzeko hizkuntza bateko edo askotako testu corpusak erabiltzen dira, ikasketa edo trebakuntza deitzen den urratsean. Hizkuntzak baliozko esaldi ugari adierazteko erabil daitezkeenez hizkuntzaren modelizazioak arazo bati egin behar dio aurre: ikasketa-datuetan aurkitzen ez diren hizkuntza-sekuentzia baliozkoei probabilitate ez-nuluak esleitzea. Arazo hori gainditzeko hurbilpen desberdinak erabili dira, hala nola Markoven suposizioa aplikatzea edo neurona-sare errekurrenteak edo transformer modukoak.
Hizkuntza ereduak erabilgarriak dira hizkuntzalaritza konputazionalean problema askotarako; hizketaren ezagutza, itzulpen automatikoa[1], etiketatze morfosintaktikoa eta analisi sintaktikoa,[2] karaktereen ezagutza optikoa,[3] informazioa berreskuratzea eta beste hainbat.
Teknika desberdinak erabiltzen dira. Hona hemen horietako batzuk konplexutasunaren arabera (sinpleetatik hasita):
Euskararako entrenatu ziren hiru eredu neuronal zeuden 2022an publikoki atzigarri: [4][5]
Alde nabarmena dago euskararen eta Europako gainerako hizkuntzen artean 2022an, ikerketaren heldutasunari eta hizkuntza-baliabideen inguruko prestakuntza-egoerari dagokienez. MC4 dataset eleaniztunak, adibidez, 10,401 Gb eskaintzen ditu ingeleserako, 1,613 Gb gaztelaniarako (6 aldiz gutxiago), eta 5 Gb bakarrik euskararako (2.000 aldiz gutxiago). Era berean, BERT hizkuntza-ereduaren ingeleserako jatorrizko bertsioa Google Books-en corpus bat erabiliz entrenatu zen. Corpus horrek 155.000 milioi hitz ditu Estatu Batuetako ingelesez eta 34.000 milioi hitz Britainia handiko ingelesez. Horrek esan nahi du corpus ingelesa bere euskal baliokidea (384 milioi hitz) baino ia 500 aldiz handiagoa zela 2020an. Hizkuntzen arteko alde hori hizketarako baliabideetan ere argi ikusten da. Common Voice enpresak, adibidez, 2015 baliozkotutako hizketa-ordu ematen ditu ingeleserako, 377 gaztelaniarako, eta 91 bakarrik euskararako.[7]
Goiko adibide gutxi horietan ikusten den hizkuntzen arteko alde nabariak hizkuntza teknologian dagoen eten digital endemikoa azpimarratzen du. Hala ere, euskara bezalako baliabide gutxiko hizkuntzentzat puntu positiboa da aurrez prestatutako hizkuntza-eredu elebakarrek eta eleaniztunek nahiko emaitza onak ematen dituztela Hizkuntzaren Prozesamenduko ataza desberdinetan, baita entrenamendurako corpus askoz txikiagoak erabilita ere.[7]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.