hizkuntza bateko hiztegia edo hitzen multzoa From Wikipedia, the free encyclopedia
Hizkuntzalaritzan, lexikoa hizkuntza bateko lema edo, zentzu zabalago batean, hitzen multzoa da. Hizkuntza automatikoki aztertzeko, lexikografia konputazionalean, lexikoak garrantzi handia du, bertako informazioa baita ondorengo urratsetarako abiapuntua. Geroz eta lexiko sendoagoa eduki, orduan eta informazio aberatsagoa hurrengo urratsetan baliatzeko eta konbinatzeko. Hala ere, lexikoetan informazio mota asko bilduta izateak gero eta errepresentazio-eredu zailagoak eskatzen ditu, eta aldi berean, informazio hori prozesu automatiko edo erdiautomatikoez eskuratzeko aukerak aztertzea, ezagutza lexikalaren eskurapenak lan eskerga eta kostu handikoa baitakar eskuz eginez gero.
Adiera hertsi batean, lexikoa hitz batek (den kategoriakoa dela) edozein testuingurutarako (edo testuinguru guztietarako) berezkoa duen informazioa da. Hots, lexikoak ez du hitzaren (eta gehienetan esanahiaren) informazio hutsa bakarrik, baizik eta mota guztietako ezagutza barne har dezake, hala nola informazio morfosintaktikoa eta semantikoa. Hala, lexiko konputazional sendoko sarrerek informazio morfologikoa (kategoria/azpikategoria), sintaktikoa (adib. azpikategorizazioa) eta semantikoa (adibidez, hautapen-murriztapenak) izan ohi dute
Lantzen den informazioaren arabera, lexiko mota ugari zerrenda ditzakegu, hala nola euskarri elektronikoko hiztegiak (MRDak), kontzeptu-sareak, taxonomiak, terminologia-bankuak, datu-base lexikalak, ezagutza-base lexikalak, ontologiak eta lengoaia naturalaren prozesamendurako lexikoak.
Horietako bakoitza zer den zehatz definitzerik ez badago ere, nolabaiteko ezaugarri orokorrak finka daitezke behinik behin. Hiru sail nagusitan banatzen dira:
Sailkapen honetako ordena informazioaren elaborazio mailaren arabera egin dugu. Hiztegietan, lexikografoek kategoria, erabilera-kodeak, definizioa, adibideak, etab. biltzen dituzte. Hitzak ez ezik, hitzen adierak ere azaltzen zaizkigu. HEBetan hiztegietan dagoen informazio inplizitua esplizitu bihurtu eta hitzei buruzko informazio lexikala biltzen da. EBLetan LNPrako sistema batek ulermen eta sormena egiteko hitzei buruz behar duen informazio guztia biltzen dute. Ontologiak munduari buruzko kontzeptualizazioak dira, munduari edo alor konkretu bati buruz jakin beharrekoak (gauza, gertakizun, arrazoinamendu, eta abar, sen ona azken finean) biltzen saiatzen direnak.
Hiztegiak, konputagailuz erabiltzeko moduko baliabideak dira. Landugabeak izan ohi dira, testu-prozesadore batez landuak gehienetan. Informazio gordina eduki ohi dute, hori bai, euskarri informatikoan. Lengoaia naturalaren prozesamenduan (LNP), 1980ko hamarkadarainoko sistemetan ahaleginaren gehiengoa sintaxi-egituretara eta sintaxitik semantikarako zubietara mugatzen zen.
Lexikoa arazorik gabe beteko litzatekeen hitz-zerrenda soil bat besterik izango ez zela uste zen. Garai horretan konturatu ziren LNPrako sistemen hedakuntzarako arazo nagusiena lexikoa urriegia izatea zela, eta lexikoa edukiz betetzea uste baino lan neketsuagoa zela. Garai berdinean, formalismo sintaktiko berri batzuk egitura sintaktikoen pisua lexikora pasatzen hasi ziren, lexikoaren egitura konplexuago bihurtuz.
Lexiko zabal eta konplexuen eraikuntza eskuz egitea gehiegizko lana izango zela eta, hiztegietan zegoen informazioa ustiatzen ahalegindu ziren. Hiztegi elebakarretan hitzen kategoria, azpikategoria, definizioa, erabilera-adibideak, etab. aurki daitezke. Gainera hitzen esanahiak antolatuta daude, adieren bidez. Berrikiago, hiztegi elebidunetan dagoen informazioa ere ustiatzen hasi da, bai hizkuntza batetik besterako ordainak, baita hizkuntza bateko kolokazio edo eremu semantikoa bezalako informazioa ere.
Hiztegi elebakarren artean, bat izan da tratatua bereziki, Longman Dictionary of Contemporary English deritzona[1]. Bertako definizioak hiztegi mugatu bat erabiliaz egin dira, ingelesa ikasten ari direnentzat pentsatua. Bestalde, aditzen azpikategorizazioari buruzko informazioa, izenen kode pragmatikoak, arlo semantikoari buruzko kode semantikoak, eta abar jasotzen ditu.
Lengoaia naturalaren prozesamenduan aipatzen diren beste hiru hiztegi dira The Webster’s Seventh New Collegiate Dictionary[2], Oxford Advanced Learner’s Dictionary of Current English[3] eta Collins COBUILD English Language Dictionary[4].
Ingelesa ez diren hizkuntzetan hiztegi gutxi tratatu izan dira. Gaztelaniako, adibidez, Diccionario General Ilustrado de la Lengua Española[5] eta DREA (Diccionario de la Real Academia Española), CREAn (Corpus de Referencia del Español Actual) oinarritu dira formatu elektronikora pasatu diren batzuk. Frantseserako Le Plus Petit Larousse[6] dago. Euskararen kasuan, Euskal Hiztegia[7] erabili izan da LNPrako, besteak beste.
Hiztegi hauen erabilera nagusiak, bertatik informazio sintaktikoa erauztea (adibidez, ALVEYko lexikoa horrela eraiki zuten[8]) eta haiekin HEB edo EBL bat eraikitzea litzateke, hurrengo atalean ikusiko dugun bezala.
Beste hiztegi mota bat thesaurusak dira, sarrerak eduki semantikoaren arabera antolatuta dauzkatenak, aurretik emandako sailkapen bati jarraituz. Lengoaia naturalaren prozesamenduan Roget’s Thesaurus[9] dezente erabili izan da.
Hiztegi elebidunen artean Collins argitaletxeak ingeles-gaztelania, ingeles-frantses, ingeles-italiera, eta abar eskuragarri dauzka formatu elektronikoan. Gaztelania eta ingelesaren artean ere bada Diccionario Vox/Harrap’s Esencial Español-Inglés[10].
Hiztegi moten artean ditugu Terminologia-bankuak ere. Hauek termino zientifikoen eta teknikoen gordailuak dira. Terminoen esanahiarekin batera eleaniztasuna lantzen da bereziki. Horren adibide da UZEIk garatutako Euskalterm terminologia-bankua .
Ezagutza-base lexikalak (EBL), ezagutzari buruzko informazioa gordetzen duten gordailu egituratuak dira. Ezagutza hau hiztegietatik erauzitakoa denean, hiztegi ezagutza-base (HEB) termino zehatzagoa erabili ohi da. Ezagutza-base edo hiztegi ezagutza-base hauetan, MRDetan ez bezala, entitateak eta beraien arteko erlazioak agerikoak dira, eta normalean semantika lexikala da errepresentatzen dena. Arrazonatzeko eta inferitzeko gaitasuna ere lantzen da.
Ezagutza mota gehienbat gramatikala (kategoria, azpikategoria, morfotaktika…) denean, datu-base lexikal (DBL) terminoa erabiltzen da.
Bestetik, LNPrako lexikoak ditugu. Lexiko terminoak aplikazio batekiko lotura adierazten du. Informazio lexikalaren biltegi hauetan unitate bakoitzari ezaugarri morfologiko, sintaktiko eta semantikoak esleitzen zaizkio; hots, orotariko informazioa maneiatzen dute. Lexikoetan erabiltzen diren errepresentazio-formalismoak sarri teoria jakinetan oinarritzen dira. Ezaugarri-egituren bidezko adierazpidea usu erabiltzen da, eta sistema aurreratuenetan hierarkiak eta herentzia-mekanismoak ere ustiatzen dira. Horiek guztiak barneratzen ditugu sail honetan.
Lengoaia naturalen prozesamendu sintaktiko eta semantikoa egin ahal izateko, lexikoak hitz-zerrenda izatetik EBL izatera pasatu dira, hitz eta adierei buruzko informazioa dutenak. EBL baten hizkuntza ulertu ahal izateko, ordenagailuak hitzei buruz jakin beharreko guztia egon beharko litzateke[11]. EBLen ezaugarri garrantzitsuena herentzia izaten da, adierak klase/azpiklase hierarkien inguruan antolatzen dira eta[12]. EBLak eskuz eraiki daitezke, adibidez WordNet[13] eta EDR[14], baina askotan hiztegietatik erauzten dira[15].
LNPren beste ikuspuntu batetik, HEBek hiztegietatik erauzitako informazioa jasotzen dute [16]. Erauzitako informazioaren artean, hemen ere, adieren hierarkiak dira aipagarriak. HEB batetik EBL bat erator daiteke, hiztegitik zuzenean EBL eraiki daitekeen bezala. HEB baten enfasia hiztegiko informazioan da, inplizitu egon eta esplizitu bihurtu dena, giza erabiltzaileak edo programa batek erabiltzeko moduan. EBL baten enfasia, ordea, LNP aplikazioetarako baliagarria izatea da.
EBL eta HEBak eraikitzeko, hiztegietatik erauzi izan den informazio semantikoa definizioen azterketatik etorri ohi da batez ere, adieren hierarkia eratuz, eta hitzen (edo adieren) arteko bestelako erlazio lexikal-semantikoak finkatuz. Lehenbizi, definizioen analisi sintaktikoa egin behar da, eta ondoren, analisiaren emaitzatik erlazio lexikal-semantikoen erauzketa. Erlazio horietan azaltzen diren hitzen desanbiguazioa ere egin behar da, adieren arteko erlazioak eduki ahal izateko.
Ontologiak, munduari buruzko ezagutzaren biltegiak dira. Gizakiok ezagutza hori lexikoaren bidez adierazten dugunez, baliabide lexikalen arloan ere sarri aipatzen dira. Oro har, ezagutzan oinarritutako sistema informatikoek, lengoaia naturala prozesatzen ez badute ere, ontologiaren bat erabiltzen dute.
Ontologiak mundu errealaren kontzeptualizazioak dira, mundu errealari buruzko inferentziak egiteko gaitasuna dutenak. Definizio hau aukeratu dugu, Adimen Artifizialaren arloan definizio zehatzagoek kontrobertsia pizten baitute, eta ontologien ezaugarri bat delako garrantzitsuena: hierarkia darabiltela bizkarrezur.
Ontologiak aplikazio askotarako eraiki izan dira (softwarearen berrerabilgarritasuna, medikuntzako sistema adituak, datu-base heterogeneoen integrazioa, lengoaia naturalen sorkuntza, ulermena, itzulpena, eta abar), eta normalean, eremu espezifikoetarako eraiki ohi dira. Hala ere, badira ezagutza orokorragoa biltzen saiatzen direnak ere, adibidez Mikrokosmos, Sensus, CYC, etab.
Autore guztiak daude ados ontologiak oso hetereogeneoak direla esatean, norberaren beharretara neurrira eginak. Hala ere, ontologia guztiek edukitzen dute kontzeptu-zerrenda bat eta kontzeptu horien arteko hierarkia, klase/azpiklase erlazioak egituratuta dagoena. Hori izaten da ontologien ezaugarririk garrantzitsuenetako bat, arestian aipatutako definizio guztietan azaltzen dena.
Ontologien artean ditugu WordNet-ak ere, lehenago ere aipatu ditugunak; literalki itzulita: hitz-sareak. Berez, Princetongo Unibertsitatean garatutako proiektuak egin zuen ezagun termino hau. Hasiera batean baliabide lexikal jakin hori izendatzeko erabili bazen ere, gaur egun hizkuntza askotarako WordNet-ak garatzen ari dira.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.