euskarazko testu corpusa From Wikipedia, the free encyclopedia
XX. mendeko euskararen corpus estatistikoa XX. mendeko euskara jasotzen duen corpus estatistikoa da 4.658.036 testu-hitzez osatuta dagoena. Pasa den mendean erabili izan den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.[1][2] Kontsultagarria da sarean.[3]
XX. mendeko euskararen corpus estatistikoa | |
---|---|
Jatorria | |
Sortzailea(k) | Andoni Sagarna |
Sorrera-urtea | 1987 |
Argitaratze-data | 2002 |
Ezaugarriak | |
Dimentsioak | 4.658.036 () hitz |
Hizkuntza | euskara |
xxmendea.euskaltzaindia.net… |
Egungo Euskararen Bilketa Sistematikoa (EEBS) UZEI eta Euskaltzaindiak Ixa Taldearen laguntzaz sorturiko testu-corpus lematizatu bat zen, baita horren inguruko ikerketa eta garatze lan guztia.[4][5][6] EEBS proiektuak hiru milioi testu-hitz bildu zituen 1996rako eta 4.658.036 bukaeran 2002an. Euskara modernoaren benetako lexikoa eta erabilerak finkatzeko balio izan du. EEBS izena zuen corpusa guztiz bukatu zenean XX. mendeko euskararen corpus estatistikoa modua berrizendatu zen eta Euskaltzaindiaren webgunean kokatu zen kontsultagai.
Antzera, XXI. mendean erabiltzen den euskarazko testuak biltzen dituen corpusa Lexikoaren Behatokia Corpusa da. Helburu berarekin ari da sortzen Euskaltzaindia baina kasu honetan 2000. urtetik aurrerako testuekin, kasu honetan aurretik inbentario oso bat eduki gabe, jakina. Corpus hau ezinbesteko tresna da Euskaltzaindiarentzat, hitz berri bat finkatu baino lehenago derrigorrezkoa baita hitzaren erabilera erreala zehazki ezagutzea.
Terminologia zientziaren, teknikaren, jakintza-alor edo giza-jardueraren esparru jakin bateko hizkera espezializatuan erabiltzen diren terminoen multzoa da, lehen adiera batean. Bigarren adiera batean, terminologia, terminoen biltze, aurkezpen eta deskribapen sistematikoari egiten die erreferentzia.
XX. mendean Eugene Wüsterrek terminologiaren teoria orokorraren hastapenak jarri zituen; diziplina autonomo bat dela aldarrikatuko zuen, lexikologiaz eta hizkuntzalaritzaz baliatu arren. Haren teoria zabalki kritikatuak izan arren, gaurko ikerketen abiapuntu eta oinarri izan da; besteak beste, terminologiaren barne, terminoen bilketa, aurkezpen eta deskribapen sistematikoari dagokionez.
Aurretik aipatutakoaren adibide da esate baterako, Quebec-eko Terminologia Bankua. Frantsesaren normalizazioa bultzatzeko, “Office de la langue française" izeneko bulegoa sortu zuten 1961ean, bulego honen zeregina frantsesa lehenbailehen komunikabideetako, laneko, merkataritza eta administrazioko hizkuntza bihurtzen ahalegintzea zen. Bulegoa sortu eta handik zortzi urtetara, 1969an, honek "Banque terminologique du Quebec" izeneko terminologi zentroa eratu zuen. Hemen, hasiera batean 30.000 fitxako terminologi fitxategi bat antolatu zen. Sei fitxategik osatzen dute gaur egun Terminologi Bankua: bi terminologi fitxategik, erabilera-eremuen thesaurusaren fitxategiak, erreferentzia bibliografikoen fitxategiak, terminologiari buruzko dokumentazioaren fitxategiak eta erakunde, idazle, liburutegi eta enpresen fitxategiak.
Euskal Herri mailan, proiektua 1987an jarri zen martxan Andoni Sagarnaren gidaritzapean, eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, corpus irekia zen, urtero eguneratzen zena, nahiz eta geroago corpus itxia izatera pasatu. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute haien lekua, baina transkribatu eta argitaratu diren neurrian jasotzen dira.
Bigarren fase batean (1987-2001), Euskaltzaindiaren Egungo Euskararen Bilketa-lan Sistematikoa izeneko batzordearen gidaritzapean UZEI Terminologia eta Lexikografia Zentroak corpusa garatzeko aholkularitza teknikoa, tratamendu informatikoa eta lan lexikografikoa burutu ditu. Kanadan egin zen antzeko lan bat betetzen du, hala ere Kanadan duten frantsesa laneko hizkuntza bihurtzeko legearen parekorik ez da Euskal Herrian.
XX. mendeko euskara jasotzen duen corpus estatistikoa 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea. Kontsultagarria da sarean.
Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena. Laginketa-diseinuaren arduradunak Anjeles Iztueta eta Andoni Sagarna izan ziren.
Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.
EEBS izena zuen corpusa guztiz bukatu zenean XX. mendeko euskararen corpus estatistikoa izeneko corpusa bihurtu zen Euskaltzaindiaren webgunean.[4] 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea zuen egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.[1][2] Kontsultagarria da sarean.[3]
Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.
Dokumentuak sailkatzeko irizpideak hauek dira:
Sailkapen horiek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan. Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluetan ere, artikulua eta aldizkariaren fitxa jaso baita.
Testu-zatiak XML formatu estandarrean ezarrita daude (hasieran SGMLz zegoenStandard Generalized Mark-up Language). Erabiltzaileak testuak kurtsibaz, lodiz edo azpimarratuak aurkituko ditu, testu originalean zegoen bezala. Baina, hauez gain, erdarak, aipamenak, metahizkuntza eta bestelakoak ere markatuta aurkitu daitezke, egilearen erabilera bereziak agerian utziz adibidez.
Horiek dira corpusaren ezaugarriak; baina corpusak badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe. Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz. Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.
Ixa taldeak garatutako EUSLEM prorama informatikoa eta EDBL datu-base lexikala erabili ziren EEBS corpusa lematizatzeko.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.