From Wikipedia, the free encyclopedia
Thesaurusa hiztegi mota gisa hartuko dugu, zehazki, kontzeptuen arabera hierarkikoki eta zuhaitz-egitura batean antolatzen da (hiztegi ideologikoetan egiten den antzera, adibidez, Julio Caseresen hiztegia[1] gaztelaniarako edota Umandirena[2] euskararako). Horrela, jasotzen da esate baterako, Sareko Euskal Gramatikan[3]:
« | Beste hiztegi mota bat thesaurusak dira, sarrerak eduki semantikoaren arabera antolatuta dauzkatenak, aurretik emandako sailkapen bati jarraituz. Lengoaia naturalaren prozesamenduan Roget’s Thesaurus (Kirkpatrick, 1987) dezente erabili izan da. | » |
Kontzeptu bidezko antolaketa batez, kontzeptu bakoitzari dagozkion terminoak, kontzeptuen arteko loturak (kontzeptu bat bestea baino zabalagoa edo hertsiagoa den, adibidez) azaltzen ditu. Bereziki, dokumentuen eta bilaketen indexaketan erabiltzen dira. Hiztegietan ez bezala, definizio zehatz baten ordez, thesaurusetan kontzeptu bakoitzaren erabilera orokorra azaltzen da bakarrik. Beste era batera esanda, thesaurusa hitz baten sinonimoak, antonimoak eta bestelako erlazio semantikoak azaltzen dituen hiztegia da.
Hierarkia hiperonimoen eta hiponimoen arteko erlazioen bidez antolatu ohi da. Hiperonimoak semantikoki haren mende dauden hitz guztiak biltzen ditu, eta haien erabilerari buruzko zehaztapenak. Halaber, hitzen arteko beste erlazio batzuen arabera ere antola daitezke thesaurusak, hala nola sinonimia, antonimia, meronimia edo holonimia. Horrela, gai bateko hiztegi guztia modu ordenatuan biltzen dute.
Hizkuntza naturalaren prozesamenduan (HNP) eta informazioaren berreskurapenean (IB), askotan, hainbat ezagutza mota erabiltzen dira, hitzen arteko erlazioei, haien zentzumenei, berariazko ezagutzei eta zentzu komuneko ezagutzei buruzko ezagutza lexikoa barne. Ezagutza hori HNPko sistemen barruan irudikatzeko ohiko modua tesauroak dira. HNP eta IB domeinuetan, tesauro bat unitate lexiko edo terminologikoen arteko erlazioak modu formalizatuan (lotura moduan) deskribatzen dituen hizkuntza edo baliabide terminologikoa da, eta, horri esker, deskribapen horiek erabil daitezke testu informatikoen prozesamenduan.
Informazio-sistema informatikoetan erabiltzen diren thesauroen bi paradigma oso ezagun daude. Lehenengo paradigma informazioa berreskuratzeko tesauroa da, informazioa berreskuratzeko sistemetan dokumentuen bilaketa hobetzeko izendatua. Thesaurus horiek garrantzi handiagoa izan zuten informazioaren berreskurapenean XX. mendeko 1960tik 1980ra bitartean. Gaur egun, bilaketa-motor globalek ez dituzte eskuz sortutako thesaurusak erabiltzen.
Thesauroaren baliabideen beste paradigma bat ingeleserako sortutako Princeton WordNet-en aplikatzen da (Fellbaum 1998[4]; Miller 1998[5]). Sortu zenetik, WordNet-ek arreta handia erakarri die ikertzaileei eta hizkuntza naturalaren prozesamenduan eta informazioa berreskuratzean adituak diren beste batzuei. WordNet-en antzeko tesauroak (Wordnets) hizkuntza askotarako egin dira munduan (Vossen 1998[6]; Bond and Foster 2013[7]; Maziarz et al. 2016[8]). Berariazko domeinuetarako sortutako informazioa berreskuratzeko thesauroak ez bezala, testu-sareek hizkuntza jakin baten sistema lexikoa irudikatzen dute sinonimoen multzo gisa eta haien arteko erlazio gisa.
Wordenak thesaurus gisa erabiltzeari buruz, hau diote Euskararako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNetn[9][10]:
« | WordNet-en erabilerak era askotakoak izan dira. Alde batetik, hiztegi eta thesaurus gisa erabili izan da. Hiztegi tradizionaletan bezala, WordNet-ek synset bakoitzeko defini-zio bat du, gehienetan adibide eta guzti. Gainera, synset bakoitzean ale lexikal bat baino gehiago egon daitezkeenez, thesaurus gisa balia daiteke, adiera berdina adierazteko sinonimo desberdinak ditugulako. Honenbestez, LNPri begira, WordNet-ek erabilera ugari izan ditu | » |
Thesaurusetan indizeek deskriptoreak edo deskribatzaile dute izena. 1953. urtean, Mortimer Taube-k, indexazioa egiteko sailkapen entziklopedikoen mugak gainditu nahian, sistema berri bat sortu zuen. Deskribatzailea sinonimo-multzo baten edo kuasi- sinonimoen artean hautatutako termino edo esamolde bakoitza da, oro har (termino lehenetsi gisa) modu unibokoan adierazteko. Deskriptoreak dokumentuen kontzeptu inportanteenak azaltzeko erabiltzen dira, kontzeptu bakoitza adierazteko hitz batez edota hitz-multzoaz baliatuz. Gainera, hitz horiek ez dute, nahitaez, dokumentuan bertan agertu behar. Lengoaia postkoordinatua izan arren, prekoordinazioa ere onartzen dute kontzeptuetan, zalantzak eta zarata dokumentala murriztearren.
Hitz batek edo gehiagok osatzen dute deskriptorea, baina, entropiaren printzipioari jarraituz (ahal den hitz gutxien edo bat bakarra bada, hobe), deskriptore konposatuak beharrezkoak direnean baino ez dira onartzen. Kasu hauetan deskriptore konposatuak erabil daitezke: Hitzak berak bakarrik esanahi garbia ez duenean, hitzak kontzeptu orokorregia adierazten duenean, eta beste batzuekin, ordea, esanahia zehaztu egiten denean, eta hirugarrenik, hitzaren esanahia aldatzen denean beste indize batzuekin konbinatzerakoan.
Deskriptoreak deklinatu gabeko izenak izaten dira. Oro har, singularrean joango dira, baina plurala ere onartzen da erabilgarriagoa denean. Sistema batzuetan singularra kontzeptu abstraktuekin erabiltzen da eta plurala zehatzekin.
Kontzeptu bat adierazteko forma bat baino gehiago dagoenean, forma ezagunena aukeratzen da deskriptorea izendatzeko. Akronimoak izen osoa baino askoz ezagunagoak direnean soilik onartzen dira. Azkar desagertzen diren izendapenak kontrolatu, eta batzuetan baztertu egingo dira (adibidez, Hamarreko Europa, pneumonia ezohikoa, Bi gehi Lau Konferentzia, Europa Urdina, Berdeak, Banderen Gerra....). Kazetariak bere lana berehala irakur dadin idazten du; dokumentalistaren lanak, ordea, ahalik eta denbora gehien irautea komeni da.
Termino baliokideek onartutako deskriptore batera bidaltzen dute. Bi motatakoak izaten dira: sinonimo linguistikoak eta sinonimo dokumentalak. Sinonimo linguistikoek deskriptorearen esanahi bera dute; hala, kontzeptu bat adierazteko diren termino desberdinak deskriptore bakar baten bidez adieraziko dira.
USE: "Ez deskribatzailea" (ez onartua) terminotik "deskribatzailea" (onartua) terminora birbidaltzea. / UF used for: Deskriptore terminoa deskriptore ezarekin konektatzen du.
Terminoak | Deskriptorea |
---|---|
kale / karrika / ibilbide | kale |
elkarte / sozietate / elkargo | elkarte |
Thesaurusetan sinonimiaren zentzua zabaldu egiten da, sinonimia dokumentalaren bidez deskriptore bakar baten barruan termino hurbilak biltzen baitira, nahiz eta esanahia desberdina izan. Hori, thesaurus jakin batean, termino zehatzegiak edota erabilgaitzak direnean egiten da, eta kontzeptu baten aldaera edota antonimoekin ere bai.
Terminoak | Deskriptorea |
---|---|
fusil / pistola | arma arin |
komunikabide / hedabide | komunikabide |
enplegu / langabezia | langabezia |
Sinonimoak arazo bihurtzen dira kontrolatuak ez direnean; sinonimo kontrolatuak, ordea, onuragarriak dira, bilaketa errazten dutelako; izan ere, asko erabiltzen diren terminoak jasotzen dira. Baliokidetasun-harremana ikus eta ordezkatua oharrekin adierazten da. Harreman horrek zentzu bikoitza du, eta bidaltze marka hauekin adierazten da: ikus markak, onartzen ez den termino batetik deskriptorera bidaltzen du; eta ordezkatua-k, deskriptoreak ordezkatzen dituen terminoak adierazten ditu.
Harreman hauetan deskriptore orokorragoek deskriptore zehatzagoak biltzen dituzte. Jakintza-arloak, osotasuna/zatiak, antolaketa geografiko edota administratiboak eta beste izan daitezke. Harreman honek ere zentzu bikoitza du, eta termino zehatza edo orokorra oharren bidez adierazten da.
(NT narrow term / BT broader term)
TZ termino zehatza
TZ: arma arin |
---|
arma astun |
arma biologiko |
arma kimiko |
arma nuklear |
arma zuri |
Thesaurus gehienek, interesatzen zaien diziplina arlotan sailkatu ondoren, gaika banatzen dituzte deskriptoreak. Banaketa nahiko subjektiboa izaten da; horrenbestez, gerta daiteke diziplina bereko bi thesaurusen banaketa desberdina izatea. Beste thesaurus batzuek, ordea, funtzioak erabiltzen dituzte: nahiz eta abstraktuagoa izan, terminoak zuhurtasun handiagoz sailkatzen dira. Funtzioak prozesuak, ekipoak, giza faktoreak, osagai materialak, eta abar izan daitezke.
TZ: bataila |
---|
borroka |
eraso |
errendizio |
gerra-deklarazio |
inbasio |
setio |
su-eten |
TZ: errefuxiatu |
---|
gatibu |
gerra-preso |
zibil |
Harreman zabalenak dira, loturak semantikoak, hierarkikoak edota baliokidetasunekoak ez direnean adierazteko erabiliak. Deskriptore batzuetatik beste batzuetarako pasabidea errazten dute, baita familia semantiko desberdinen artekoa ere, eta bilaketa zabaltzeko erabiltzen dira. Batzuetan, polihierarkia saihesteko erabiltzen dira.
(RT related term)
TH Termino hurbila
TH: balio sozial |
---|
errito |
kondaira |
ohitura |
portaera-eredu |
TH: garraiobide |
---|
gidaritza |
trafikoaren erregulazio |
Deskriptorea erabilera-ohar batekin batera joan daiteke, edo, gutxiagotan, definizio batekin, terminoak interpretazioan anbiguotasun-arazoak sor ditzakeen kasuetan. Deskriptorea da indexatzeko erabiltzen den terminoa (horregatik deitzen zaio indexazio-terminoari), eta haren gaiari buruzko dokumentuak berreskuratzeko erabiltzen dena.
SN scope note
Gaur egun, komunikabideetako dokumentazio-zerbitzuek dokumentuen indexazio zehatza egiteko, deskriptoreen zerrendak eta thesaurusak erabiltzen dituzte batik bat. Dokumentu informatiboak indexatzeko, Lasswell-en paradigmari jarraitzen zaio —notizia osatzeko erabiltzen diren 5W-ak—: who, what, where, when, why-how-what for, hau da: nor, zer, non, noiz, zergatik-nola-zertarako. Indexazioa egiterakoan izan behar dugun jokabidea galdera honetan labur daiteke: «kontzeptu hau (indizearena) bilatzerakoan dokumentu honek aseko luke nire informazio-beharra?». Erantzuna baiezkoa bada, kontzeptua aukeratu egingo dugu. Ezezkoa bada, berriz, horrek adierazten du kontzeptua ez dagoela zeharo garatua dokumentuan.
Artikulu baten fitxaren hainbat eremu automatikoki betetzen dira, artikuluan bertan idatzitakoa baliatuz, hala nola, titularra, sinadura, orrialdea eta abar. Beste eremu batzuk dokumentalistek osatzen dituzte: testu motak, gaiak, izenak, lekuak... Gai, izen eta lekuak, tesauro edo hiztegi kontrolatuen arabera erabiltzen dira.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.