From Wikipedia, the free encyclopedia
Informazio erauzketa (ingelesez, Information Extraction edo IE) informatikaren alor bat da, ordenagailu batek irakur ditzakeen dokumentuetatik informazio zehatz batzuk formatu egituratu edo erdi-egituratuan ateratzea helburu duena. Bilatutako informazioa edukiko duten esaldi mota batzuk detektatzeko patroiak eta tresna sintaktiko-semantikoak erabiltzen dira entitate, erlazio edota gertaerei buruzko informazioa lortzeko, domeinu mugatu baten dokumentuen artean. Domeinu batzuk hauek dira: enpresa-erabakiak, administrazioa, medikuntza, sal-erosketak, zaintza teknologikoa, iritzi-meatzea (opinion mining), militarra... Gehienetan Intranet mailan erabiltzen da, dokumentu multzo mugatu baten gainean, bilaketa eremua ez da izaten Internet osoa.
Gaur egun hizkuntzaren prozesamenduko teknikak erabiltzen dira, urrats hauen arabera:
Gero eta maizago jotzen da Wikipediara IEko sistemetan laguntza bila, ezagutzaren bila. Laburpengintza automatikoa ere erabil daiteke tresna laguntzaile gisa.
Lortutako informazio guztiak ez dira beti zuzenak izango, eta lortu behar ziren hainbat datu eruzi gabe geratuko dira. IE sistema perfektu batek datu egokiak bakarrik erauzi beharko lituzke, eta dokumentuetan dauden guztiak. Alabaina, sistema perfektuak ez dira existitzen eta IE sistema bat ebaluatzen denean bi neurri kalkulatzen dira:
Adibidez, Message Understanding Conference (MUC) edo Mezuak Ulertzeko Hitzaldia honako aspektu hauetan aritu den lehiaketa da:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.