From Wikipedia, the free encyclopedia
Indeksiranje dokumenata na računalu predstavlja postupak u kojem informacijski sustav pregledava dokumente na disku i katalogizira ih kako bi se omogućilo njihovo pretraživanje.
Računalni programi koji su zamišljeni da bez čovjekove pomoći uspješno odrede predmet o kojem se u dokumentu govori, razvijaju se već četrdeset godina. Manje ili više uspješni, najčešće su plijenili pažnju informatičara zainteresiranih za razvoj automatske obradbe teksta i umjetne inteligencije. Korištenje računala u području označivanja i pretraživanja dokumenata ravnopravno koriste sustavi u kojima posao stvarnog označivanja dokumenata radi isključivo čovjek, potom oni u kojima se računala koriste za kontrolu rječnika, a stvarnu obradbu obavljaju ljudi ili se računala koriste za korekciju ljudskih pogrešaka. Na kraju tu su i manje ili više uspješni sustavi u kojima se nastojalo potpuno isključiti čovjeka u postupku označivanja sadržaja. Da bi se učinio značajan i kvalitetan pomak na području označivanja i pretraživanja, potrebno je zbližiti znalce na području informacijske tehnologije s tradicionalnom knjižničarskom naobrazbom.
Pojavom računalne industrije dolazi do stvaranja baze podataka. Baza podataka je zbirka zapisa pohranjenih u računalu na sustavni način. Najranija poznata upotreba termina baza podataka potječe iz lipnja 1963. Tehnološkim napretkom dolazi do unapređivanja baza podataka koje su povećale svoju brzinu putem indeksiranja. Indeksiranje se definira kao proces stvaranja reprezentacije dokumenta. Pojam indeksiranje dokumenata predstavlja postupak u kojem informacijski sustav pregledava dokumente na disku i katalogizira ih kako bi se omogućilo njihovo pretraživanje. U postupku indeksiranja, računalo pregledava dokument, utvrđuje što se u njemu nalazi, kojeg je formata, te određuje druge podatke kako bi korisnik kasnije mogao napraviti pretraživanjem sustava za tim dokumentom, emailom, slikom ili nekim drugim dokumentom, pa tako čitajući tekst ne koncentriramo se samo na to što piše, nego i o čemu piše u tekstu. Velika većina metoda za obradu tekstualnih podataka osmišljena je i optimirana ne temelju svojstava engleskog, a tek ponekad i ostalih svjetskih jezika.
Postoji ručno indeksiranje, poluautomatsko indeksiranje i automatsko indeksiranje. Ručno indeksiranje su grupe dokumenta lista koje čitaju novopristigle dokumente i na temelju njihovog sadržaja određuju prikladne ključne riječi ili ih svrstavaju u ranije definirane klase. Ovaj se pristup može pokazati kao vremenski vrlo zahtjevan, kompliciran i skup, ali ima i određene prednosti. Kod ručnog indeksiranja nikakvu ulogu ne igra jezik dokumenata, specifičnost terminologije ili rječnika. Indeksiranje nije ovisno ni o kakvoj tehnologiji, a može se i lakše prilagoditi potrebama određenih korisnika. Porast broja baza punog teksta i mogućnosti pretraživanja slobodnog teksta (free text searching) dala je poticaj razvoju računalnih programa koji su zamišljeni ne samo kako bi obrađivali dokumente jednako dobro kao čovjek, već u cilju da ga u tome nadmaše. Ono što uistinu otvara prostor računalima u području sadržajne obradbe, koja se oduvijek smatrala elitnom, neprikosnoveno intelektualnom domenom informacijskih stručnjaka, jest činjenica da čovjek sam više ne može sadržajno analizirati i označiti nezaustavljivu masu elektroničkih dokumenata koja se velikom brzinom pojavljuje i nestaje u globalnom mrežnom okruženju. Poluautomatsko indeksiranje uključuje primjenu različitih automatskih metoda predlaganja ključnih riječi ili pojmova iz tezaurusa. Na taj način indeksatori dobivaju znatno smanjen popis pojmova među kojima odabiru one bitne za dokument. Konačnu odluku donosi ponovno čovjek, ali se vrijeme i cijena indeksiranja znatno smanjuju. Automatsko indeksiranje obavlja se bez ili uz vrlo neznačajnu intervenciju čovjeka. Rezultati koji se dobivaju su podjednako uspješni kao i kod ručnog indeksiranja, ali ipak pogreške su neizbježne, iako automatsko indeksiranje znatno štedi vrijeme, te mnogi skupovi dokumenata bez ovakvih metoda ne bi uopće nikada niti bili obrađeni. Nakon što je sustav za automatsko indeksiranje uspostavljen moguće ga je prilagoditi za rad s različitim zbirkama dokumenata. Mnogi problemi kao što su specifičnost terminologije, višejezičnost ili višeznačnost, koji kod ručnog indeksiranja nisu prisutni, također se mogu riješiti primjenom odgovarajućih metoda. Najbolji se rezultati ostvaruju kombiniranjem ranije spomenutih metoda.
Vrste automatskog indeksiranja su: metoda ekstrakcije i metoda dodjeljivanja ključnih riječi te lingvističke i statističke metode. Metoda ekstrakcije koristi pojmove koji se već nalaze u tekstu dokumenta koji se indeksira. Ti pojmovi se odnose na samostalne riječi, ali i složenije fraze. Osnovni problem je u određivanju pojmova koji su dovoljno bitni za sadržaj dokumenta i definiranje njihove važnosti, odnosno težine. J. D. Anderson ih naziva predmetnim osobinama (entity attributs). Metoda indeksiranja dodjeljivanjem ključnih riječi koje oni preuzimaju iz nekog izvora koji nije sam dokument. Njih može odrediti sam indeksator na temelju vlastitog iskustva ili mogu biti preuzete iz nekog kontroliranog rječnika kao što je tezaurus. No okupljanje na bazi tezaurusa ili klasifikacije podrazumijeva izuzetan ljudski intelektualni napor, pa je mogućnost da se to obavlja strojno oduvijek bila izazov za informacijske stručnjake. Riječ je o konceptualnom ili tematskom tezaurusu koji služi za svrhu indeksiranja, a izdvaja se kao posebna vrsta leksikografskog priručnika. On ima tematsko ustrojstvo, za razliku od abecednog koje se inače koristi. Dodjeljivanje ključnih riječi na temelju kontroliranog rječnika usko je povezano s pojmom kategorizacije. Kategorizacija se odnosi na svrstavanje dokumenata u dvije ili više klasa ili kategorija. To je nadzirani proces koji zahtijeva učenje na skupu primjera za svaku kategoriju. U slučaju indeksiranja svakom tekstu može biti pridijeljen jedan ili više klasifikacija deskriptora. Oni se ponašaju na isti način kao kategorije kod procesa kategorizacije. Kao prilog već navedenim razlozima treba spomenuti i sljedeće riječi G. Saltona: "... čini se daje retoričko pitanje g. Kerena "Što ste u posljednje vrijeme vi istraživači učinili za nas praktičare?" promašilo svrhu. Ne postoje nigdje prečaci između istraživanja i primjene. To važi jednako za naše kao i za druga područja intelektualnih napora. Potrebno je proučavati literaturu, potrebno je imati dovoljno "know-how" sposobnosti da bi se problem mogao razlučiti i smjestiti u kontekst. S vremenom, djelići će se spojiti u cjelinu, a promatrač će moći uočiti pojedinačne detalje umjesto da se oslanja na površne utiske i uopćavanja. U našem, kao i u svakom drugom području, potrebno je poznavati polje djelovanja kako bi se moglo doprinijeti njegovom razvoju."
Lingvističke metode određuju pojmove koji su bitniji za formiranje indeksa pridjeljujući im veće težine. Takvi pojmovi najčešće su imenice ili grupe imenica, a cilj lingvističkih metoda je da ih prepoznaju u tekstu. Dodatna prednost je prepoznavanje fraza, što znatno poboljšava kvalitetu indeksiranja, lingvističke metode se kombiniraju sa statističkima prilikom određivanja težine, odnosno važnosti pojedinih pojmova. Za uspješniju obradu teksta potrebno je obaviti predprocesiranje koje se najčešće sastoji od morfološke normalizacije i eliminacije stop riječi.
Kad je u pitanju morfološka normalizacija radi se o svođenju riječi na osnovni oblik, dok kod eliminacije stop riječi radi se o riječima koje ne nose nikakvo značenje za sadržaj teksta i one tvore stop listu. Najjednostavniji način za odabir adekvatnih pojmova je računanje frekvencija pojavljivanja tog pojma u pojedinom tekstu i u preostalim dokumentima. Pojam se smatra važnim ako se pojavljuje određeni broj puta.
Microsoft Windows koristi indeks za vrlo brza pretraživanja na računalu. Većina se standardnih datoteka na računalu indeksira prema zadanim postavkama. Indeksirana mjesta obuhvaćaju sve mape koje se nalaze u bibliotekama (primjerice, sve što vidite u biblioteci dokumenta), e-pošti i izvanmrežnim datotekama. Primjeri datoteka koje se ne indeksiraju programske su i sistemske datoteke - datoteke koje većina korisnika vrlo rijetko traži. Najjednostavniji način dodavanja u indeks jest obuhvaćanje mape u biblioteci. Kad to učinite, sadržaj te mape automatski se indeksira.
Cijelo računalo se ne bi smjelo indeksirati jer bi se tim napravio suprotan učinak, umjesto ubrzanja rada računala došlo bi do njegove sporosti jer bi bile uključene programske datoteke pa bi indeks bio prevelik.
Tvrtke s internetom kojima bi bili sati izgubljeni u pretraživanju lokacije traženih informacija predstavljaju gubitak novaca, te one plaćaju za stručne analize. Pa tu opet moramo spomeniti predmetno indeksiranje, a to je metoda opisivanja dokumenta indeksnim terminima kako bi se označilo o čemu se radi u dokumentu ili da se skrati njegov sadržaj. Razlog zbog kojeg se dokumenti tako označuju je zato što pronalazak informacija ne predstavlja veći problem, nego pronalazak pravih informacija među velikom količinom dostupnih informacija, tako i na Internetu. Problem je što tražilice, čak i one novije („inteligentne“) ne zadovoljavaju uvijek. Generalno, način funkcioniranja tražilica je da traže pojavljivanje riječi koja se upisuje u pretraživačko sučelje, na što se izlistavaju svakakvi dokumenti u kojima se pojavljuje riječ iz upita, znači čak i one gdje se riječ samo spominje, a nema relevantnu vrijednost. Jedan od načina povećavanja relevantnosti rezultata pretrage je traženje ključnih riječi koje mogu biti umetnute kao metapodaci (podaci o podacima) unutar stranica interneta. Svrha predmetnog indeksiranja je da se označivanjem jedinica teksta određeni dokument može lakše pronaći pri traženju. Kontrolirani rječnik se koristi u informacijskim znanostima, i za razliku od rječnika prirodnih jezika, koriste se samo prethodno određeni ovlašteni termini. Ključne riječi dokumentu dodaje autor, a indeksni termine dokumentima dodjeljuju posebni stručnjaci, indekseri i knjižničari. Oni su profesionalci u analiziranju sadržaja i izučeni su da precizno odrede potrebe korisnika. Što se interneta tiče, postoji drugačija, jeftinija verzija označavanja dokumenata. Nove mrežne aplikacije omogućuju svakom korisniku da obilježava dokumente, tako da socijalno označavanje (metoda suradničkog stvaranja i uređivanja oznaka koja služi da bi se sadržaj označio i kategorizirao) postaje sve popularnije na Web-u. Svakodnevni primjer: video sadržaji na YouTubeu (korisnici svoje postavljene video materijale također indeksiraju tako da upisuju oznake (tags), i ako dobro naprave taj zadatak, sadržaj videa odgovarat će indeksnim terminima, i korisnik će lako preko upita pronaći traženi video materijal).
Zbog tehnoloških promjena koje su omogućile rad s velikim bazama podataka, stručnjacima u organizaciji i posredovanju informacija i znanja pridružili su se i znalci s područja računarstva. Istraživački rad koji se odnosio na pretraživanje informacija istom je usmjeren na pretraživanja slobodnog teksta, odnosno pretraživanje na prirodnom jeziku. Pristup računalnih stručnjaka problemu pretraživanja i označivanja usredotočen je od početka na lociranje i pronalaženje informacija u nekoj bazi podataka. Danas, govoreći o sustavima za pretraživanje i označivanje, a napose o automatskom predmetnom označivanju, možemo zaključiti da su sva nastojanja u tom pravcu bila opravdana. Brojna literatura iz tog područja govori u prilog silnom znanstvenom-istraživačkom i praktičnom naporu koji je uložen u njihov razvoj i usavršavanje. Napretkom komunikacijske tehnologije i razvojem globalne informacijske infrastrukture, napose pojavom Interneta, omogućen je pristup velikom broju različitih informacija u digitalnoj formi. Među njima iz dana u dan raste broj baza podataka s punim tekstom. Potreba označivanja i pretraživanja stalno rastuće mase dokumenata već sada nadilazi ljudske mogućnosti.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.