From Wikipedia, the free encyclopedia
Duboki web dio je interneta čiji sadržaj nije dostupan putem konvencionalnih mrežnih pretraživača.
S obzirom na dostupnost sadržaja World Wide Web možemo podijeliti na dva dijela: površinski web i duboki web. Površinski web je pojam koji označava sadržaj na Webu koji je lako pretraživ putem konvencionalnih Web pretraživača, kao što su Google, Yahoo! ili Ask.com i sl. Konvencionalni Web pretraživači stvaraju svoje indekse pomoću robota (tzv. pauka) koji pretražuju Web u potrazi za novim informacijama. Ti roboti putuju od jedne Web stranice do druge koristeći se poveznicama među tim stranicama. Oni pritom indeksiraju sadržaj svake Web stranice na koju naiđu.
S obzirom na trenutak generiranja sadržaja Web stranice možemo podijeliti na statične i dinamične. Sadržaj na statičnim Web stranicama je automatski generiran prilikom otvaranja neke Web stranice. Kod dinamičnih Web stranica, sadržaj se generira prilikom određenog zahtjeva, tj. upita za neki sadržaj (npr. Google-ova lista rezultata ili sadržaj online baza podataka). Dinamične Web stranice se danas sve više koriste i one čine veliku većinu onoga što se nalazi na Webu. S obzirom na to da njihov sadržaj nije automatski generiran konvencionalni Web pretraživači ne mogu indeksirat taj sadržaj.
Michael K. Bergman je korištenje konvencionalnih pretraživača usporedio s povlačanjem mreže po površini mora. Premda će se puno toga uhvatiti u toj mreži, puno veća količina informacija je u dubljoj vodi i zbog toga nije uhvaćena. Smatra se da se 99 % informacija nalazi u dubokom Web-u, dok je samo 1% informacija dostupno putem konvencionalnih Web pretraživača (površinski Web). Anand Rajaraman je to slikovito opisao izjavom da je ono što nam nude konvencionalni Web pretraživači samo vrh ledene sante.
Osim termina duboki Web, koristi se još i termin nevidljivi Web. Termin nevidljivi Web je prvi koristio Jill Ellsworth 1994. godine, misleći na one Web stranice koje nisu indeksirane od strane Web pretraživača.
Michael Bergman je prvi koristio termin duboki Web 2001. godine. On je smatrao da termin nevidljivi Web nije točan, zato što taj sadržaj nije dostupan putem konvencionalnih Web pretraživača, ali je zato dostupan na drugačije načine. Danas se uglavnom koristi termin duboki Web (eng. deep Web).
2000. godine provedeno je istraživanje o veličini i relevantnosti dubokog Weba. Neki od zaključaka tog istraživanja su:
Istraživanje koje je proveo NEC Research Institute uspoređivalo je indekse najvećih svjetskih pretraživača kao što je Google, AltaVista, Yahoo i nijedan indeks nije sadržavao više od 16% površinskog Weba. Ako uzmemo u obzir da pretraživači uopće ne pretražuju duboki Web dobijemo da je samo 0.03% od cjelokupnog Weba pretraživo putem konvencionalnih pretraživača. Ipak 95% korisnika weba koristi komercijalne pretraživače.
Treba uzeti u obzir da su to starija istraživanja i da se situacija, pogotovo količina podataka na Webu, znatno promijenila. Ako se uzme u obzir da se sve više izrađuju dinamičke Web stranice, za očekivati je da su omjeri slični ili je još veći udio dubokog Weba.
Sadržaj dubokog Web-a bi se mogao svrstati u sljedeće kategorije:
Chris Sherman i Gary Price su podijelili sadržaj dubokog Web-a u četiri glavne kategorije:
Internetske baze podataka su organizirane zbirke znanstvenih, poslovnih i drugih informacija koje su pouzdane, a dostupne su na Webu. Većina zapisa u online bazama podataka se odnosi na članke objavljene u časopisima. U izradi online baza podataka sudjeluju različiti stručnjaci, uključujući knjižničare (definiraju strukturu baze podataka, polja zapisa), računalne stručnjake (izrađuju bazu podataka, sučelje i sustave pretraživanja i pregledavanja) i indeksere (opisuju radove ključnim riječima odnosno predmetnicama).
Vrste online baza podataka:
S obzirom na to da sadržaj dubokog Weba uglavnom nije moguće pretraživati konvencionalnim Web pretraživačima, potrebne su neke druge metode kako pristupiti tom sadržaju. Većina kvalitetnog sadržaja na dubokom Webu se nalazi u online bazama podataka. Tim bazama podataka se uvijek može pristupiti putem njihovog Web sjedišta. Postoji još nekoliko načina kako doći do sadržaja na online bazama podataka.
Mogu se koristiti posebni Web direktoriji koji sadrže popise web adresa baza podataka ili drugih izvora informacija. Postoje više takvih direktorija, neki od njih su općeniti, a neki pokrivaju samo određena područja interesa. Osim poveznica na baze podataka, neki od njih nude i mogućnost pretraživanja tih baza podataka. Neki od takvih Web direktorija su: Science.gov, Digital Librarian, INTUTE,Research beyond google,TechDeepWeb Arhivirana inačica izvorne stranice od 26. svibnja 2010. (Wayback Machine).
Za izravno pretraživanje baza podataka i ostalih sadržaja s jedne Web stranice mogu se koristiti posebne tražilice dubokog Weba ili preko posebnih pretraživačkih servisa (eng. Gateway).Neki od njih su CompletePlanet Arhivirana inačica izvorne stranice od 16. lipnja 2004. (Wayback Machine), INFOMINE, Scirus, OVID, EBSCO, Google Scholar.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.