Termin velepodatki, tudi množični podatki, masovni podatki oz. veliko podatkovje (iz angleškega termina Big Data),[1] se nanaša na velike količine različnih tipov podatkov, ki jih pridobimo iz različnih virov, kot so ljudje, stroji ali tipala in je kot tak prisoten že od 90. let dvajsetega stoletja. Lahko gre za informacije o podnebju, satelitske posnetke, digitalne fotografije in videoposnetke, evidence o transakcijah ali signale GPS. Velepodatki lahko vključujejo osebne podatke: to so kakršnikoli podatki, ki se nanašajo na posameznika, kot so imena, fotografije, e-naslovi, bančni podatki, objave na spletnih družbenih omrežjih, zdravstveni podatki ali računalniški naslovi IP.[2]

Zgodovina

Izraz velepodatki se uporablja od začetka devetdesetih let dvajsetega stoletja. Kljub dejstvu, da ni točno znano, kdo je prvi uporabil ta izraz, večina zasluge za nadaljnjo priljubljenost izraza pripisuje Johnu R. Masheyu, takratnemu uslužbencu podjetja Silicon Graphics.

Koncept zbiranja podatkov kot tak ni nekaj povsem novega. Skozi stoletja so ljudje uporabljali tehnike analize z namenom produktivnejšega sprejemanja odločitev. Stari Egipčani so okoli leta 300 pred našim štetjem že poskušali zbrati vse takrat obstoječe podatke v Aleksandriji. Tudi v Rimskem cesarstvu so skrbno analizirali statistiko svoje vojske, z namenom optimalne porazdelitve le-te.

Razlog, da lahko govorimo o množičnem pridobivanju podatkov v zadnjih dveh desetletjih, je v obsegu in hitrosti pridobivanja le-teh. Skupna količina podatkov na svetu je v letu 2013 znašala 4,4 zetabajtov, kar naj bi do leta 2020 naraslo do 44 zetabajtov, kar pomeni da takšnega nabora podatkov več ni mogoče obdelovati s tradicionalnimi metodami obdelave.

Razvoj velepodatkov skozi čas, lahko razdelimo v tri faze, vsaka od faz pa ima svoje značilnosti in zmogljivosti.  

Faza 1.0 (1970–2000)

Upravljanje podatkovnih zbirk in shranjevanje podatkov veljata za temeljne sestavine faze 1.0, ki je temelj sodobne analize podatkov. Temelji na uporabi priznanih tehnik, kot so poizvedbe po bazah podatkov, spletna analitična obdelava in standardna orodja za poročanje.

Faza 2.0 (2000–2010)

Internet in splet sta po letu 2000 začela ponujati edinstvene zbirke podatkov in možnosti analize podatkov. S širitvijo spletnega prometa in spletnih trgovin so podjetja, kot so Yahoo, Amazon in eBay, začela analizirati vedenje strank z analizo števila klikov, lokacijskih podatkov in dnevnikov iskanja. Organizacije so bile tako primorane najti nove pristope in rešitve za shranjevanje vseh pridobljenih podatkov, z namenom uspešnega spopadanja z novimi tipi podatkov in njihovo učinkovito analizo.

Faza 3.0 (2010–zdaj)

Mobilne naprave so postale novi način za pridobivanje novih podatkov. Mobilne naprave ne omogočajo samo analiziranja vedenjskih podatkov (kot so kliki in iskalne poizvedbe), temveč omogočajo tudi shranjevanje in analiziranje podatkov o lokaciji (GPS-podatki). Z napredkom mobilnih naprav je mogoče slediti gibanju, analizirati fizično vedenje ter celo podatke, povezane z zdravjem (število korakov na dan).[3]

Koncept

Koncept velepodatkov se je razvil in vključuje ne samo velikost nabora podatkov, temveč tudi procese, ki so vključeni v koriščenje podatkov. Velepodatki so postali sinonim za druge poslovne koncepte, kot so poslovna inteligenca (angl. Business Inteligence, BI), analitika in podatkovno rudarjenje (angl. Data mining).[4]

Namen

Ideja velepodatkov je zbiranje digitalnih sledi, ki jih je nato moč analizirati.[4] V McKinsley inštitutu[5] navajajo, da so digitalni podatki povsod – v vsakem sektorju, ekonomiji, vsaki organizaciji in pri uporabnikih digitalne tehnologije. Organizacije izkoriščajo ogromne količine podatkov za natančnejše prilagoditve sistemov, podporo k odločanju in za razvoj proizvodov. Z analizo velepodatkov, ki so jih pridobili s spremljanjem potencialnih strank in njihovih nakupovalnih navad, želijo podjetja optimizirati ali povečati prodajo.[6]

Značilnosti velepodatkov

Velepodatki imajo naslednje značilnosti:

  • znatno velikost: gre za ogromno količino podatkov, ki se ustvarjajo v času;
  • raznolikost: gre za podatke v različnih oblikah zapisa, v strukturirani ali nestrukturirani obliki (npr. besedilo, senzorni podatki, dnevniki aktivnosti, tokovi klikov, koordinate ipd.);
  • hitrost: gre za podatke, ki se ustvarjajo z veliko hitrostjo, so hitro na voljo in se tudi hitro spreminjajo.[7]
  • verodostojnost: nanaša se na kakovost in vrednost velepodatkov, saj kakovost velepodatkov vpliva na natančno analizo.[8]

Problematika množičnega zbiranja podatkov

Organizacije pogosto nimajo standardnega načina zbiranja podatkov, kar preprečuje, da bi vse podatke lahko izkoristili v celoti. Velikokrat velepodatki niso izkoriščeni v celoti, saj je obdelava takšnih podatkov težka, zamudna in draga ter so zato, za številna podjetja nedosegljiv koncept.[9]

Viri

Zunanje povezave

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.