suuren tietomäärän käsittely From Wikipedia, the free encyclopedia
Big data tai massadata on erittäin suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen.[1][2][3]
Big data on siis yhteisnimitys valtaisille datamäärille, joiden yhteydessä ei voida soveltaa perinteisiä datanhallinnointitapoja[4]. Big data soveltuukin käsitteenä hyvin moniin erityyppisiin tilanteisiin, eikä vielä ole syntynyt konsensusta siitä mitä Big data tarkalleen sisältää [5]. Vaikkei olekaan yhtä vakiintunutta määritelmää, on olemassa toistuvia tunnusomaisia piirteitä, joilla Big dataa kuvataan. Näitä ovat muun muassa seuraavat:
Big datalle on myös ominaista määritelmän tarkan sisällön muuttuminen ajan kuluessa. Tämä tapahtuu teknologian ja työvälineiden kehittyessä, jolloin se data, jonka käsittely vielä aiemmin tuotti vaikeuksia onkin tänään jo siinä määrin helposti hyödynnettävissä, ettei sitä enää voida Big dataksi kutsua.
Big dataa voidaan kuvata seuraavilla ominaisuuksilla (5 V:tä):[7][8]
Big dataksi kutsuttavia tietovarantoja syntyy hyvin monilla eri aloilla. Sen lähteitä ovat muun muassa seuraavat:[5]
Big datan käyttöönotto saattaa olla haastavaa johtuen suuruuden lisäksi myös rakenteesta ja hyödyllisen tiedon erottamisen vaikeudesta.
Erityyppiset datan rakenteet voidaan jaotella karkeasti seuraaviin kolmeen eri luokkaan.[5]
Nykyisin tiedontallennuksen ollessa hyvin edullista dataa saatetaan kerätä niin paljon kuin voidaan, esimerkiksi asiakkaan käyttäytymisestä organisaation internet-sivustolla. Tällöin tallennetuksi päätyy myös paljon sellaista dataa, joka ei ole hyödyllistä. Ryhdyttäessä analysoimaan tällaista dataa ensimmäiseksi täytyy pyrkiä löytämään datan joukosta se osa, joka on merkityksellistä. Mikä osa datasta on kunkin hetkisen tilanteen kannalta oleellista saattaa vaihtua hyvinkin nopeasti. Tämä johtuu siitä että, Big datan yhteydessä on tyypillistä päivittää tehtyä analyysia hyvin usein, jotta käytettävissä olisi viimeisin mahdollisin tieto.[5]
Kun edellisistä kohdista ollaan selvillä voidaan siirtyä käyttämään yleistä kolmiportaista ETL-mallia Big datan käyttöönotolle. Ensimmäiseksi tulee extraction, suomeksi poiminta, eli data saadaan jostain. Tämän jälkeen tulee transformation, suomeksi muunnos, jolloin datalle tehdään tarvittavat muutokset sen käyttöönottamiseksi valitussa analysointiympäristössä. Viimeisenä vaiheena on load, suomeksi lataaminen, eli otetaan data käyttöön valitussa analysointiympäristössä.[5]
Data virtualisointi on tapa kerätä tietoa useista lähteistä samassa paikassa. Kokoaminen on virtuaalista: toisin kuin muut menetelmät, suurin osa tiedoista jää alkuperäisasemaansa ja on peräisin vaadittavista raaka-aineista.[9]
Kerättäessä suuria määriä tietoa yksittäisten ihmisten toiminnasta, kuten vaikkapa sosiaalisen median käytöstä, on noussut huoli siitä kuka ja miten näitä tietoja voidaan käyttää. Euroopan unionin yleinen tietosuoja-asetus (GDPR) antaa tietyssä tilanteissa rekisteröidylle oikeuden saada itseään koskevat tiedot pois palveluntarjoajan rekisteristä, tämä kulkee nykyisin nimellä oikeus tulla unohdetuksi. (The right to Erasure). Maailmanlaajuisesti samantapaisia aloitteita on lukuisia muitakin.[10]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.