From Wikipedia, the free encyclopedia
Datu handiak edo datu masiboak (ingelesez: Big data) prozesatzeko oso multzo handia osatzen duten datuak dira, konplexutasun handikoak; ohiko informatika-sistementzat zaila izaten da horrelako datuak prozesatzea.[1] Bere analisi, tratamendu, eskuratze, partekatze eta babeste erronka handiak dira. Gehienetan, iragarpen analitikoak egiteko erabiltzen dituzte[2] Interneteko bilakaeran, finantzetan, meteorologian, genetikan[3] eta beste hainbat arlotan.
1980ko hamarkadatik aurrera, 40 hilabetero munduan informazioa pilatzeko gaitasuna bikoiztu egin da;[4] 2012. urtean, egunero 2,5 exabyte (2,5×1018) datu sortzen zen.[5] Datu masiboen bolumena etengabe hazten da. Termino hau 1990. hamarkadatik aurrera erabili da eta, batzuek, John Mashey zientzilariari[6] eman diote hedatzearen ospea. 2012an bere tamaina hamabi terabyte eta hainbat petabyte artekoa zela balioztatu zen datu multzo bakar batean. MIKE2.0 metodologiak definizio hau ematen du Datu handientzat: "informazioaren kudeaketarekin erlazionaturiko gaiak ikertzen ditu, permutazio erabilgarrien, konplexutasunen eta erregistro indibidualak ezabatzeko zailtasunen terminoetan".[7]
2001ean, kongresu eta erlazionatutako aurkezpenetan oinarritzen zen ikerketa txosten batean[8], META Group (orain Gartner) enpresak datuen hazkuntza konstantea bolumena, abiadura eta aniztasuna ikertzeko aukera eta erronka bezala definitzen zuen[9]. Gartner enpresak datu masiboak erreferentzia bezala erabiltzen jarraitzen du. Gainera, datu masiboen merkatuko hornitzaile handiek datu kantitate horien prozesatzeari buruzko eskaera kritikoenei erantzuteko irtenbideak garatzen dituzte, hala nola, MapR eta Cloudera.
2016ko definizio batek terminoa horrela definitzen du: “Datu handiek balioan eraldatzeko teknologia espezifiko eta metodo analitikoak beharrezkoak dituen bolumen, abiadura eta aniztasun handiagatik bereizitako informazio aktiboa adierazten dute”[10]. Gainera, erakunde batzuek beste V bat gehitzen dute, alegia, deskribatzeko egiazkotasuna[11] (gaztelaniaz Veracidad para describir), industriaren autoritate batzuek zalantzan jartzen duten errebisionismoa dena[12].
Hiru Vak, bolumena, abiadura eta aniztasuna (gaztelaniaz Volumen, Velocidad y Variabilidad) Datu handien beste ezaugarri osagarrietara hedatu dira:
Kontzeptuaren heldutasunaren hazkuntzak Datu handien eta adimen enpresarialaren desberdintasuna modu garbiago batean definitzen du:
Datu handiak hedabide, enpresen eta gobernuen industrian publikoari zehaztasun handiagoarekin zuzentzeko eta mezuen efizientzia handitzeko erabili izan dira.
Datu handiek informazioaren kudeaketaren adituen eskaria hainbeste handitu dute, non Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP eta Dell enpresek 15 mila milioi dolar gastatu dituztela datuen kudeaketa eta analisian adituak diren software enpresetan. 2010ean industria honek 100 mila milioi dolar baino gehiago balio zituen eta ia % 10 hazten zen urtero: software negozio orokorra baino bi aldiz azkarrago.[17]
Garatutako ekonomiek gero eta gehiago erabiltzen dituzte teknologia intentsiboak datuetan. Munduan 4600 milioi harpidetza daude telefono mugikorretan eta 1000 eta 2000 milioi pertsona inguruk Interneta erabiltzen dute. 1990etik 2005era arte, munduan mila milioi pertsona baino gehiago erdi mailako klasean sartu ziren, honek, milioika pertsona alfabetatu bihurtu zirela esan nahi du eta, horrekin batera, informazioaren hazkuntza gertatu zen. 1986an telekomunikazio sareen bitartez informazioa trukatzeko munduko ahalmen efektiboa 281 petabytekoa zen, 471 petabyte 1993an, 2.2 exabyte 2000n, 65 exabyte 2007an[18] eta iragarpenek 667 exabyteko kuantifikazioa egin zuten 2014rako Internet zirkulazioari dagokionez. Zenbatespen baten ustez, munduan bildutako informazioaren heren bat testu alfanumeriko eta irudi finko[19] moduan dago, zeina formatu erabilgarriena den Datu handien aplikazio gehienentzat. Hau oraindik erabili ez diren datuen potentzialaren erakusgai da (hau da, bideo eta audio edukiaren moduan).
Hornitzaile askok Datu handientzat soluzio estandarrak eskaintzen dituzten arren, adituek barne-irtenbide pertsonalizatuen garapena gomendatzen dute enpresaren arazoa konpontzeko, gaitasun tekniko nahikoak baldin baditu.[20]
Datu handien erabilerak gobernuko prozesuetan kostu, produktibitate eta berrikuntza terminoetan efizientzia ahalbidetzen du, baina gabeziak ere baditu[21]. Datuen analisiak, askotan, nahi den emaitza lortzeko gobernuko hainbat aldek lankidetzan lan egitea eta prozesu berriak sortzea beharrezkoa du.
Datu masiboak, normalean, prozesu demokratikoan eragiteko erabiltzen dira. Herriaren ordezkariek herritarrek egiten duten guztia ikus dezakete eta herritarrek ordezkarien bizitza publikoa iradoki dezakete txio eta ideiak gizartean hedatzeko beste metodo batzuen bitartez. Obama eta Trump presidenteen kanpainek modu orokortu batean erabili zituzten[22] eta aditu batzuek ohartarazten dute “demokrazia adierazgarria birsortu behar da. Bestela, posible da informazioaren diktadura bihurtzea”.[23]
Informazio eta komunikazio teknologien erabilera eraginkorrari buruzko ikerketak, (ICT4D bezala ezagututa) Datu handien teknologiek ekarpen garrantzitsuak egin baina baita nazioarteko garapenarentzat aparteko erronkak aurkeztu ditzatela iradokitzen du[24][25]. Datu handien analisian egindako aurrerapenek medikuntza, enplegu, produktibitate ekonomiko, delinkuentzia, segurtasun eta baliabide eta hondamendi naturalen maneiuko erabaki hartzea hobetzeko aukera onuragarriak eskaintzen dituzte[26]. Gainera, erabiltzaileak sortutako datuek aditu gabeko ahotsa eskaintzeko aukera berriak ematen dituzte. Hala ere, garapenean dauden eskualdeentzako duela askoko erronkak, hala nola, azpiegitura teknologiko desegokia eta giza-baliabide eta baliabide ekonomikoen urritasuna datu handiekin existitzen diren kezkak areagotzen dituzte, pribatutasuna, metodologia inperfektua eta interoperabilitate arazoak adibidez.
Datu handiek manufaktura-industrian gardentasuna lortzeko azpiegitura bat ematen dute, zeina errendimendu eta sendotasunik gabeko osagaien erabilgarritasuna bezalako ezjakintasunak argitzeko ahalmena den.
Hedabide eta publizitate profesionalek datu handiei milioika pertsonei buruzko informazio prozesagarri asko bezala ekiten diete. Industria hedabide espezifikoen inguruak erabiltzearen ikuspuntu tradizionaletik urrundu eta, horren ordez, pertsona helburuei momentu eta leku hoberenean heltzen diren teknologiak dituzten kontsumitzaileez baliatzen da. Bukaerako helburua kontsumitzailearen pentsamoldearekin bat egiten duen mezu edo edukia transmititzea da. Adibidez, argitalpenen inguruek mezuak eta edukiak gero eta gehiago egokitzen dituzte datuen erauzketa aktibitateen bitartez bildutako kontsumitzaileak erakartzeko.[27]
Hainbeste diru mugitzen den eremuan oinarriko erabiltzaileek baino lehenago teknologia berriak erabiltzen dira. Profesionalen entrenamenduaren eta entrenatzaileen erabaki hartzearen funtsezko atala da partiduen analisia.
Amisco[29] 2001etik Espainia, Frantzia, Alemania eta Ingalaterrako ligako talde garrantzitsuenek aplikatzen duten sistema bat da. Estadioetan jarritako zortzi kamera eta hainbat ordenagailuz eratuta dago eta jokalarien mugimenduak erregistratzen ditu eta datuen analisi masiboa egiten duten zentral batera bidaltzen dira. Erantzun moduan itzultzen den informazioak bi dimentsiotako partiduaren erreprodukzio, datu tekniko eta estatistikak eta jokalari bakoitzaren datu fisikoen laburpenak biltzen ditu.
Big dataren barruan, hiru motatako datuak aurki ditzakegu. Lehenak, datu egituratuak dira; hauek datu base erlazionaletan aurkitzen ditugu. Hauei buruz hitz egiterako orduan, datu base gehienetan aurkitzen dugun informazioari egiten diogu erreferentzia. Tituluekin lerro eta zutabetan egituratzen diren textu tipoko artxiboak dira. Datuen tresna guztiekin oso errez ordenatu eta prozesatu daitezkeen datuak dira. Oso ondo antolatuta dagoen artxibadore bat bezala ikus dezakegu. Non dena identifikatuta, izendatuta dagoen, eta sarbide erreza duen.
Gero, datu ez egituratuak ditugu; direla pdf, multimediak, mezu elektronikoak, etab. Orokorrean, izendatu daitekeen egitura internorik ez duten datu binarioak dira.
Identifikatu, eta era antolatuan almazenatu arte balorerik ez duten objetu batzuen antolaturik gabeko konglomeratu masiboa da. Behin antolatuta, bere edukiko elementuak bilatuak eta kategorizatuak izan daitezke, informazioa lortzeko asmoz.
Eta azkenik datu erdi egituratuak ditugu; kalkulu orriak, HTML, XML… direla.
Open-Datak datu mota jakin batzuk publiko orokor bati zuzenduta egotea ahalbidetzen du modu aske batean (publikoen liberalizazioa); adibidez, osasun, energia, garraio eta honelako datuak. Honek kazetaritza berria bultzatzen du, datu horiek mugarik gabe gizartean zabaltzeko aukera ematen baitu. Kazetaritzan baliagarria izateaz gain, beste zenbait eremutan ere baliagarria da; hala nola, aplikazio anitzak garatzeko. Oso garrantzitsua da gardentasun publiko eta pribatua bultzatzea, eta horretara zuzentzen diren legeak izatea. Hala ere, pertsonen datuen pribatutasuna kontuan hartu beharreko kontzeptu bat da.
Big dataren erabilera okerra ematen bada enpresa, gobernu eta komunikabideen partetik, erabiltzailearentzat mehatxu izan daiteke, euren informazio pertsonalaren biltegiratzea eta integrazioa arriskuan egon baitaitezke. Horrelakorik pasa ez dadin, eta arazorik ez sorze aldera, datu bilketaren erregulazioa behar da, nazioarte zein estatu mailan.
Erregulazioari dagokionez, hasteko funtsezkoa da bere datuak eskuragarri egiten dituen erabiltzailea momentuoro informatua egotea eta baimena eskatzea hauen erabileraz; esaterako, jasoko den informazio mota, norekin banatzen diren datu horiek, zein helbururekin, etab. Uneoro erabiltzailearen segurtasuna eta datuen babesa bermaturik egotea funtsezkoa da.
Ahal diren testu/datu gehienak jasotzen dira lehenik, bilketa prozedura desberdinen bitartez. Adibidez: eskuz jaso eta gero digitalizatu, edota modu automatikoan jaso. Gero, informazio honekin datu base bat osatzen da. Datu base hau hiru eratakoa izan daiteke: erlazionala, ez erlazionala edo grafoei zuzenduta. Azkenik, Konputazio metodoak erabiltzen dira ditugun datuak analizatzeko eta ezagutza edo, gutxienez, gizarterako informazio esanguratsu eta berritzailea lortzeko asmoz.
Datuen prozesamendurik egin gabe, erakundeek ez dute sarbiderik datu kopuru handietara heltzeko, abantaila bat lor dezakete, salmenten, marketin estrategien eta kontsumitzaileen beharrei buruzko informazio erabilgarria eskainiz. Ezinbestekoa da edozein tamainatako enpresek beren datuak prozesatzeko beharra ulertzea.
Datuen prozesamendua datuak bildu eta informazio erabilgarrira itzultzen denean gertatzen da. Gehienetan datu zientzialarien ardura da, eta garrantzitsua da prozedura behar bezala egitea, azken produktuan edo datuetatik lortutako emaitzetan eraginik ez izateko. Tratamendua datu gordinekin hasten da eta formatu irakurgarriagoan bihurtzen ditu (grafikoak, dokumentuak, etab.), forma eta testuingurua emanez, ordenagailuek interpreta ditzaten eta erakundeko langileek erabil ditzaten.
Alde batetik, makinen bitarteko itzulpenak, edukiaren analisi automatizatuak non gramatika formal baten arauen arabera sinbolo kate bat aztertzen duen ordenagailu programa dagoen, indexazioa… Hizkuntza natural batetik bestera testua edo hizkera itzultzeko softwarearen erabilera ikertzen da. Oinarrizko mailan, itzulpen informatikoak hizkuntza natural bateko hitz atomikoen ordezko sinplea egiten du beste baten aldean.
Beste aldetik, lengoaia naturalaren analisirako softwareak erabiltzen dira (Python, R…). Diziplina arteko eremua da, eta hizkuntza naturalaren funtzionamenduaren formalismo deskriptiboak garatzeaz arduratzen da. Ordenagailuetarako programa exekutagarriak bihur daitezke. Garapen hori hizkuntza naturalaren estatistikaren modelizazioaren eta estatistikaren modelizazioaren artean kokatzen da ikuspegi konputazional batetik, eta adimen artifizialean espezializatutako hizkuntzalari eta informatikariak, psikologo kognitiboak eta logikako adituak daude.
“Opinion mining” [31] izendaturikoa, testu jakin batetik iritziak identifikatzen eta ateratzen saiatzen da. Testu horren terminologia aztertzen da bere emozioak determinatzeko, eta jakiteko ea mezuek emozio positibo, negatibo edo neutroak duten. Adibidez, erreseinak, blogak, Twitter… Media jardueren gehikuntzarekin, emozioak produktu baliotsu gisa ikusten dira negozioaren ikuspegitik. Jendearen iritzia eta sentimenduak arretaz ebaluatuz, enpresek zentzuz jakin dezakete jendeak zer iritzi duen produktu bati buruz, eta, ondorioz, iritzia txertatu dezake.
Datuen prozesamenduak, datu masiboetatik eta euren artean ezkutuan egon daitezkeen harremanetatik jakintza lortzea du helburu. Beraz, “data lakes”[32] datu biltegietatik, aurreikuspenak eta planak hobeto asmatzeko informazioa ateratzea da lehen pausua, irakurgarri eta ulergarri egiteko.
Datuak lortu ditugunean, prozesatzen hasi aurretik datu horiek garbitu egin behar dira, akatsa duten, guztiz osatuta ez dauden edo zenbait aldiz kopiatuak ditugun datuak kendu eta honela produktu garbi eta erabilgarria izateko.
Datuak prest ditugunean, datu biltegi berrietara sartuko ditugu, eta bertan hasiko da datuen prozesaketa. Honetarako, datuetatik eratorritako arauen bitartez ikasiko duten algoritmoak diseinatu behar dira. Hauek, esperientziarekin ikasi eta aldaketetara hobeto moldatuko dira. Honi, Machine learning deritzogu; ordenagailuei euren kabuz ikasteko gaitasuna ematen dien programa informatikoa.
Sailkapenak eta aurreikuspenetarako erabilia izan da. Adibidez, posta elektronikoaren sailkapen automatikoa. Lehenago osatutako corpus bat sartzen zaio makinari, eta makinak ikasten ditu horko arauak (adibidez, “loteria hitza dituztenak baztertu”…). Beste testuinguruetan ere erabil daiteke: Interneteko informazio bilaketak, medikamentuen diseinua, joera politikoa detektatzeko…
Makinek ikasteko hiru modu daude:
Metodo honetan, ordenagailuari adibidezko datu batzuk (inputak) sartuko zaizkio, eta lortu nahi diren emaitzak (outputak) zeintzuk diren esango zaio; honela berak batetik bestera nola pasatu ikasi beharko du. Hau da, algoritmo espezializatuak behar dituzte datuen patroiak detektatzeko.
Adibidez, gaiaren arabera sailkatutako albisteak erabiliko dira patroiak osatzeko eta, etorkizunean, testu berriak automatikoki sailkatuko dituzte. Bestalde, iritzi publikoaren portaeren aurreikuspenak asmatzeko ere erabili daiteke; inkesta historikoekin osatuko dira perfilak, eta honekin ze alderdiri bozkatuko duten hiritarrek edo agenda sortu berriaren gai bat onartuko duten ala ez deskubrituko da.
Kasu honetan, ordenagailuari ez dizkiogu adibideak ematen berak metodo bat sortzeko, zuzenean soilik emaitza (outputa) emango zaio. Prozedura induktiboak erabiltzen ditu datu soiletatik ezagutza sortzeko (klusterrak). Horrela, dokumentuetatik gaiak, denbora harremanak eta patroiak lortuko dira.
Adibidez, sukaldaritza artikulu batetik barazkien izenak agertuko dira maiztasunez, eta National Geographic-eko artikulu batean, animalienak. Honela ordenagailuak sailkatu ahalko du liburu hori zein gairekin lotzen den. Facebooken aurpegi detekziorako programak ere honela funtzionatzen du.
Azken metodoa, esfortzuzko ikasketa litzateke, dinamikoa den datuekin moldatuko dena; adibidez kotxe bat gidatu edo pertsona baten kontra zuzenean jolastea. Ordenagailuak, datuak momentuan jaso eta interpretatu beharko ditu.
Datuak prozesatu ditugunean, datuen kanporaketa eta interpretazioa soilik falta da, grafiko, taula, argazki, bideo… gisa hartu eta interpretatzea. Amaitzeko, datu horiek berriro gordeko dira datu biltegi batean, besteren batek erabiltzeko. Big datak eta berarekin lotutako tresnek, gizarte zientziak eta komunikazioa beste perspektiba batetik ulertzeko modua ekarri dute, non jakintza eremuen mugak lausotu eta diziplina arteko lan taldeak osatu diren.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.