Andmekaeve[1] ehk andmekaevandamine[2] (inglise keelesdata mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest. Andmekaeve on võrdlemisi noor uurimisvaldkond ning selle abil püütakse leida andmeid, mis jäävad oma struktuuri või mahu tõttu traditsioonilistele meetodile varjatuks.
Andmekaeve hõlmab paljusid teadusharusid ja metoodikaid. Neist olulisemad on tehisintellekt (masinõpe, hägusloogika), statistika (sämplimine, hüpoteesi testimine) ja informaatika (otsimis- ja sorteerimisalgoritmid, andmebaasisüsteemid).
Mõiste "andmekaeve" kohta on mitmeid tunnustatud definitsioone:
Andmekaeve on üks etapp teadmushõivest, mille eesmärgiks on automaatselt pöörata toorandmed kasulikeks teadmisteks.[3]
Andmekaeve on mahukate andmete analüüs, leidmaks uusi seaduspärasusi ja ootamatuid seoseid, ning summeerimaks andmeid sellisel uudsel viisil, et need oleksid samaaegselt arusaadavad ja kasulikud.[4]
Andmekaevandus sai alguse 1980. aastate lõpus, kui kanda olid kinnitanud relatsioonandmebaasid ning tutvustati esimesi andmekaeve paradigmasid.
Suurem läbimurre toimus alles 1990. aastate keskel ning sestpeale võib andmekaevet vaadelda kui infotöötluse loomuliku arengusammu, mis järgnes arvutustehnika võimsuse kasvule ja andmetalletamise odavnemisele, sest olemasolev infohulk ei suutnud rahuldada kasvavat teadmistenälga, mida tol ajal süvendas interneti buum (dot.com).
Andmemahud – andmekaeve on skaleeritav erinevatele andmehulkadele, mistõttu suudab paralleelselt käidelda nii ülimahukaid kui ka väiksemahulisi andmeid, mis on sobivad klassikalise andmeanalüüsi meetoditele.
Suuremahulised andmed – andmekaeve suudab hakkama saada andmetega, mis võivad sisaldada tuhandeid atribuute; näitena võib välja tuua geenide mikromassiivid ja asukohapõhiste andmete kaevandamise;
Keerukad ja heterogeensed andmehulgad – traditsioonilised andmeanalüüsi meetodid saavad hakkama vaid sama tüüpi numbriliste suurustega, mis võivad olla kas pidevad või kategoorilised suurused; andmekaeve suudab toime tulla keerukamate andmetega, mis võivad lisaks numbrilistele suurustele sisaldada tekstiväärtusi, ning on kohandatav andmetele, mis võivad olla hierarhilised või seostega lingitud.
Andmete kuuluvus ja haldus – andmeanalüüsiks olulised andmestikud ei asu tihti ühes kohas ning on pärit mitme organisatsioonid andmelaost, mistõttu on oluline, et suudetaks vahetatavate andmete mahtu vähendada ning oleks võimalik turvaline hajusarvutamine; andmekaevandus võimaldab vähendada andmete töötlemisel kaasnevaid isikuandmete ja eetika probleeme.
Hüpoteesi püstitamine – traditsioonilised statistilised meetodid põhinevad põhimõttel "püstita hüpotees ja kontrolli", mis seisneb selles, et püstitati hüpotees ning hakati eksperimendile sobilikke andmeid koguma, mida saaks vastavalt hüpoteesile analüüsida. See protsess on väga töömahukas ning raskesti automatiseeritav, sest nõuab pidevat inimesepoolset juhtimist.
Teadmushõive ja andmekaeve
Traditsiooniliselt loetakse andmekaevandust teadmushõive üheks protsessiks.[3][5]
Jiawei Han on oma raamatus "Data Mining – Concepts and Techniques" toonud andmekaeve nimetuse teadmushõivega samavääristamine põhjenduseks, et kolmandad osapooled (turundajad, andmebaasisüsteemide loojad) on võtnud ühe teadmushõive protsessi etapi ning üldistanud selle kogu protsessile.
Fayyad toob oma teoses [6] välja selgemini mõistetava põhjenduse – andmekaeve on teadmushõive tuum-etapp, teised teadmushõive etapid täidavad vaid toetavat rolli, seetõttu on loomulik andmekaeve mõiste ülekandumine teadmushõivele.
Andmete puhastamine – müra eemaldamine ja andmete ühtlustamine
Andmete kombineerimine – erinevate andmeallikate koondamine
Andmete alamosadeks jaotamine – edasiseks analüüsiks vajalike andmete hankimine ja valimine
Andmete transformeerimine ja normeerimine – muutujate koondamine üheks, pidevate suuruste diskreetimine, sh ka binaarsete suuruste tekitamine
Teadmiste hankimine
Andmete kaevandamine – sobivate mudelite valik
Järelanalüüs
Tulemuste hindamine – testandmete rakendamine; Hinnatakse leitud mustri huviväärsust, selleks peab leitud tulemus olema hõlpsalt tõlgendatav, püsiv (või hinnatava muutlikkusega), kasulik ja informatiivne.
Teadmiste rakendamine – tulemuste rakendamine ülesannetes või info lisamine eskertsüsteemidesse.
Tulemuste hindamise süsteem – testandmete rakendamine ja tulemuste hindamine.
Kasutajaliides – tulemuste kuvamine ja tegevuste seire
CRISP-DM protsessimudel
Juhtivate andmeanalüüsi ettevõtete loodud standard, mille eesmärk on kaitsta ärihuve ja ühtlustada andmekaeve protseduure, et protseduurid suudaksid tagada valdkonna ja vahendite sõltumatuse.
Protsesside lühiülevaade
Valdkonnaga tutvumine -äriliste eesmärkide kinnitamine, alusteadmiste kogumine ja nendega tutvumine.
Andmete mõistmine – andmete kogumine, struktuuri ja andmete kvaliteediga tutvumine.
Andmete ettevalmistamine – suuruste tranformeerimine ja kohandamine algoritmidele sobivale kujule.
Andmekaevandamine – sobivate tehnikate valimine ja rakendamine ettevalmistatud andmetel
Tulemuste hindamine – hinnatakse tulemuste vastavust punktis 1 kokkulepitud äriliste eesmärkidega.
Juurutamine – uute ja kasulike teadmiste integreerimine otsussüsteemidesse või lisamine teadmusbaasi.
Töömahu hinnanguline kulu protsesside kaupa
More information Protsess, Ajakulu (%) ...
Protsess
Ajakulu (%)
Alamprotsessid
Äripool
Analüütik
IT
Valdkonnaga tutvumine
5–10
Eesmärkide püstitamine, edukuse määratlemine
X
Andmete mõistmine
10–15
algandmete kogumine, andmete uurimine, kvaliteedi esmahinnang
X
X
Andmete ettevalmistamine
30–60
andmete valimine, puhastamine, kohandamine
X
X
Modelleerimine
20–30
Tehnikate ja tööriistade valimine, mudelite koostamine
X
Tulemuste hindamine
20–30
Kasulikuma mudeli valimine, mudeli tulemuste selgitamine
X
X
Rakendamine
5–10
Teadmiste rakendamine, monitoorimine ja hooldus
X
X
X
Close
Jagunevad üldiselt kahte kategooriasse:
Prognoosiv analüüs (inglise Predictive Analysis, vene Предсказательная аналитика) – eesmärk on olemasolevate andmete põhjal tuleviku või tundmatute väärtuste hindamine.
üks näiteid on regressioon, mis sarnaneb klassifitseerimisega, kuid mille väljund on pidev reaalarvuline suurus.
Klasterdamine – juhendamiseta õppimine, juhindutakse vaid andmete laadi järgi, rühmitatakse põhimõttel "suurendada rühmadevahelist sarnasust ning suurendada rühmadevahelist erinevust".
(SOM, ... )
Seoste, mustrite analüüs – ostukorvi analüüs, põhjuslik-tagajärg jne.
Anomaaliate analüüs – teistest juhtumitest erinevate suuruste väljatoomine, täiendab statistilisi meetodeid, mis hindavad erijuhtumeid hälbe või tõenäosusega
Evolutsiooni analüüs – eesmärk on uurida trendide muutumist
Visualiseerimine – (graafiline kaevandamine (inglise visual mining)) – mõnikord väga kasulik tehnika, sest sageli on inimese mustrite genereerimisvõime on märksa suurem kui programmil, sobiv tehnika tulemuste vahevalideerimiseks
Ajakirjanduses võib kohata andmekaevanduse vääriti tõlgendamist ja mõiste liigset laiendamist, mille tulemusena on täiesti omaette tehnoloogiamõisted koondatud andmekaeve alla. Mõistete segiajamine on valdavalt tingitud andmekaeve noorusest, paljud mõisted pole kinnistunud ja tehnoloogiamõistete hulk suureneb väga kiiresti.
Otsingumootorid, andmekogud – otsingu algoritmid võivad olla keerulised ja töötada suurte andmehulkadega, kuid tulemuste kuvamisel ei rakendata andmekaevanduse metoodikaid. Segiajamine on tingitud sellest, et otsingumootorid kasutavad teadmiste hankimisel andmekaeve algoritme, kuid ei tee seda otsingutulemuste kuvamisel.
OLAP – andmelaonduse vaatevinklist võib andmekaeve paista kui täiustatud OLAP. Kuid OLAP seisneb vaid suurte andmekuupide koondamisel ja lõikamisel ning on info esitusviisilt deduktiivne (üldistav), samas on andmekaeve oma olemuselt induktiivne. Segiajajad on samuti ära unustanud, et OLAP pole automaatne, vaid teadmise hankimisel on vaja inimesepoolset juhendamist.
Masinõppe süsteem – kui kasutatakse inimese intellekti jäljendamisel, aga mitte informatsiooni paljastamisel andmehulkadest (pole pelgalt ML).
Statistilise analüüsi süsteem – graafilised kellad-viled petavad ära ning segiajajad on jällegi ära unustanud, et andmekaeve on automaatne protsess.
Statistika ja andmekaevandus
Andmekaeve algusperioodil põhjustas uus andmetöötluse metoodika tuliseid vaidlusi ja sagedast mõistete segiajamist. Traditsiooniliste statistikute jaoks oli andmekaeve mõiste segane ja nad pidasid seda pelgalt äriliste ettevõtmiste uueks turundustrikiks ning hiljem, kui andmekaeve oli saavutanud arvestatava kõlapinna, hakkasid mitmed juhtivad statistikud andmekaevanduse mõistet suruma statistika alla.[7][8]
Tänapäeval on mõiste "andmekaeve" paika loksunud ning Fayyadi raamatus[6] on esitatud selged piirid statistika ja andmekaeve vahel:
"Statistikat defineeritakse kui meetodit andmete kogumiseks, esitlemiseks, kokkuvõtmiseks, hüpoteeside testimiseks ning järelduste tegemiseks, kasutades induktiivseid ja deduktiivseid arutluskäike. Andmekaevanduse eesmärgiks on eelkõige olemasolevatest andmetest huvitavate struktuuride määratlemine ning andmete vaheliste seoste ja mustrite leidmine, kasutades induktiivseid ja tehisintellekti tehnikaid. "
Väike erisuste loend
Eesmärk on sama
Metoodikad on erinevad
Statistika formaliseerib hüpoteesi enne andmete analüüsi
Statistika võimaldab testida üht hüpoteesi korraga.
Andmekaeve ülesande lahendamine ei eelda hüpoteesi püstitamist
Töödeldavad infomahud erinevad kordades
Andmekaevel on parem erijuhtumite ja müra tundlikkus
Peale- ja ristmüügi võimaluste (tõenäosuste) prognoosimine
Privaatsuspoliitika ja paranoiline (paraku mitte alati alusetu) hoiak erinevate eraeluliste andmete kogumisel tekitab sageli avalikke diskussioone erinevate andmete analüüsimise eetika kohta, seda ka Eestis.[9]
Reaalajaliste andmete töötlemise tundlikkuse ja kasulikkuse vahel tuleb teha kompromiss, sest saadud kasu on tavaliselt suurem. Näiteks nutitelefonide asukoha kaevandamine võimaldab paremini juhtida liiklust ning vähendada ummikuid. Samas küüniline allikate hägustamine ei pruugi veel tagada isikuandmete varjamist, sest mõnikord on võimalik mitme allika koondamisel tundlikud andmed taastada.[10]