From Wikipedia, the free encyclopedia
Istraživanje podataka (engl. data mining, koriste se i termini traženje podataka, prekopavanje podataka, rudarenje podataka, dejta majning) je proces otkrivanja šablona u velikim skupovima podataka, korišćenjem metoda mašinskog učenja, statistike i sistema baza podataka.[1] Istraživanje podataka predstavlja interdisciplinarnu podoblast informatike i statistike, čiji je opšti cilj izvlačenje informacija (korišćenjem inteligentnih metoda) iz skupova podataka i transformacija tih informacija u razumljivu strukturu radi dalje upotrebe.[1][2][3][4] Predstavlja korak analize u procesu "otkrivanja znanja u bazama podataka" (engl. knowledge discovery in databases, KDD).[5] Pored samog koraka analize, takođe uključuje i aspekte upravljanja podacima i bazama podataka, pretprocesiranja podataka, razmatranja statističkih modela i zaključaka, metrika zanimljivosti, razmatranja složenosti, postprocesiranja otkrivenih struktura, vizuelizacije i onlajn ažuriranja.[1] Razlika između analize i istraživanja podataka leži u tome što se analiza podataka koristi da bi se statistički modeli i hipoteze testirali na skupu podataka, npr. prilikom analize efikasnosti marketinške kampanje, nevezano od količine podataka. Za razliku od toga, istraživanje podataka koristi mašinsko učenje i statističke modele da otkrije tajne ili skrivene šablone u velikim količinama podataka.[6]
Termin "istraživanje podataka" je zapravo pogrešan, jer je cilj istraživanja izvlačenje šablona i znanja iz velikih količina podataka, a ne izvlačenje (rudarenje) samih podataka.[7] Takođe predstavlja žargonsku frazu[8] koja se često pripisuje bilo kom vidu obimne obrade podataka ili informacija (prikupljanju, izvlačenju, skladištenju, analizi i statistici) kao i bilo kojoj primeni računarskih sistema za podršku odlučivanju, uključujući i veštačku inteligenciju (npr. mašinsko učenje) i poslovnu inteligenciju. Knjiga Data mining: Practical machine learning tools and techniques with Java[9] (koja većinski pokriva teme mašinskog učenja) je prvenstveno trebalo da bude nazvana Practical machine learning, dok je termin istraživanje podataka (engl. data mining) dodat isključivo iz marketinških razloga.[10] Često su prikladniji opštiji termini (velikih razmera) kao što su analiza podataka i analitika ili, ukoliko se priča o stvarnim metodama, veštačka inteligencija i mašinsko učenje.
Stvaran zadatak istraživanja podataka jeste poluautomatska ili automatska analiza velike količine podataka kako bi se izvukli prethodno nepoznati, zanimljivi šabloni kao što su grupe zapisa podataka (analiza klastera), neobični zapisi (otkrivanje nepravilnosti) i zavisnosti (istraživanje pravilom asocijacije, istraživanje sekvencijalnih šablona). To obično uključuje korišćenje tehnika baza podataka kao što su prostorni indeksi. Ovi šabloni se onda mogu posmatrati kao vrsta kratkog pregleda ulaznih podataka i mogu se koristiti za dalju analizu ili, na primer, za mašinsko učenje i prediktivnu analitiku. Korak istraživanja podataka može, na primer, otkriti više grupa među podacima, koje se onda mogu koristiti kako bi se dobile preciznije prognoze rezultata korišćenjem sistema za podršku odlučivanju. Prikupljanje i priprema podataka, kao i tumačenje rezultata i izveštavanje, nisu deo koraka istraživanja podataka, ali kao dodatni koraci pripadaju KDD procesu.
Povezani pojmovi kopanje podataka, pecanje za podacima i njuškanje za podacima odnose se na primenu metoda istraživanja podataka da bi se uzorkovali delovi veće populacije skupova podataka koji su (ili bi mogli biti) premali da se na osnovu njih dođe do pouzdanih statističkih zaključaka o opravdanosti otkrivenih šablona. Ove metode se, ipak, mogu koristiti prilikom stvaranja novih hipoteza koje bi se koristile za testiranje na većim populacijama podataka.
Tokom 1960-ih, statističari i ekonomisti su koristili izraze poput pecanje podataka ili kopanje podataka koji su se odnosili na ono što su oni smatrali lošom praksom analiziranja podataka bez apriori hipoteze. Ekonomista Majkl Lovl (engl. Michael Lovell) izraz "istraživanje podataka" koristi na slično ključan način u članku objavljenom u Pregledu ekonomskih nauka (engl. Review of Economic Studies) 1983. Lovl ukazuje da se istraživanje podataka "skriva pod više različitih alijasa od "eksperimentisanje" (pozitivno) do "pecanje" ili pak "njuškanje"(negativno)."[11]
Izraz istraživanje podataka se pojavio oko 1990. u zajednici koja se bavila bazama podataka koje rade sa bazama podataka, uglavnom sa pozitivnom konotacijom. Kratkoročno tokom 1980-ih se koristio izraz "istraživanje baza podataka"™, ali nakon što ga je HNC, kompanija iz San Dijega, zaštitila kako bi predstavila Database Mining Workstation;[12] istraživači su se stoga okrenuli izrazu istraživanje podataka. Drugi korišćeni izrazi uključuju arheologija podataka, skupljanje informacija, otkrivanje informacija, izvlačenje znanja, itd. Gregori Pjatecki Šapiro (engl. Gregory Piatetsky-Shapiro) je osmislio izraz "otkrivanje znanja u bazama podataka" za prvu radionicu (KDD-1989) na istu temu i ovaj izraz je postao popularniji u zajednici veštačke inteligencije i mašinskog učenja. Međutim, izraz istraživanje podataka je postao popularniji u novinarskim i poslovnim zajednicama.[13] Trenutno, izrazi istraživanje podataka i otkrivanje znanja mogu da se koriste razmenljivo.
U akademskoj zajednici, glavni forumi za istraživanje su započeti 1995. kada je Prva internacionalna konferencija o istraživanju podataka i otkrivanju znanja (KDD-95) osnovana u Montrealu pod pokrićem AAAI. Koorganizatori su bili Usama Fajad i Ramsami Uturusami. Godinu dana kasnije, 1996. Usama Fajad je osnovao Kluverov časopis koji se zvao Istraživanje Podataka i Otkrivanje Znanja (engl. Data Mining and Knowledge Discovery) kao glavni urednik. Kasnije je pokrenuo SIGKDD pretplatu na časopis SIGKDD istraživanja (engl. SIGKDD Explorations) .[14] KDD Internacionalna konferencija je postala primarno najkvalitetnija konferencija u oblasti istraživanja podataka sa stopom prihvatanja predloga naučnih radova ispod 18%. Časopis Istraživanje podataka i otkrivanje znanja (engl. Data Mining and Knowledge Discovery) je primarni istraživački časopis u ovoj oblasti.
Vekovima su se šabloni ručno izvlačili iz podataka. Rane metode prepoznavanja šablona u podacima uključuju Bajesovu teoremu (1700-te god.) i regresionu analizu (1800-te god.). Širenje, sveprisutnost i rastuća moć kompjuterske tehnologije je dramatično povećala prikupljanje podataka, skladištni prostor i mogućnost manipulacije njima. Pošto su skupovi podataka postali veći i kompleksniji, direktni analiza podataka je poboljšavana indirektnom, automatskom obradom podataka, uz pomoć drugih otkrića u informatici poput neuronske mreže, analize klastera, genetskih algoritama, (1950-te god.) stabla odlučivanja i pravila odlučivanja (1960.) i metode potpornih vektora (1990-te god.). Istraživanje podataka je proces primenjivanja ovih metoda sa namerom otkrivanja skrivenih šablona[15] u veilkim skupovima podataka. Prevazilazi jaz između primenjene statistike i veštačke inteligencije (koja uglavnom pruža matematičku potporu) u upravljanju bazama podataka korišćenjem načina na koji se podaci skladište i indeksiraju u bazama podataka kako bi se algoritmi za učenje i otkrivanje izveli efikasnije, omogućavajući takvim metodama da budu primenjene na sve većim skupovima podataka.
Proces otkrivanja znanja u bazama podataka je obično definisan sledećim koracima:
Međutim, postoji mnogo varijacija ovog modela, kao što je Među-industrijski standardni proces za istraživanje podataka (engl. CRISP DM - Cross-industry standard process for data mining), koji definiše šest faza:
ili pojednostavljen proces kao što je (1) pretprocesiranje, (2) istraživanje podataka i (3) potvrđivanje rezultata.
Ankete sprovedene u 2002, 2004, 2007. I 2014. godini, pokazuju da je CRISP-DM metodologija najkorišćenija među rudarima podataka.[16] SEMMA je bio jedini drugi standard istraživanja podataka u ovim anketama. Međutim, 3 do 4 puta više ljudi je reklo da koristi CRISP-DM metodologiju. Nekoliko timova istraživača je objavilo preglede modela procesa istraživanje podataka,[17][18] a Azvedo i Santos su sproveli poređenje CRISP-DM i SEMMA modela 2008. godine.[19]
Pre korišćenja algoritama za istraživanje podataka, mora se sastaviti ciljani skup podataka. Kako istraživanje podataka može da otkrije jedino šablone koji zapravo postoje u podacima, ciljani skup podataka mora da bude dovoljno veliki da sadrži te šablone, ali i da bude dovoljno mali da bi mogao da se istražuje u prihvatljivim vremenskim granicama. Čest izvor podataka jesu tržište podataka i skladište podataka. Pretprocesiranje je neophodno za analizu multivarijabilnih skupova podataka pre istraživanja podataka. Ciljani skup podataka se zatim sređuje. Sređivanje podataka uklanja sva posmatranja koja sadrže šum ili kojima nedostaju vrednosti.
Istraživanje podataka se sastoji iz šest čestih tipova zadataka:[5]
Istraživanje podataka se može nesvesno loše iskoristiti, što zatim dovodi do rezultata koji na prvi pogled deluju bitno; ali zapravo ne predviđaju buduće ponašanje niti mogu biti reprodukovani na novim uzorcima podataka, te nemaju nikakve koristi. Ovakvi rezultati su česti nakon istraživanja previše hipoteza i nakon lošeg statističkog testiranja hipoteza. Jednostavan oblik ovog problema u mašinskom učenju se zove preprilagođavanje modela. Kako se taj problem može pojaviti u različitim fazama procesa, to dovodi do toga da razdvajanje na trening i test skupove - kada je to uopšte moguće - nije dovoljno da spreči pojavu ovog problema.[20]
Poslednji korak u otkrivanju znanja iz podataka je potvrđivanje da šabloni koje su proizveli algoritmi istraživanja podataka, postoje u celom skupu podataka. Nisu svi šabloni koje su ti algoritmi pronašli nužno tačni. Često se dešava da algoritmi istraživanja podataka pronađu šablone u trening skupu koji ne postoje u celokupnom skupu podataka. Ovo se zove pretreniranje modela. Kako bi se ovaj problem prevazišao, u proceni se koristi test skup podataka na kojima algoritmi istraživanja nisu trenirani. Naučeni šabloni se primenjuju na tom test skupu, a krajnji rezultat se poredi sa traženim rezultatom.
Na primer, algoritam istraživanja podataka koji pokušava da razdvoji „spem” i „legitimne” imejlove, bio bi treniran na trening skupu imejl uzoraka. Po završetku treniranja, naučeni šabloni se primenjuju na test skupu imejlova na kom algoritam nije bio treniran. Preciznost šablona se zatim meri po tome koliko imejlova je tačno klasifikovano. Postoji veliki broj statističkih metoda za procenu algoritma, kao što su na primer ROC krive(engl. Receiver operating characteristic) .
Ili na primeru regresije, algoritam istraživanja bi bio takođe treniran na trening skupu, ali bi predviđao na primer temperaturu sledećeg dana. Zatim bi se taj naučeni šablon primenio na test skupu. Primer statističke metode za procenu regresionih modela je koren srednje kvadratne greške (eng. Root Mean Squared Error, RMSE).
Ako naučeni šabloni ne dostižu željene standarde, neophodno je da naknadno preispitamo i izmenimo korake pretprocesiranja i istraživanja podataka. Ako naučeni šabloni dostižu željene standarde, onda je poslednji korak da se protumače ti šabloni, a zatim i pretvore u znanje.
Glavno telo u struci je Specijalna Ineteresna grupa (SIG) Udruženja za računarske mašine (engl. Association for Computing Machinery, ACM) za otkrivanje znanja i rudarenje podataka (SIGKDD)”. .[21][22] Od 1989. godine, ACM SIG domaćin je godišnje internacionalne konferencije i objavljuje svoj zapisnik[23], a od 1999. godine objavljuje svoj dvogodišnji akademski žurnal čije je ime SIGKDD Explorations.[24]
Konferencije za rudarenje podataka u informatici sadrže:
Teme o istraživanju podataka su takođe prisutne na mnogim konferencijama o upravljanju podataka/bazama podataka kao što su ICDE konferencija, SIGMOD konferencija i Internacionalna konferencija o veoma velikim bazama podataka.
Postojali su napori da se definišu standardi za proces istraživanja podataka, na primer evropski međuindustrijski standardni proces za istraživanje podataka (CRISP-DM 1.0) iz 1999. godine i standard za istraživanje podataka u Javi (JDM 1.0) iz 2004. godine. Razvoj naslednika ovim procesima (CRISP-DM 2.0 i JDM 2.0) bio je aktivan u 2006. ali je od tada zaustavljen. JDM 2.0 je povučen pre dostizanja krajnje verzije.
Za razmenu izvučenih modela - posebno za korišćenje u prediktivnoj analitici - ključni standard je PMML (eng. Predictive Model Markup Language), koji je jezik baziran na XML-u, razvijan od strane Grupe za istraživanje podataka (eng. Data Mining Group, DMG) i podržan kao format razmene od mnogih aplikacija za istraživanje podataka. Kao što ime kaže, pokriva samo prediktivne modele, poseban zadatak velike važnosti za poslovne aplikacije. Međutim, nastavci za podržavanje(na primer) klasterovanja potprostora bili su predloženi nezavisno od DMG.[25]
Istraživanje podataka se koristi kad god ima dostupnih digitalnih podataka. Značajni primeri istraživanja podataka mogu se naći u poslovanju, medicini, nauci i nadzoru.
Dok termin "istraživanje podataka" nema etičkih implikacija, često se povezuje sa istraživanjem informacija povezanih sa ljudskim ponašanjem (etičkim ili ne).[26]
Način na koji se istraživanje podataka koristi može u određnom kontekstu ili slučajevima dovesti u pitanje privatnost, zakonitost i etiku.[27] Naročito, vlada za istraživanje podataka ili komercijalni skupovi podataka za potrebe nacionalne bezbednosti ili sprovođenja zakona, kao što je u Programu svesne informisanosti (engl. Total Information Awareness Program) ili u ADVISE-u, pokrenuli su pitanje o privatnosti.[28][29]
Istraživanje podataka zahteva njihovo pripremanje koje može otkriti informacije ili šablone koji mogu ugroziti obaveze poverljivosti i privatnosti. Uobičajen način da se to dogodi je agregacija podataka. Ona obuhvata kombinovanje podataka (eventualno sa različitih izvora) na način koji olakšava analizu (ali to takođe može učiniti identifikaciju privatnih ili podataka na individualnom nivou deduktivnim ili na drugi način vidljivim).[30] Ovo nije istraživanje podataka per se, već rezultat prethognog pripremanja podataka - za potrebe - analize. Pretnja privatnosti pojedinca stupa na snagu kada podaci, kada se jednom kompajliraju, uzrokuju da rudar podataka, ili bilo ko ko ima pristup novosastavljenom skupu podataka, bude u mogućnosti da identifikuje određene pojedince, posebno kada su podaci bili izvorno anonimni.[31][32][33]
Preporučuje se da se pojedinac upozna sa sledećim pre prikupljanja podataka:[30]
Podaci se takođe mogu modifikovati tako da postanu anonimni, tako da se pojedinci ne mogu lako identifikovati.[30] Međutim, čak i "deidentifikovani"/"anonimizovani" skupovi podataka mogu potencijalno da sadrže dovoljno informacija koje omogućuju identifikaciju pojedinaca, kao što se dogodilo kada su novinari uspeli da pronađu nekoliko osoba na osnovu skupa istorije pretraživanja koje je nehotice objavio AOL.[34]
Nehotično otkrivanje ličnih informacija, koje vode do provajdera, krši Praksu poštene informacije. Ova nesmotrenost može prouzrokovati finansijske, emocionalne ili telesne povrede pojedincima. U jednom slučaju kršenja privatnosti, pokrovitelji Valgrinsa podneli su tužbu protiv kompanije 2011. godine zbog prodaje informacija o receptu kompanijama za istraživanje podataka, koje su zatim dostavljale te podatke farmaceutskim kompanijama.[35]
Evropa ima prilično jake zakone o privatnosti i u toku su napori za dalje jačanje prava potrošača. Međutim, Američko-Evropski "Principi sigurne luke" (engl. U.S.-E.U. Safe Harbor Principles) trenutno efektivno dozvoljavaju američkim kompanijama iskorišćavanje privatnosti evropskih korisnika. Kao posledica Razotkrivanja globalnog nadzora (engl. global surveillance disclosures) Edvarda Snuodena, došlo je do pojačane rasprave o opozivu ovog sporazuma, naročito zbog potpune izloženosti podataka Nacionalnoj sigurnosnoj agenciji, a pokušaji da se postigne sporazum su propali.Šablon:Potreban citat
U Sjedinjenim Američkim Državama, Kongres SAD se bavio pitanjima privatnosti usvajanjem regulatornih kontrola kao što je Zakon o prenosivosti i odgovornosti za zdravstveno osiguranje (engl. Health Insurance Portability and Accountability Act, HIPAA). HIPAA zahteva od pojedinaca da daju svoj "informisani pristanak" u vezi informacija koje pružaju i nameravanim sadašnjim i budućim upotrebama. Prema članku objavljenom u Biotech Business Week-u, " U praksi, HIPAA možda neće ponuditi veću zaštitu od dugogodišnjih propisa u oblasti istraživanja, " kaže AAHC. "Važnije, cilj pravila zaštite putem informisanog pristanka približava se nivou nerazumljivosti za prosečne pojedince.” [36] Ovo naglašava potrebu za anonimnošću podataka u agregaciji podataka i rudarskim praksama.
Zakonodavstvo SAD-a o privatnosti informacija kao što je HIPAA i Zakon o porodičnim obrazovnim pravima i privatnosti (engl. Family Educational Rights and Privacy Act, FERPA), odnosi se samo na specifične oblasti na koje se odnosi svaki takav zakon. Korišćenje istraživanja podataka od strane većine preduzeća u SAD ne kontroliše nijedno zakonodavstvo.
Zbog nedostatka fleksibilnosti u evropskom zakonu o autorskim pravima i bazama podataka, istraživanje radova sa autorskim pravima kao što je istraživanje internet sadržaja bez dozvole vlasnika autorskih prava nije legalno. Dok je u Evropi baza podataka koja je skup čistih podataka verovatno bez autorskih prava, ali prava baze podatka možda postoje, što znači da istraživanje podatka postaje predmet propisa Direktive baza podataka. Na predlog Hargrivsovog pregleda (engl. eng. Hargreaves review), ovo je uzrokovalo da vlada Ujedinjenog kraljevstva izmeni svoj zakon o autorskim pravima 2014. godine[37] da bi dozvolila istraživanje sadržaja kao ograničenje i izuzetak. Tek sledeća zemlja na svetu posle Japana, koja je uvela izuzetak 2009. godine za istraživanje podataka. Međutim, zbog restrikcija Direktive autorskih prava, izuzetak Ujedinjenog kraljevstva dozvoljava samo istraživanje za nekomercijalne svrhe. Zakon autorskih prava Ujedinjenog kraljevstva takođe ne dozvoljava promenu ove mere ugovornim uslovima. Evropska komisija olakšala je diskusiju zainteresovanim stranama o istraživanju teksta i podataka 2013. godine pod nazivom “Licence za Evropu” (eng. Licences for Europe).[38] Fokus na rešenje ovog pravnog pitanja koje su licence, a ne ograničenja i izuzeci dovelo je predstavnike univerziteta, istraživača, biblioteka, grupa civilnog društva i izdavače otvorenog pristupa da napuste dijalog zainteresovanih strana u maju 2013. godine.[39]
U kontrast Evropi, fleksibilna priroda američkog zakona o autorskim pravima, a posebno poštene upotrebe znači da istraživanje sadržaja u Americi, kao i ostalim državama sa sličnim zakonom kao što su Izrael, Tajvan, Južna Koreja smatra se legalnim. Pošto je istraživanje sadržaja transformativno, što znači da ne zamenjuje originalno delo, smatra se da je zakonito pod poštenom upotrebom. Na primer, kao deo u nagodbi Gugl knjiga, presedavajući sudija na slučaju presudio je da je Guglov projekat digitalizacije knjiga sa autorskim pravima zakonit, delom zbog transformativnog korišćenja koji je projekat prikazivao - jedan od kojih je istraživanje teksta i podatka.[40]
Sledeće aplikacije su dostupne uz besplatne ili licence otvorenog koda. Takođe je dozvoljen javni pristup izvršnom kodu aplikacija.
Sledeće aplikacije su dostupne uz vlasničke licence:
Nekoliko istraživača i organizacija je sprovelo pregled alata za istraživanje podataka i anketiranje rudara podataka. Oni otkrivaju neke prednosti i mane softverskih paketa. Takođe obezbeđuju pregled ponašanja, preferencija i stavova rudara podataka. Neki od tih izveštaja sadrže:
Seamless Wikipedia browsing. On steroids.