Loading AI tools
Verarbeiten von großen Datenmengen mit dem Ziel, nicht triviale bzw. nicht offensichtliche Informationen über die Daten zu erhalten Aus Wikipedia, der freien Enzyklopädie
Unter Data-Mining [englisch data mining, aus englisch data ‚Daten‘ und englisch mine ‚graben‘, ‚abbauen‘, ‚fördern‘)[1] versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Solche Datenbestände werden aufgrund ihrer Größe mittels computergestützter Methoden verarbeitet. In der Praxis wurde der Unterbegriff Data-Mining auf den gesamten Prozess der sogenannten „Knowledge Discovery in Databases“ (englisch für Wissensentdeckung in Datenbanken; KDD) übertragen, der auch Schritte wie die Vorverarbeitung und Auswertung beinhaltet, während Data-Mining im engeren Sinne nur den eigentlichen Verarbeitungsschritt des Prozesses bezeichnet.[2]
] (vonDie Bezeichnung Data-Mining (eigentlich etwa „Abbau von Daten“) ist selbst irreführend, denn es geht um die Gewinnung von Wissen aus bereits vorhandenen Daten und nicht um die Generierung oder das Abgreifen von Daten selbst.[3] Die prägnante Bezeichnung hat sich dennoch durchgesetzt. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich ebenfalls mit dem Buzzword Data-Mining bezeichnet. Im wissenschaftlichen Kontext bezeichnet es primär die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[4] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[5] Fayyad definiert es als „ein[en] Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[2]
Das Schließen von Daten auf (hypothetische) Modelle wird als Statistische Inferenz bezeichnet.
Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, oft dabei zu Ungunsten der Genauigkeit approximiert. Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gültigkeit einher, so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar „falsch“ sein können. Für die Anwendung im Data-Mining sind oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit.
Ebenfalls eng verwandt ist das Thema maschinelles Lernen, jedoch ist bei Data-Mining der Fokus auf dem Finden neuer Muster, während im maschinellen Lernen primär bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen. Eine einfache Trennung ist hier jedoch nicht immer möglich: Werden beispielsweise Assoziationsregeln aus den Daten extrahiert, so ist das ein Prozess, der den typischen Data-Mining-Aufgaben entspricht; die extrahierten Regeln erfüllen aber auch die Ziele des maschinellen Lernens. Umgekehrt ist der Teilbereich des unüberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data-Mining verwandt. Verfahren aus dem maschinellen Lernen finden oft im Data-Mining Anwendung und umgekehrt.
Die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen spielt für das Data-Mining eine große Rolle, wenn es darum geht, die Komplexität zu reduzieren. Typische Aufgaben wie Nächste-Nachbarn-Suche können mit Hilfe eines geeigneten Datenbankindexes wesentlich beschleunigt werden und die Laufzeit eines Data-Mining-Algorithmus dadurch verbessert werden.
Das Information Retrieval (IR) ist ein weiteres Fachgebiet, das von Erkenntnissen des Data-Mining profitiert. Hier geht es vereinfacht gesprochen um die computergestützte Suche nach komplexen Inhalten, aber auch um die Präsentation für den Nutzer. Data-Mining-Verfahren wie die Clusteranalyse finden hier Anwendung, um die Suchergebnisse und ihre Präsentation für den Nutzer zu verbessern, beispielsweise indem man ähnliche Suchergebnisse gruppiert. Text Mining und Web Mining sind zwei Spezialisierungen des Data-Mining, die eng mit dem Information Retrieval verbunden sind.
Die Datenerhebung, also das Erfassen von Informationen in einer systematischen Art und Weise, ist eine wichtige Voraussetzung, um mit Hilfe von Data-Mining gültige Ergebnisse bekommen zu können. Wurden die Daten statistisch unsauber erhoben, so kann ein systematischer Fehler in den Daten vorliegen, der anschließend im Data-Mining-Schritt gefunden wird. Das Ergebnis ist dann unter Umständen keine Konsequenz der beobachteten Objekte, sondern verursacht durch die Art, in welcher die Daten erfasst wurden.
Eine etablierte deutsche Übersetzung für den englischen Terminus Data-Mining existiert bislang nicht.[6]
Es gibt verschiedene Versuche, eine sachlich in allen Aspekten zutreffende deutsche Bezeichnung für den ungenauen englischen Ausdruck zu finden. Der Duden[5] beschränkt sich auf den eingedeutschten Anglizismus „Data-Mining“ (engl. „data mining“). Vorschläge zur Eindeutschung sind beispielsweise „Datenmustererkennung“[7] (was oft als Wiedererkennung bestehender Muster missinterpretiert wird) und „Datenschürfung“ (was der Originalbedeutung nicht vollkommen gerecht wird). Der Fremdwörter-Duden verwendet als wörtliche Übersetzung „Datenförderung“, kennzeichnet dies aber als nicht passende Übersetzung.[8] Auch der gezielte Aufruf nach Vorschlägen durch die Zeitschrift für Künstliche Intelligenz brachte keine überzeugenden Vorschläge.[6] Keiner dieser Bezeichner konnte nennenswerte Verbreitung erreichen, oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen, und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen.
Gelegentlich wird die deutsche Bezeichnung „Wissensentdeckung in Datenbanken“ (für das englische Knowledge Discovery in Databases) verwendet, die den gesamten Prozess umfasst, der auch den Data-Mining-Schritt enthält. Des Weiteren betont diese Bezeichnung sowohl die wissenschaftlichen Ansprüche, als auch, dass der Prozess in der Datenbank abläuft (und sich eben nicht beispielsweise ein Mensch durch Interpretation eine Meinung aus den Daten bildet).
Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[4]
In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.
Typische Aufgabenstellungen des Data-Mining sind:[2][4]
Diese Aufgabenstellungen können noch grob gegliedert werden in Beobachtungsprobleme (Ausreißer-Erkennung, Clusteranalyse) und Prognoseprobleme (Klassifikation, Regressionsanalyse).
In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributswerte haben oder von einem generellen Trend abweichen. Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, man spricht hier von „dichtebasierter Ausreißer-Erkennung“.
Identifizierte Ausreißer werden oft anschließend manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. In manchen Anwendungsfällen wie der Betrugserkennung sind aber gerade die Ausreißer die interessanten Objekte.
Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren, die sich auf eine gewisse Art ähnlicher sind als andere Gruppen. Oft handelt es sich dabei um Häufungen im Datenraum, woher der Begriff Cluster kommt. Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS können die Cluster aber beliebige Formen annehmen. Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster.
Objekte, die keinem Cluster zugeordnet wurden, können als Ausreißer im Sinne der zuvor genannten Ausreißer-Erkennung interpretiert werden.
Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.
In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Ein beliebtes (wenn auch anscheinend fiktives) Beispiel, das unter anderem in der Fernsehserie Numbers – Die Logik des Verbrechens erwähnt wurde, ist folgendes: bei der Warenkorbanalyse wurde festgestellt, dass die Produktkategorien „Windeln“ und „Bier“ überdurchschnittlich oft zusammen gekauft werden, meist dargestellt in Form einer Schlussregel „Kunde kauft Windeln Kunde kauft Bier“. Die Interpretation dieses Ergebnisses war, dass Männer, wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden, sich gerne noch ein Bier mitnehmen. Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich[9] der Bierverkauf weiter gesteigert werden.
Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert. Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten, aber auch die Analyse der Abweichung analog zur Ausreißer-Erkennung. Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle für jeden Cluster, so können typischerweise bessere Prognosen erstellt werden. Wird ein starker Zusammenhang festgestellt, so kann dieses Wissen auch gut für die Zusammenfassung genutzt werden.
Da Data-Mining oft auf große und komplexe Datenmengen angewendet wird, ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine für den Nutzer handhabbare Menge. Insbesondere die Ausreißer-Erkennung identifiziert hierzu einzelne Objekte, die wichtig sein können; die Clusteranalyse identifiziert Gruppen von Objekten, bei denen es oft reicht, sie nur anhand einer Stichprobe zu untersuchen, was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert. Die Regressionsanalyse erlaubt es, redundante Informationen zu entfernen und reduziert so die Komplexität der Daten. Klassifikation, Assoziationsanalyse und Regressionsanalyse (zum Teil auch die Clusteranalyse) liefern zudem abstraktere Modelle der Daten.
Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung (durch Stichproben und geringere Komplexität) vereinfacht.
Während die meisten Data-Mining-Verfahren versuchen, mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.
Im Textmining geht es um die Analyse von großen textuellen Datenbeständen. Dies kann beispielsweise der Plagiats-Erkennung dienen oder um den Textbestand zu klassifizieren.
Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Für die Erkennung von Clustern und Ausreißern werden hier aber nicht nur die Seiten selbst, sondern insbesondere auch die Beziehungen (Hyperlinks) der Seiten zueinander betrachtet. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen. Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden.
In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine große Rolle. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping-Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht darin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.
Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: aus nicht repräsentativen Daten können keine repräsentativen Ergebnisse gewonnen werden. Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe.
Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter, die geeignet zu wählen sind. Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen, dass die Ergebnisse auch nützlich sind, ist eine Aufgabe des Benutzers. Wählt man beim Clusteranalyse-Algorithmus DBSCAN beispielsweise die Parameter und klein, so findet der Algorithmus eine fein aufgelöste Struktur, neigt aber auch dazu, Cluster in kleine Stücke zu zerteilen. Wählt man die Parameter größer, so findet er nur noch die Hauptcluster, die jedoch schon bekannt sein können, und dadurch auch nicht hilfreich. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN, die den Parameter weitgehend eliminiert.
Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits Verfahren dann nur schwer automatisiert bewerten kann. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Bei Beschreibungsproblemen wie der Ausreißer-Erkennung und der Clusteranalyse ist dies schwieriger. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen.[10] Die Ergebnisse von Ausreißer-Erkennungs-Verfahren werden mit bekannten Ausreißern verglichen. Bei beiden stellt sich jedoch die Frage, ob diese Bewertung wirklich zur Aufgabenstellung der „neuen Erkenntnisse“ passt und nicht letztlich die „Reproduktion alter Erkenntnisse“ bewertet.
Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung. Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar. Diese maschinell gewonnenen Ergebnisse müssen aber anschließend noch von dem Benutzer interpretiert werden, bevor man sie wirklich als Wissen bezeichnen kann.
Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data-Mining auch zunehmend Einsatz in der Industrie:
Data Mining hat ebenfalls in der Lehre, vor allem der Hochschullehre Einzug erlangt. Im Bildungsbereich spricht man von Educational Data Mining, mit dem in der Pädagogik das Ziel verfolgt wird „aus einer riesigen Datenmenge überschaubare Typen, Profile, Zusammenhänge, Cluster und darauf bezogen typische Abfolgen, Zusammenhänge und kritische Werte zu ermitteln.“ Aus den ermittelten Daten werden Handlungsempfehlungen abgeleitet, um pädagogische Prozesse planen zu können.[13]
Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden. Beziehen sich die analysierten Daten jedoch auf Personen, so entstehen wichtige rechtliche und moralische Probleme; typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten, nicht erst bei der Analyse, und unabhängig von der konkret verwendeten Analysemethode (Statistik, Datenbankanfragen, Data-Mining, …).
Daten, die unzulänglich anonymisiert wurden, können möglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet (deanonymisiert) werden. Typischerweise wird man hier jedoch nicht Data-Mining einsetzen, sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung. Eine derartige Anwendung – und vor allem die unzulängliche Anonymisierung zuvor – sind dann möglicherweise illegal (nach dem Datenschutzrecht). So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren.[14] Werden beispielsweise Bewegungsdaten nur pseudonymisiert, so kann mit einer einfachen Datenbankanfrage (technisch gesehen kein Data-Mining!) oft der Nutzer identifiziert werden, sobald man seinen Wohnort und Arbeitsplatz kennt: die meisten Personen können anhand der 2–3 Orte, an denen sie am meisten Zeit verbringen, eindeutig identifiziert werden.
Das Datenschutzrecht spricht allgemein von der „Erhebung, Verarbeitung oder Nutzung“ personenbezogener Daten, da diese Problematik nicht erst bei der Verwendung von Data-Mining auftritt, sondern auch bei der Verwendung anderer Analysemethoden (bspw. Statistik). Ein zuverlässiger Schutz vor einer missbräuchlichen Analyse ist nur möglich, indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden.
Die Anwendung von Data-Mining-Verfahren auf personenbeziehbare Daten wirft auch moralische Fragen auf. Beispielsweise, ob ein Computerprogramm Menschen in „Klassen“ einteilen sollte. Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. So stellt beispielsweise der SCHUFA-Score eine durch Statistik, vielleicht auch Data-Mining, gewonnene Einteilung der Menschen in die Klassen „kreditwürdig“ und „nicht kreditwürdig“ dar und wird entsprechend kritisiert.
Data-Mining-Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten, ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen. Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert, so kann das überraschte, beleidigte oder befremdete Reaktionen hervorrufen. Daher ist es wichtig abzuwägen, ob und wie man jemanden mit derartigen Ergebnissen konfrontiert.
Google gewährt seinen Nutzern Einblick in die für sie ermittelten Zielgruppen[15] – sofern kein Opt-out erfolgt ist – und liegt dabei oft falsch. Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen, ob eine Kundin schwanger ist.[16] Mit Hilfe dieser Information können gezielt Einkaufsgutscheine verschickt werden. Selbst eine Vorhersage des Datums der Geburt ist so möglich.
Folgende Literatur liefert einen Überblick über das Gebiet Data-Mining aus Sicht der Informatik.
Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.