Loading AI tools
Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken Aus Wikipedia, der freien Enzyklopädie
Zur Datenbereinigung (englisch data cleansing oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.
Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).
Die Datenbereinigung ist ein Beitrag zur Verbesserung der Datenqualität. Allerdings betrifft dies auch die Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit), die sich mittels Datenbereinigung nicht verbessern lassen.
Der Prozess zur Bereinigung der Daten gliedert sich in fünf aufeinanderfolgende Schritte:[1]
Hochwertige und verlässliche Daten müssen bestimmte Anforderungen erfüllen z. B.
Nachdem die Anforderungen geklärt sind, müssen die Daten z. B. mit Hilfe der Checklisten geprüft werden, inwieweit sie die geforderte Qualität aufweisen. Daraus ergeben sich z. B. die jeweiligen Fehlerquoten.
Bevor man die Daten bereinigt, sollte man die originären, fehlerhaften Daten als Kopie speichern und nach der Bereinigung auf keinen Fall einfach löschen. Ansonsten wären die Bereinigungen nicht nachvollziehbar. Außerdem wäre ein solcher Prozess nicht revisionssicher.
Eine Alternative zur Archivierung insbesondere bei mehreren Bereinigungsläufen ist die Speicherung des korrigierten Werts in einer zusätzlichen Spalte. Eine weitere Möglichkeit ist die Speicherung in einer zusätzlichen Zeile. Die letzte Möglichkeit bei einer großen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle. Die jeweilige Entscheidung hängt auch vom Speicherplatz ab, der zur Verfügung steht.
Für eine erfolgreiche Bereinigung müssen die Daten ggf. standardisiert werden. Dies ist abhängig von den Ergebnissen der Datenanalyse und der Fehlerquote.
Die Strukturierung bringt die Daten in ein einheitliches bzw. verbessertes Format, beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht (01.09.2009). Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt, z. B. der Name eines Kunden in die Namensbestandteile Anrede, Titel, Vorname und Nachname. Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgeführt.
Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet. Diese Normierung kann z. B. für die Anrede, den akademischen Titel oder Firmenzusätze durchgeführt werden. So können beispielsweise die Firmenzusätze e. Kfr. und Kfm durch den normierten Wert e. K. ersetzt werden, wodurch die spätere Bereinigung stark vereinfacht wird.
Für die Bereinigung der Daten stehen sechs Methoden zu Auswahl, die einzeln oder kombiniert angewendet werden können:
Ein besonders häufiger Fall ist die Datenbereinigung bei Anschriften, wobei es unterschiedliche Schreibweise bei den Straßennamen geben kann (abgesehen von „Straße“ und „Strasse“). Auch die Schreibweise bei den Namen kann unterschiedlich sein, obwohl es sich im Einzelfall um ein und dieselbe Person handeln kann. Dadurch entstehen immer wieder Dubletten. Eine sehr umfangreiche Form der Datenbereinigung, die jedoch schon eher eine Migration glich, war die Umstellung von vierstelligen auf fünfstellige Postleitzahlen in Deutschland ab 1990.[2]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.