資料淨化
維基百科,自由的 encyclopedia
資料淨化(data cleaning)是從記錄集、資料庫表或資料庫中檢測和糾正(或刪除)損壞或不準確的記錄的過程,是指辨識資料的不完整、不正確、不準確或不相關部分,然後替換、修改、或刪除髒資料或粗資料[1]。資料淨化可以與資料加工工具互動執行,也可以通過指令碼進行批次處理[2]。
清洗後,一個資料集應該與系統中其他類似的資料集保持一致。 檢測到或刪除的不一致可能最初是由使用者輸入錯誤、傳輸或儲存中的損壞或不同儲存中類似實體的不同資料字典定義引起的。 資料清理與資料確認(data validation)的不同之處在於,資料確認幾乎總是意味著資料在輸入時被系統拒絕,並在輸入時執行,而不是執行於批次資料。
資料淨化不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料淨化軟體能夠自動檢測資料檔案,更正錯誤資料,並用全企業一致的格式整合資料。[3]