資料探勘中,異常檢測(英語:Anomaly detection)對不符合預期模式或資料集中其他專案的專案、事件或觀測值的辨識。[1]通常異常專案會轉變成銀行欺詐英語bank fraud、結構缺陷、醫療問題、文字錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。[2]

特別是在檢測濫用與網路入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,於是許多異常檢測方法(特別是無監督的方法)將對此類資料失效,除非進行了合適的聚集。相反,聚類分析演算法可能可以檢測出這些模式形成的微聚類。[3]

有三大類異常檢測方法。[1] 在假設資料集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他資料最不匹配的實例來檢測出未標記測試資料的異常。監督式異常檢測方法需要一個已經被標記「正常」與「異常」的資料集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練資料集建立一個表示正常行為的模型,然後檢測由學習模型生成的測試實例的可能性。

應用

異常檢測技術用於各種領域,如入侵檢測欺詐檢測、故障檢測、系統健康監測、感測器網路事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從資料集的異常資料。在監督式學習中,去除異常資料的資料集往往會在統計上顯著提升準確性。[4][5]

熱門方法

文獻中提出了幾種異常檢測方法。一些熱門方法有:

不同方法的效能在很大程度上取決於資料集和參數,比較許多資料集和參數時,各種方法與其他方法相比的系統優勢不大。[24][25]

資料安全方面的應用

多蘿西·丹寧英語Dorothy E. Denning教授在1986年提出了入侵檢測系統(IDS)的異常檢測方法[26]。入侵檢測系統的異常檢測通常是通過閾值和統計完成的,但也可以用軟計算和歸納學習。[27] 在1999年提出的統計類型包括檢測使用者、工作站、網路、遠端主機與使用者群組的設定檔,以及基於頻率、均值、方差、協方差和標準差的程式。[28]入侵檢測系統中,與異常檢測模式相對應的還有誤用檢測英語misuse detection模式。

軟體

  • ELKI英語ELKI是一個包含若干異常檢測演算法及其索引加速的開源Java資料探勘工具箱。

參見

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.