在資料探勘中,異常檢測(英語:Anomaly detection)對不符合預期模式或資料集中其他專案的專案、事件或觀測值的辨識。[1]通常異常專案會轉變成銀行欺詐、結構缺陷、醫療問題、文字錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。[2]
特別是在檢測濫用與網路入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,於是許多異常檢測方法(特別是無監督的方法)將對此類資料失效,除非進行了合適的聚集。相反,聚類分析演算法可能可以檢測出這些模式形成的微聚類。[3]
有三大類異常檢測方法。[1] 在假設資料集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他資料最不匹配的實例來檢測出未標記測試資料的異常。監督式異常檢測方法需要一個已經被標記「正常」與「異常」的資料集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練資料集建立一個表示正常行為的模型,然後檢測由學習模型生成的測試實例的可能性。
異常檢測技術用於各種領域,如入侵檢測、欺詐檢測、故障檢測、系統健康監測、感測器網路事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從資料集的異常資料。在監督式學習中,去除異常資料的資料集往往會在統計上顯著提升準確性。[4][5]
文獻中提出了幾種異常檢測方法。一些熱門方法有:
不同方法的效能在很大程度上取決於資料集和參數,比較許多資料集和參數時,各種方法與其他方法相比的系統優勢不大。[24][25]
多蘿西·丹寧教授在1986年提出了入侵檢測系統(IDS)的異常檢測方法[26]。入侵檢測系統的異常檢測通常是通過閾值和統計完成的,但也可以用軟計算和歸納學習。[27] 在1999年提出的統計類型包括檢測使用者、工作站、網路、遠端主機與使用者群組的設定檔,以及基於頻率、均值、方差、協方差和標準差的程式。[28] 在入侵檢測系統中,與異常檢測模式相對應的還有誤用檢測模式。
- ELKI是一個包含若干異常檢測演算法及其索引加速的開源Java資料探勘工具箱。
- 統計學中的離群值
- 變化檢測
- 新奇檢測
- 分級暫存記憶
Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning. Data mining for network intrusion detection (PDF). Proceedings NSF Workshop on Next Generation Data Mining. 2002 [2016-09-13]. (原始內容 (PDF)存檔於2015-09-23).
Tomek, Ivan. An Experiment with the Edited Nearest-Neighbor Rule. IEEE Transactions on Systems, Man, and Cybernetics. 1976, 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
Knorr, E. M.; Ng, R. T.; Tucakov, V. Distance-based outliers: Algorithms and applications. The VLDB Journal the International Journal on Very Large Data Bases. 2000, 8 (3–4): 237–253. doi:10.1007/s007780050006.
Ramaswamy, S.; Rastogi, R.; Shim, K. Efficient algorithms for mining outliers from large data sets. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00: 427. 2000. ISBN 1-58113-217-4. doi:10.1145/342009.335437.
Schubert, E.; Zimek, A.; Kriegel, H. -P. Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. 2012, 28: 190–237. doi:10.1007/s10618-012-0300-z.
Zimek, A.; Schubert, E.; Kriegel, H.-P. A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining. 2012, 5 (5): 363–387. doi:10.1002/sam.11161.
Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. Estimating the Support of a High-Dimensional Distribution. Neural Computation. 2001, 13 (7): 1443–71. PMID 11440593. doi:10.1162/089976601750264965.
Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. Outlier Detection Using Replicator Neural Networks. Data Warehousing and Knowledge Discovery. Lecture Notes in Computer Science 2454. 2002: 170–180. ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17.
Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection. ACM Transactions on Knowledge Discovery from Data. 2015, 10 (1): 5:1–51. doi:10.1145/2733381.
Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces. Database Systems for Advanced Applications. Lecture Notes in Computer Science 5981: 368. 2010. ISBN 978-3-642-12025-1. doi:10.1007/978-3-642-12026-8_29.
Zimek, A.; Campello, R. J. G. B.; Sander, J. R. Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 2014, 15: 11–22. doi:10.1145/2594473.2594476.
Zimek, A.; Campello, R. J. G. B.; Sander, J. R. Data perturbation for outlier detection ensembles. Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14: 1. 2014. ISBN 978-1-4503-2722-0. doi:10.1145/2618243.2618257.
Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 2016, 30 (4): 891. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8.
Jones, Anita K.; Sielken, Robert S. Computer System Intrusion Detection: A Survey. Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. 1999. CiteSeerX: 10.1.1.24.7802.