异常检测
来自维基百科,自由的百科全书
在数据挖掘中,异常检测(英语:Anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。[1]通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。[2]
特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。[3]
有三大类异常检测方法。[1] 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集建立一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。
应用
异常检测技术用于各种领域,如入侵检测、欺诈检测、故障检测、系统健康监测、感测器网络事件检测和生态系统干扰检测等。它通常用于在预处理中删除从数据集的异常数据。在监督式学习中,去除异常数据的数据集往往会在统计上显著提升准确性。[4][5]
热门方法
文献中提出了几种异常检测方法。一些热门方法有:
- 基于密度的方法(最近邻居法[6][7][8]、局部异常因子[9]及此概念的更多变化[10])。
- 基于子空间[11]与相关性[12]的高维数据的孤立点检测。[13]
- 一类支持向量机。[14]
- 复制神经网络。[15]
- 基于聚类分析的孤立点检测。[16][17]
- 与关联规则和频繁项集的偏差。
- 基于模糊逻辑的孤立点检测。
- 运用特征袋[18][19]、分数归一化[20][21]与不同多样性来源的集成方法。[22][23]
不同方法的性能在很大程度上取决于数据集和参数,比较许多数据集和参数时,各种方法与其他方法相比的系统优势不大。[24][25]
数据安全方面的应用
多萝西·丹宁教授在1986年提出了入侵检测系统(IDS)的异常检测方法[26]。入侵检测系统的异常检测通常是通过阈值和统计完成的,但也可以用软计算和归纳学习。[27] 在1999年提出的统计类型包括检测用户、工作站、网络、远程主机与用户组的配置文件,以及基于频率、均值、方差、协方差和标准差的程序。[28] 在入侵检测系统中,与异常检测模式相对应的还有误用检测模式。
软件
- ELKI是一个包含若干异常检测算法及其索引加速的开源Java数据挖掘工具箱。
参见
- 统计学中的离群值
- 变化检测
- 新奇检测
- 分级暂存记忆
参考文献
Wikiwand - on
Seamless Wikipedia browsing. On steroids.