Remove ads
来自维基百科,自由的百科全书
在数据挖掘中,异常检测(英語:Anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。[1]通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。[2]
特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。[3]
有三大类异常检测方法。[1] 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集建立一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。
异常检测技术用于各种领域,如入侵检测、欺诈检测、故障检测、系统健康监测、感測器网络事件检测和生态系统干扰检测等。它通常用于在预处理中删除从数据集的异常数据。在監督式學習中,去除异常数据的数据集往往会在统计上显著提升准确性。[4][5]
文献中提出了几种异常检测方法。一些热门方法有:
不同方法的性能在很大程度上取决于数据集和参数,比较许多数据集和参数时,各种方法与其他方法相比的系统优势不大。[24][25]
多萝西·丹宁教授在1986年提出了入侵检测系统(IDS)的异常检测方法[26]。入侵检测系统的异常检测通常是通过阈值和统计完成的,但也可以用软计算和归纳学习。[27] 在1999年提出的统计类型包括检测用户、工作站、网络、远程主机与用户组的配置文件,以及基于频率、均值、方差、协方差和标准差的程序。[28] 在入侵检测系统中,与异常检测模式相对应的还有误用检测模式。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.