异常检测

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

来源:维基百科
简介

异常检测是指在数据中发现不符合预期行为模式的数据的问题。 在不同的应用领域中,这些不符合的模式通常被称为异常(anomalies),异常值( outliers),不一致的观察结果(discordant observations),例外(exceptions),等等。 其中,异常和异常值是在异常检测环境中最常用的两个术语,它们有时可以互换。 异常检测广泛用于各种应用中,如信用卡欺诈检测,保险或医疗保健,网络安全入侵检测,安全关键系统中的故障检测以及对敌方活动的军事监视。

异常检测的重要性归因于以下事实:数据异常可以转化为各种应用领域中的重要(且常常是关键的)可操作信息。 例如,计算机网络中的异常流量模式可能意味着被黑客窃取的计算机在将敏感数据发送到未经授权的目的地;异常的MRI图像可能表明存在恶性肿瘤;信用卡交易数据的异常可能表明信用卡或身份盗用;或来自航天器传感器的异常读数可能意味着航天器某些部件的故障。我们将先介绍异常(值)的概念。

异常是数据中不符合明确定义的正常行为的模式,下图显示了简单二维数据集中的异常情况。 数据有两个正常区域,N_1和N_2,因为大多数观测位于这两个区域。 距离区域足够远的点(例如点o_1和o_2)以及区域O_3中的点是异常的。

在这里值得注意的是,我们需要区别几个概念,异常检测与噪声去除(noise removal)和噪声适应(noise accommodation)有关,但属于不同的概念,后两者都处理数据中不需要的噪声。 噪音可以被定义为分析师不感兴趣的数据现象,它会成为数据分析的障碍。 在对数据执行任何数据分析之前,需要删除不需要的对象来驱动噪声消除。 噪声适应是指针对异常观测免疫的统计模型估计。

与异常检测有关的另一个主题是新颖性检测( novelty detection),其目的在于检测数据中先前未观察到的(新兴的,新颖的)模式,例如新闻组中的新讨论话题。 新模式和异常之间的区别在于,新模式通常在被检测后被并入正常模型中。

[描述来源:Chandola, V.; Banerjee, A.; Kumar, V. (2009). Anomaly detection: A survey. ACM Computing Surveys.41(3): 1–58.]

异常检测技术可以被分为三类:

  1. 无监督异常检测技术:假设数据集中的大多数实例是正常值,通过查找似乎数据中与数据集其余部分最不符合的实例;
  2. 监督异常检测技术:其需要一个标记好的“正常”和“异常”的数据集并且涉及到训练分类器;
  3. 半监督异常检测技术从给定的正常训练数据集构造表示正常行为的模型,然后检验一个测试实例是由训练的模型生成的可能性。

一些常用的异常检测技术有:

  • 基于密度的技术,如k-means
  • 支持向量机
  • 贝叶斯网络
  • 隐马尔可夫模型(HMM)
  • 基于聚类分析的异常值检测

等等。不同方法的表现在很大程度上取决于数据集和参数,并且跨数据集和参数对各种方法进行比较基本没有意义。

[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Anomaly_detection]

发展历史

统计界早在19世纪就已经研究了检测数据中的异常值或异常。随着时间的推移,多个研究社区开发出各种异常检测技术。这些技术中的许多技术都是针对某些应用领域专门开发的,有一些技术则更为通用。

Dorothy Denning教授在1986年提出了入侵检测系统(IDS)的异常检测方法。1999年,Jones和Sielken对当时存在的入侵检测系统所用的技术手段进行了综述,统计类型包括检测用户、工作站、网络、远程主机与用户组的配置文件,以及基于频率、均值、方差、协方差和标准差的程序。2003年Markos Markou和Sameer Singh发表了两篇综述文章,分别介绍了使用神经网络和统计方法的新颖性检测技术,Hodge和Austin于2004年对机器学习和统计领域中开发的异常检测技术进行了广泛的调查。 2007年Animesh Patcha和Jung-Min Park提出了一项专门用于网络入侵检测的异常检测技术调查。 2009年Varun Chandola等学者在其综述论文中提供了关于异常检测研究的全面的结构化概述。他们根据每种技术采用的基本方法将现有技术分为不同类别。对于每个类别,其关键假设都给出了明确定义,这些假设可用作评估该领域技术有效性。对于每个类别,他们提供了一个基本的异常检测技术作为示例,然后展示该类别中不同的现有技术如何是基本技术的变体。

主要事件

年份事件相关论文/Reference
1987Dorothy Denning教授提出了入侵检测系统(IDS)的异常检测方法Denning, D. E.(1987).An Intrusion-Detection Model.IEEE Transactions on Software Engineering. SE-13 (2): 222–232.
1999Jones和Sielken对当时存在的提出的入侵检测系统所用的技术手段进行了综述Jones, A. K.; Sielken, R. S. (1999). Computer System Intrusion Detection: A Survey.Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA.
2003Markos Markou和Sameer Singh发表了两篇综述文章,分别介绍了使用神经网络和统计方法的新颖性检测技术Markou, M.; Singh, S.(2003).Novelty detection: a review—part 1: statistical approaches,Signal Processing, 83(12): 2481-2497.//Markou, M.; Singh, S.(2003). Novelty detection: a review—part 2: neural network based approaches, Signal Processing, 83(12): 2499-2521.
2004Hodge和Austin对机器学习和统计领域中开发的异常检测技术进行了广泛的调查Hodge, V. and Austin, J. (2004). A survey of outlier detection methodologies. Artificial Intelligence Review 22(2): 85–126.
2007Animesh Patcha和Jung-Min Park提出了一项专门用于网络入侵检测的异常检测技术调查Patcha, A.; Park, J-M.An overview of anomaly detection techniques: Existing solutions and latest technological trends.Computer Networks. 51(12):3448-3470.
2009Varun Chandola等学者在其综述论文中提供了关于异常检测研究的全面的结构化概述Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM Comput. Surv., 41, 15:1-15:58.

发展分析

瓶颈

异常检测的难点主要在于其数据收集——异常事件发生的频率很低,因此数据的收集和标注十分困难;其次,由于异常事件发生的低频率,训练中的正样本远少于负样本。目前网络上的开源的可用于异常检测的数据集也非常有限。

未来发展方向

异常检测是一种非常适合于商业化的技术,它适用于各种领域,如入侵检测,欺诈检测,故障检测,系统健康监测,传感器网络中的事件检测以及检测生态系统干扰。 它也经常被用于预处理以从数据集中移除异常数据。

Contributor:Yuanyuan Li

相关人物
Jung-Min Park
Jung-Min Park
多萝西·E·丹宁
多萝西·E·丹宁
美国信息安全研究员,以基于网格的访问控制(LBAC)、入侵检测系统(IDS)和其他网络安全创新而闻名。现在是美国海军研究生院(Naval Postgraduate School.)国防分析荣誉教授。
安妮塔·琼斯
安妮塔·琼斯
美国计算机科学家和前美国政府官员,1973年获得卡内基梅隆大学计算机科学博士学位,曾就职于弗吉尼亚大学,1993年至1997年担任国防研究与工程局局长。
Victoria Hodge
Victoria Hodge
简介
相关人物