噪音

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

简介

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。

数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。KDD的步骤如下:

[图片来源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]

在上图的第一步数据清理中即涉及到噪声,需要去除噪音和不一致的数据。一些基本的统计描述技术(如箱线图和散点图)和数据可视化方法可以帮助我们初步识别可能代表噪声的异常值。

在实际工作中,我们往往需要平滑数据以消除噪音,其中常用的数据平滑技术有:

分箱(binning):分箱方法通过查询其周围的值来确定该数据点的最终值, 即将待处理的原始数据按照某种规则划分入不同的“箱子”内,分别考察每一个箱子,并用某种方法分别对箱子内的数据进行处理。 由于装箱方法会咨询值的邻域,因此它们执行的是局部平滑。

回归(regression):数据平滑也可以通过回归来完成, 线性回归涉及找到适合两个或多个属性(或变量)的最佳线性组合,以便可以使用一个属性来预测另一个属性。

异常值分析(outlier analysis):可以通过聚类来检测异常值,直观上,聚类之外的值可能被视为异常值。

值得注意的是,离群值(outlier)也常常被视为噪音丢弃,但在一种情况中是被视作噪音的离群值并不一定在其他情况中也是噪音。

[描述来源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]


发展历史

描述

用于进行研究的数据中有噪音是非常常见的一件事情,机器学习模型的建立从一开始就是为了在数据中排除噪音的干扰而学习正确的模式。也正是因为如此,有关有噪音的数据学习的研究非常丰富,并且涵盖了许多领域。1978年Craven和Wahba对平滑样条曲线(smoothing splines)进行了讨论,这是一种重要的平滑离散的、有噪音的数据的手段,他们提出了一种实用,有效的估算最佳光滑量的方法,用广义交叉验证法估计正确的平滑程度。同年,Gull和Daniell提出了从不完整且嘈杂的数据中重建图像的方法。该方法使用了最大熵方法,可以应用于几乎任何类型的光学图像处理。

Schlimmer和Granger于1986年讨论了在有噪声的情况下如何进行渐进式学习(Incremental Learning),他们提出了一个以心理和数学结果为指导的解决方案,并报道了一些关于其性能的实证分析。2000年Rosenblum等学者在生物领域对有噪声的数据进行了分析,他们使用相位同步的概念来分析有噪声的非平稳的双变量数据。并将其应用于多道脑磁图和帕金森患者的肌肉活动记录。 2010年Barbosa和Feng提出了一种利用嘈杂的标签作为训练数据在Twitter消息(推文)上自动检测情绪的方法,并通过实证检验认为该解决方案比以前更有效,而且对于偏置的(biased)和噪声数据更加稳健。

主要事件

年份事件相关论文/Reference
1978Craven和Wahba对平滑样条曲线(smoothing splines)进行了讨论,提出了一种实用,有效的估算最佳光滑量的方法Craven P.; Wahba G. (1978).Smoothing noisy data with spline functions.Numerische Mathematik. 31(4): 377–403.
1978Gull和Daniell提出了从不完整且嘈杂的数据中重建图像的方法Gull S. F.; Daniell G. J. (1978). Image reconstruction from incomplete and noisy data.Nature272: 686–690.
1986Schlimmer和Granger讨论了在有噪声的情况下如何进行渐进式学习(Incremental Learning)Schlimmer J. C.; Granger R. H.(1986).Incremental Learning from Noisy Data.Machine Learning.1(3):317–354.
2000Rosenblum等学者在生物领域对有噪声的数据进行了分析,他们使用相位同步的概念来分析有噪声的非平稳的双变量数据Rosenblum M.; Tass p.; Kurths J.; Volkmann J.; Schnitzler a.; Freund H.(2000). DETECTION OF PHASE LOCKING FROM NOISY DATA: APPLICATION TO MAGNETOENCEPHALOGRAPHY. Chaos in Brain?: pp. 34-51.
2010Barbosa和Feng提出了一种利用嘈杂的标签作为训练数据在Twitter消息(推文)上自动检测情绪的方法Barbosa L.; Feng J. (2010). Robust sentiment detection on Twitter from biased and noisy data. Proceedings of the 23rd International Conference on Computational Linguistics: pp 36-44.

发展分析

瓶颈

噪音是客观存在的,它并不像一些研究手段/模型那样存在发展瓶颈。但噪音的存在会影响一些算法的表现和理论的实用性,如PAC学习框架假设数据是无噪音的,这导致其在实际工作中的指导作用非常有限;又如提升方法(boosting)对噪音数据敏感,学习器学习效果不稳定。

未来发展方向

算法的稳健性一直都是机器学习领域的一个关注点,如早期Holmstrom等学者通过注入噪音提高ANN的泛化能力。目前随着人工智能研究向通用人工智能方向突破,学习算法的泛化能力会变得更加重要。

By Yuanyuan Li

相关人物
裴健
裴健
京东集团副总裁,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授,前华为首席科学家。裴健在数据科学、大数据、数据挖掘和数据库系统等领域,是世界领先的研究学者,擅长为数据密集型应用设计开发创新性的数据业务产品和高效的数据分析技术。他是国际计算机协会(ACM)院士和国际电气电子工程师协会(IEEE)院士,ACM SIGKDD(数据挖掘及知识发现专委会)现任主席。因其在数据挖掘基础、方法和应用方面的杰出贡献,裴健曾获得数据科学领域技术成就最高奖ACM SIGKDD Innovation Award(ACM SIGKDD创新奖)和IEEE ICDM Research Contributions Award(IEEE ICDM研究贡献奖)。
韩家炜
韩家炜
韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。
格雷丝·沃巴
格雷丝·沃巴
生于1934年,是威斯康星大学麦迪逊分校的统计学教授。她是平滑嘈杂数据方法的先驱。她以发展广义交叉验证和“Wahba问题”而闻名,她已经开发了一些方法,并应用于人口研究、机器学习、DNA微阵列、风险建模、医学成像和气候预测。 她曾在康奈尔大学(1956年获得学士学位)、马里兰大学帕克分校(1962年获得硕士学位)和斯坦福大学(1966年获得博士学位)接受教育,并在工业界工作了几年,然后于1966年获得博士学位,并于1967年定居麦迪逊。她于2000年当选美国国家科学院院士,并于2007年获得芝加哥大学授予的荣誉科学博士学位。
理查德·H. 格兰杰
理查德·H. 格兰杰
达特茅斯学院赛尔工程学院教授。研究领域:计算和认知神经科学、学习和记忆、大脑进化、算法开发和分析、脑回路分析、神经成像分析、机器人学、医疗诊断、药物研发、大脑工程。
迈克尔·罗森布鲁姆
迈克尔·罗森布鲁姆
Michael Rosenblum(迈克尔·罗森布鲁姆)是约翰霍普金斯大学彭博公共卫生学院生物统计学副教授。 我的研究兴趣包括适应性临床试验设计,模型错误指定的稳健性,因果推断以及HIV / AIDS预防和治疗。曾获得2017年Burroughs Wellcome Fund(BWF)监管科学创新奖。
简介
相关人物