过采样/欠采样 | 机器之心

简介

在信号处理中，过采样是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。数字信号变换成模拟信号会产生量化失真（噪声），这需要模拟低通滤波器滤除，但模拟低通滤波器并非直接滤除截止频率以外的信号、而是大幅减少截止频率以外的信号、同时小幅减少及影响截止频率以内的信号，若能提高低通滤波器的截止频率，则模拟低通滤波器对期待保留的频段（以音响系统为例、就是人耳听得到的20Hz~20KHz）的影响就会降低；过采样可以将量化噪声推往更高频率、让系统可以选用更高截止频率的低通滤波器，借此帮助避免混叠、改善分辨率以及降低噪声。而欠采样或带通采样是一种以低于其奈奎斯特速率（两倍于上限截止频率）的采样率对带通滤波信号进行采样的技术。[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Oversampling]而在数据分析中，过采样和欠采样是用于调整数据集的类分布（即所表示的不同类/类别之间的比率）的技术。过采样和欠采样是相反的，大致相当的技术。它们都涉及使用偏置（bias）从一个类别中选择更多的样本。例如，假设我们有一个1000人的样本，其中66.7％是男性。我们知道一般来说50%的人口应当是女性，我们可能希望调整我们的数据集来表示这一点。简单的过采样将选择每个女性示例两次，并且这种复制将产生包含1333个女性的平衡数据集。简单欠采样将随机放弃一些男性样本，以获得667个样本的均衡数据集，同样有50％的女性

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis]

因此，过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。一些数据科学家（天真地）认为过采样更好，因为其会得到更多的数据，而欠采样会将数据丢掉。但请记住复制数据不是没有后果的——因为其会得到复制出来的数据，它就会使变量的方差表面上比实际上更小。而过采样的好处是它也会复制误差的数量：如果一个分类器在原始的少数类数据集上做出了一个错误的负面错误，那么将该数据集复制五次之后，该分类器就会在新的数据集上出现六个错误。相对地，欠采样会让独立变量（independent variable）的方差看起来比其实际的方差更高。

[描述来源：解决真实世界问题：如何在不平衡类上使用机器学习？|机器之心]

发展历史

数据不平衡一直是困扰学界的一个问题，早于1968年，PETER E. HART就提出了压缩最近邻（Condensed Nearest Neighbour ）作为欠采样的一种手段。 Miroslav Kubat和Stan Matwin认为过采样可能会对数据质量造成负面影响，他们提出了one-sided selection方法。

2002年Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, W. Philip Kegelmeyer提出SMOTE，可用于对典型分类问题中使用的数据集进行过采样。他们在论文中表示使用SMOTE技术，结合C4.5，Ripper和Naive Bayes分类器，对少数（异常）类进行过采样和对大多数（正常）类进行欠采样的方法的组合可以实现更好的分类器性能——以ROC作为评判标准——而不是仅对大多数类进行欠采样。

2004年Maria Carolina Monard等学者对10个处理数据不平衡问题的方法进行了评估，他们的实验证明数据不平衡并不系统地阻碍学习系统的表现。他们提出了两种方法，Smote + Tomek和Smote + ENN，将过采样与欠采样技术结合起来。2005年，基于SMOTE方法，Hui Han，Wen-Yuan Wang和Bing-Huan Mao提出了两种新的过采样方法：边界线SMOTE1（borderline-SMOTE1）和边界线SMOTE2（borderline-SMOTE2），其中只有决策边界附近的少数例子被过采样。 2008年He Haibo, Yang Bai, Edwardo A. Garcia 和Shutao Li提出了一种用于从不平衡数据集中学习的新型自适应合成（ADASYN）采样方法。他们认为ADASYN方法通过两种方式改善了数据分布的学习：（1）减少类不平衡引入的偏差;（2）自适应地将分类决策边界移向困难的例子。

年份	事件	相关论文/Reference
1968	PETER E. HART提出压缩最近邻（Condensed Nearest Neighbour ）作为欠采样的一种手段	Hart, P. E. (1968). The condensed nearest neighbor rule. IEEE Transactions on Information Theory. 14: 515-516.
1997	Miroslav Kubat和Stan Matwin认为过采样可能会对数据质量造成负面影响，他们提出了one-sided selection方法	Kubat, M.; Matwin, S. (1997). Addressing the curse of imbalanced training sets: one-sided selection. ICML. 97: 179-186.
2002	Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, W. Philip Kegelmeyer提出SMOTE，可用于对典型分类问题中使用的数据集进行过采样	Chawla, N. V.; Bowyer, K. W.; Hall, L. O.; Kegelmeyer, W. P. (2002).SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. 16: 321 — 357.
2004	Maria Carolina Monard等学者提出了两种方法，Smote + Tomek和Smote + ENN，将过采样与欠采样技术结合起来	Batista, G.; Prati, T. C.; Monard, M. C.(2004). A study of the behavior of several methods for balancing machine learning training data. ACM Sigkdd Explorations Newsletter 6 (1): 20-29.
2005	Hui Han，Wen-Yuan Wang和Bing-Huan Mao提出了两种新的过采样方法：边界线SMOTE1（borderline-SMOTE1）和边界线SMOTE2（borderline-SMOTE2）	Han, H.; Wen-Yuan, W.; Bing-Huan, M. (2005). Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning, Advances in intelligent computing, pp 878-887.
2008	He Haibo, Yang Bai, Edwardo A. Garcia 和Shutao Li提出了一种用于从不平衡数据集中学习的新型自适应合成（ADASYN）采样方法	He, H.; Bai, Y., Garcia, E. A. and Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning.2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). pp. 1322-1328.

发展分析

瓶颈

如前文所述，大多数过采样方法会使变量的方差表面上比实际上更小，欠采样会让独立变量的方差看起来比其实际的方差更高。另外，因为通过过采样增加少数类样本的数据量很难增加数据所包含的信息，容易造成模型过拟合。

未来发展方向

如何保证在过采样后训练出的模型有足够的泛化能力是一个研究方向，即保证过采样/欠采样后的数据质量。

Contributor: Yuanyuan Li

简介