正则化 | 机器之心

简介

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

正则化一般具有如下形式：

\[\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)} \] (1.19)

其中，第1项是经验风险，第2项是正则化项，$\lambda \ge 0$ 为调整两者之间关系的系数。

正则化项可以取不同的形式。例如，回归问题中，损失函数是平方损失，正则化项可以是参数向量的L2范数：

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2}\]

这里，\[\left\| w \right\|\]表示参数向量W的L2范数。

正则化项也可以是参数向量的L1范数：

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \lambda {\left\| w \right\|_1}\]

这里， ${\left\| w \right\|_1}$ 表示参数向量W的L1范数。

第1项的经验风险较小的模型可能较复杂（有多个非零参数），这时第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

来源：

李航著统计学习方法清华大学出版社

例子：

过拟合的例子

直观来看，如果我们想解决这个例子中的过拟合问题，最好能将\[{x_3}\]，\[{x_4}\]的影响消除，也就是让\[{\theta _{_3}} \approx 0\]，\[{\theta _4} \approx 0\].假设我们对 \[{\theta _3}\]，\[{\theta _4}\]进行惩罚，例如：

\[\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2} + 1000\theta _3^2 + 1000\theta _4^2} \]

并且令其很小，一个简单的办法就是给原有的Cost function加上两个略大惩罚项，这样在最小化Cost function的时候，\[{\theta _{_3}} \approx 0\]，\[{\theta _4} \approx 0\]

发展历史

1943年，吉洪诺夫提出正则化的概念，最初是用于处理不适定反问题。1990年，正则化方法成为样条理论的核心观点，在2000年，此概念被广泛应用于机器学习中。很多机器学习的算法都利用正则化方法，比如支持向量机(SVM)

2003年，斯莫拉和孔多尔阐述了基于拉普拉斯图构建图正则项，随后，2005年坎德拉提出了图正则项的非参数构造。

主要事件

年份	事件	相关论文
1943年	第一次提出正则化的概念	Tikhonov, A. N. (1943). On the stability of inverse problems. C. R.(Doklady) Acad. Sci. URSS (N.S.), 39:176–179.
1963年	提出吉洪诺夫正则化方法，一种在不适定问题经常使用的正则化方法	A. N. Tikhonov. (1963) Solution of incorrectly formulated problems and the regularization method. Soviet Math. Dokl., 4:1035-1038, 1963.
1990年	正则化成为样条理论的主要方法	Wahba, G. (1990). Spline models for observational data (Vol. 59). Siam.
2000年	正则化方法在机器学习中使用	Evgeniou, M. Pontil, and T. Poggio. (2000) Regularization Networks and Support Vector Machines. Advances in Computational Mathematics, 13(1):1–50
2003年	基于拉普拉斯图构建正则项图	Smola and R. Kondor. (2003) Kernels and regularization on graphs. Conference on Learning Theory,COLT/KW,.
2005年	提出了正则项图的非参数构造方法	Zhu, X., Kandola, J., Ghahramani, Z., & Lafferty, J. D. (2005). Nonparametric transforms of graph kernels for semi-supervised learning. In Advances in neural information processing systems (pp. 1641-1648).

发展分析

瓶颈

选择正则化系数过大时，主要是λ过大时，会造成欠拟合。

未来发展方向

1. 具有巨量参数模型的正则化问题；

2.未来几年人工神经网络领域将开发出更强大的正则化技术，这些技术能使神经网络能更好地泛化，即使数据集非常小

Contributor: Peng Jiang

简介