正则化

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

简介

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。

正则化一般具有如下形式:

\[\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)} \] (1.19)

其中,第1项是经验风险,第2项是正则化项,$\lambda \ge 0$ 为调整两者之间关系的系数。

正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2}\]

这里,\[\left\| w \right\|\]表示参数向量W的L2范数。

正则化项也可以是参数向量的L1范数:

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \lambda {\left\| w \right\|_1}\]

这里, ${\left\| w \right\|_1}$ 表示参数向量W的L1范数。

第1项的经验风险较小的模型可能较复杂(有多个非零参数),这时第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

来源:

李航著 统计学习方法 清华大学出版社

例子:

过拟合的例子

直观来看,如果我们想解决这个例子中的过拟合问题,最好能将\[{x_3}\],\[{x_4}\]的影响消除,也就是让\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\].假设我们对 \[{\theta _3}\],\[{\theta _4}\]进行惩罚,例如:

\[\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2} + 1000\theta _3^2 + 1000\theta _4^2} \]

并且令其很小,一个简单的办法就是给原有的Cost function加上两个略大惩罚项,这样在最小化Cost function的时候,\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\]

发展历史

1943年,吉洪诺夫提出正则化的概念,最初是用于处理不适定反问题。1990年,正则化方法成为样条理论的核心观点,在2000年,此概念被广泛应用于机器学习中。很多机器学习的算法都利用正则化方法,比如支持向量机(SVM)

2003年,斯莫拉和孔多尔阐述了基于拉普拉斯图构建图正则项,随后,2005年坎德拉提出了图正则项的非参数构造。

主要事件

年份事件相关论文
1943年第一次提出正则化的概念Tikhonov, A. N. (1943). On the stability of inverse problems. C. R.(Doklady) Acad. Sci. URSS (N.S.), 39:176–179.
1963年提出吉洪诺夫正则化方法,一种在不适定问题经常使用的正则化方法A. N. Tikhonov. (1963) Solution of incorrectly formulated problems and the regularization method. Soviet Math. Dokl., 4:1035-1038, 1963.
1990年正则化成为样条理论的主要方法Wahba, G. (1990). Spline models for observational data (Vol. 59). Siam.
2000年正则化方法在机器学习中使用Evgeniou, M. Pontil, and T. Poggio. (2000) Regularization Networks and Support Vector Machines. Advances in Computational Mathematics, 13(1):1–50
2003年基于拉普拉斯图构建正则项图Smola and R. Kondor. (2003) Kernels and regularization on graphs. Conference on Learning Theory,COLT/KW,.
2005年提出了正则项图的非参数构造方法Zhu, X., Kandola, J., Ghahramani, Z., & Lafferty, J. D. (2005). Nonparametric transforms of graph kernels for semi-supervised learning. In Advances in neural information processing systems (pp. 1641-1648).

发展分析

瓶颈

选择正则化系数过大时,主要是λ过大时,会造成欠拟合。

未来发展方向

1. 具有巨量参数模型的正则化问题;

2.未来几年人工神经网络领域将开发出更强大的正则化技术,这些技术能使神经网络能更好地泛化,即使数据集非常小

Contributor: Peng Jiang

相关人物
Andrey Nikolayevich Tikhonov
Andrey Nikolayevich Tikhonov
简介
相关人物