超参数

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源:Wikipedia
简介

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。

不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning)]

下面举例说明一些机器学习算法中的普通参数和超参数:

机器学习算法普通参数举例超参数举例
决策树在每个节点上选择的输入变量、每个节点上选择的阈值每个叶节点所应包括的最少数据量,训练后的剪枝(pruning)策略
随机森林同上决策树的数量,输入变量的数量
支持向量机支持向量(support vector)的选择,每个支持向量的拉格朗日乘数核(kernel)的选择,正则化常量C和核函数的超参数
神经网络每层的权重隐藏层的数量,每层的神经元数量,训练的epoch,学习率等
K近邻近邻K的选择,距离函数的选择,初始化选择等
朴素贝叶斯每一类的先验概率数值属性用核数密度估计量或正态分布,核密度估计量的窗口宽度

[描述来源:Luo G. (2016). A review of automatic selection methods for machine learning algorithms and hyper-parameter values. Network Modeling Analysis in Health Informatics and Bioinformatics. 5:18.]

发展历史

描述

由于超参数的取值是无法通过训练模型得到的,即训练数据中不含有超参数取值的信息,因此,如何对超参数进行选择、调优就成为了研究的重点。

在超参数优化方面,主要的方法有:网格搜索(grid search),又称参数扫描,是超参数优化的传统方法,它仅仅对手动指定的模型的的子集进行穷举搜索;随机搜索(random search),即在高维空间中简单地采样固定次数的参数设置的随机搜索;贝叶斯优化(Bayesian optimization),这是噪声黑盒函数全局优化的一种方法;等等。

2011年Bergstra等人通过实证证明了在计算机计算能力飞跃的现在,通过运行更多的试验,使用贪婪顺序算法( greedy sequential method)在深度信念网络(deep belief network)上可以得到比随机搜索算法更好的结果,计算机超参数优化的水平已经在某些情况下可以超越人类。2012年,Bergstra和Bengio又在论文中对网格搜索和随机搜索进行了比较,实证显示随机搜索往往是比网格搜索更优的一种手段。从理论上证明,超参数到验证集性能的函数的高斯过程分析表明,对于大多数数据集,只有少数超参数真的很重要,但不同的超参数对于不同的数据集很重要。因此网格搜索成为配置新数据集算法的一个糟糕的选择,而随机搜索则越来越受欢迎。Snoek,Larochelle和Adams则试图用贝叶斯优化框架来实现超参数优化自动化,从而摆脱对专家经验的依赖。其实验结果显示提出的算法改进了以前的自动程序,并且可以达到或超过许多算法的人类专家级优化,包括隐含狄利克雷分布(Latent Dirichlet Allocation),结构化SVM和卷积神经网络。随着深度学习的流行,由于超参数调优需要一定量的专业知识才能进行,2018年Google推出了AutoML平台,旨在帮助资源和专业知识有限的企业在无需超参数调优的专业知识下精简并建立高质量的机器学习模型。超参数调优自动化已经成为了趋势。

对超参数的研究不仅局限于超参数调优,Guo等人于2008年即研究了超参数的选择对支持向量机(SVM)的影响。他们提出了一种基于粒子群优化(PSO)的LS-SVMs超参数选择新方法,该方法不需要关于泛化性能度量的分析性质的任何先验知识,并且可以用于同时确定多个超参数。2013年Thornton等人提出了AUTO-WEKA,试图同时选择学习算法并设置其超参数,利用最近的贝叶斯优化创新将这个问题通过全自动化的方法解决。

主要事件

年份事件相关论文/Reference
1963Rastrigin提出了Random Search这个名字Rastrigin L.A. (1963). The convergence of the random search method in the extremal control of a many parameter system. Automation and Remote Control. 24 (10): 1337–1342.
1974Mockus在他进行优化问题研究的过程中提出了Bayesian optimizationMockus J.(1974).. On Bayesian Methods for Seeking the Extremum. Optimization Techniques. pp 400-404
2008Guo等人提出了一种基于粒子群优化(PSO)的LS-SVMs超参数选择新方法Guo X. C.; Yang J. H.; C.G.Wu C. G.; Wang C. Y.; Liang Y. .C. (2008).A novel LS-SVMs hyper-parameter selection based on particle swarm optimization.Neurocomputing. 71(19-18): 3211-3215.
2011Bergstra等人通过实证证明了使用贪婪顺序算法( greedy sequential method)在深度信念网络(deep belief network)上可以得到比随机搜索算法更好的结果Bergstra J. S.;Bardenet R.;Bengio Y.;Kégl B. (2011).Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems 24.
2012Bergstra和Bengio在论文中对网格搜索和随机搜索进行了比较,从实证和理论上显示随机搜索往往是比网格搜索更优的一种手段Bergstra J.; Bengio Y. (2012).Random Search for Hyper-Parameter Optimization.Journal of Machine Learning Research. 13: 281−305.
2012Snoek,Larochelle和Adams用贝叶斯优化框架来实现超参数优化自动化Snoek J.;Larochelle H.;Adams R. P.(2012). Practical Bayesian Optimization of Machine Learning Algorithms.Advances in Neural Information Processing Systems 25.
2013Thornton等人提出了AUTO-WEKAThornton C.; Hutter F.; Hoos H. H.; Brown K. L.(2013). Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. pp847-855.

发展分析

瓶颈

至今关于超参数的选择、调优还没有明晰的方法,我们只大概知道超参数对于模型的表现有很大影响,却不清楚具体是如何影响的。

未来发展方向

设计不依赖专家信息,能够自动、高效的选择超参数并寻找到超参数最优值的算法;特别是在深度学习工业化的现在,依靠专家系统调参是不现实的,自动化超参数搜索是非常重要的研究方向。

By Yuanyuan Li

相关人物
Ryan Prescott Adams
Ryan Prescott Adams
Rémi Bardenet
Rémi Bardenet
詹姆斯·伯格斯特拉
詹姆斯·伯格斯特拉
蒙特利尔大学博士,师从Yoshua Bengio,曾在哈佛大学和滑铁卢大学进行博士后研究。现任Kindred.ai联合创始人,负责AI研究。
雨果·迪诺齐齐斯坦豪斯
雨果·迪诺齐齐斯坦豪斯
Balázs Kégl
Balázs Kégl
弗兰克·赫特
弗兰克·赫特
德国弗莱堡大学计算机科学系助理教授,机器学习实验室负责人,该实验室主要研究学习、优化和自动算法设计。研究兴趣:计算机辅助算法设计、人工智能、组合最优化、机器学习、贝叶斯优化。
约书亚·本吉奥
约书亚·本吉奥
约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。
简介
相关人物