超参数 | 机器之心

简介

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。

不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning)]

下面举例说明一些机器学习算法中的普通参数和超参数：

机器学习算法	普通参数举例	超参数举例
决策树	在每个节点上选择的输入变量、每个节点上选择的阈值	每个叶节点所应包括的最少数据量，训练后的剪枝（pruning）策略
随机森林	同上	决策树的数量，输入变量的数量
支持向量机	支持向量（support vector）的选择，每个支持向量的拉格朗日乘数	核（kernel）的选择，正则化常量C和核函数的超参数
神经网络	每层的权重	隐藏层的数量，每层的神经元数量，训练的epoch，学习率等
K近邻		近邻K的选择，距离函数的选择，初始化选择等
朴素贝叶斯	每一类的先验概率	数值属性用核数密度估计量或正态分布，核密度估计量的窗口宽度

[描述来源：Luo G. (2016). A review of automatic selection methods for machine learning algorithms and hyper-parameter values. Network Modeling Analysis in Health Informatics and Bioinformatics. 5:18.]

发展历史

描述

由于超参数的取值是无法通过训练模型得到的，即训练数据中不含有超参数取值的信息，因此，如何对超参数进行选择、调优就成为了研究的重点。

在超参数优化方面，主要的方法有：网格搜索（grid search），又称参数扫描，是超参数优化的传统方法，它仅仅对手动指定的模型的的子集进行穷举搜索；随机搜索（random search），即在高维空间中简单地采样固定次数的参数设置的随机搜索；贝叶斯优化（Bayesian optimization），这是噪声黑盒函数全局优化的一种方法；等等。

2011年Bergstra等人通过实证证明了在计算机计算能力飞跃的现在，通过运行更多的试验，使用贪婪顺序算法（ greedy sequential method）在深度信念网络（deep belief network）上可以得到比随机搜索算法更好的结果，计算机超参数优化的水平已经在某些情况下可以超越人类。2012年，Bergstra和Bengio又在论文中对网格搜索和随机搜索进行了比较，实证显示随机搜索往往是比网格搜索更优的一种手段。从理论上证明，超参数到验证集性能的函数的高斯过程分析表明，对于大多数数据集，只有少数超参数真的很重要，但不同的超参数对于不同的数据集很重要。因此网格搜索成为配置新数据集算法的一个糟糕的选择，而随机搜索则越来越受欢迎。Snoek，Larochelle和Adams则试图用贝叶斯优化框架来实现超参数优化自动化，从而摆脱对专家经验的依赖。其实验结果显示提出的算法改进了以前的自动程序，并且可以达到或超过许多算法的人类专家级优化，包括隐含狄利克雷分布（Latent Dirichlet Allocation），结构化SVM和卷积神经网络。随着深度学习的流行，由于超参数调优需要一定量的专业知识才能进行，2018年Google推出了AutoML平台，旨在帮助资源和专业知识有限的企业在无需超参数调优的专业知识下精简并建立高质量的机器学习模型。超参数调优自动化已经成为了趋势。

对超参数的研究不仅局限于超参数调优，Guo等人于2008年即研究了超参数的选择对支持向量机（SVM）的影响。他们提出了一种基于粒子群优化（PSO）的LS-SVMs超参数选择新方法，该方法不需要关于泛化性能度量的分析性质的任何先验知识，并且可以用于同时确定多个超参数。2013年Thornton等人提出了AUTO-WEKA，试图同时选择学习算法并设置其超参数，利用最近的贝叶斯优化创新将这个问题通过全自动化的方法解决。

主要事件

年份	事件	相关论文/Reference
1963	Rastrigin提出了Random Search这个名字	Rastrigin L.A. (1963). The convergence of the random search method in the extremal control of a many parameter system. Automation and Remote Control. 24 (10): 1337–1342.
1974	Mockus在他进行优化问题研究的过程中提出了Bayesian optimization	Mockus J.(1974).. On Bayesian Methods for Seeking the Extremum. Optimization Techniques. pp 400-404
2008	Guo等人提出了一种基于粒子群优化（PSO）的LS-SVMs超参数选择新方法	Guo X. C.; Yang J. H.; C.G.Wu C. G.; Wang C. Y.; Liang Y. .C. (2008).A novel LS-SVMs hyper-parameter selection based on particle swarm optimization.Neurocomputing. 71(19-18): 3211-3215.
2011	Bergstra等人通过实证证明了使用贪婪顺序算法（ greedy sequential method）在深度信念网络（deep belief network）上可以得到比随机搜索算法更好的结果	Bergstra J. S.;Bardenet R.;Bengio Y.;Kégl B. (2011).Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems 24.
2012	Bergstra和Bengio在论文中对网格搜索和随机搜索进行了比较，从实证和理论上显示随机搜索往往是比网格搜索更优的一种手段	Bergstra J.; Bengio Y. (2012).Random Search for Hyper-Parameter Optimization.Journal of Machine Learning Research. 13: 281−305.
2012	Snoek，Larochelle和Adams用贝叶斯优化框架来实现超参数优化自动化	Snoek J.;Larochelle H.;Adams R. P.(2012). Practical Bayesian Optimization of Machine Learning Algorithms.Advances in Neural Information Processing Systems 25.
2013	Thornton等人提出了AUTO-WEKA	Thornton C.; Hutter F.; Hoos H. H.; Brown K. L.(2013). Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. pp847-855.

发展分析

瓶颈

至今关于超参数的选择、调优还没有明晰的方法，我们只大概知道超参数对于模型的表现有很大影响，却不清楚具体是如何影响的。

未来发展方向

设计不依赖专家信息，能够自动、高效的选择超参数并寻找到超参数最优值的算法；特别是在深度学习工业化的现在，依靠专家系统调参是不现实的，自动化超参数搜索是非常重要的研究方向。

By Yuanyuan Li

简介