Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

极限学习机

传统的前馈神经网络采用梯度下降的迭代算法去挑战权重参数,这有着明显的缺陷:①学习速度缓慢,从而系统计算时间增多;②学习率难以确定且易陷入局部最小值;③易出血过度训练,引起泛化(generalization)性能下降。这些缺陷成为制约使用迭代算法的前馈神经网络的应用瓶颈。针对这些问题,极限学习机算法应运而生。

简介

传统的前馈神经网络采用梯度下降的迭代算法去调整权重参数,这有着明显的缺陷:①学习速度缓慢,从而系统计算时间增多;②学习率难以确定且易陷入局部最小值;③易出现过度训练,引起泛化(generalization)性能下降。这些缺陷成为制约使用迭代算法的前馈神经网络的应用瓶颈。针对这些问题,极限学习机算法应运而生。

极限学习机的网络训练模型如图1所示,极限学习机的网络训练模型采用前向单隐层结构。m, M, n分别为网络输入层、隐藏层和输出层的节点数,g(x)是隐藏层节点的激活函数,$b_i$为阈值。如图1所示,一共有N个不同的样本$(x_i, t_i)$,1≤i≤N,其中$x_{i} = {x_{i1}, x_{i2},...,x_{im}}^{T} \in R^{m}$,$t_{i} = {t_{i1}, t_{i2},...,t_{in}}^{T} \in R^{n}$。

图1极限学习机的网络训练模型

极限学习机的网络训练模型可用数学表达式表示如下:

\sum_{i=1}^{M}\beta _{i}g(w_i\cdot x_i+b_i) = o_j, j=1,2,...,N

式中,$w_i$表示链接网络输入层节点与第i个隐层节点的输入权值向量,$\beta_i$表示连接第i个隐层节点与网络输出层节点的输出权值向量;$o_j$表示网络输出值。

极限学习机的优化过程就是寻求最优解使得损失函数最小的过程,用公式表达这一过程就是:

\min E\left ( S, \beta \right ) = \min_{w_i,b_i, \beta } \begin{Vmatrix}H(w_1,...,w_M, b_1,...,b_M, x_1,...,x_N)\beta -T\end{Vmatrix}

其中表示$S = (w_i,b_i, i =1,2,...,M)$表示网络的输入权值和隐藏层节点阈值,H表示网络关于样本的隐藏层输出矩阵,$\beta$表示输出权值矩阵,T表示样本集的目标值矩阵。$H, \beta, T$的定义分别如下:

H(w_1,...,w_M, b_1,...,b_M, x_1,...,x_N)={\begin{bmatrix} g(w_1x_1+b_1) & \cdots & g(w_Mx_1+b_M)\\ \vdots & & \vdots \\

g(w_1x_N+b_1) & \cdots & g(w_Mx_N+b_M) \end{bmatrix}}_{N \times M}

\beta ={\begin{bmatrix}\beta_1^T\\ \vdots \\ \beta_M^T\\ \end{bmatrix}}_{M\times n}

T ={\begin{bmatrix}t_1^T\\ \vdots \\ t_N^T\\ \end{bmatrix}}_{N\times n}

极限学习机算法的训练过程可归结为一个非线性优化问题。当隐藏层节点的激活函数可微时,网络的输入权值和隐藏层节点阈值可以随机赋值,此时矩阵H是一个常数矩阵,极限学习机的学习过程可等价位求取线性系统$H\beta=T$最小范数的最小二乘解$\hat \beta$,其计算公式为$\hat \beta = H^\dagger T$,$H^\dagger$是矩阵H的广义逆,可以通过奇异值分解求得。 通过这种方式就可以计算出学习网络的输出权值,同迭代算法相比,极限学习机及大地提高了网络的泛化能力和学习速度。

[描述来源:Huang, G. B., Zhu, Q. Y., & Siew, C. K. (2006). Extreme learning machine: theory and applications. Neurocomputing, 70(1-3), 489-501.

URL:https://www.sciencedirect.com/science/article/pii/S0925231206000385]

发展历史

描述(300字)

2006年,Huang等人根据摩尔-彭罗斯(MP)广义逆矩阵理论提出了极限学习机算法,理论上有更好的泛化能力和极快的学习速度。

随后,Huang等人又提出增量极限学习机(Incremental Extreme Learning Machine, I-ELM),逐一增加隐层的节点,且在加入节点时保持当前隐层节点输出权值不变。

为了提高收敛率,2007年,Huang等人提出凸增量极限学习机(Convex I-ELM, CI-ELM), CI-ELM在加入新节点后,根据凸规划方法重新计算节点的输出权值。

2008年,Huang等人又提出强化的增量极限学习机(ENhanced I-ELM, EI-ELM),EI-EML能产生更紧凑的网络结构,收敛率更高,学习速度更快。

2010年,随着极限学习机的分类应用范围越来越广,Huang等人将其用于分类优化。

主要事件

年份

事件

相关论文

2006

Huang等人提出了极限学习机算法

Huang, G. B., Zhu, Q. Y., &amp; Siew, C. K. (2006). Extreme learning machine: theory and applications. <i>Neurocomputing</i>, <i>70</i>(1-3), 489-501.

2006

Huang等人又提出增量极限学习机(Incremental Extreme Learning Machine, I-ELM)

Huang, G. B., Chen, L., &amp; Siew, C. K. (2006). Universal approximation using incremental constructive feedforward networks with random hidden nodes. <i>IEEE Trans. Neural Networks</i>, <i>17</i>(4), 879-892.

2007

Huang等人提出凸增量极限学习机(Convex I-ELM, CI-ELM)

Huang, G. B., &amp; Chen, L. (2007). Convex incremental extreme learning machine. <i>Neurocomputing</i>, <i>70</i>(16-18), 3056-3062.

2008

Huang等人又提出强化的增量极限学习机(ENhanced I-ELM, EI-ELM)

Huang, G. B., &amp; Chen, L. (2008). Enhanced random search based incremental extreme learning machine. <i>Neurocomputing</i>, <i>71</i>(16-18), 3460-3468.

2010

Huang等人将极限学习机用于分类优化

Huang, G. B., Ding, X., &amp; Zhou, H. (2010). Optimization method based extreme learning machine for classification. <i>Neurocomputing</i>, <i>74</i>(1-3), 155-163.

发展分析

瓶颈

研究表明,虽然极限学习机在大部分情况下可以获得良好的性能,但隐含层初始参数(连接权值偏置值、节点个数对极限学习机分类精度仍存在很大影响,不恰当的参数会导致比较差的分类结果,并且单个极限学习机的学习性能具有不稳定性

未来发展方向

针对极限学习机的缺陷,现在更多学者在尝试采用复合混沌的变尺度优化算法对极限学习机进行改进,以期获得更好的泛化性能以及在一步和多步预测问题中获得更高的预测精度。

Contrubutor: Keyu Qi

简介