王妍作者

Curriculum Learning和Self-paced Learning的相关知识及应用

本次分享主要围绕强化学习的方向,向大家介绍,Curriculum Learning和Self-paced Learning的相关知识及应用。

Curriculum Learning和Self-paced Learning的介绍如下:

Curriculum Learning和Self-paced Learning代表了最近提出的学习制度,其受到人类和动物学习过程的启发,这些学习过程逐渐从训练中的简单复杂样本开始。这两种方法具有相似的概念学习范式,但在具体的学习方案上有所不同。

在Curriculum Learning中,课程由先前知识预先确定,并在此之后保持固定。因此,这种方法在很大程度上依赖于先前知识的质量而忽略了关于学习者的反馈。

在Self-paced Learning中,课程是动态决定的,以适应学习者的学习节奏。但是,Self-paced Learning无法处理先前的知识,使其容易过度拟合。

Curriculum Learning

Curriculum Learning有点类似人类学习机制——先学简单的技能,再学困难的。学习有意义的训练数据顺序可以使各种任务受益,即首先选择更容易学习的例子,然后逐渐增加难度。

课程学习的概念是2009年 Yoshua Bengio等人在《Curriculum learning》一文中提出来的。其特点包括:

- 提高生成速度和加快收敛速度

- 在非凸的训练准则上找到更好的局部极小值

今天分享的第一篇文章是《Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning》。

该文主要研究异构星型网络的学习节点表示,该异构星型网络的中心节点类型通过不同类型的边与多属性节点类型相连。

并提出了一个基于深度增强学习的方法,使用LSTM模型来编码状态,并进一步估计每个state-actionpair的期望cumulative reward。该文在深度增强学习的基础上融合了learning和planning的策略。实验证明该方法有效且高效。

规划模块的动作是选择某种边缘类型,在每一步中,状态被定义为到目前为止选择的边缘类型序列。在节点分类任务中,将奖励定义为准确度增益,惩罚每一个动作。目标是采取一系列行动以最大化累积奖励。

学习模块是通过利用LSTM层对状态进行编码,我们可以有效地捕获不同状态的相关性,以推断新的状态 - 动作对的Q值

Self-paced Learning

今天分享的第二篇文章是《 Self-paced network embedding》。

由于传统的抽样分布不能捕获每个节点的真实信息,并且不能反映训练的状态,本文提出了一种新的self-paced network embedding方法来解决此问题。

该方法能够根据当前训练状态自适应地捕获每个节点的信息量,并根据其信息量对负上下文节点进行采样。所提出的self-pace采样策略能够随着训练过程的进行,逐步选择困难的负面上下文节点,以学习更好的节点表示。

此外,为了更好地捕捉节点信息性以学习节点表示,将该文的方法扩展到具有更大发现节点信息能力的生成性对抗网络框架。在基准网络数据集上进行了大量的实验,验证了所提出方法的有效性。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论深度强化学习Self-paced LearningCurriculum LearningLSTM
3
相关数据
约书亚·本吉奥人物

约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

Q值技术

Q值是原子核物理学及核化学中的名词,核反应的Q值是指核反应所产生的能量: Q=E(Reactants)-E(Products), Q值为正的核反应是放热反应,Q值为负的核反应是吸热反应 Q值也用在粒子物理学中,例如萨晋定律(Sargent's rule)中提到弱相互作用的反应速度和Q值的五次方成正比。Q值是静止的粒子衰变时产生的动能,例如中子的衰变: Q=(m_n - m_p - m_v - m_e)c^2 其中m_n是中子的质量,m_p是质子的质量,m_ν是电中微子的质量,m_e是电子的质量

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

推荐文章
暂无评论
暂无评论~