Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

姜松浩作者

深度强化学习在指代消解中的一种尝试

本文出自斯坦福 NLP 组,发表在 EMNLP 2016,其将深度强化学习应用于指代消解领域是一大创新,相较于其他方法有很好的效果提升。

本期推荐的论文笔记来自 PaperWeekly 社区用户 @jsh0123本文尝试对指代消解的一种神经网络 Mention Rank 模型的启发式损失函数中的参数利用强化学习方式进行优化,提出一种奖励衡量机制,跟其他方式比效果突出。

关于作者:姜松浩,中国科学院计算技术研究所硕士生,研究方向为机器学习数据挖掘

■ 论文 | Deep Reinforcement Learning for Mention-Ranking Coreference Models

■ 链接 | http://www.paperweekly.site/papers/1047

■ 源码 | https://github.com/clarkkev/deep-coref

介绍

本文出自斯坦福 NLP 组,发表在 EMNLP 2016,其将深度强化学习应用于指代消解领域是一大创新,相较于其他方法有很好的效果提升。

指代消解是自然语言处理的一大研究领域,常见的指代消解算法多数模型采用启发式损失函数,不同消解任务为达到良好的使用效果需要对调整损失函数参数

常见的指代消解算法有 Mention Pair、Mention Rank、Entity Mention 等等,本文将深度强化学习应用于 Mention Rank 实现消解技术的通用性,解决启发式损失函数的超参微调问题

模型介绍

论文作者将其发表于 ACL 2016 的 Neural Mention-ranking 模型 [1] 进行强化学习的改进。

模型结构 

如下图所示,Neural Mention-ranking 模型结构主体部分为多层的前反馈神经网络,分为三个部分:首先是输入层将指代词(mention)特征、候选前指词(Candidate Antecedent)即指代词出现前的词特征、指导词所在句子特征以及其他特征例如距离特征、连接关系特征等等做向量拼接(concate)处理作为模型的输入 h0。

特征的获取过程不是本论文的重点,这里不详细阐述,对特征如何获取感兴趣可以参考 [1]。

隐藏层采用 Relu 作为激活函数,其中隐藏层共 3 层,其公式定义如下:

分数获取层,其采用基本的线性相乘法,公式定义如下:

启发式损失函数 

Neural Mention-ranking 模型结构采用一种启发式 Max-Margin 损失函数,Max-Margin 即 Hinge Loss 的一种变种。 首先,先看松弛参数 △h 的定义。

其中 C(mi) 表示预测的候选前指词库,T(mi) 表示真实的前指词库,c∈C(mi),NA 表示为空,FN、FA、WL 依次表示“不为空”、“错误的前指”、“错误连接”。 损失函数定义如下,该函数目的是让真实的前指词“分数”更高,错分情况“分数”随着训练不断降低。

其中 ti 表示预测候选词中真实前指词的最高“分”(Score),定义如下。

参数 ɑ 的定义采用人工微调的方式,不断尝试,最终确定最优值。

强化学习损失函数的改进 

论文采用两种强化学习方式改进,一种对参数的改进,采用强化学习的奖励机制,另一种采用经典的增强策略梯度算法。 

论文中将 Neural Mention-ranking 模型当做代理(agent),而每个行为 ai 表示第 i 个指代词的其中一个前指词。Ai 表示第 i 步中所有的候选行为集合即所有第 i 个指代词的所有候选词集合。奖励函数 R(a1:T) 表示第 1 个行动到最后行动的奖励,用 B-cubed 函数 [2] 表示。

1. 奖励衡量机制

这种方式将上述启发式损失函数的松弛参数 △ 进行改进,由于没个行为都是没有关联性、独立的,因此可以通过尝试不同的行为判断每一步奖励差异。因此松弛参数变化如下所示。

这种机制的训练方式和启发式损失函数一致。

2. 经典强化学习方式

除上述奖励衡量机制外,采用经典的增强策略梯度算法,每个行为 a=(c,m) 的概率定义如下。

损失函数定义如下:

为使获得奖励值最大,采用梯度上升法进行参数更新,由于每一次行为选择随着句子的增长指数级增长,因此梯度值计算困难。论文采用一种梯度估值,定义如下所示。

模型实验效果

通过对 CoNLL2012 的英文和中文的指代数据实验,得到测试结果如下图所示,奖励衡量机制效果明显,表现最佳。

论文评价

这篇论文发表于 2016 年的 EMNLP,尝试对指代消解的一种神经网络 Mention Rank 模型的启发式损失函数中的参数利用强化学习方式进行优化,提出一种奖励衡量机制,跟其他方式比效果突出。

这种基于强化学习的奖励衡量机制的参数调节方式会对很多研究工作产生启发,特别是对超参设置采用尝试性遍历方式的研究工作。可惜论文发表到现在两年时间,在指代消解中利用强化学习的方式没有更好的新的尝试。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门神经网络指代消解深度强化学习损失函数
1
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~