Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

两次登顶常识推理问答榜单ProtoQA,哈工大深圳创新掩码模型重排序策略

近日,哈工大深圳 HLT 研究组刷新了 Allen AI 平台的常识推理问答 ProtoQA 任务榜单,该技术方案两次登顶 Leadboards 第一名。ProtoQA 榜单由 UMass Amherst 提出,目标是测试人工智能系统的常识推理能力 [1]。

常识是人工智能研究的重要内容,机器常识或机器对开放世界的理解和推理能力一直被认为是人工智能和自然语言理解的重要组成部分。常识问答则是机器推理上的一个重要的应用方向,目的是帮助计算机通过已有的知识推理判断未见过的输入信息,从而使计算机更自然地理解人们的表达。

长时间以来,许多研究始终致力于推进这一领域的发展,特别是近年来采用预训练语言模型知识图谱、提示学习等新技术的方法得到广泛研究。尽管一些模型在选择式的常识问答数据集上(如CommonsenseQA [2])超过人类水平,但是在没有预先给定选项的场景下,如何基于常识和背景知识进行生成式的推理以获得答案仍旧是一个巨大的挑战。

ProtoQA 新挑战:更难的任务、更开放的问题、更贴近真实场景

ProtoQA 是开放场景下基于常识推理的生成式问答基准数据集。例如说出人们在离开家上班之前通常会做的事情 (Name something that people usually do before they leave for work?)(图 1)

图片图 1:ProtoQA 数据集示例 [1]

相较于众多的单选题式常识问答数据集,ProtoQA 的难点在于:1)该数据集没有提供候选答案选项,需要模型自行生成答案;2)每个问题可以有多个合乎常识的答案,但是越典型(普遍)的答案得分越高。

因此,需要模型评估和生成更典型的答案。计分有两种模式(下图 2),Max Answers @ k:限定总回答数量的最大得分,和 Max Incorrect @ k:限定回答错误答案数量的最大得分。

图片图 2:ProtoQA 计分规则 [1]

基准数据集由 University of Massachusetts, Amherst 的研究者们在 2020 年提出,设计并提出的目标是测试人工智能系统对常识问题生成有效答案的能力。它是 Machine Common Sense (MCS) DARPA 项目的一部分,由 AI2 托管。训练集是从一个长期运营的国际游戏节目 FAMILY-FEUD 中现有问题集中收集的约 9k 个问答,隐藏评估集的答案则是通过收集 100 名人工回答创建的,共 102 个问答。

ProtoQA 榜单

哈工大深圳 HLT 研究组于 2022 年 8 月 24 日获得 AI2 Leaderboards 中 ProtoQA 榜首。而后另一模型再次刷新榜首的记录。目前霸榜前两名。榜上第三和第六名分别被匿名团队和 Team Cosmic 获得。此外,还有 CMU/Bosch/USC,UMass Amherst,MOWGLI / USC INK Lab,USC LUKA,MOWGLI / USC LUKA,MOWGLI / Stanford 等团队参加(以上为非匿名团队)。

相关链接: https://leaderboard.allenai.org/protoqa/submissions/public

图片图 3:ProtoQA 榜单

HITSZ-HLT 研究组提出的掩码模型重排序策略

对于该答案生成问题,HITSZ-HLT 研究组使用了先采样后排序的流水线框架(下图 4)。再由掩码模型计算采样结果的典型程度,将该数值经过sigmoid函数转换为是典型答案的概率,最后根据概率值降序输出最终的回答列表。其中,生成模型在数据集上微调,每个答案的权重均为 1;掩码模型学习不同答案的典型程度,具体训练过程如下:

  1. 对给定问题及其所有答案,计算每一个答案的频率,作为目标分布函数,记为 freq。其中,正样本的频数是其典型值,负样本的为零;
  2. 将每一个答案分别串接问题后面作为掩码模型的输入,由模型计算一个典型指数。对所有答案计算出的典型指数进行 softmax 归一化,得到预测分布,记为σ;
  3. 目标是让预测分布σ拟合目标分布 freq,根据 KL 散度来更新模型参数,记为 L_kl;
  4. 上述过程仅学习了正样本和负样本典型指数的相对大小,为了让模型更好地区分正样本和负样本,使用二元交叉熵给来约束负样本的取值,记为 L_bce;
  5. 目标函数为,当没有负样本时,该策略也同样适用目标函数
  6. 使用 MRR(Mean Reciprocal Rank)来评价掩码模型的训练效果,保存 MRR1 值最大的模型。

图片图 4:掩码模型重排序流水线框架

实验结果表明,掩码模型可以学习到哪些答案更为典型,且加入适当负样例和相关知识可以提升掩码模型的区分能力。这里相关知识指的是题干中关键词的词定义,来自 WordNet [3]。

HITSZ-HLT 团队提出的掩码模型训练方法可适用于多个模型且计算快速、效果稳定。掩码模型中,考虑到各模型的特性和上限,DeBERTa 的效果最佳,明显优于 RoBERTa 和 BERT。此外,应用生成式模型 GPT-2,BART 和 T5 进行采样答案重排序的结果相较生成模型微调结果有大幅度提升,且不同生成模型间重排序的差距明显小于微调结果的差距。团队取得的榜首和榜二均由 DeBERTa 对生成模型重排序所得。

值得一提的是,直接将典型程度加入生成模型微调过程的损失计算仅平均提升约 3 个百分点,而重排序策略可以提升至少 11 个百分点。由此可见,借助掩码模型重排序比直接将典型程度加入生成模型的微调过程更有效得多。

HITSZ-HLT 团队表示这个工作为掩码语言模型在生成式常识问答上的应用提供一种可行的解决思路。同时,考虑到人们在回答问题时,除了特定的上下文外,还需要利用其丰富的世界知识,为此本研究在训练阶段借助 WordNet,并采用三种不同的策略为每个选项随机采样若干负样例,有效加强了模型的常识推理能力。

该模型优异的性能表现有力证明了掩码语言模型和自回归语言模型的结合在生成式问答任务上的强大优势,以及机器阅读理解模型可以通过构建合适的预训练 + 重排序方式实现超越复杂专业模型的表现。此外,除了重排序还可以通过强化学习的方式直接增强自回归语言模型的建模能力。

谈到常识问答目前的发展和趋势,HITSZ-HLT 团队表示,未来的常识问答会更注重几个方面的研究。首先是开放式问答,由机器自行从库中搜索并收集信息进行问答。其次通过对文本进行多步推理,从多条相关文本中获取答案的研究。最后是因果推理,即让模型像人类通过对相关数据分析进行因果发现,提取因果关系用于常识问答。

从应用上来说,这项工作可以为诸如人机对话场景提供很多技术支持,使得对话更为智能,帮助客服机器人、语音助手等更好地理解人类指令。

常识推理任务参与的同学有:罗璇、范创、张义策、黄仕爵、梁斌等。指导教师为徐睿峰教授和秦兵教授。项目工作也得到哈工大深圳 - 招商证券联合实验室的支持,江万国等参加了相关研发。相关研究工作近日已获自然语言处理国际顶级会议 EMNLP 2022 录用。

论文信息:Xuan Luo, Chuang Fan, Yice Zhang, Wanguo Jiang, Bing Qin and Ruifeng Xu*. Masked Language Models Know Which are Popular: A Simple Ranking Strategy for Commonsense Question Answering. Findings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP 2022 ), Abu Dhabi, UAE

[1] Michael Boratko, Xiang Li, Tim O’Gorman, Rajarshi Das, Dan Le, and Andrew McCallum. 2020. ProtoQA: A question answering dataset for prototypical common-sense reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1122–1136, online. 
[2] Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. 2019. CommonsenseQA: A question answering challenge targeting commonsense knowledge. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4149–4158, Minneapolis, Minnesota.
[3]  George A. Miller. 1994. WordNet: A lexical database for English. In Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey, March 8-11, 1994.
理论哈工大深圳ProtoQA常识推理问答
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~