一鸣参与

7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文

本周有许多非常重要的研究值得关注,如清华大学等提出的通用人工智能芯片,Facebook 提出的非侵入式脑机接口,还有 ACL 2019 最佳长、短论文等。

目录:

  • Towards artificial general intelligence with hybrid Tianjic chip architecture

  • Real-time decoding of question-and-answer speech dialogue using human cortical activity

  • RoBERTa: A Robustly Optimized BERT Pretraining Approach

  • Bridging the Gap between Training and Inference for Neural Machine Translation

  • Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment

  • ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

  • DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks


1. 标题:Towards artificial general intelligence with hybrid Tianjic chip architecture
  • 作者:Jing Pei、Lei Deng 、Sen Song 、Mingguo Zhao 、 Youhui Zhang 、 Shuang Wu 、 Guanrui Wang 、 Zhe Zou 、 Zhenzhi Wu 、 Wei He 、 Feng Chen 、 Ning Deng 、 Si Wu 、 Yu Wang 、 Yujie Wu 、 Zheyu Yang 、 Cheng Ma 、 Guoqi Li 、 Wentao Han 、 Huanglong Li 、 Huaqiang Wu 、 Rong Zhao 、 Yuan Xie 、Luping Shi

  • 论文链接:https://www.nature.com/articles/s41586-019-1424-8

摘要:现阶段,发展人工通用智能的方法主要有两种:一种是以神经科学为基础,无限模拟人类大脑;另一种是以计算机科学为导向,让计算机运行机器学习算法。实现人工通用智能的最终目标是让两者结合,但由于两套系统使用的平台各不相同且互不兼容,极大地限制了人工通用智能的发展。论文中,研究者研发了一款融合了上述两种方法的电子芯片。他们的混合芯片有多个高度可重构的功能性核,可以同时支持机器学习算法和类脑电路。作者用一个无人自行车系统验证了这一混合芯片的处理能力。试验中,无人自行车不仅可以识别语音指令、实现自平衡控制,还能对前方行人进行探测和跟踪,并自动避障。作者认为,这项研究或能为人工通用智能平台的进一步发展起到促进作用。
推荐:八月份的 Nature 封面文章,论文提出的一种融合了脉冲神经网络和人工神经网络的基础硬件架构,有效推动了通用人工智能研究。论文作者来自清华大学、新加坡国立大学等,研究阵容豪华。
8 月份的「Nature」封面。
2. 标题:Real-time decoding of question-and-answer speech dialogue using human cortical activity
  • 作者:David A. Moses、Matthew K. Leonard、Joseph G. Makin、Edward F. Chang

  • 论文链接:https://www.nature.com/articles/s41467-019-10994-4

摘要:Facebook 与加州大学旧金山分校(UCSF)发布了有关脑机接口研究的最新进展,研究关于构建非侵入式可穿戴设备,让人们只需通过想象要说的话即可完成「打字」动作。这项研究证明了人们在对话时大脑产生的活动可以实时解码为电脑屏幕上的文字——而在此之前,这样的工作都是离线完成的,实时「翻译」文字是脑机接口研究领域的第一次。研究人员表示,他们的算法目前为止还只能识别一小部分单词和短语,但正在进行的工作旨在翻译更多词汇,并大幅降低识别错误率。
推荐:这也是「Nature」的一篇论文。这项对标马斯克 Neuralink 的工作提出了新颖的脑机研究思路。根据报道,Facebook 打算以此为基础开发 VR 眼镜。
该型脑机接口的实现图示。
3. 标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach
  • 作者:Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov

  • 论文链接:https://arxiv.org/pdf/1907.11692.pdf

  • 实现链接:https://github.com/pytorch/fairseq/tree/master/examples/roberta

摘要:RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach。Facebook 的研究人员采用了 BERT-Large,并通过更多的数据与更长的训练来提升预训练过程,最终的结果通过模型集成获得。前段时间,RoBERTa 打败 XLNet 登上了 GLUE 排行榜榜首。
推荐:最佳预训练语言模型的头衔花落谁家?看数据量和训练时长吧!
随着 RoBERTa 模型的训练数据量和时长增加,效果也变得更好了。

4. 标题:Bridging the Gap between Training and Inference for Neural Machine Translation
  • 作者:Wen Zhang、Yang Feng、Fandong Meng、Di You、Qun Liu

  • 论文链接:https://arxiv.org/pdf/1906.02448

摘要:在训练时,神经机器翻译(NMT)利用 ground truth 词作为预测时的上下文,推理时则必须从头生成整个句子。这种带不带标注上下文的差异导致误差的累积。此外,单词级别的训练要求生成的序列与 ground truth 序列严格匹配,这导致模型对不同但合理的翻译进行过校正。
在本文中,研究者不仅从 ground truth,还从模型在训练中预测的序列采样上下文单词,并选择句子级别的最优预测序列来解决这些问题,其中预测语句是句子级别的最优选择。也就是说,翻译模型不再逐词对比标注而确定损失函数,它会考虑同一句话不同的译法。
推荐:这篇是 ACL 2019 最佳长论文,提出了新的机器翻译方法。作者来自中科院等机构。


5. 标题:Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
  • 作者:Nanjiang Jiang、Marie-Catherine de Marneffe

  • 论文链接:https://www.aclweb.org/anthology/P19-1412

摘要:推断说话者承诺(又称为事件事实)对信息提取和问答非常重要。在这篇论文中,研究者通过在挑战性的自然数据集上分析模型误差的语言学相关性,从而探索语言学缺陷驱动说话人承诺模型错误模式的假设。


研究者在 CommitmentBank 数据集上评估了两个 SOTA 的说话人承诺模型(speaker commitment model)。他们发现获取语言学信息的模型要优于基于 LSTM 的模型,这表明我们需要语言学知识来捕捉具有挑战性的自然数据。研究者表示按语言学特征划分的 item 揭示了不对称的错误模式:虽然模型在某些类别上取得了很好的表现,但它们无法泛化到自然语言中的各种语言学结构,例如条件句。


推荐:这篇是 ACL 2019 最佳短论文,论文说明了语言学规则(先验)对说话者承诺任务的重要影响,值得语言学或 NLP 研究背景的读者了解。


说话者承诺任务使用的数据集。


基于规则的、线性的、树结构的和混合模型的 Pearson r 分数和绝对平均误(Mean Absolute Error)分数。对比结果显示,基于语言学规则的模型比 bi-lstm(Hybrid)模型表现更好。


6. 标题:ERNIE 2.0: A Continual Pre-training Framework for Language Understanding


  • 作者:Yu Sun、Shuohuan Wang、Yukun Li、Shikun Feng、Hao Tian、Hua Wu、Haifeng Wang

  • 论文链接:https://arxiv.org/pdf/1907.12412v1.pdf





摘要:近两年,以 BERT、XLNet、ERNIE 1.0 为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
百度研究者发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT 通过掩码语言模型和下一句预测任务进行预训练。XLNet 构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。那么如果持续地学习各类任务,模型的效果能否进一步提升?这就是 ERNIE 2.0 希望探索的。
推荐:尽管 XLNet 等预训练语言模型取得了很好的效果,但中文语境缺乏相关模型。百度推出的 ERNIE 模型填补了这个空缺。现在 ERNIE 已进入第二代,依然是中文语境中效果最佳的预训练语言模型。
ERNIE 2.0 模型的结构示意。
7. 标题:DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks
  • 作者:Lin Zehui、Pengfei Liu、Luyao Huang、Junkun Chen、Xipeng Qiu、Xuanjing Huang

  • 论文链接:https://arxiv.org/pdf/1907.11065

摘要:变体 dropout 方法设计用于神经网络中的全连接层、卷积层和循环层,同时被证明可以有效地避免过拟合。作为循环和卷积层的一种良好替代选择,全连接自注意力层却缺少特定的 dropout 方法。本文旨在探索正则化 Transformer 中注意力权重的可能性,从而阻止不同的情景化特征向量出现互适应(co-adaption)。在一系列任务上的实验表明,DropAttention 可以提升性能,减弱过拟合。

推荐复旦大学提出专门针对注意力层的 Dropout 方法,值得参考研究。
理论AI 基础设施人机共生智能芯片ACL 2019ERNIERoBERTa通用人工智能脑机接口
1
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Dropout技术

神经网络训练中防止过拟合的一种技术

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

脉冲神经网络技术

第三代神经网络,脉冲神经网络(Spiking Neural Network,SNN),旨在弥合神经科学和机器学习之间的差距,使用最拟合生物神经元机制的模型来进行计算。脉冲神经网络与目前流行的神经网络和机器学习方法有着根本上的不同。SNN 使用脉冲——这是一种发生在时间点上的离散事件——而非常见的连续值。每个峰值由代表生物过程的微分方程表示出来,其中最重要的是神经元的膜电位。本质上,一旦神经元达到了某一电位,脉冲就会出现,随后达到电位的神经元会被重置。对此,最常见的模型是 Integrate-And-Fire(LIF)模型。此外,SNN 通常是稀疏连接的,并会利用特殊的网络拓扑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~