Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Tony Peng原创

解决自然语言歧义问题,斯坦福教授、IJCAI 卓越研究奖得主提出 SenseBERT 模型

自然语言理解和生成对于 AI 系统来说是一大难题,语言的复杂性和模糊性对 AI 系统提出了很大挑战。今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他前沿文本生成系统的「HAIM」。AI21 Labs 的愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。

给出一个包含同形异义词(homonym)的句子,如「He is a great bass player who hates eating bass」,人类可以相当自信地理解前一个「bass」是一种乐器贝斯,后一个「bass」是一种淡水鱼。而 AI 算法很可能无法解决如此简单的文本歧义问题。「威诺格拉德模式」(Winograd Schema,机器需要识别问题中的前指关系,即指出问题中某一代词的先行词)也能难倒 AI 系统。经典例子是「The trophy doesn』t fit in the suitcase because it is too big.」。这句话中,AI 系统很难确定「it」指「trophy」还是「suitcase」。

为了教会算法更好地理解人类语言的歧义现象,以色列研究公司 AI21 Labs 今日发布论文《SenseBERT: Driving Some Sense into BERT》,提出一种能够显著提升词汇消歧能力的新模型,该模型在复杂的 Word in Context (WiC) 语言任务中取得了当前最优结果。

这篇论文的重要创新是,SenseBERT 不仅能够预测遮蔽词汇(masked word),还能预测它们在给定语境下的实际含义。AI21 Labs 的研究人员使用英语词汇数据库 WordNet 作为标注参照系统,设计了一个网络来预测单词在语境中的实际含义。然后将该预训练网络嵌入 BERT。

SenseBERT 论文是 AI21 Labs 的首批研究项目之一,在过去一年半的时间中秘密进行。AI21 Labs 创建于 2017 年,总部位于以色列特拉维夫,创始人为斯坦福大学计算机科学系荣誉退休教授、AI Index 发起人 Yoav Shoham 和以色列军事情报局 8200 部队前网络安全团队负责人 Ori Goshen。

正如位于伦敦的 DeepMind 和位于旧金山的 OpenAI,AI21 Labs 也运行着一家商业化 AI 公司,该公司遵循独特的研究方向:连接传统知识表示方法和深度神经网络。知识表示在 1980 年代非常流行,是一种从语言中提取语义预测的机器学习技术。

近年来神经网络显现出其局限性,因此符号主义和神经方法的结合成为趋势。尽管神经网络在很多 AI 领域中取得了显著进展,但它们仍然对语义束手无策。即使最聪明的自然语言理解 (NLU) 系统,在目标语言任务中也会被对抗数据样本轻易愚弄。2017 年,斯坦福研究人员发现,向 SQuAD 问答数据集添加对抗问题可将 16 个公开模型的平均 F1 分数从 75% 降到 36%(参见论文《Adversarial Examples for Evaluating Reading Comprehension Systems》)。

类似的问题也出现在文本生成系统中。今年早些时候,OpenAI 发布了语言模型 GPT-2,它可以生成逼真的文本段落。然而,斯坦福大学计算机科学系副教授、SQuAD 联合创建者 Percy Liang 泼了一盆冷水:「GPT-2 语言模型可以像人类一样写作,但它并不清楚自己写的是什么。」

「AI 仍然缺乏 5 岁孩童就拥有的常识,它们距离人类智能还很遥远。」Shoham 博士说道。

Shoham 博士因其在知识表示和博弈论领域的巨大贡献而闻名,他认为神经网络的改进需要知识表示的加持。

上周五,Shoham 博士获得 IJCAI 2019 卓越研究奖。他在大会现场表示:「我没有看到,神经网络在子进化时间尺度上学会算术、时空、因果关系、心理状态、言语行为等的证据。而知识表示准确聚焦于编码这些难以理解的概念:时间、动作、信念。」

Yoav Shoham

2017 年,Shoham 博士在一个向弱势群体普及编程技能的以色列非营利项目中结识了 Ori Goshen。他们发现彼此志趣相投,于是决定创办 AI21 Labs(AI for the 21st century),其愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。

Shoham 博士的朋友 MobileEye CEO Amnon Shashua 是 AI21 Labs 的主要投资人和董事长。AI21 Labs 拥有一支 20 人的团队,从 Pitango Ventures、8VC 等机构获得了总计 950 万美元的投资。

MobileEye CEO Amnon Shashua

和 SenseBERT 一同公开的还有其自研文本生成系统「HAIM」,其可控性优于其他前沿文本生成系统,如 OpenAI 的 GPT-2 和华盛顿大学的 Grover。大多数文本生成器基于人类写的前提合成文本,但是生成的文本常常会跑题、不连贯,或者与原始语境相悖。HAIM 的工作原理稍有不同:先为模型提供开头和结尾,然后模型使用切题的生成文本填补中间内容,连接开头和结尾。输出结果可以根据长度进行调整。

HAIM 的名字也是自己起的。研究人员输入开头「The team needed a name. The best suggestion...」(这个团队需要一个名字,最佳建议是……)和对应的结尾「...everybody agreed it was a great name for a state-of-the-art natural language generator.」(……每个人都认为这对当前最优的自然语言生成器而言是一个绝佳的名字)。然后模型提出了「HAIM」,研究者对这个缩略词进行了逆向工程,得到了「Halfway Acceptable Interpolating Machine」。(Shoham 博士称其为「玩笑式的事后合理化」。)

AI21 Labs 发布了 HAIM-Large 模型的 demo,该模型包含 3.45 亿参数,在 40GB OpenWebText 数据集上训练而成。

HAIM-Large demo 地址:https://www.ai21.com/haim

GPT-2 和 HAIM 的可控性对比。

Shoham 博士此前创立的多家 AI 公司被高价收购,这位 63 岁的连续创业者无疑具备管理公司的能力。然而 AI21 Labs 面临着不一样的挑战:它更技术向,需要大量投资来支持商业化之前的科研活动(像 OpenAI 和 DeepMind 那样)。最重要的是,它的愿景是创建能够解决最令 AI「头痛」的问题之一(自然语言理解和生成)的系统。

当被问及 AI21 Labs 在这片未知领域的规划时,Shoham 博士告诉机器之心:「自然语言理解和生成是一个多方面问题,我们对它可能也只是部分理解。要想取得成功,你不需要全面理解,而是需要从富有成效的角度去理解。我们不认为自己是世界上最聪明的,但是我们也不认为还有什么人比我们聪明。我们有机会成功,但不必要是唯一的成功者。这不是零和游戏。」

入门自然语言理解AI21 Labs
3
相关数据
Stanford University - Computer Science Department机构

斯坦福大学计算机科学系隶属于工程学院,提供理学学士、理学硕士和哲学博士学位。它还参与了以下本科跨学科项目:计算机系统工程、符号系统、数学和计算科学。计算机科学系成立于1965年,是本科和研究生阶段的研究和教育中心。强大的研究团队致力于人工智能、机器人学、计算机科学基础、科学计算和系统领域的研究。计算机科学的基础工作是这些小组的主要研究目标,但是也非常强调跨学科研究和促进基础研究的应用。跨学科工作涉及化学、遗传学、语言学、物理学、医学以及工程、建筑和制造等各个领域。该系与大学其他系中对计算机感兴趣的研究人员保持密切联系。此外,教师和学生通常与附近研究机构或行业机构的调查人员一起工作。主要的教育目标是让学生为学界或业界的研究和教学职业做好准备。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~