马里兰大学:如何通过人机协作,让计算机更好地回答问题?

日前,美国马里兰大学(University of Maryland、UMD)的研究人员已经发现如何通过人机协作可靠地挑战计算机语言,反映了人类语言的复杂性。他们开发了包含1200多个问题的数据集,虽然问题很简单,但仍困扰着当今最强大的计算机应答系统。学习掌握这些问题的系统将比目前存在的任何系统对语言有更好的理解。

图|人类与人工智能的概念(图片来源:© nespix / Adobe Stock人工智能的终极目标之一是让机器真正理解人类的语言,并从复杂、细微的字句中诠释语意。当2011年IBM的Watson电脑击败著名的《危险边缘》(电视智力竞赛节目)冠军肯·詹宁斯(Ken Jennings)时,似乎就已达到了这一目标。但是,任何尝试过与虚拟助手Siri进行对话的人都知道,要真正理解人类语言,计算机还有很长的路要走。因此为了更好地理解人类语言,计算机系统必须训练挑战这些问题,并完整地反映人类语言的复杂性。

马里兰大学的研究人员已经发现如何通过人机协作可靠地创建这些问题,并开发了一个包含1200多个问题的数据集,虽然问题易于回答,但仍难倒了当今最好的计算机应答系统。学习掌握这些问题的系统将比目前存在的任何系统能对语言有更好的理解。这项研究已发表在2019年出版的《计算语言学协会学报》上。

该论文的资深作者、UMD计算机科学副教授Jordan Boyd-Graber说:“大多数的计算机问答系统并没有解释为什么它们会这样回答问题,但我们的工作帮助我们了解计算机实际理解的内容。此外,我们还开发了一个数据集,用于测试计算机,这些数据集将揭示计算机语言系统是否真的在阅读并能执行与人类相同的处理。”

目前大多数改进计算机问答程序的工作都是由工作人员或计算机来生成问题。这些方法存在的固有问题是,当人们写问题时,并不知道问题的哪些特定元素会混淆计算机。而计算机编写问题时,要么编写公式化的、填空式的问题,一旦出错,就会产生毫无意义的结果。

为了开发人类与计算机共同工作创建问题的新方法,Jordan Boyd-Graber及其团队创建了一个计算机界面,当开发人员输入一个问题时,该界面能显示计算机在“思考”什么,然后开发人员再编辑问题来利用计算机的弱点。

在新界面中,当人类输入问题时,计算机的猜测会按顺序显示在屏幕上,并突出显示导致计算机做出猜测的单词。

例如,如果输入“哪位作曲家的海顿主题变奏曲是受到卡尔·费迪南德·波尔的启发?”,而系统正确地回答了“约翰内斯·勃拉姆斯”,那么界面会突出显示“费迪南德·波尔”这个词,表明是这个短语引导它找到了答案。利用这些信息,人们可以再次编辑问题,让计算机在不改变问题含义的情况下更难回答正确。在这个例子中,把“卡尔·费迪南德·波尔”换成了对他工作的描述“维也纳音乐协会的档案管理员”,计算机就无法正确回答。显然,专业的人类智力游戏玩家仍然可以轻松正确地回答重新编辑后的问题。

通过合作,人类和计算机可靠地开发了1213个计算机难题,研究人员在一场比赛中对经验丰富的人类选手进行了测试,其中包括从大学初级校队到《危险边缘》的冠军,即使是最弱的团队也击败了最强的计算机系统。

“近三四年来,人们已逐渐意识到计算机问答系统非常脆弱,且易被愚弄,但这是我们所知的第一篇真正使用机器来帮助人类打破模型的论文。”该论文的共同作者UMD计算机科学研究生石峰(音译)说。

研究人员表示,这些问题不仅可以作为计算机专家更好地理解自然语言处理失败的新数据集,还可以作为开发改进的机器学习算法的训练数据集。这些问题揭示了持续困扰计算机的六种不同语言现象。

这六种现象分为两类。第一类是语言现象:释义(例如说“leap from a precipice”而不是“jump from a cliff”,但释义均为“从悬崖跳下来”);分散注意力的语言或语意的背景(例如在与政治无关的线索中引用政治人物)。第二类是推理技巧:需要逻辑和计算的线索,对问题中的元素进行三角剖分,或将多个步骤组合在一起形成结论。

Jordan Boyd-Graber 表示,“人类能进行更多地概括,并看到更深层次的联系。虽然人类没有计算机的无限内存,但仍然有优势能够通过局部看到整体。把计算机遇到的问题分类,有助于理解我们需要解决的问题,这样才能真正让计算机开始通过局部看到整体,并以人类的方式回答问题。”

Jordan Boyd-Graber补充道,要实现这一目标还有很长的路要走,这篇论文列出了未来几年的研究议程,这样能让电脑更好地回答问题。他目前就职于马里兰大学高级计算机研究所(UMIACS)以及UMD的信息研究学院和语言科学中心,这项研究提供的新工具,将帮助计算机科学家实现这一目标。

(参考:www.sciencedaily.com)

产业人机交互马里兰大学
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~