Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Robert West等作者

微软研究院主管Eric Horvitz:我们决定让AI理解幽默

很多人都尝试过调戏小冰、Siri 等 AI 助手,并获得过令人捧腹的回答,但当你用一本正经的语气开始讽刺的时候,人工智能就无法理解了。事实上,有些研究者认为无法理解幽默感是人工智能与人类在自然交互上面临的最大障碍。微软研究院运营主管 Eric Horvitz 和瑞士联邦理工助理教授 Robert West 最近决定通过一个在线游戏来构建语料库,彻底解决让计算机理解幽默的问题,该研究的论文目前正在被 AAAI 2019 审阅。

幽默是人类独有的特质,在日常生活中扮演着至关重要的作用。心理学家指出幽默在人类认知中发挥重要作用,包括它与学习、解决问题过程的惊人联系,以及幽默在社会参与中的重要性(Martin 2010)。幽默是智能及其自动化研究中的一个颇有前景的领域:我们难以想象一台计算机可以通过图灵测试,却无法理解和产生幽默。

随着计算机越来越多地接手对话任务(如聊天机器人和个人助手),与用户进行自然交互的能力变得越发重要,但自然的人机交互必须在在人类可以幽默——同时也能被计算机理解的情况下才算形成。最近的研究表明,AI 系统对于嘲弄的误解可能是开放互动失败的根源(Andrist et al. 2016)。

幽默与人类的关系如何?解释这种现象一直是很多最伟大的思想家面临的挑战,研究幽默已是 20 多个学科的研究主题了(Raskin 2008),其中也包括计算机科学(Binsted et al. 2006),研究人员已经开发了用于检测、分析和生成幽默语句的算法。

幽默的自动分析颇为复杂,因为大多数幽默文本具有难以理清的复杂叙事结构;例如,典型的笑话——文献中研究最多的幽默文本类型,小心地「布置舞台」,给观众建立某些期望,然后抖包袱颠倒期望(如,你以为有钱人像你想象的一样快乐吗?你错了!有钱人的快乐你想象不到!)。为了规避叙事结构带来的困难,本研究选择了一种特定的幽默体裁:讽刺新闻。讽刺性新闻表面上模仿了主流新闻的典型形式,但与严肃性新闻不同,它的目的不在于关联事实,而是嘲笑个体、群体或社会。而且更重要的是,讽刺性新闻往往首先从标题体现出来:只有标题本身有趣,故事的其余部分才会徐徐展开(Glass 2008)。这明显不同于真实的新闻报道,这也意味着讽刺性新闻的标题可以与正文分开研究,而标题的表达形式简洁,叙事结构最少。

讽刺标题的另外一个优势是它们模仿了严肃性新闻标题的公式化风格,这限制了它们的句法可变性,使我们能够更好地控制句法,并将重点放在语义上。此外,讽刺标题不仅在风格上与严肃性新闻标题类似,内容上也有相似之处:仅仅改变一个词就足以让一个讽刺标题听起来像严肃新闻。

运行示例。例如,将讽刺标题 God diagnosed with bipolar disorder(上帝被诊断患有躁郁症)改成 Bob Dylan diagnosed with bipolar disorder(Bob Dylan 被诊断患有躁郁症),那么原本应该出现在洋葱新闻上的文章就可以出现在严肃报刊上了。

此类讽刺标题与对应的严肃标题对组成的大型语料库将为幽默研究开启新的可能性。例如,我们可以通过查看造成这对标题属性不同(严肃 vs 幽默)的具体单词,来更加细粒度地理解讽刺性文本的幽默之处。这是与之前研究的最大不同,之前的研究通常将平均讽刺标题与平均严肃标题进行对比 (Mihalcea and Pulman 2007)。此外,尽管本研究的主要目标是获取对幽默的新见解,但是研究者还设想了一些新应用。例如,如果我们准确把握讽刺标题与严肃标题之间的区别,那么我们或许可以创建一个流程,用少许的改动将真实的新闻标题改成讽刺性标题。

要想创建对齐数据库,我们的第一个想法是将讽刺性新闻标题与严肃性新闻标题自动配对:从讽刺标题开始,找到几乎同时间写成的最类似的严肃标题。很难想象这个流程能获得很多具备高度词汇和句法相似度的标题对。另一个思路是众包:向众包人员展示严肃的标题,然后让他们通过微小改动将其改成讽刺标题。不过,该任务需要创新性思维,这并非人人拥有。即使是美国最著名的讽刺报刊《洋葱新闻》,每周生成的 600 个标题中也只有 16 个(小于 3%)被接受 (Glass 2008)。

一个关键的观察结果是如果把这个任务反过来会简单很多:只需微小改动即可直接去除讽刺标题中的幽默感,将标题变成看起来比较严肃的句子。也就是说,将别人费心写就的幽默标题转换成严肃版本所需的创造力远远少于向标题中添加幽默感。因此研究者采用了反向众包方法,设计了一个游戏 Unfun.me,如图 1 所示。该游戏给出讽刺性新闻标题 h,要求游戏玩家 A 修改标题,让其他选手认为修改结果 h' 是真实的严肃新闻标题。如果其他选手判断修改结果 h' 是严肃标题,则玩家 A 得到的奖励 R_A(h,h') 将上升,反之则奖励下降。

图 1. Unfun.me,用于构建讽刺-严肃标题对 (h,h') 语料库的游戏。图中数字表示任务的步骤。截图中为运行示例(h = God diagnosed with bipolar disorder;h' = Bob Dylan diagnosed with bipolar disorder;g = Obama elected president)。


图 2:(a) 通过 Unfun.me 收集的标题对中基于 token 的编辑距离的分布。(b) 编辑距离和严肃性评级权衡。(c) 基于 token 的编辑操作分布(仅成功的标题对)。(d) 基于语块的编辑距离分布(仅成功的标题对)。

该研究的贡献有两部分。首先,该研究引入了收集讽刺性新闻标题和严肃性新闻标题对语料库的在线游戏 Unfun.me。其次,该研究对这些标题对的分析更加细粒度地揭示了讽刺性标题的关键属性,这是之前研究所不具备的。

论文:Reverse-Engineering Satire, or「Paper on Computational Humor Accepted Despite Making Serious Advances」

论文链接:https://arxiv.org/abs/1901.03253

摘要:幽默是人类的一个基本特征。要理解幽默,首先得理解幽默和认知基础之间的联系,以及幽默在社交过程中的重要性。因此,它是一个与人工智能人机交互相关的有前景的重要研究课题。以前关于幽默的计算研究主要是以粗粒度水平进行的,如,预测整个句子、段落或文档等是否幽默。本文的目的是对幽默进行深入理解,因此我们追求的是能使给定文本变得幽默的细粒度模型。我们先从观察开始,发现讽刺性新闻的标题往往与严肃性新闻的标题类似,接着我们建立并分析了一个包含讽刺性新闻标题和严肃性新闻标题的语料库,其中两种新闻标题是两两成对且近乎一致的。该语料库是通过在线游戏——Unfun.me 构建的,它鼓励玩家对讽刺性新闻的标题进行最小幅度的修改,以使另一个玩家相信这是严肃性新闻的标题。对讽刺性新闻标题的修改成功去除了幽默成分,因为它精准定位了标题中使原讽刺标题变得有趣的关键词和概念。我们的分析表明,幽默成分通常在标题的末尾部分,主要是名词短语,且大多数讽刺标题会遵循某种逻辑模式,我们称之为虚假类比(false analogy)。总体来说,本文加深了我们对讽刺性新闻标题句法和语义结构的理解,并为构建幽默生成系统提供了一定的见解。

表 2:句法块类型在单替换对中的分布(仅显示至少修改一次的类型)。

图 3:修改后的块位置在单替换对中的分布,用于包含 3 到 6 个块的原始标题(每种长度的对数:24, 38, 123, 38)

表 4:虚假类比标题示例。 

理论幽默人机交互微软研究院Eric Horvitz
1
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

暂无评论
暂无评论~