很多人都尝试过调戏小冰、Siri 等 AI 助手,并获得过令人捧腹的回答,但当你用一本正经的语气开始讽刺的时候,人工智能就无法理解了。事实上,有些研究者认为无法理解幽默感是人工智能与人类在自然交互上面临的最大障碍。微软研究院运营主管 Eric Horvitz 和瑞士联邦理工助理教授 Robert West 最近决定通过一个在线游戏来构建语料库,彻底解决让计算机理解幽默的问题,该研究的论文目前正在被 AAAI 2019 审阅。
幽默是人类独有的特质,在日常生活中扮演着至关重要的作用。心理学家指出幽默在人类认知中发挥重要作用,包括它与学习、解决问题过程的惊人联系,以及幽默在社会参与中的重要性(Martin 2010)。幽默是智能及其自动化研究中的一个颇有前景的领域:我们难以想象一台计算机可以通过图灵测试,却无法理解和产生幽默。
随着计算机越来越多地接手对话任务(如聊天机器人和个人助手),与用户进行自然交互的能力变得越发重要,但自然的人机交互必须在在人类可以幽默——同时也能被计算机理解的情况下才算形成。最近的研究表明,AI 系统对于嘲弄的误解可能是开放互动失败的根源(Andrist et al. 2016)。
幽默与人类的关系如何?解释这种现象一直是很多最伟大的思想家面临的挑战,研究幽默已是 20 多个学科的研究主题了(Raskin 2008),其中也包括计算机科学(Binsted et al. 2006),研究人员已经开发了用于检测、分析和生成幽默语句的算法。
幽默的自动分析颇为复杂,因为大多数幽默文本具有难以理清的复杂叙事结构;例如,典型的笑话——文献中研究最多的幽默文本类型,小心地「布置舞台」,给观众建立某些期望,然后抖包袱颠倒期望(如,你以为有钱人像你想象的一样快乐吗?你错了!有钱人的快乐你想象不到!)。为了规避叙事结构带来的困难,本研究选择了一种特定的幽默体裁:讽刺新闻。讽刺性新闻表面上模仿了主流新闻的典型形式,但与严肃性新闻不同,它的目的不在于关联事实,而是嘲笑个体、群体或社会。而且更重要的是,讽刺性新闻往往首先从标题体现出来:只有标题本身有趣,故事的其余部分才会徐徐展开(Glass 2008)。这明显不同于真实的新闻报道,这也意味着讽刺性新闻的标题可以与正文分开研究,而标题的表达形式简洁,叙事结构最少。
讽刺标题的另外一个优势是它们模仿了严肃性新闻标题的公式化风格,这限制了它们的句法可变性,使我们能够更好地控制句法,并将重点放在语义上。此外,讽刺标题不仅在风格上与严肃性新闻标题类似,内容上也有相似之处:仅仅改变一个词就足以让一个讽刺标题听起来像严肃新闻。
运行示例。例如,将讽刺标题 God diagnosed with bipolar disorder(上帝被诊断患有躁郁症)改成 Bob Dylan diagnosed with bipolar disorder(Bob Dylan 被诊断患有躁郁症),那么原本应该出现在洋葱新闻上的文章就可以出现在严肃报刊上了。
此类讽刺标题与对应的严肃标题对组成的大型语料库将为幽默研究开启新的可能性。例如,我们可以通过查看造成这对标题属性不同(严肃 vs 幽默)的具体单词,来更加细粒度地理解讽刺性文本的幽默之处。这是与之前研究的最大不同,之前的研究通常将平均讽刺标题与平均严肃标题进行对比 (Mihalcea and Pulman 2007)。此外,尽管本研究的主要目标是获取对幽默的新见解,但是研究者还设想了一些新应用。例如,如果我们准确把握讽刺标题与严肃标题之间的区别,那么我们或许可以创建一个流程,用少许的改动将真实的新闻标题改成讽刺性标题。
要想创建对齐数据库,我们的第一个想法是将讽刺性新闻标题与严肃性新闻标题自动配对:从讽刺标题开始,找到几乎同时间写成的最类似的严肃标题。很难想象这个流程能获得很多具备高度词汇和句法相似度的标题对。另一个思路是众包:向众包人员展示严肃的标题,然后让他们通过微小改动将其改成讽刺标题。不过,该任务需要创新性思维,这并非人人拥有。即使是美国最著名的讽刺报刊《洋葱新闻》,每周生成的 600 个标题中也只有 16 个(小于 3%)被接受 (Glass 2008)。
一个关键的观察结果是如果把这个任务反过来会简单很多:只需微小改动即可直接去除讽刺标题中的幽默感,将标题变成看起来比较严肃的句子。也就是说,将别人费心写就的幽默标题转换成严肃版本所需的创造力远远少于向标题中添加幽默感。因此研究者采用了反向众包方法,设计了一个游戏 Unfun.me,如图 1 所示。该游戏给出讽刺性新闻标题 h,要求游戏玩家 A 修改标题,让其他选手认为修改结果 h' 是真实的严肃新闻标题。如果其他选手判断修改结果 h' 是严肃标题,则玩家 A 得到的奖励 R_A(h,h') 将上升,反之则奖励下降。
图 1. Unfun.me,用于构建讽刺-严肃标题对 (h,h') 语料库的游戏。图中数字表示任务的步骤。截图中为运行示例(h = God diagnosed with bipolar disorder;h' = Bob Dylan diagnosed with bipolar disorder;g = Obama elected president)。
图 2:(a) 通过 Unfun.me 收集的标题对中基于 token 的编辑距离的分布。(b) 编辑距离和严肃性评级权衡。(c) 基于 token 的编辑操作分布(仅成功的标题对)。(d) 基于语块的编辑距离分布(仅成功的标题对)。
该研究的贡献有两部分。首先,该研究引入了收集讽刺性新闻标题和严肃性新闻标题对语料库的在线游戏 Unfun.me。其次,该研究对这些标题对的分析更加细粒度地揭示了讽刺性标题的关键属性,这是之前研究所不具备的。
论文:Reverse-Engineering Satire, or「Paper on Computational Humor Accepted Despite Making Serious Advances」
论文链接:https://arxiv.org/abs/1901.03253
摘要:幽默是人类的一个基本特征。要理解幽默,首先得理解幽默和认知基础之间的联系,以及幽默在社交过程中的重要性。因此,它是一个与人工智能和人机交互相关的有前景的重要研究课题。以前关于幽默的计算研究主要是以粗粒度水平进行的,如,预测整个句子、段落或文档等是否幽默。本文的目的是对幽默进行深入理解,因此我们追求的是能使给定文本变得幽默的细粒度模型。我们先从观察开始,发现讽刺性新闻的标题往往与严肃性新闻的标题类似,接着我们建立并分析了一个包含讽刺性新闻标题和严肃性新闻标题的语料库,其中两种新闻标题是两两成对且近乎一致的。该语料库是通过在线游戏——Unfun.me 构建的,它鼓励玩家对讽刺性新闻的标题进行最小幅度的修改,以使另一个玩家相信这是严肃性新闻的标题。对讽刺性新闻标题的修改成功去除了幽默成分,因为它精准定位了标题中使原讽刺标题变得有趣的关键词和概念。我们的分析表明,幽默成分通常在标题的末尾部分,主要是名词短语,且大多数讽刺标题会遵循某种逻辑模式,我们称之为虚假类比(false analogy)。总体来说,本文加深了我们对讽刺性新闻标题句法和语义结构的理解,并为构建幽默生成系统提供了一定的见解。
表 2:句法块类型在单替换对中的分布(仅显示至少修改一次的类型)。
图 3:修改后的块位置在单替换对中的分布,用于包含 3 到 6 个块的原始标题(每种长度的对数:24, 38, 123, 38)
表 4:虚假类比标题示例。