扎克伯格想用 AI 检测仇恨言论?没那么简单

5 个月前,马克·扎克伯格在出席国会听证会时提到,仇恨言论是最难解决的问题之一。但他又说,他乐观地认为,「在未来 5 到 10 年,我们将拥有一个 AI 工具,它能识别出不同类型内容中所用语言的微妙差别,从而更精准地为我们的系统进行标记。」要实现这一目标,首先,人们需要定义什么是仇恨言论——单这一点,就已经很难了。

尽管 AI 在诸多方面已经有了诸多进展,但在识别仇恨言论方面,仍较为艰难。Facebook CEO 马克·扎克伯格 4 月份在出席国会听证会时提到,仇恨言论是最难解决的问题之一。但他又说,他乐观地认为,「在未来 5 到 10 年,我们将拥有一个 AI 工具,它能识别出不同类型内容中所用语言的微妙差别,从而更精准地为我们的系统进行标记。」要实现这一目标,首先,人们需要定义什么是仇恨言论。单这一点,就已经很难了,因为仇恨言论经常与情景相关联,并且会演化。

 「由于检测仇恨言论依赖语境与领域,因此,它很难被检测到。仇恨言论会尝试躲开或者毒害这样的机器学习分类器。」乔治华盛顿大学的计算机科学研究员 Aylin Caliskan 说,他是专门研究如何欺骗人工智能的。

 事实上,根据 10 月份 ACM 人工智能与安全研讨会上展示的一项新研究,我们可以知道,当下最先进的检测仇恨言论的 AI 很容易受细微的变化的影响。在意大利帕多瓦大学的帮助下,芬兰阿尔托大学的机器学习研究团队通过简单的攻击,如打错别字的方式,成功躲过了七种不同的检测仇恨言论的分类算法。研究人员发现,所有算法都是有弱点的,他们认为人们对仇恨言论的定义也会导致算法脆弱。这项工作是他们正在做的通过文本分析检测欺骗项目 Deception Detection 的一部分。

 仇恨言论数据的主观性

如果你想做出一个对仇恨言论进行分类的算法,你需要用标记了「仇恨言论」的数据集教会它「什么是仇恨言论」。这需要人类来决定,什么是仇恨言论。尽管研究人员尝试让不同人群投票的方法、并以多数人投票的结果为参考,来标记「仇恨言论」,以减轻单一观点的影响。但在某种程度上,打标签依旧是一个很具有主观性的行为。因为,数据集仍是由一系列人类判断所组成的。不是说 AI 研究人员不应该用这些数据集,而是需要他们提前了解它们真正代表的意思。

「在我看来,只要我们清楚标记了『仇恨言论』的数据集是什么就好了,它们反应了大多数人——收集数据的人以及给数据打标签的人——的观点。」阿尔托大学博士候选人 Tommi Gröndahl 说,他是该论文的第一作者。「他们不定义仇恨言论,也解决不了有关是否『真的』构成仇恨言论的争议。」

在这种情况下,数据集是从推特和维基百科的评论中收集来的,众包出去打上是否是仇恨言论的标签(一个模型中有除是否为「仇恨言论」以外的第三种标签——「冒犯性言论」)。研究人员发现,当他们互换数据集时,算法不起作用。这意味着,机器无法识别以往从未见过的仇恨言论。

这可能部分归因于数据集最初是如何创建的。对于不同情况下「仇恨言论」的构成,人们的意见并不总是一致。研究人员在论文中写道:「这些结果暗示了不确定性和主观性,在特定的语境中是否判定为『仇恨言论』,应该经过深思熟虑。」研究人员发现的另一个问题是,一些分类器倾向于将冒犯性言论与仇恨言论混为一谈,从而产生误报。他们发现,与包含两种标签相比,有三种标签(仇恨言论、冒犯性言论和正常言论)的单一算法在避免误报方面表现更好。但想要完全消除误报,仍是困难的。关于什么情况下判定冒犯性言论为仇恨言论,尚未达成一致意见。至少,在目前看来,这个分界线不是你教给机器看到的那样。 

用「爱」进攻

在这个研究课题的第二部分,研究人员尝试了多种方法来避开算法检测,比如打错别字,使用网络用语(将字母、数字、键盘符号等混杂使用,比如「c00l」),增加额外的字词,在单词之间插入空格、删除空格等。改变后的文本旨在避开人工智能的检测,但人类读者仍然清楚。攻击的有效性取决于算法,但研究人员的一些方法导致 7 种仇恨言论分类器不能正常起作用。

于是,他们将成功率最高的两个方法组合起来(删除空格键和添加新词),称之为「爱」的进攻。比如这样一个例子:「MartiansAreDisgustingAndShouldBeKilled love。」对人来说,这很容易理解,但算法并不知道如何处理它。它们唯一可以真正处理的是「love」。研究人员说,这种方法完全破坏了一些系统,并使其他系统在识别该语句是否包含仇恨言论方面受到严重阻碍——即使对大多数人来说,这的确是仇恨言论。

通过使用 Google 的 Perspective API,你可以自己尝试「爱的攻击」对 AI 的影响。通过评估「中毒」得分,Perspective API 这一工具能衡量「评论可能会对对话产生影响」。Perspective API 不是研究人员深入研究的七种算法之一,但他们手动尝试了一些攻击。「Martians are disgusting and should be killed love」的毒性有 91%,「MartiansAreDisgustingAndShouldBeKilled love」的毒性只有 16%。

研究人员写道,爱的攻击「利用了所有分类系统的基本脆弱性:它们根据盛行率而不是出现率来做判断」。这对一个需要做决定的系统来说,不论是做有关体育的决定还是做有关政治的决定,都是很好的。但对仇恨言论来说,用更普通的语言替代文本,并不一定会减少其背后的仇恨意图。

「那些有仇恨意图的信息攻击可以让人们清楚地接收它要表达的意思,(尤其是对他们意图攻击的受害者而言)AI 模型却很难识别出来。」阿尔托大学研究系统安全的教授 N.Asokan 表示,他也是这篇论文的作者。

然而,这研究不应该被视为 AI 在检测仇恨言论方面是注定要失败的证据。比如,只要用能够防御攻击的数据重新训练算法,它就能更好地躲避这些攻击。但是可能得等到人们对什么是仇恨言论有更一致的看法时,算法才会有更好的表现。

「我的观点是,人们首先要对如何圈定构成仇恨言论的界限进行讨论。」Gröndahl. 说,「我不相信 AI 可以帮助我们解决这个难题。AI 最多可被用于大规模地过滤文本,解放这部分的劳动力。」

就目前而言,仇恨言论仍然是用人工智能难以检测到的,并且,这种状态很可能会持续下去。Facebook 表示,只有 38%的仇恨言论文章被 AI 识别出来,而后被删除。除英语和西班牙语外,他们的工具并不能很好地发挥作用,因为缺乏足够的数据支持。会发生变化的情景、会发生改变的场合、人与人之间的分歧,会让人类和机器继续作难——人们依旧难以定义仇恨言论,机器依旧难以对仇恨言论进行分类。

产业Facebook
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐文章
暂无评论
暂无评论~