Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

以毒攻毒:愚人节恶搞文章可以用来识别假新闻

在这个假信息泛滥的时代,我们每天都有过愚人节的感觉。Open AI发布GPT-2之后,更多人开始担心假新闻的泛滥。兰卡斯特大学的两位研究者另辟蹊径,基于愚人节恶搞文章创建数据集,再探究愚人节恶搞文章与假新闻之间的相似性,从而创建机器学习分类器来识别假新闻。

4 月 1 日至少有一个好处,你可以撒点谎而不必担心友尽。开玩笑啦!愚人节的真正好处是,提供了很多素材帮助语言学家识别「假新闻」。
英国兰卡斯特大学计算机和通信学院博士生 Edward Dearden 及其导师 Dr. Alistair Baron 就提出了一种建设性方法:利用愚人节那天网络上的假消息来研究欺骗性的语言,借此找出方法来识别「假新闻」。

他们发现,幽默的愚人节恶作剧——媒体每年4月1日发表的恶搞文章和恶意假新闻在写作结构上具有相似性。

研究者编译了一个新的数据集,或者说语料库,里面包含14年间的500多篇愚人节恶搞新闻。这些新闻来自370多个网站。

「愚人节恶搞文章非常有用,因为它们提供了很多可证实的欺骗性文本,让我们有机会发现写作者写作以假乱真的假新闻时所使用的语言学技巧。通过查看愚人节恶搞文章的语言并将它们和假新闻对比,我们能够更好地理解假新闻写作者使用的语言。」Edward 表示。

将愚人节恶搞文章和同时期写就但未在愚人节当天发表的真实新闻进行对比,我们会发现文体上的差异。

研究者集中于文本中的特定特征,例如使用的细节数量、模糊度、写作风格的正式性和语言的复杂度。

然后他们将愚人节消息和之前由另一组研究人员编译的「假新闻」数据集(参见《This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News》)进行了对比。

虽然从愚人节恶搞文章中发现的特征并非都对检测假新闻有用,但两者有很多相似的特征。

研究者发现相比真实新闻,愚人节恶搞文章和假新闻的语言复杂度都偏低,阅读难度也更低,而且句子更长。

研究发现,愚人节恶搞文章较少使用新闻报道中的重要细节,如名称、地点、日期、时间等。但是,假新闻比真实新闻更多地使用专有名词,如著名政治人物的名字:「特朗普」或「希拉里」等,而愚人节恶搞新闻使用的专有名词则较少。

第一人称代词(如「we」)也是愚人节恶搞文章和假新闻的重要特征。这与大家对欺骗检测的传统认知相反,传统观点认为说谎者更少使用第一人称代词。研究者发现愚人节恶搞文章与真实新闻相比,具有以下特点:

  • 文章长度通常较短

  • 使用更多独特的词

  • 使用较长的句子

  • 更容易阅读

  • 提到未来的不确切事件

  • 更多地提到当前事件

  • 较少提到过去的事件

  • 包含更少的专有名词

  • 使用更多的第一人称代词

假新闻与真实新闻相比,具有以下特点:

  • 文章长度较短

  • 更容易阅读

  • 使用简单的语言

  • 标点符号更少

  • 包含更多的专有名词

  • 通常比较不正式:频繁使用名字(如「希拉里」),有较多脏话和拼写错误

  • 包含较少的日期信息

  • 使用更多的第一人称代词

研究者创建了一个机器学习分类器,用来鉴别文章是愚人节恶搞新闻、假新闻还是真新闻。该分类器鉴别愚人节恶搞文章的准确度为 75%,鉴别假新闻的准确率为 72%。当该分类器在愚人节恶搞新闻上训练,但用于鉴别假新闻时,其准确率在 65% 以上。

该研究相关论文作者之一 Alistair Baron 表示:「在试图鉴别一篇文章是否为恶搞文章时,观察文章的细节和复杂度至关重要。尽管存在诸多不同之处,但研究结果表明愚人节玩笑和假新闻之间存在一些相似特征,通常和结构复杂性相关。」

「我们的研究发现,不同形式的虚假消息之间存在一些共同特征,而探求这些相同点可以为未来研究假新闻提供重要的洞见。」

该项研究的相关论文为《Fool's Errand: Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humour》,该论文将在本月于法国举行的第 20 届国际智能文本处理与计算语言学大会(CICLing)上进行展示。

正如 Dearden 所说,他们的研究只是解决假新闻问题的一部分,并没有搞定整个难题,人们可以依赖这种算法识别误导性文本,准确率极佳:

我们的研究旨在尝试理解恶搞新闻中使用的语言,并了解这种误导性信息与我们所说的「假新闻」有哪些相关性。不过我们的论文中并没有检测假新闻的灵丹妙药。

但这项研究可以帮助人们发现一些警告信号,并更加了解自己正在阅读的内容。虽然指导人们批判性思考和核实新闻真实性的方法超出了这项特定研究的能力,但 Dearden 在他们的研究中提到,教育计算机发现欺骗性文本是该研究的重要一步。

目前在打击虚假信息的方向上,我们有很多非常有趣的工作。这是非常有意义的,因为人们已经很难适应现有的信息量了,而且这种情况已经产生了实际后果。希望研究社区未来可以开发出一种把影响降到最低的方法。

论文:Fool’s Errand: Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humour

论文链接:http://www.research.lancs.ac.uk/portal/en/publications/fools-errand(3fb53494-6b3a-4f21-9205-d525e87fa080).html
摘要:每年 4 月 1 日,人们互开玩笑,新闻网站也编织假新闻来欺骗读者。在这个虚假信息泛滥的时代,Facebook 因允许「假新闻」在其平台传播,导致人们每天都有过愚人节的感觉而备受指责。我们利用愚人节的恶搞文章创建了一个数据集,并基于过去欺骗性、幽默、讽刺文章检测的研究构建了一组特征。对该数据集和这些特征的分析表明,查看文本的结构复杂性和详细程度是辨别愚人节恶搞文章的最重要特征类型。我们认为这些特征也非常有利于理解假新闻和虚假信息。

参考链接:

https://www.sciencedaily.com/releases/2019/03/190329130206.htm

https://www.forbes.com/sites/jessicabaron/2019/03/31/using-april-fools-stories-to-identify-malicious-fake-news/?ss=ai-big-data#30f43f611744

理论机器学习人工智能应用
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

暂无评论
暂无评论~