AI生成的假新闻难以识别,那就用神经网络来对抗吧

之前,OpenAI GPT-2 因为太能生成假新闻而不提供开源。而最近,华盛顿大学和艾伦人工智能研究所的研究者表示,要想对抗假新闻,用对应的假新闻生成器是最好的方法。研究者通过大量实验表示,最了解假新闻缺点、假新闻「造假水平」的会是原本的生成器。因此想要判别 GPT-2 生成的假新闻,还是需要先开源 GPT-2 大模型。

论文地址:https://arxiv.org/pdf/1905.12616.pdf

自然语言生成领域近期的进展令人喜忧参半。文本摘要和翻译等应用的影响是正面的,而其底层技术可以生成假新闻,且假新闻可以模仿真新闻的风格。

现代计算机安全依赖谨慎的威胁建模:从攻击者的角度确定潜在威胁和缺陷,并探索可行的解决方案。同样地,开发对假新闻的稳健防御技术也需要我们认真研究和确定这些模型的风险。

来自华盛顿大学和艾伦人工智能研究所的研究人员近期的一项研究展示了一个可控文本生成模型 Grover。给出标题「Link Found Between Vaccines and Autism」,Grover 可以生成文章内容,且 Grover 生成的内容比人类写的假消息看起来更加可信。

图 1:该研究介绍了一个能够检测和生成假新闻的模型 Grover。

开发对抗 Grover 等生成器的稳健验证技术非常重要。该研究发现,当目前最好的判别器能够获取适量训练数据时,其辨别假新闻和人类所写真新闻的准确率为 73%。

而对 Grover 最好的防御就是 Grover 本身,它可以达到 92% 的准确率,这表明开源强大生成器的重要性。研究人员进一步研究了这些结果,发现数据偏差(exposure bias)和缓解其影响的采样策略都会留下相似判别器能够察觉的缺陷。最后,该研究还讨论了这项技术的伦理问题,研究人员计划开源 Grover,帮助更好地进行假新闻检测。

Grover 生成文章示例

图 8:上图是同样标题的两篇文章,一篇是人类书写的,另一篇则是 Grover 生成的,标题来自《卫报》。右下角为人类评分者给出的分数。

图 9:上图展示了两篇关于反对饮水加氟的文章,一篇是人类书写的(来自 Natural News),另一篇则由 Grover 生成(基于原始标题和赫芬顿邮报的风格生成内容,并根据赫芬顿邮报的风格修改了原标题)。右下角为人类评分者给出的分数。

针对假新闻,该研究做了什么?

在本文中,研究人员力图在假新闻大量出现前去理解并解决这一问题。他们认为这一问题属于依赖计算机安全领域,依赖于威胁建模:分析系统的潜在威胁和缺陷,并探索稳健的防御措施。

为了严谨地研究这一问题,研究人员提出了新模型 Grover。Grover 能够可控并高效地生成完整的新闻文章,不仅仅是新闻主体,也包括标题、新闻源、发布日期和作者名单,这有助于站在攻击者的角度思考问题(如图 1 所示)。

人类评分表明他们认为 Gover 生成的假消息是真实可信的,甚至比人工写成的假消息更可信。因此,开发对抗 Grover 等生成器的稳健验证技术非常重要。研究人员假设了一种情景:一个判别器可以获得 Grover 生成的 5000 条假新闻和无限条真实新闻。

在这一假设下,目前最好的假新闻判别器(深度预训练语言模型)可达到 73% 的准确率 (Peters et al., 2018; Radford et al., 2018; 2019; Devlin et al., 2018)。而使用 Grover 作为判别器时,准确率更高,可达到 92%。这一看似反直觉的发现说明,最好的假新闻生成器也是最好的假新闻判别器

本文研究了深度预训练语言模型怎样分辨真实新闻和机器生成的文本。研究发现,由于数据偏差,在假新闻生成过程中引入了关键缺陷:即生成器是不完美的,所以根据其分布进行随机采样时,文本长度增加会导致生成结果落在分布外。然而,缓解这些影响的采样策略也会引入强大判别器能够察觉的缺陷。

该研究同时探讨了伦理问题,以便读者理解研究者在研究假新闻时的责任,以及开源此类模型的潜在不良影响 (Hecht et al., 2018)。由此,该研究提出一种临时的策略,关于如何发布此类模型、为什么开源此类模型更加安全,以及为什么迫切需要这么做。研究人员认为其提出的框架和模型提供了一个坚实的初步方案,可用于应对不断变化的 AI 假新闻问题。

具体方法

下图 2 展示了利用 Grover 生成反疫苗文章的示例。指定域名、日期和标题,当 Grover 生成文章主体后,它还可以进一步生成假的作者和更合适的标题。

图 2:如图展示了三个 Grover 生成文章的例子。在 a 行中,模型基于片段生成文章主体,但作者栏空缺。在 b 行中,模型生成了作者。在 c 行中,模型使用新生成的内容重新生成了一个更真实的标题。

架构

研究者使用了最近较为流行的 Transformer 语言模型 (Vaswani et al., 2017),Grover 的构建基于和 GPT-2 相同的架构 (Radford et al., 2019)。研究人员考虑了三种模型大小。

最小的 Grover-Base 使用了 12 个层,有 1.17 亿参数,和 GPT 及 Bert-Base 相同。第二个模型是 Grover-Large,有 24 个层,3.45 亿参数,和 Bert-Large 相同。最大的模型 Grover-Mega 有 48 个层和 15 亿参数,与 GPT-2 相同。

数据集

研究者创建了 RealNews 大型新闻文章语料库,文章来自 Common Crawl 网站。训练 Grover 需要大量新闻文章作为元数据,但目前并没有合适的语料库,因此研究人员从 Common Crawl 中抓取信息,并限定在 5000 个 Google News 新闻类别中。

该研究使用名为「Newspaper」的 Python 包来提取每一篇文章的主体和元数据。研究者抓取 2016 年 12 月到 2019 年 3 月的 Common Crawl 新闻作为训练集,2019 年 4 月的新闻则作为验证集。去重后,RealNews 语料库有 120G 的未压缩数据。

训练

对于每一个 Grover 模型,研究人员使用随机采样的方式从 RealNews 中抽取句子,并将句子长度限定在 1024 词以内。其他超参数参见论文附录 A。在训练 Grover-Mega 时,共迭代了 80 万轮,批大小为 512,使用了 256 个 TPU v3 核。训练时间为两周。

语言建模效果:数据、上下文(context)和模型大小对结果的影响

研究人员使用 2019 年 4 月的新闻作为测试集,对比了 Grover 和标准通用语言模型的效果。测试中使用的模型分别为:通用语言模型,即没有提供上下文语境作为训练,且模型必须生成文章主体。另一种则是有上下文语境的模型,即使用完整的元数据进行训练。在这两种情况下,使用困惑度(perplexity)作为指标,并只计算文章主体。

图 3 展示了结果。首先,在提供元数据后,Grover 模型的性能有显著提升(困惑度降低了 0.6 至 0.9)。其次,当模型大小增加时,其困惑度分数下降。在上下文语境下,Grover-Mega 获得了 8.7 的困惑度。第三,数据分布依然重要:虽然有 1.17 亿参数和 3.45 亿参数GPT-2 模型分别可以对应 Grover-Base 和 Grover-Large,但在两种情况下 Grover 模型相比 GPT-2 都降低了超过 5 分的困惑度。这可能是因为 GPT-2 的训练集 WebText 语料库含有非新闻类文章。

图 3:使用 2019 年 4 月的新闻作为测试集,多个语言模型的性能。研究人员使用通用(Unconditional)语言模型(不使用元数据训练)和有上下文语境(Conditional)的模型(提供所有元数据训练)。在给定元数据的情况下,所有 Grover 模型都降低了超过 0.6 的困惑度分数。

使用 Nucleus Sampling 限制生成结果的方差

在 Grover 模型中采样非常直观,类似于一种从左到右的语言模型在解码时的操作。然而,选择解码算法非常重要。最大似然策略,如束搜索(beam search),对于封闭式结尾的文本生成任务表现良好,其输出和其语境所含意义相同(如机器翻译)。

这些方法在开放式结尾的文本生成任务中则会生成质量不佳的文本 (Hashimoto et al., 2019; Holtzman et al., 2019)。然而,正如该研究在第六章展示的结果,限定生成文本的方差依然很重要。

该研究主要使用 Nucleus Sampling 方式(top-p):给出阈值 p,在每个时间步,从累积概率高于 p 的词语中采样 (Holtzman et al., 2019)。研究人员同时对比了 top-k 采样方式,即在每一个时间步取具有最大概率的前 k 个 token (Fan et al., 2018)。

Grover 生成的宣传文本轻易地骗过了人类

图 4 中的结果显示了一个惊人的趋势:尽管 Grover 生成的新闻质量没有达到人类的高度,但它擅长改写宣传文本。Grover 改写后,宣传文本的总体可信度从 2.19 增至 2.42。

图 4:人工评估结果。对于 Grover 生成的文本,三个人类评分者从风格、内容和整体可信度方面进行评估;每种类别的文章取样 100 篇。结果显示,Grover 生成的宣传文本比人类书写的原始宣传文本的可信度更高。

假新闻检测

假新闻检测中的半监督假设

虽然网上有大量人类书写的文本,但大部分都时间久远。因此对于文本的检测应当设定在近一段时间。同样,由攻击方生成的 AI 假新闻数量可能十分少。因此,研究人员将假新闻检测问题当做半监督问题。假新闻判别器可以使用从 2016 年 12 月到 2019 年 3 月的大量人工写成的新闻,即整个 RealNews 训练集。

但是,判别器被限制获取近期新闻和 AI 生成的假新闻。研究者使用 2019 年 4 月的 10000 条新闻生成文章主体文本,使用另外 10000 条新闻作为人类写成的新闻文章。研究人员将这些文章进行分割,其中 10000 条用于训练(每个标签 5000),2000 用作验证集,8000 用作测试集。

研究人员考虑了两种评价方式。第一种是不成对设置,即判别器仅获得文章文本,并且需要独立地判断文章是人类写的还是机器生成的。而在成对设置中,模型获得两份具备同样元数据的文章,一份属于人类完成,一份属于机器生成。判别器必须给机器生成的文章分配高于人工完成文章的 Machine 概率。研究人员对两种评价方法的准确率都进行了评估。

判别器评价结果:Grover 在检测 Grover 生成的假新闻时表现最好

表 1 展示了所有生成器和判别器组合的实验结果。对每个组合,研究人员展示了使用不同的采样策略(top-p&top-k)超参数的评价结果(p ∈ {.9, .92, .94, .96, .98, 1.0},k ∈ {1, 20, 40})。

结果显示了几种趋势:首先,成对生成器、判别器相比非成对设置总体上更加容易检测假新闻,说明模型更难校准自己的预测。其次,模型大小对生成器和判别器之间的对抗过程非常关键。使用 Grover 判别器对 Grover 生成的文本进行检测,总体上在所有 Grover 模型中都有大约 90% 的准确率

如果使用一个更大的生成器,准确率会下滑至低于 81%,与此相对应的是,如果判别器更大,则(检测假新闻)准确率上升至 98% 以上。最后,其他判别器总体上表现比 Grover 更差,这说明有效的判别器需要和生成器一样的归纳偏置(inductive bias)。

无法获得对应生成器又怎么样?

上文中的结果说明,当在测试阶段遇到一样的攻击方(生成器)时,在研究人员有一定数量的假新闻数据的情况下,Grover 是一个有效的假新闻判别器。但是如果放松这一假设呢?这里,研究人员考虑了攻击方使用 Grover-Mega 生成器,且有一个未知的 top-p 采样阈值。

在这一设定下,研究人员在训练中可以获得相对较弱的模型(Grover-Base 或 Grover-Large)。研究人员考虑了只有 x 个来自 Grover-Mega 的文本,并从较弱的生成器模型中采样 5000-x 个文章,采样阈值则对每一个文章都限定在 [0.9, 1.0] 之间。

研究人员在图 5 中展示了实验结果。结果说明,当只有少量 Grover-Mega 生成器文本时,从其他生成器获得的弱监督文本可以极大提升判别器的表现。16 至 256 个 Grover-Mega 数据,加上从 Grover-Large 获得的弱文本,可以使模型得到约 78% 的准确率,但没有弱文本时仅有 50% 的准确率。当来自 Grover-Mega 的文本数据增加时,准确率可提升至 92%。

表 1:在成对和不成对设置以及不同大小架构中判别器和生成器的结果。研究人员还调整了每对生成器和判别器的生成超参数,并介绍了一组特殊的超参数,它具有最低验证准确率的判别测试准确率。与其它模型(如 BERT)相比,Grover 最擅长识别自身生成的假新闻。

图 5:探索判别 Grover-Mega 生成结果的弱监督。在没有弱监督的情况下,判别器发现了 x 个机器生成的文本(来自 Grover Mega)。对于 Grover-Base 和 Grover-Mega,判别器发现了 5000-x 个机器生成的文本,这些文本由较弱的相关生成器给出。当给出的域内样本较少时,生成的弱文本可以提升判别器的性能表现。

模型如何区分人工手写和机器生成的文本?


等式 1:最近的最佳通用文本生成任务被认为是一个语言建模问题 (Bengio et al., 2003)。在这一问题中,需要寻找生成文本 x 的概率,此概率为该文本中每一个词以前面所有词为条件的概率之积。

为什么 Grover 在检测自己生成的假新闻时效果最好?研究人员猜想部分原因可能是数据偏差,即训练最大化等式 1 的模型仅能描述人工书写的文本(Ranzato et al., 2016)。为了验证他们的猜想,研究人员在图 6 中绘制了 Grover-Mega 在文本每个位置的困惑度,取阈值 p=0.96 和 p=1 时的文本以及人工手写的文本。

之后生成第一个 token 会导致较高的困惑度。但是,其余位置显示出一种奇怪的模式:人工书写的文本有着比随机采样文本更低的困惑度,而这个差距随着序列长度的增加而加大,表明随机采样通常会导致 Grover 生成的结果越来越脱离人类语言的分布。然而,限制方差(p=0.96)会降低由此产生的困惑度并限制其增长。

1. 限制模型方差同样产生了关键特征

但是在另一方面,限制模型的方差同样留下了一种特征。如同以前的研究采用的 top-k 采样一样 (Strobelt and Gehrmann,2019),本次研究使用的原子采样也出现了同样的现象。一个人工写成的文章中所有词都高于 top-p% 阈值的概率是 p^n,n 是文本长度。当 n 增长时,概率下降。然而,对于原子采样的文本,概率低于 1́-p 的文本被去除。因此文本中所有词的出现概率都在 top-p 以上,根据这个特征就能进行判别。

2. 特征能否被捕捉取决于对判别器的选择

对每一个时间步,从整体上来说,仅有生成器使用了 top-p 超参数。因此,如果一个判别器使用别的方式对文本进行建模,这个生成器需要更多的时间去定位被截断的 1-p 分布长尾。这可能能够解释为什么 Bert 在作为判别器时表现较 Grover 更差。

3. 方差缩减时需要谨慎避开的「甜蜜陷阱」(sweet spot)

不缩减模型方差和强力缩减模型方差都会带来问题。在缩减的参数中可能存在一个「甜蜜陷阱」(sweet spot)区域,去决定多大程度上需要截断分布,使判别变得困难。在图 7 中,研究人员展示了在不同采样阈值下的 Grover-Mega 判别器的表现。结果确实显示出了一个「甜蜜陷阱」。对于判别器,当 p 介于 0.92 和 0.98 之间时,判别工作是最困难的。

有趣的是,研究人员注意到攻击方 top-p 阈值在 Bert-Large 模型远低于这一阈值在 Grover-Large 中的值,即使两个模型有着同样的结构。这一结果支持了研究人员的猜测,即 Bert 对语言的建模方式和 Grover 非常不同。使用低 top-p 阈值似乎不能帮助模型获得丢失的长尾信息。

图 6:Grover-Mega 的困惑度,取自每个位置的平均值(以元数据为条件)。研究人员选取了 p=1(随机采样)和 p=0.96 时 Grover-Mega 生成的文本以及人工书写的文本。随机采样的文本有着比人工书写的文本更高的困惑度,而且这个差距随着序列长度的增加而加大。这表明,不减少方差的抽样通常会导致生成结果落在真实分布以外。

图 7:在设定了不同的方差缩减阈值时(如 p 对应原子采样和 k 对应 top-k 采样方式),将 Grover Mega 生成的新文章与真实文章区分开的未配对的验证准确率。因 p 的不同,结果也有所不同。当 p 在 0.92-0.96 之间时,区分假消息的难度最高。

总之,本文的分析表明,Grover 可能最擅长捕捉 Grover 生成的假新闻,因为它最了解假新闻的长尾分布在哪里,也因此知道 AI 假新闻的长尾分布是否被不自然地截断。

开源策略

生成器的发布很关键。首先,似乎不开源像 Grover 这样的模型对我们来说更安全。但是,Grover 能够有效检测神经网络生成的假新闻,即使生成器比其大多了(如第 5 部分所示)。如果不开源生换器,那针对对抗攻击的手段就很少了。

最后,研究人员计划公开发布 Grover-Base 和 Grover-Large,感兴趣的研究者也可以申请下载 Grover-Mega 和 RealNews。

理论假新闻GPT-2Transformer语言模型
1
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

暂无评论
暂无评论~