迄今最大模型?OpenAI发布15亿参数量通用语言模型GPT-2

几个月前谷歌推出的语言模型 BERT 引发了业内的广泛关注,其 3 亿参数量刷新 11 项纪录的成绩让人不禁赞叹。昨天,OpenAI 推出了一种更为强大的算法,这一次模型达到了 15 亿参数。

  • 代码地址:https://github.com/openai/gpt-2

这种机器学习算法不仅在很多任务上达到了业内最佳水平,还可以根据一小段话自动「脑补」出大段连贯的文本,如有需要,人们可以通过一些调整让计算机模拟不同的写作风格。看起来可以用来自动生成「假新闻」。对此,OpenAI 甚至表示:「出于对模型可能遭恶意应用的担忧,我们本次并没有发布所有预训练权重。」

如此强大的模型却不公开所有代码?Kyunghyun Cho 并不满意:「要是这样,为了人类我不得不删除迄今为止自己公开的所有模型权重了。」Yann LeCun 表示赞同。

OpenAI 训练了一个大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译问答自动摘要

该模型名为 GPT-2(GPT 二代)。训练 GPT-2 是为了预测 40GB 互联网文本中的下一个单词。考虑到可能存在的对该技术的恶意使用,OpenAI 没有发布训练模型,而是发布了一个较小模型供研究、实验使用,同时 OpenAI 也公布了相关技术论文(见文后)。

GPT-2 是基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标:给定一个文本中前面的所有单词,预测下一个单词。数据集的多样性使得这一简单目标包含不同领域不同任务的自然事件演示。GPT-2 是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。

15 亿的参数量已经是非常非常多了,例如我们认为庞大的 BERT 也就 3.3 亿的参数量,我们认为视觉中参数量巨大的 VGG-19 也不过 1.44 亿参数量(VGG-16 为 1.38 亿),而 1001 层的 ResNet 不过 0.102 亿的参数量。所以根据小编的有偏估计,除了 bug 级的大规模集成模型以外,说不定 GPT-2 就是当前最大的模型~

GPT-2 展示了一系列普适而强大的能力,包括生成当前最佳质量的条件合成文本,其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外,GPT-2 优于在特定领域(如维基百科、新闻或书籍)上训练的其它语言模型,而且还不需要使用这些特定领域的训练数据。在知识问答、阅读理解、自动摘要和翻译等任务上,GPT-2 可以从原始文本开始学习,无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前最优水平,但 GPT-2 表明如果有足够的(未标注)数据和计算力,各种下游任务都可以从无监督技术中获益。

Zero-shot

GPT-2 在多个领域特定的语言建模任务上实现了当前最佳性能。该模型没有在这些任务的特定数据上进行训练,只是最终测试时在这些数据上进行了评估。这被称为「zero-shot」设置。在这些数据集上进行评估时,GPT-2 的表现要优于那些在领域特定数据集(如维基百科、新闻、书籍)上训练的模型。下图展示了在 zero-shot 设定下 GPT-2 的所有当前最佳结果。

(+)表示该领域得分越高越好,(-)表示得分越低越好。

GPT-2 在 Winograd Schema、LAMBADA 和其他语言建模任务中达到了当前最佳性能。

在问答、阅读理解、自动摘要、翻译等其他语言任务中,无需对 GPT-2 模型做任何微调,只需以正确的方式增强模型,就能取得令人惊艳的结果,虽然其结果仍逊于专门系统。

OpenAI 假设,既然这些任务是通用语言建模的子集,那么增加计算量和数据就能获得进一步的性能提升。《Learning and Evaluating General Linguistic Intelligence》等其他研究也有类似假设。OpenAI 还预期微调能够对下游任务的性能提升有所帮助,尽管还没有全面的实验能证明这一点。

策略建议

大型通用语言模型可能产生巨大的社会影响以及一些近期应用。OpenAI 预期 GPT-2 这样的系统可用于创建:

  • AI 写作助手

  • 更强大的对话机器人

  • 无监督语言翻译

  • 更好的语音识别系统

此外,OpenAI 还设想了此类模型有可能用于恶意目的,比如:

  • 生成误导性新闻

  • 网上假扮他人

  • 自动生产恶意或伪造内容,并发表在社交媒体上

  • 自动生产垃圾/钓鱼邮件

这些研究成果与合成图像和音视频方面的早期研究结果表明,技术正在降低生产伪造内容、进行虚假信息活动的成本。公众将需要对在线文本内容具备更强的批判性,就像「deep fakes」导致人们对图像持怀疑态度一样。

今天,恶意活动参与者(其中一些是政治性的)已经开始瞄准共享网络社区,他们使用「机器人工具、伪造账号和专门团队等,对个人施加恶意评论或诽谤,致使大众不敢发言,或很难被别人倾听或信任」。OpenAI 认为,我们应该意识到,合成图像、视频、音频和文本生成等方面研究的结合有可能进一步解锁这些恶意参与者的能力,使之达到前所未有的高度,因此研究者应当寻求创建更好的技术和非技术应对措施。此外,这些系统的底层技术创新是基础人工智能研究的核心,因此控制这些领域的研究必将拖慢 AI 领域的整体发展。

因此,OpenAI 对这一新研究成果的发布策略是:「仅发布 GPT-2 的较小版本和示例代码,不发布数据集、训练代码和 GPT-2 模型权重」。

论文:Large Language Models are Unsupervised Multitask Learners

论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

摘要:问答、机器翻译、阅读理解、自动摘要这样的自然语言处理任务的典型方法是在任务特定数据集上进行监督式学习。我们证明,在包含数百万网页的全新数据集 WebText 上训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。计算条件概率并生成条件样本是语言模型在大量任务上取得良好结果(且无需精调)所必需的能力。当以文档+问题为条件时,在没有使用 127000 多个训练样本中任何一个样本的情况下,语言模型生成的答案在 CoQA 数据集上达到 55F1,媲美于或者超越了 4 个基线系统中的 3 个。语言模型的容量对 zero-shot 任务的成功迁移非常重要,且增加模型的容量能够以对数线性的方式在多任务中改进模型性能。我们最大的模型 GPT-2 是一个包含 15 亿参数的 Transformer,在 zero-shot 设定下,该模型在 8 个测试语言建模数据集中的 7 个数据集上取得了 SOTA 结果,但仍旧欠拟合 WebText 数据集。来自该模型的样本反映了这些改进且包含连贯的文本段落。这些发现展示了一种构建语言处理系统的潜在方式,即根据自然发生的演示学习执行任务。 

参考内容:

https://blog.openai.com/better-language-models/

https://www.bloomberg.com/news/articles/2019-02-14/this-article-is-fake-news-but-it-s-also-the-work-of-ai?srnd=technology-vp

理论NLPOpenAI
3
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

欠拟合技术

使用太少参数,以致于不能很好的拟合数据,称为拟合不足(欠拟合)现象

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自动摘要技术

自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~