不负其名OpenAI,GPT-2模型阶段性公布……

更大的 GPT-2 模型已经可用了,你还在等什么呢?

几个月前,OpenAI 发布了强大的通用语言模型 GPT-2,而在宣布这个好消息没多久之后,它又宣布要与开源「say goodbye」。理由是:GPT-2 太好用了!要是不小心被坏人利用怎么办??

对于这个理由,广大吃瓜群众表示:呵呵……

说正经的,对于这个理由,AI 社区是无法接受的。自 OpenAI 表示不开源的理由之后,Reddit 上就掀起了明嘲暗讽的血雨腥风……

机器学习社区发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?

除了这种明显的嘲讽,还有理性的机器学习人士认真地陈述了自己反对 OpenAI 这种做法的理由:条理清晰,有理有据,在 reddit 上获得大量支持(详情请看「OpenAI 被讽 ClosedAI?语言模型并没有想象中的强大」)。

可能是反对的浪潮比较大,也可能是因为被人家说的理由戳中了。总之,OPenAI 最近开始开放 GPT-2 模型。

OpenAI 在其博客上表示:

我们正采用两种机制来发布 GPT-2:分阶段发布和基于伙伴关系的共享。作为分阶段发布的下一步,我们将先公布参数为 3.45 亿的模型。而对于致力于提高大型语言模型的 AI 和安全社区合作伙伴,我们将与之分享 7.62 亿和 15 亿参数的模型。

也就是说,OpenAI 准备逐步一点点公开 GPT-2 模型,或者基于合作伙伴的关系给对方分享更大参数的模型。对此,OpenAI 同样给出了自己的理由。

分阶段发布

分阶段发布包括一系列模型的逐步发布。这样做的目的是给人们足够的时间来评估这些模型的特性,讨论其社会影响,并评估每次发布带来的影响。

作为分阶段发布策略的下一步,OpenAI 将发布 3.45 亿参数的模型。相比 1.17 亿参数的模型,这个版本的模型性能有所提高,但在生成连贯文本的能力方面,它还不及 15 亿参数的模型。

虽然相比 1.17 亿参数的模型,3.45 亿版本被滥用的风险更高,但这还是比 15 亿版本的风险要低多了。而且,OpenAI 认为,很多人已经有能力获得 3.45 亿版本需要的训练系统。这种不断发展的复现环境也为其发布决策提供了参考。

决定发布 3.45 亿参数的模型时,OpenAI 考虑了以下因素:(不同用户)生成连贯文本的不同尺寸模型的易用性、人类在文本生成过程中的作用、未来被其他人复现和发布的可能性和时间、被滥用的可能性、关于不可观察使用的专家知情推论等。OpenAI 仍无法确定其中一些因素,并且希望机器学习社区能够继续给出关于正确发布模型的建议。

OpenAI 希望正在进行的关于偏见、检测和滥用的研究能够给予其及时发布更大模型的信心。六个月之后,他们将分享关于语言模型社会影响的更全面分析以及对发布决策的启发。

基于合作伙伴的分享

自 2 月份发布 GPT-2 并宣布不将其开源以来,OpenAI 和诸多外部研究人员、科技公司以及政策制定者就其发布策略和日益庞大的语言模型的影响进行了对话。他们还在活动中介绍和讨论了其研究,包括与 Partnership on AI 组织共同举办的晚宴活动和在华盛顿 DC 全球参与中心(Global Engagement Center)向政策制定者做的展示活动。

现在,OpenAI 正与学术机构、非盈利组织、工业实验室建议合作伙伴关系,这些组织机构都致力于提高社会对大型语言模型的准备程度。OpenAI 与这些组织分享了 7.62 亿参数和 15 亿参数的模型,以促进对语言模型输出检测、语言模型偏差分析和缓解以及模型滥用可能性分析的研究。

虽然,对于机器学习社区的广大研究者来说,当前能用的 GPT-2 模型不是很大,但好歹是能用了,而且以后会放出更大的模型。这下,OpenAI 终于不负其名了。

参考来源:https://openai.com/blog/better-language-models/#update

工程自然语言处理语言模型GPT-2OpenAI
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
暂无评论
暂无评论~