Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Sharon Goldman作者袁铭怿编译

DALL-E发明者受访:我对其两年来产生的影响感到惊讶

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

图片

OpenAI 研究员、DALL-E 发明者和 DALL-E 2 联合开发者 Aditya Ramesh(图源自 OpenAI)。

2021 年 1 月 5 日,也就是两年前,随着这篇论文和网站演示的发布,OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道,OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

图片

图源自 DALL-E。

经过训练,Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说,其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」,并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。随后便是扩散模型的迅速崛起,其出现改变了去年 4 月发布的 DALL-E 2,以及它的开源对手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat:「我们第一次尝试这个研究方向,想看看能有什么作为,现在感觉恍如昨日。我知道这项技术将会对消费者产生影响,也会帮助到并对许多不同的应用程序,但我仍然对其发展速度之快感到惊讶。」

如今,生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说:「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的,它是一个基于零样本学习的独立模型,实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练,能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然,很多早期迹象表明,当前即将迎来文字到图像的进步。英属哥伦比亚大学(University of British Columbia)的计算机科学副教授 Jeff Clune 说道:「多年来的研究显示,这种未来近在咫尺。」2016 年,他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说:「我的意思是,几年后,人们可以描述任何想要的图像,然后由 AI 来生成它,比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为,生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示:「值得一提的是,2014 年生成式对抗网络(GANs)的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此,最初的 DALL-E 论文「在当时给人留下了深刻的印象」,未来学家、作家和 AI 研究员 Matt White 补充道。他说:「虽然这不是文本到图像合成领域的首项工作,但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法,更是将推广范围扩大到公众层面,这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说,他的初心始终是尽可能地推动这项研究。

他说:「我们觉得文本到图像的生成很有意思,作为人类,我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况,也可以是不可能发生的幻想场景,或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像,并且和人类一样做出推断。」

Ramesh 还补充道,对原始 DALL-E 的主要研究影响之一是 VQ-VAE,这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术:像语言模型所训练的 token 一样,将图像也分解为 token。

他解释说:「所以我们可以采用像 GPT 这样的 transformer,训练它的目的是为了预测下一个单词,并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说,DALL-E 会带给人们惊喜,因为「在语言模型中看到泛化的例子是一回事,但当在图像生成中看到它时,它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE(一种新的 OpenAI 扩散模型)的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样,「DALL-E 1 使用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说:「将扩散模型和 DALL-E 结合起来,看似是一件自然而然的事,因为扩散模型有很多优点,其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道,在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。
 
「当 Alex 第一次尝试时,没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本,但让我惊讶的是,它已经开始让用户受益了。」

2022 年 4 月 6 日,当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时,他们中的大部分都惊叹于图像质量的差异。

图片

图源自 DALL-E 2。

「竞争激烈,喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat,2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮,这些研究建立在语言和图像处理的基本进展之上,包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时,「扩散是我们行内人意料之外的突破,它切实地提升了游戏质量,」她说。

她补充说,自从最初的 DALL-E 研究论文发表以来,过去两年一直是「竞争激烈,喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的,」她还指出,在现代文本到图像的进展中,个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念,而没有为艺术家提供任何追索权,」她如此总结道。

DALL-E 没有公开源代码,这导致其他系统开发了开源的文本转图像选项,这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思,但无法使用」,Stability AI 的创始人 Emad Mostaque 说,他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代,并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」
 
展望未来,White 认为,即使不久将要迎来新一代,DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题,」,他指出,这些问题是相互交织且互相影响的,像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果(即红狗穿棕色衬衫,红狗穿红色衬衫或完全不同的颜色)。此外,他补充道,DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难,「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理,这样可以消除很多误解。

他说:「在大众眼里。这个模型的工作方式是:它在某处有个图像数据库,它生成图像的方式是将这些图像片段剪切粘贴在一起,从而创造出新的东西。但实际上,它的工作方式更接近于人类,当模型接受图像训练时,它会学习所有这些概念的抽象表征。」

他还解释道:「在我们从头开始生成图像时,我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始,经过多重步骤,逐步添加细节,就像艺术家总是从一个粗略的草图开始发挥,随着时间的推移再慢慢充实他的作品。」

他说,助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去,我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具,就像 Codex 是程序员的副驾驶一样。据我们所知,一些艺术家认为在创建想法原型时,DALL-E 非常有用,因为他们通常会花几个小时甚至几天的时间来探索某个概念,随后才决定采用它,而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说,他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过(OpenAI 的)ChatGPT,我认为我们已经极大地扩展了这些 AI 工具的功能,并让很多人接触到它。希望随着时间的推移,那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它,并找到方法来使用其构建出他们心中所想。」

原文链接:https://venturebeat.com/ai/two-years-after-dall-e-debut-its-inventor-is-surprised-by-impact/
入门DALL-E
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

图生成技术

根据给定信息信息生成图表。

文本到图像生成技术

文本到图像生成是从文本描述或标题生成图像的任务。

暂无评论
暂无评论~