Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能辨别吗?

Imagen 2可以生成质量更高、更逼真、更准确的图像。


谷歌最近真是好消息不断。

先是前几天祭出大杀器 Gemini,发布会上的一系列 Demo 展示让人眼花缭乱。短短一周时间,现在谷歌又宣布了几个好消息:Gemini Pro 的第一个版本现在可以通过 Gemini API 访问;发布 Imagen 2;推出一系列针对医疗行业进行微调的模型 MedLM。

在这些发布当中,文本到图像的 Imagen 2 受到大家格外的关注。此前,谷歌就推出了文本到图像扩散模型 Imagen,其生成的结果可谓是天马行空、奇幻又逼真。

现在,随着 Google DeepMind 宣布 Imagen 2 的到来,谷歌在图像生成领域又前进了一步。他们在官方 X 上表示:「Imagen 2 是我们最先进的文本到图像扩散技术,具有高质量,逼真的输出和与用户提示更强的一致性。」

图片

开发人员和云客户可以通过 Google Cloud Vertex AI 中的 Imagen API 来使用 Imagen 2 。

Google Cloud Vertex AI 地址:https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

Imagen 2 效果到底如何呢?我们继续往下看。

提示:「一张 32 岁女性在丛林中的照片,她是一位自然资源保护主义者;运动型短卷发,笑容温暖」。

图片

提示:深蓝色背景中的水母。

图片

提示:油画,一个桔子在砧板上。光穿过橙色的部分,在切菜板上投下橙色的光。背景中有一块蓝色和白色相交的布。焦散、反射光、富有表现力的笔触。

图片

Imagen 2:更懂用户心思

为了创建更高质量、更准确以及更符合用户提示的图片,Google DeepMind 在 Imagen 2 训练数据集中进行了一些更改,他们在图像描述(caption)中添加了更详细的描述,这样一来 Imagen 2 可以学习不同的描述并加以概括,从而更好地理解用户提示。

经过增强的「图像 - 描述对」有助于 Imagen 2 更好地理解图像和文字之间的关系,从而增强对上下文和细微差别的理解。

以下是 Imagen 2 快速理解提示的示例:

提示:溪水潺潺,鸟儿唱着歌,它们混合的音乐在空中飘荡。(菲利斯・惠特利的《傍晚赞歌》)

图片

提示:知更鸟从摇曳的常春藤丛中飞到墙顶,张开喙,唱起响亮、可爱的颤音,只是为了炫耀。世界上没有什么比知更鸟炫耀时更可爱的了。—— 它们几乎总是这么做。(弗朗西斯・霍奇森・伯内特的《秘密花园》)

图片

提示:考虑一下海洋的微妙之处;其中最可怕的生物如何在水下滑行,大部分时间是不明显的,并且危险地隐藏在最美丽的蔚蓝色调之下。(赫尔曼・梅尔维尔的《白鲸》)

图片

生成更逼真的图像

Imagen 2 在数据集和模型方面改善了文本到图像工具经常遇到的许多问题,包括渲染逼真的手和人脸,以及保持图像没有干扰视觉的伪影。

图片

Imagen 2 生成逼真手部和人脸的示例。

谷歌团队根据人类对照明、取景、曝光、清晰度等品质的偏好,训练了一个专门的图像美学模型。每张图片都会得到一个美学评分,这有助于调整 Imagen 2,使其在训练数据集中对符合人类偏好的图片给予更多权重。这项技术提高了 Imagen 2 生成高质量图像的能力。

图片

使用 prompt「Flower」生成的图像,美学得分由低变高(从左到右)。

Imagen 2 甚至可以呈现图像中的文本。

图片

它还可以为企业、品牌或产品设计 logo:

图片

丝滑的风格调节

Imagen 2 基于扩散技术提供了高度的灵活性,使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示,使用者可以调节 Imagen 2 生成相同风格的新图像。

图片

Imagen 2 通过使用参考图片和文本提示更容易地控制输出风格

「遥遥领先」的修补和扩图技术

Imagen 2 还支持修补(inpainting)和扩图(outpainting)等图像编辑功能。通过提供参考图像和图像遮罩,用户可以使用修补技术在原始图像中直接生成新内容,或者使用扩图技术将原始图像扩展到边界之外。Google Cloud 的 Vertex AI 计划在新的一年采用这项技术。

图片

Imagen 2 可以通过修补技术直接在原始图像中生成新内容。

图片

通过扩图,Imagen 2 可以将原始图像扩展到边界之外。

有责任感的设计

为了帮助降低文本到图像生成技术的潜在风险和挑战,谷歌团队从设计、开发到产品部署都设置了严格的防护措施。

Imagen 2 与 SynthID 集成,SynthID 是用于水印和识别人工智能生成内容的尖端工具包,允许 Google Cloud 客户在不影响图像质量的情况下,直接在图像像素中添加不易察觉的数字水印。这样一来,即使在应用滤镜、裁剪或有损压缩等修改后,SynthID 仍能检测到水印。

在向用户发布功能之前,研究团队会进行严格的安全测试,以最大限度地降低伤害风险。从一开始,他们就对 Imagen 2 的训练数据安全下了很多功夫,并添加了技术防护措施,限制暴力、攻击性或色情内容等有问题的输出。他们还在生成时对训练数据、输入提示和系统生成的输出进行安全检查。例如,应用全面的安全过滤器,以避免生成有潜在问题的内容,如指定个人的图像。随着 Imagen 2 功能的不断扩展和推出,研究团队也在不断对其进行安全评估。

参考链接:https://deepmind.google/technologies/imagen-2/?utm_source=twitter&utm_medium=social
产业Imagen 2
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

文本到图像生成技术

文本到图像生成是从文本描述或标题生成图像的任务。

推荐文章
暂无评论
暂无评论~