Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

还记得让马斯克一键「穿越」的利器吗?现在面向所有人开放!免费!

机器之能报道

编辑:吴昕

还记得一周前我们介绍过的那个文生图工具吗?对,让马斯克「穿越」,变身古风大侠的那个。

也是让 Blackpink Jennie 「变胖」的那个:

图片

当时, Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册,试用了一下。据说,短短一周内,积累了超过 90,000 名用户,生成了超过 300 万张图像!

今天, Ideogram 进一步宣布向地球上的每个人开放 Ideogram !免费的,没有任何限制!(传送门 https://ideogram.ai )

官方博客也第一次介绍了 Ideogram v0.1 —— 「它是一种新的基础 AI 模型,可将文本转换为图像。由 Ideogram 团队从头开始构建,解决了现有生成式 AI 工具的主要缺陷之一,可以在图像中呈现连贯的文本。」

什么意思呢?其实,目前的生成模型技术还是有一个比较大的缺陷,就是无法在图像中呈现出可靠的视觉文本。

比如, 在图片中生成连贯文本上,DALL-E 2 就非常不稳定(如下)。最新发布的 Stable Diffusion 直接将「无法呈现可读的文本」列为已知局限性。

图片上图连贯文本拼写错误,正确的分别是 (1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

针对模型的「文盲」问题, Ideogram 的核心成员(还在谷歌时)找到了改善问题的办法,他们魔改一个「文本编码器」,让模型学会了拼写。

除此之外,他们还提出了一个评估文生图模型的新基准,可以更全面地衡量文本到图像模型的文本渲染质量。

正如我们之前体验过的,Ideogram v0.1 的表现比较稳定。还记得这个例子吗?

「An adorable minion holding a sign that says 『It's over, MidJourney』, spelled exactly, 3d render, typography」(一个可爱的小黄人举着一个牌子,上面写着「结束了,Midjourney」 )。

全部拼写正确。当时推友就表示,虽然系统并不总是能够正确拼写,但成功率还是不错的。

图片

这个是不是也很厉害?用「poetry」这个词画出乌鸦的轮廓。

图片

博客还说了,Ideogram v0.1 还支持许多字体和文本样式,并生成漂亮的排版,这些都是非常耗费时间和精力的工作。

「我们的文本渲染功能为许多创造性的应用程序铺平了道路,因为我们的用户已经制作了成千上万的徽标,海报,图形设计和图像,传达了有趣的信息。」

还记得那张有关「巴本海默(barbenheimer)」的电影画报设计吗?

图片

这是一个关于「暗夜行动( night move )」的电影海报作品,一名警察走在黑暗的道路上,只有一盏路灯,灯光投向他孤独的背影。

图片

官博强调说,Ideogram 的关键特征之一是支持多种图像风格的标签,包括插图、排版、海报、照片、3D渲染、时尚、绘画、肖像摄影、电影、野生动物摄影、动漫和涂鸦,等等。

这些样式标签可以以有趣的方式组合在一起,帮助用户生成他们想要的内容类型,他们利用人工智能确保这些标签准确地反映在生成的图像中。

图片

比如,这张雨中龙猫组合了 photo,、poster,、cinematic、painting、 3D render 等很多风格标签。

图片

这张爱因斯坦(额,头发和手部有些问题)也组合了 typography、painting 和 cinematic 风格标签。

图片

最后,重申一下公司的使命。

Ideogram(发音为 eye-diogram ),翻译过来就是表意文字,希望「通过生成式人工智能帮助人们变得更具创造力」,「让创意表达变得普遍且有趣。」


因为他们坚信,每个人都有一种与生俱来的渴望,创造并分享他们的创作。

现在,游戏才刚刚开始,将来他们会发布更先进的生成 AI 模型。不过,现在你就可以试试这款文生图工具啦。

入门
暂无评论
暂无评论~