AI 生成的图像天马行空,在互联网上掀起了一场狂欢,AIGC(人工智能生成内容)也成为一个爆款词汇,人们惊呼 AI 技术的迅速发展。
狂欢之后,我们需要想想:AIGC 的现实价值是什么?
AIGC 被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,人们期待 AI 能够掀起新一轮内容生产变革。当前,大部分 AI 作画工具是面向个人消费者(to C)的应用产品,这些产品的生成效果的确让人眼前一亮。
但想让 AIGC 赋能各行各业,提升生产力,做出面向 B 端客户的高效、专业的应用才是关键。
最近,长期深耕 to B 业务的商汤科技宣布推出秒画 SenseMirage,为 AI 作画打开了商业应用的新格局。
秒画是基于商汤自研的文生图大模型,依托商汤 AI 大装置 SenseCore 强大算力集群的 AI 作画平台。在秒画平台上,B 端客户可以使用商汤自研的文生图大模型快速生成图像。
其效果如何?背后技术是什么?有哪些特色与优势?让我们一一为你揭秘。
多种风格、秒速生成
不同于 Stable Diffusion、Midjourney,秒画是一个 to B 的 AI 作画平台,将广泛应用于设计、营销、游戏动画、工程建筑、医学、教育科普等领域。我们来看一些秒画平台中商汤自研文生图大模型的生成样例。
首先,面向时尚设计领域,商汤自研大模型生成的「中国女士时尚街拍图如下」:
还能生成巴黎时装周摄影风的模特图像:
我们也和其他文生图模型进行了效果对比,例如生成图像:一只戴着珍珠耳环的鹦鹉,商汤自研模型的生成效果如下:
Prompt:(混合语言输入)一只戴着珍珠耳环的鹦鹉,维米尔风格,12K,高画质,高清,octane render
同样的 prompt 翻译成英文后,我们尝试用 Stable Diffusion XL 生成,但并没有得到符合要求的结果。部分图像没有以鹦鹉作为主体,部分即便生成了鹦鹉,但缺少珍珠耳环等细节。
在游戏动画领域,商汤自研的文生图模型也有很强大的生成能力,生成的图像符合文本描述,且细节丰富,有动画感染力。例如生成一只「愤怒的皮卡丘」:
Prompt:(中文输入)愤怒的皮卡丘,它的眼睛是红色的,周围电闪雷鸣,超写实主义风格
同样的 prompt 翻译为英文输入后,Stable Diffusion XL 生成的结果不尽如人意,要么是皮卡丘不够愤怒,要么是图像细节不到位。
Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style
我们发现,秒画平台中商汤自研的文生图模型可以生成符合要求的高质量图像,而且非常适用于设计和游戏动画行业。下面我们就看一下这个文生图大模型的具体细节。
超 10 亿参数的自研文生图大模型
要想让大模型足够好、AI 作画足够逼真,就要具备三个核心元素,包括模型架构、优化方法和底层基建。
首先,模型本身的结构设计要足够高效。一般来讲,神经网络变得更大,模型学习能力就会更强。但如何保证在同等超大参数量下,模型能够具有性能优势,这就需要在模型的神经网络结构设计上多下功夫。
从 2019 年开始,商汤就研发了一套半自主的超大模型结构设计 pipeline。它能够帮助研究员在模型参数量特别大的情况下,设计出高效的神经网络算子,同时商汤还使用 AutoML 平台把这些算子结合起来。
因此,商汤自研的大模型是基于研究人员和 AI 一起设计出来的超大神经网络结构。在这个结构下,相同的数据、相同的参数量,商汤自研的模型在性能上就有显著的优势。经过训练的模型,在生成效果上会比单纯把深度、宽度加大一些量级的模型好很多。
第二,在这套模型架构设计 pipeline 里,研究人员会手工设计一些优化方法。
传统的神经网络训练都是用 SGD、Adam 优化器等等。而在过去的几年里,商汤在超大神经网络的梯度下降优化方法上做了非常多的研究。
特别大的模型在优化上有一个非常严重的问题,是模型训练过程的收敛性很难保证。这可能因为优化器不够好,也可能是因为数据里有噪声,导致模型在极个别错误的样本下产生极大的损失函数值。此外,对于基于扩散模型的生成式模型来说,生成的语义完备性、物体宏观结构、细节(比如手指、四肢等)、推理步的加速等都有较大改进空间。商汤的研究团队基于这些问题做了大量的优化,以确保商汤自研的文生图、视觉感知等大模型都能够在一个很长周期内保持训练稳定、高效。
具体来说,为了让该模型生成的图像质量更高、细节更丰富、风格更多样,商汤的研究团队自研了分层推理专家(hierarchical inference experts)、图像质量感知的分布式训练(image quality-aware distributed training)、图像纹理指导的交叉注意力学习(texture-guided cross-attention learning)等优化算法。
第三,算法与底层基建要绑定配合,联合优化。当模型的体量足够大,就需要用 3D 切割的方法从神经网络深度,宽度以及数据 batch 的三个维度来切割神经网络,再分配到上千块 GPU 上,在每个 GPU 上进行局部计算,就会涉及到非常多机器学习系统的问题。比如在计算每一个分块计算的全局结果时,需要把不同卡的计算结果结合起来。而这又会导致一个问题 —— 每个 GPU 上的子模型在相互通信时,带宽要求会非常大。
然而,机器学习系统中通常是一个 POD 内的 P2P 通信带宽很大,POD 之间的通信带宽很小,因此商汤的研究团队专门针对这个问题对神经网络的结构进行了特异性设计,让只能在一个 POD 内通信的子模型尽量放在一个 POD 里,而通信带宽要求相对较小的一些模块(比如不同的 experts)就放到不同的 POD 之间,这就可以让大模型与商汤的 AI 大装置进行联合优化,以获得更高的训练效率。
这三个技术要素让商汤自研的文生图大模型具备了更优的文本理解能力和逼真的生成效果。在 prompt 比较详细复杂的时候,该模型可以生成带有故事性的逼真图像。例如提供 prompt 让模型生成皮卡丘和马里奥打斗的场景:
在秒画平台上,商汤自研的文生图大模型是一个基础模型,B 端客户仅用少量数据就可以迅速微调得到一个适用于下游任务的垂类模型,大大降低了训练门槛。
独具优势的文生图平台
除了商汤自研的文生图大模型,秒画还是一个可以导入其他开源模型的平台,被称为「模型超市」。
在秒画平台上,用户可以一键导入 Hugging Face、Civitai、GitHub 等第三方社区的开源模型,并且添加至用户「我的模型库」列表中,方便进行体验,让用户免除本地化部署的繁琐流程。
这是为了大幅降低 AI 作画的商用门槛。对于一些中小型企业来说,本地化部署大模型的成本是非常高的。硬件方面,训练垂类模型需要搭建一定规模的 GPU 算力集群,还需要专业的技术团队,人力成本也是比较高的。
秒画为商汤自研文生图模型和开源模型提供了一套算法框架和强大的算力基础设施 ——AI 大装置 SenseCore。B 端用户可以直接在秒画平台上训练定制化的 LoRA 模型,基于现有商汤自研文生图模型的高度泛化性,B 端用户只需要拖拽 20 张左右图片作为训练集,最低仅需 5 分钟就能完成一个高质量模型的训练。这让中小型企业也能轻松拥有属于自己的垂类模型。
此外,秒画还提供了特异性推理优化服务,开源模型导入后会自动采用秒画平台底层的模型编译技术进行加速。借助这项加速技术,在本地 RTX 3070 显卡上需要 10 秒生成的图像,秒画只要 2 秒的推理时间就可以生成。
总体来说,秒画是一个依托商汤 AI 大装置 SenseCore 的 to B 文生图平台,它基于商汤自研的超 10 亿参数文生图大模型,也能一键导入第三方开源模型,为 B 端客户免去了本地化部署的繁琐流程,并提供了简单快速的训练服务和推理加速功能。
打开 AIGC 的商业价值
随着生成式 AI 模型迎来爆发式增长,越来越多的人开始探索 AIGC 的潜在应用场景。不同于 to C 的应用软件,to B 的 AIGC 平台需要为各行业找到合适的商业模式。
作为深耕 to B 业务的公司,商汤自去年开始就为 B 端用户提供定制化的文生图模型,当时的常见做法是根据用户的需求为客户训练并封装成 SDK 来交付。这样的业务积累也让商汤有了构建通用文生图平台的新思路,秒画应运而生。
在文生图领域,设计、营销、游戏动画等行业未来将成为 AI 作画的主要应用场景。作为 to B 的文生图平台,秒画具备赋能这些行业的优势。
例如,对比同类产品的生成效果,秒画更适用于商业设计和产品营销。在下面这个生成汽车图像的例子中,相比于 Stable Diffusion,商汤自研模型的生成结果更符合 prompt 中的「概念设计」和「水墨」这两个关键词。
类似地,在游戏动画行业,图像的展现效果将直接影响产品的质量,这对赋能该行业的 AIGC 工具提出了更高的要求,包括图像生成效果和对文本的理解能力两方面。以下图生成「梦幻的蝴蝶」为例,基于商汤自研模型的优化技术,秒画在图像风格、细节刻画等方面都更符合行业要求。
一方面,秒画为 B 端客户大幅降低了文生图垂类模型的构建门槛和商用成本;另一方面,秒画也符合当前主流 AI 作画的应用场景,提高了文生图模型的实用价值。
在 AI 作画赚足眼球的今天,秒画平台从赋能行业的角度出发,为 AIGC 打开商业价值提供了一个新的思路。
最后,我们想说,文生图只是 AIGC 的方向之一。随着生成式 AI 模型的迅速发展,AI 生成文本、AI 生成视频等等多个领域都在加快应用落地,AI 终将掀起内容生产的新一轮变革。
商汤秒画现已开放B端客户测试,申请入口:https://lm_experience.sensetime.com/