Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟原创

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案

最近,社交平台上一些 AI 作画工具引起广泛关注,比如因「情侣合影」刷屏的 Midjourney v5 和刚刚开启公测的 Stable Diffusion XL。

图片

Midjourney v5 和 Stable Diffusion XL 生成的图像。

AI 生成的图像天马行空,在互联网上掀起了一场狂欢,AIGC(人工智能生成内容)也成为一个爆款词汇,人们惊呼 AI 技术的迅速发展。

狂欢之后,我们需要想想:AIGC 的现实价值是什么?

AIGC 被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,人们期待 AI 能够掀起新一轮内容生产变革。当前,大部分 AI 作画工具是面向个人消费者(to C)的应用产品,这些产品的生成效果的确让人眼前一亮。

但想让 AIGC 赋能各行各业,提升生产力,做出面向 B 端客户的高效、专业的应用才是关键。

最近,长期深耕 to B 业务的商汤科技宣布推出秒画 SenseMirage,为 AI 作画打开了商业应用的新格局。

秒画是基于商汤自研的文生图大模型,依托商汤 AI 大装置 SenseCore 强大算力集群的 AI 作画平台。在秒画平台上,B 端客户可以使用商汤自研的文生图大模型快速生成图像。

其效果如何?背后技术是什么?有哪些特色与优势?让我们一一为你揭秘。

多种风格、秒速生成

不同于 Stable Diffusion、Midjourney,秒画是一个 to B 的 AI 作画平台,将广泛应用于设计、营销、游戏动画、工程建筑、医学、教育科普等领域。我们来看一些秒画平台中商汤自研文生图大模型的生成样例。

首先,面向时尚设计领域,商汤自研大模型生成的「中国女士时尚街拍图如下」:

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——中国女士时尚街拍图。

还能生成巴黎时装周摄影风的模特图像:

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——巴黎时装周模特图片。

我们也和其他文生图模型进行了效果对比,例如生成图像:一只戴着珍珠耳环的鹦鹉,商汤自研模型的生成效果如下:

Prompt:(混合语言输入)一只戴着珍珠耳环的鹦鹉,维米尔风格,12K,高画质,高清,octane render

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——戴珍珠耳环的鹦鹉。

同样的 prompt 翻译成英文后,我们尝试用 Stable Diffusion XL 生成,但并没有得到符合要求的结果。部分图像没有以鹦鹉作为主体,部分即便生成了鹦鹉,但缺少珍珠耳环等细节。

图片

Stable Diffusion XL 生成的一组图像。

在游戏动画领域,商汤自研的文生图模型也有很强大的生成能力,生成的图像符合文本描述,且细节丰富,有动画感染力。例如生成一只「愤怒的皮卡丘」:

Prompt:(中文输入)愤怒的皮卡丘,它的眼睛是红色的,周围电闪雷鸣,超写实主义风格

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——愤怒的皮卡丘。

同样的 prompt 翻译为英文输入后,Stable Diffusion XL 生成的结果不尽如人意,要么是皮卡丘不够愤怒,要么是图像细节不到位。

Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

图片

Stable Diffusion XL 生成的一组图像。

我们发现,秒画平台中商汤自研的文生图模型可以生成符合要求的高质量图像,而且非常适用于设计和游戏动画行业。下面我们就看一下这个文生图大模型的具体细节。

超 10 亿参数的自研文生图大模型

要想让大模型足够好、AI 作画足够逼真,就要具备三个核心元素,包括模型架构、优化方法和底层基建。

首先,模型本身的结构设计要足够高效。一般来讲,神经网络变得更大,模型学习能力就会更强。但如何保证在同等超大参数量下,模型能够具有性能优势,这就需要在模型的神经网络结构设计上多下功夫。

从 2019 年开始,商汤就研发了一套半自主的超大模型结构设计 pipeline。它能够帮助研究员在模型参数量特别大的情况下,设计出高效的神经网络算子,同时商汤还使用 AutoML 平台把这些算子结合起来。

因此,商汤自研的大模型是基于研究人员和 AI 一起设计出来的超大神经网络结构。在这个结构下,相同的数据、相同的参数量,商汤自研的模型在性能上就有显著的优势。经过训练的模型,在生成效果上会比单纯把深度、宽度加大一些量级的模型好很多。

第二,在这套模型架构设计 pipeline 里,研究人员会手工设计一些优化方法。

传统的神经网络训练都是用 SGD、Adam 优化器等等。而在过去的几年里,商汤在超大神经网络梯度下降优化方法上做了非常多的研究。

特别大的模型在优化上有一个非常严重的问题,是模型训练过程的收敛性很难保证。这可能因为优化器不够好,也可能是因为数据里有噪声,导致模型在极个别错误的样本下产生极大的损失函数值。此外,对于基于扩散模型的生成式模型来说,生成的语义完备性、物体宏观结构、细节(比如手指、四肢等)、推理步的加速等都有较大改进空间。商汤的研究团队基于这些问题做了大量的优化,以确保商汤自研的文生图、视觉感知等大模型都能够在一个很长周期内保持训练稳定、高效。

具体来说,为了让该模型生成的图像质量更高、细节更丰富、风格更多样,商汤的研究团队自研了分层推理专家(hierarchical inference experts)、图像质量感知的分布式训练(image quality-aware distributed training)、图像纹理指导的交叉注意力学习(texture-guided cross-attention learning)等优化算法。

第三,算法与底层基建要绑定配合,联合优化。当模型的体量足够大,就需要用 3D 切割的方法从神经网络深度,宽度以及数据 batch 的三个维度来切割神经网络,再分配到上千块 GPU 上,在每个 GPU 上进行局部计算,就会涉及到非常多机器学习系统的问题。比如在计算每一个分块计算的全局结果时,需要把不同卡的计算结果结合起来。而这又会导致一个问题 —— 每个 GPU 上的子模型在相互通信时,带宽要求会非常大。

然而,机器学习系统中通常是一个 POD 内的 P2P 通信带宽很大,POD 之间的通信带宽很小,因此商汤的研究团队专门针对这个问题对神经网络的结构进行了特异性设计,让只能在一个 POD 内通信的子模型尽量放在一个 POD 里,而通信带宽要求相对较小的一些模块(比如不同的 experts)就放到不同的 POD 之间,这就可以让大模型与商汤的 AI 大装置进行联合优化,以获得更高的训练效率。

这三个技术要素让商汤自研的文生图大模型具备了更优的文本理解能力和逼真的生成效果。在 prompt 比较详细复杂的时候,该模型可以生成带有故事性的逼真图像。例如提供 prompt 让模型生成皮卡丘和马里奥打斗的场景:

图片

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——皮卡丘和马里奥打斗。

在秒画平台上,商汤自研的文生图大模型是一个基础模型,B 端客户仅用少量数据就可以迅速微调得到一个适用于下游任务的垂类模型,大大降低了训练门槛。

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像。

独具优势的文生图平台

除了商汤自研的文生图大模型,秒画还是一个可以导入其他开源模型的平台,被称为「模型超市」。

图片

可从第三方平台导入模型,并启动秒画 SenseMirage 平台的模型编译技术进行推理加速的效果展示。

在秒画平台上,用户可以一键导入 Hugging Face、Civitai、GitHub 等第三方社区的开源模型,并且添加至用户「我的模型库」列表中,方便进行体验,让用户免除本地化部署的繁琐流程。

这是为了大幅降低 AI 作画的商用门槛。对于一些中小型企业来说,本地化部署大模型的成本是非常高的。硬件方面,训练垂类模型需要搭建一定规模的 GPU 算力集群,还需要专业的技术团队,人力成本也是比较高的。

秒画为商汤自研文生图模型和开源模型提供了一套算法框架和强大的算力基础设施 ——AI 大装置 SenseCore。B 端用户可以直接在秒画平台上训练定制化的 LoRA 模型,基于现有商汤自研文生图模型的高度泛化性,B 端用户只需要拖拽 20 张左右图片作为训练集,最低仅需 5 分钟就能完成一个高质量模型的训练。这让中小型企业也能轻松拥有属于自己的垂类模型。

此外,秒画还提供了特异性推理优化服务,开源模型导入后会自动采用秒画平台底层的模型编译技术进行加速。借助这项加速技术,在本地 RTX 3070 显卡上需要 10 秒生成的图像,秒画只要 2 秒的推理时间就可以生成。

总体来说,秒画是一个依托商汤 AI 大装置 SenseCore 的 to B 文生图平台,它基于商汤自研的超 10 亿参数文生图大模型,也能一键导入第三方开源模型,为 B 端客户免去了本地化部署的繁琐流程,并提供了简单快速的训练服务和推理加速功能。

打开 AIGC 的商业价值

随着生成式 AI 模型迎来爆发式增长,越来越多的人开始探索 AIGC 的潜在应用场景。不同于 to C 的应用软件,to B 的 AIGC 平台需要为各行业找到合适的商业模式。

作为深耕 to B 业务的公司,商汤自去年开始就为 B 端用户提供定制化的文生图模型,当时的常见做法是根据用户的需求为客户训练并封装成 SDK 来交付。这样的业务积累也让商汤有了构建通用文生图平台的新思路,秒画应运而生。

在文生图领域,设计、营销、游戏动画等行业未来将成为 AI 作画的主要应用场景。作为 to B 的文生图平台,秒画具备赋能这些行业的优势。

例如,对比同类产品的生成效果,秒画更适用于商业设计和产品营销。在下面这个生成汽车图像的例子中,相比于 Stable Diffusion,商汤自研模型的生成结果更符合 prompt 中的「概念设计」和「水墨」这两个关键词。

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像与Stable Diffusion模型生成图像对比。

类似地,在游戏动画行业,图像的展现效果将直接影响产品的质量,这对赋能该行业的 AIGC 工具提出了更高的要求,包括图像生成效果和对文本的理解能力两方面。以下图生成「梦幻的蝴蝶」为例,基于商汤自研模型的优化技术,秒画在图像风格、细节刻画等方面都更符合行业要求。

图片

“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像与Stable Diffusion模型生成图像对比。

一方面,秒画为 B 端客户大幅降低了文生图垂类模型的构建门槛和商用成本;另一方面,秒画也符合当前主流 AI 作画的应用场景,提高了文生图模型的实用价值。

在 AI 作画赚足眼球的今天,秒画平台从赋能行业的角度出发,为 AIGC 打开商业价值提供了一个新的思路。

最后,我们想说,文生图只是 AIGC 的方向之一。随着生成式 AI 模型的迅速发展,AI 生成文本、AI 生成视频等等多个领域都在加快应用落地,AI 终将掀起内容生产的新一轮变革。

商汤秒画现已开放B端客户测试,申请入口:https://lm_experience.sensetime.com/

产业秒画文生图商汤科技
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

推荐文章
暂无评论
暂无评论~