Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

打开一个数字人,里面全是生成式 AI。

9 月 23 日晚,杭州亚运会开幕式点燃主火炬的环节,上亿线上数字火炬手的「小火苗」汇聚在钱塘江上形成一个数字人形象。随后,数字人火炬手和现场的第六棒火炬手走到火炬台前,共同点燃了主火炬。

图片

作为开幕式的核心创意,数实互联的火炬点燃形式冲上了热搜,引发了人们的重点关注。

上亿人参与的数字人点火是一个前所未有的创举,涉及了大量先进且复杂的技术,其中最重要的莫过于如何让数字人「动起来」。不难看出,在生成式 AI 与大模型迅速发展,数字人研究也出现了更多新变化。

在 10 月初即将举行的全球计算机视觉顶会 ICCV 2023 上,我们关注到一篇生成 3D 数字人运动研究被大会收录。相关论文题为《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大学、蚂蚁集团联合发布。

图片

据介绍,这项研究一定程度上解决了数字人远距离合成复杂运动的问题,能做到原有模型或路径规划无法实现的效果。数字人驱动相关的技术,也被用在了亚运会 1 亿数字人线上传递。

生成式 AI 驱动,让数字人动起来

很多时候,我们需要在给定的 3D 场景中合成 3D 人体运动,使虚拟人能够自然地在场景中漫步并与物体交互,这种效果在 AR/VR、电影制作和视频游戏中都存在多种应用。

在这里,传统的角色控制运动生成方法旨在由用户的控制信号引导生成短期或重复的运动,新研究则专注于在给定起始位置和目标对象模型的情况下生成更加长时间的人机交互内容。

这种思路虽然效果更好,但显然挑战更大。首先,人与物体的交互应该是连贯的,这需要对人与物体之间的远程交互进行建模的能力。其次,在内容生成的背景下,生成模型应该能够合成大小不同的运动,因为真人存在多种接近目标对象并与之交互的方式。

图片
图 1. 人与物体交互形象的生成。给定一个对象,新方法首先预测一组里程碑(milestone)事件,其中环表示位置,粉红色衣服的人代表原姿势。算法在里程碑之间填充动作。该图显示新方法使用同一对象生成不同的里程碑和动作。时间的流动用颜色代码显示,越深的蓝色表示越往后的帧。 

在生成数字人动作的方法上,现有的合成方法大致可分为在线生成和离线生成。大多数在线方法侧重于角色的实时控制。给定一个目标对象,他们通常使用自回归模型通过反馈预测来循环生成未来的运动。尽管这种方法已广泛用于视频游戏等交互场景,但其质量对于长期生成来说还难以令人满意。

图片

为了提高运动质量,最近的一些离线方法采用多级框架,首先生成轨迹,然后合成运动。尽管这种策略可以产生合理的路径,但路径多样性是有限的。

在新研究中,作者提出了一种新的离线方法来综合长期且多样化的人与物体交互,其创新在于分层生成策略,该策略首先预测一组里程碑,然后生成里程碑之间的人体动作。

具体来说,给定起始位置和目标对象,作者设计了一个里程碑生成模块来合成沿着运动轨迹的一组节点,每个里程碑对局部姿势进行编码并指示人体运动过程中的过渡点。基于这些里程碑,算法采用运动生成模块来生成完整的运动序列。由于这些里程碑的存在,我们可以将长序列的生成简化为合成几个短运动序列。

此外,每个里程碑的局部姿态是由考虑全局依赖性的 transformer 模型生成的,进而产生时间一致的结果,这进一步有助于相干运动。

除了分层生成框架之外,研究人员还进一步利用扩散模型来合成人与物体的交互。此前的一些运动合成扩散模型结合了 transformer 和去噪扩散概率模型(DDPM)。

值得一提的是,由于运动序列较长,直接将它们应用到新设置中需要大量的计算,可能导致 GPU 内存爆炸。由于新的分层生成框架将长期生成转换为多个短序列的合成,因此所需的 GPU 内存减少到了与短期运动生成相同的水平。

因此,研究者可以有效地利用 Transformer DDPM 来合成长期运动序列,从而提高生成质量。

为此,研究者设计了一个分层运动生成框架,如下图所示。

图片

首先,他们使用 GoalNet 来预测对象上的交互目标,然后生成目标姿态来显式建模人与物体的交互,接下来使用里程碑生成模块来估计里程碑的长度,使其产生从起点到目标的里程碑轨迹,并放置里程碑姿态。

这样一来,长距离运动生成就被分解为多个短距离运动生成的组合。最后,作者设计了一个运动生成模块,用于合成里程碑之间的轨迹并填充动作。

AI 姿态生成

研究者将人与物体互动并保持静止的姿态称为目标姿态。之前,大多数方法使用 cVAE 模型生成人体姿态,但研究者发现该方法在自己的研究中表现不佳。

为了克服这一挑战,他们引入了 VQ-VAE 模型来建模数据分布,该模型利用离散表示将数据聚类在有限的点集中。此外,根据观察,不同的人体姿态可能具有相似的属性(比如人在坐下时,手的动作可能不相同,但腿部位置可能相同),于是,他们把关节分为 L (L = 5) 个不同的非重叠组。

如图 3 所示,目标姿态被分成独立的关节组。

图片

根据起始姿态和目标姿态,我们可以让算法生成里程碑轨迹,并合成里程碑处的局部姿势。由于运动数据的长度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能绕着椅子慢慢走一圈后坐下),因此需要预测里程碑的长度,用 N 表示。然后,合成 N 个里程碑点,并在这些点上放置局部姿态。

图片

最后是动作生成,研究者用到的方法不是逐帧预测动作,而是根据生成的里程碑分层合成整个序列。他们首先生成轨迹,然后合成动作。具体来说,在两个连续的里程碑内,他们首先完成轨迹。然后,在连续里程碑姿态的引导下填充运动。这两个步骤分别使用两个 Transformer DDPM 完成。

对于每个步骤,研究者都会精心设计 DDPM 的条件,以生成目标输出。

效果领先

研究人员在 SAMP 数据集上比较了不同方法的结果。可以看到,论文所提方法具有更低的 FD、更高的用户研究得分和更高的 APD。此外,他们的方法实现了比 SAMP 更高的轨迹多样性。

图片

新方法在杂乱的场景中也可以生成令人满意的结果。该方法生成的穿模的帧(frames with penetration)百分比为 3.8%,SAMP 为 4.9%。

图片

在 SAMP、COUCH 等数据集上,论文所提到的方法均取得了比基线方法更好的结果。

图片

图片

完成全链路布局

数字人是融合语音、语义、视觉等多模态技术的集大成者。在最近生成式 AI 突破的同时,数字人领域正在经历跨越式发展,过去需要手工制作的建模、生成交互、渲染等环节正在全面 AI 化。

随着工程师不断优化,这项技术在移动端的体验也在变得更好,刚刚结束的亚运火炬线上传递活动就是个很好的例子:想要成为火炬手,我们只需要点开支付宝 App 的小程序。

据说,为确保开幕式项目顺畅进行,蚂蚁集团的工程师们针对上百款不同型号的手机进行了超过 10 万次测试,敲下了 20 多万行代码,并通过自研 Web3D 互动引擎 Galacean、AI 数字人、云服务、区块链等多种技术结合,保证了人人都可以成为数字火炬手,参与火炬传递。亚运数字火炬手平台,能做到亿级用户规模覆盖,并支持 97% 的常见智能手机设备。

为了给数字火炬手们带来真实的参与感,蚂蚁的技术团队开发了 58 个捏脸控制器,通过 AI 算法根据人脸识别画出数字火炬手的面孔之后,可对脸型、头发、鼻子、嘴巴、眉毛等进行调整,实现自由换装,该技术可提供 2 万亿种数字形象。

另外,开幕式点火仪式后,每位数字火炬手都可以收到一张数字点火专属证书,绘有每位数字火炬手独一无二的形象,这张证书会通过分布式技术存储在区块链上。

图片

从研究论文内容和亚运项目不难看出,背后都有完整数字人技术体系的支撑。据了解,蚂蚁集团正积极开展数字人技术探索,并已完成数字人的全链路核心技术自研布局。

与市面上多数公司不同,蚂蚁集团的数字人技术自研,选择与生成式 AI 结合的发展方向。从技术部署上,则涵盖数字人建模、渲染、驱动、交互的全生命周期,结合 AIGC 与大模型,大幅降低了数字人全链路生产成本。目前可支持 2D、3D 数字人,提供了播报型、交互型等多种解决方案。

图片

根据公开资料,可以总结蚂蚁数字人平台目前具备四方面技术优势和特色:

  • 低成本建模:与清华大学合作推出亚洲人脸 3D 参数化模型,基于照片重建 3D 人脸,更符合亚洲人脸型特点。
  • 生成式驱动:驱动生成和动作捕捉结合,对比传统动作制作流程有效降低成本和提升动作丰富度。
  • 高适配渲染:自研 Web3D 渲染引擎 Galacean,覆盖 97% 常见手机终端;在神经渲染方面搭建了动态驱动和静态建模解耦的 NeRF 框架,应用于数字人动态视频场景。
  • 智能化交互:基于预训练的音色克隆,支持分钟级音频输入生成个性化数字人音色;并布局基于大模型的数字人交互。

亚运会开幕式之前,中国信通院发布最新数字人标准符合性验证结果,蚂蚁集团灵境数字人平台,成为业界首个通过金融数字人评测的产品,获得了最高评级「杰出级 (L4)」。

而在亚运之外,蚂蚁数字人平台还支持了蚂蚁集团支付宝、数字金融、政务、五福等业务,并在今年开始应用于短视频、直播、小程序等载体向合作伙伴提供基础服务。

可以预见在不久之后,伴随生成式 AI 加持的数字人不断升级,我们也会在更多场景中体验到更好的交互,真正进入数实融合的智能生活。

产业数字人生成式 AIICCV
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~