Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

人物照片+文字 = 定制化视频,腾讯光子开源ID-Animator

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文作者主要来自于腾讯光子工作室团队,一作何炫华 (hexuanhua@mail.ustc.edu.cn) 是中国科技大学在读的研究生,他的研究方向为图像 / 视频生成模型与底层视觉;作者刘权德 (qdliu0226@gmail.com)、钱湦钜 (thesouthfrog@gmail.com),目前就职于腾讯光子工作室,博士均毕业于香港中文大学。

近年来,定制化的人物生成技术在社区中引起了广泛关注。一系列创新性的模型,如 IP-Adapter、Photomaker、InstantID 等,已在图像生成领域取得了令人瞩目的成果。这些定制化内容生成方法逐渐成为主流,其一个重要的优势便是即插即用,取代了那些需要逐例微调的 Dreambooth,LoRA 等方法。

然而,尽管在图像生成领域取得了巨大的成功,这些方法在视频生成领域却遇到了阻碍。相较于图像,视频生成模型的训练需要更大的算力投入。同时,在视频数据集方面,迄今为止仍缺乏类似图像生成领域高质量的文本 - 视频配对人脸数据集。此外,如何提取人物身份一致性的特征也是一个难题。

为了应对这些挑战,腾讯光子近期发布的工作 ID-Animator,提出了一种文本驱动的人物视频生成框架。该框架旨在根据给定的一张参考图片,生成一致性的角色 定制化视频。通过这一创新性技术,研究者可以期待在不久的将来,人们将能够更轻松地实现定制化的人物视频生成,从而为各种应用场景带来更加丰富的视觉体验。

图片

  • 论文地址: https://arxiv.org/abs/2404.15275

  • Github 地址: https://github.com/ID-Animator/ID-Animator

  • Huggingface 地址: https://huggingface.co/spaces/ID-Animator/ID-Animator

首先,让我们直观感受一下 ID-Animator 生成的视频效果,能够轻松的让不同的角色做起丰富的动作:ID-Animator 不仅能生成 ID 一致的人类视频,还具备人脸特征融合的能力: 

此外,ID-Animator 还可以兼容开源社区上的多种权重,为视频生成带来更多可能性:

方法概览

研究团队提出的方法可以概括为三个核心组件,如图所示。这三个部分包括:面向 ID 的视频数据集重构流程、随机人脸参考的训练方法,以及 ID-Animator 模型框架。通过这三个关键组成部分,ID-Animator 成功实现了高保真的一致性人物视频生成

图片

ID-Animator 框架

ID-Animator 框架由一个轻量级的人脸适配器模块和一个视频生成主干网络组成。其视频生成主干网络权重在训练过程中保持固定,无需微调。人脸适配器模块则由交叉注意力模块和可学习的面部特征查询组成,负责从 CLIP 编码的特征中提取与身份相关的表征,并将身份表征注入主干网络。利用这种轻量级的适配器模块,ID-Animator 只需要很小的训练开销就能实现人物一致性的视频生成

面向 ID 的数据集构建

为了应对以 ID 为核心的成对视频 - 文本数据集在视频生成领域的稀缺挑战,研究者们提出了一套巧妙的数据集重构策略。他们利用现有的 Celebv-HQ 数据集,将其重构为以 ID 为中心的人类视频数据集。这一策略分为两个主要步骤:文本重写和面部图像资源库构建。

现有的 Celebv 数据集的文本描述采用固定模板,主要关注人物表情的变化,却忽略了人物属性与所处环境,同时缺乏对动作的描述,因此不适用于文本生成视频的训练。为了解决这一问题,研究者们提出了一种新颖的文本重写方法,旨在生成更贴切的人类视频描述文本。考虑到视频整体特征和人物静态属性,他们采用了一种解耦式的文本重写方法,分别描述人物属性和环境,生成人类属性描述;同时描述视频中人物的整体动作,生成动作描述。最后,借助大型语言模型将两种描述整合,生成连贯且丰富的全新文本。

如图所示,重写后的文本描述更接近人类的语言风格,并能更好地描述人物的运动和属性。这一创新性方法为视频生成领域提供了一个更实用、更高质量的数据集基础。

图片

为了进一步提升生成视频的身份保持能力,研究者们引入了一种随机面部提取技术。这种技术的特点在于,它并不直接采用整个视频帧作为生参考图像,而是构建数据集时专门针对人脸区域进行随机采样,从而形成一个独立的面部图像资源库。这一策略有效地过滤了大量非身份决定性的视觉信息,如背景变化、衣着装饰等,使得生成模型能够更加专注于学习和重现个体的面部特征与表情细节。

随机参考人脸训练方法

利用数据集面部资源库,研究者们提出了一种随机参考人脸的训练方法。这种方法的核心在于利用与视频内容弱相关的参考图像作为条件输入,引导模型在生成视频内容时,更多地关注指令指导的动作和 ID 无关特征。

具体操作上,研究者们从人脸资源库中随机选取参考图像,使得每次训练迭代都能为模型提供一个新的、与目标视频序列关联较弱的面部图像作为参考。这种方法实现了视频内容与人脸参考图像的解耦,有助于模型更好地学习和生成符合指令的动作,同时减弱与身份无关的特征的影响。

实验结果

与 IP-Adapter 对比

研究者们首先将 ID-Animator 与常用的零样本定制化图像生成模型 IP-Adapter 的变体进行对比。将零样本定制化图像生成模型直接应用于视频生成时,可能会导致指令跟随能力和 ID 一致性的降低。为了证明 ID-Animator 的优越性能,研究者们展示了在 3 个名人和普通人上的对比结果。

如图所示,ID-Animator 在视频场景下展现出了更强大的指令跟随能力和 ID 保真度。

图片

图片

应用展示

  • 上下文重塑:ID-Animator 能够利用文本引导,动态调整角色的多维度属性,包括发型、服饰、性别,执行特定的动作和改变角色所处环境等。

图片

  • ID 特征融合: ID-Animator 能够将不同身份的特征以不同比例混合,从而生成结合两种身份特征的视频。

图片

  • 与 ControlNet 结合:ID-Animator 具有与 ControlNet 等现有细粒度条件模块的兼容性,这意味着用户能通过上传特定的引导图像或图像序列,精确指引视频中每一帧的生成细节。

图片

  • 社区模型推理:ID-Animator 能够和 Civitai 社区的多种模型兼容,即使在未曾训练过的模型权重上也能保持有效性,能够生成多种风格的视频。

图片

更多详细内容,请阅读原论文。

产业人物视频生成框架ID-Animator腾讯光子
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~