Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景

随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。

除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。 

                          UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)

本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作,例如将以上视频中浣熊弹吉他的动作变成「吃苹果」或是「招手」。

此外,除了灵活的自然语言接口和统一的编辑框架,这一模型的另一大优势是无需训练,大大提升了部署的便捷性和用户使用的方便度。

图片

  • 论文标题:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
  • 项目主页:https://jianhongbai.github.io/UniEdit
  • 代码:https://github.com/JianhongBai/UniEdit
  • 论文:https://arxiv.org/abs/2402.13185

1.UniEdit 在多种视频编辑场景中的表现

a) 对象动作编辑

图片

                              编辑指令:一只正在趴着的柯基

b) 风格化

图片

                              编辑指令:上海,码头,油画风格

c) 背景替换

图片

                               编辑指令:钢铁侠在公园,冬季

d) 对象刚性编辑

图片

                              编辑指令:一位男士穿着红色西装

e) 对象非刚性编辑

图片

                               编辑指令:马里奥正在享用晚餐

可以观察到,UniEdit 在不同编辑场景中 1)保持了较好的时序一致性,2)较好的保留了原视频的结构及纹理细节,3)生成符合文本描述的编辑视频,展现出了强大的视频编辑能力。

2.UniEdit 独特之处与技术创新点

研究者表示,UniEdit 相较于其他视频编辑方法,其独特之处体现在:

  • 多功能:支持视频「动作」编辑以及多种视频「外观」编辑场景。
  • 无需训练:UniEdit 直接利用与训练的文本到视频生成模型,无需额外训练或微调。
  • 灵活性:可兼容不同文本到视频生成模型,可以使用更加强大的视频生成模型提升 UniEdit 编辑质量。

UniEdit 技术上的核心创新点为:

  • 研究者发现,视频生成模型的时间自注意层编码了视频的「帧间依赖性」。基于这个洞察,研究者引入了一个辅助的动作参考分支,用于生成文本引导的动作特征,然后通过时间自注意层(SA-T)将这些特征注入到主编辑路径中,从而实现将文本引导的动作注入到源视频中。
  • 受到图像编辑技术的启发,研究者发现视频生成模型的空间自注意层(SA-S)编码了视频帧内空间依赖性。因此,研究者引入了一个辅助视频重建分支,并将从视频重建分支的空间自我注意层获得的特征注入到主编辑路径中,以保留源视频的非编辑内容。
  • 为了在编辑外观时保持空间结构,研究者将主编辑路径中的空间注意力图替换为视频重建分支中的空间注意力图。

3.UniEdit 算法框架解读

图片

方法概述。如上图所示,UniEdit 主编辑路径遵循反演 - 生成流程:使用 DDIM 反演后的潜变量作为初始噪声图片,然后以目标提示图片为文本条件,使用预训练的 UNet 进行去噪处理。进行动作编辑时,为了实现源内容保留和动作控制,研究者提出加入一个辅助视频重建分支和一个辅助动作参考分支,以提供所需的源视频内容和动作特征,这些特征被注入到主编辑路径中,以实现内容保留和动作编辑。

对象动作编辑 — 内容保留。编辑任务的关键挑战之一是继承源视频中的原始内容(例如纹理和背景)。如图像编辑中所验证的,重建过程中去噪模型的注意力特征包含了源视频的内容信息。因此,UniEdit 将视频重建分支中的注意力特征注入到主编辑路径的空间自注意(SA-S)层中,以保留原视频内容。

在去噪步骤 t,主编辑路径中第图片个 SA-S 模块的注意力机制操作如下:

其中图片是主编辑路径中的特征,图片是重建分支中对应 SA-S 层的值(value),图片图片超参数。通过替换空间自注意力层的 value 特征,主编辑路径合成的视频保留了源视频的未编辑特征(例如背景)。与之前的视频编辑工作使用的跨帧注意力机制不同,研究者采用逐帧替换的操作,以更好地处理包含大幅度动作的源视频。

对象动作编辑 — 动作注入。为了在不牺牲内容一致性的情况下获得所需的动作,研究者提出用参考动作指导主编辑路径。具体来说,在去噪过程中涉及一个辅助动作参考分支。与重建分支不同,动作参考分支以包含所需动作描述的目标提示图片为条件。为了将动作转移到主编辑路径,研究者的核心洞察是时间层模拟了合成视频剪辑的帧间依赖性(如下图所示)。受上述观察的启发,研究者设计了在主编辑路径的时间自注意层上注入注意力图:

图片

其中图片图片指的是动作参考分支的查询(query)和键值(key),并在实践中将图片图片设置为零。研究者观察到,时间注意力图的注入可以有效地帮助主编辑路径生成与目标提示一致的动作。为了更好地将动作与源视频中的内容融合,研究者还在早期去噪步骤中对主编辑路径和动作参考分支实施空间结构控制。

图片

外观编辑 — 空间结构控制。总的来说,外观编辑和动作编辑之间有两个主要区别。首先,外观编辑不需要改变视频的帧间关系。因此,研究者从动作编辑流程中移除了动作参考分支和相应的动作注入机制。其次,外观编辑的主要挑战是保持源视频的结构一致性。为了解决这个问题,研究者在主编辑路径和重建分支之间引入了空间结构控制。

先前的视频外观编辑方法主要利用辅助网络(例如 ControlNet)实现空间结构控制。当辅助控制模型失败时,可能会导致在保持原始视频结构方面的性能下降。作为替代,研究者建议从重建分支中提取源视频的空间结构信息。直观地说,空间自注意层中的注意力图编码了合成视频的结构,如下图所示。因此,研究者用重建分支中的查询和键替换主编辑路径中 SA-S 模块的查询和键:

图片

其中图片图片指重建分支的查询和键,图片图片用于控制编辑的程度。值得一提的是,空间结构控制的效果与内容保留机制不同。以风格化为例,上式中的结构控制机制只确保了每帧空间构图的一致性,同时使模型能够基于文本提示生成所需的纹理和风格。另一方面,内容呈现技术继承了源视频的纹理和风格。因此,研究者使用结构控制而不是内容保留来进行外观编辑。

图片

允许图像输入。为了使 UniEdit 更加灵活,研究者进一步提出一种方法,允许将图像作为输入并合成高质量的视频。与图像动画技术不同,UniEdit 允许用户用文本提示指导动画过程

具体来说,研究者提出首先通过以下方式实现文本到图像(I2V)的生成:1)通过模拟相机运动转换输入图像,形成伪视频片段;或者 2)利用现有的图像动画方法(例如SVD、AnimateDiff)合成一个具有随机动作的视频(这可能与文本提示不一致)。然后,研究者使用以上介绍的 UniEdit 算法对原始视频进行文本引导编辑,以获得最终输出视频。

3.UniEdit 实验结果

UniEdit 不局限于特定的视频扩散模型。研究者将 UniEdit 建立在视频生成模型 LaVie 之上,以验证所提出方法的有效性。对于每个输入视频,研究者遵循 LaVie 的预处理步骤将分辨率调整为 320×512。然后,将预处理后的视频输入 UniEdit 进行视频编辑。每个视频在 NVIDIA A100 GPU 上编辑仅需 1-2 分钟。

图片

基线方法。为了评估 UniEdit 的性能,研究者将 UniEdit 的编辑结果与最先进的动作和外观编辑方法进行比较。对于动作编辑,由于缺乏开源的无需训练的方法,研究者将最先进的非刚性图像编辑技术 MasaCtrl 适配到 T2V 模型,以及 one-shot 视频编辑方法 Tune-A-Video (TAV) 作为强基线。对于外观编辑,研究者使用最新的性能强大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作为基线。结果如下图所示:

图片

定性结果。研究者在图中给出了 UniEdit 的编辑示例(更多示例见项目主页及论文原文)。观察到 UniEdit 可以:1)在不同场景中编辑,包括动作变化、物体替换、风格转换、背景修改等;2)与目标提示一致;3)展示出极佳的时序一致性。

此外,研究者在图 5 中与最先进的方法进行了比较。对于外观编辑,即将源视频转换为油画风格,UniEdit 在内容保留方面优于基线。例如草原仍保持其原始外观,没有任何额外的石头或小路。对于动作编辑,大多数基线方法未能输出与目标提示对齐的视频,或者未能保留源内容。

定量结果。研究者从两个方面定量验证了 UniEdit 的有效性:时间一致性和与目标提示的一致性。遵循之前的工作,研究者使用 CLIP 模型计算帧间一致性和文本对齐的分数。研究者还通过邀请 10 位参与者对 UniEdit 和基线方法编辑的视频进行五级评分(1-5)进行了用户研究。如下表所示,UniEdit 的表现大幅超过基线方法。

图片

更多细节内容请参阅原论文。
产业SoraUniEdit
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~