Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NeurIPS 2023|有效提高视频编辑一致性,美图&国科大提出基于文生图模型新方法EI²

美图影像研究院(MT Lab)与中国科学院大学突破性地提出了基于文生图模型的视频生成新方法 EI2,用于提高视频编辑过程中的语义和内容两方面的一致性。该论文从理论角度分析和论证视频编辑过程中出现的不一致的问题,主要由引入的时序信息学习模块使特征空间出现协变量偏移造成,并针对性地设计了新的网络模块进行解决以生成高质量的编辑结果。目前,该论文已被机器学习顶会之一 NeurIPS 2023 接收。

背景

作为当前炙手可热的前沿技术之一,生成式 AI 被广泛应用于各类视觉合成任务,尤其是在图像生成和编辑领域获得了令人赞叹的生成效果。对比静态图像,视频拥有更丰富的动态变化和语义信息,而现有的视觉生成任务主要基于变分自编码器(VAE)和生成对抗网络(GAN),但通常会受限于特定场景和数据,很难提供普适的解决方案。因此,近年来基于扩散模型(Diffusion Models)在分布式学习上表现出的卓越能力,扩散模型也开始被拓展到视频领域,并在视频生成与编辑领域展现出了巨大的潜力。

在研究初期,基于扩散模型的视频生成和编辑任务利用文本 - 视频数据集直接训练文生视频模型以达到目标。然而,由于缺少高质量的视频数据,这类工作泛化能力通常较差,此外,它们也需要耗费大量的计算资源。为避免上述问题,近期工作更倾向于将基于大规模数据集上预训练的文生图模型拓展到视频领域。此类任务通过引入可学习的时序模块使文生图模型具备视频生成和编辑能力,从而减少对视频数据的需求以及计算量,并提供了简单易用的方案。因此,这类任务在近期引起了广泛的关注。然而,以上基于文生图模型的视频生成方案也面临着两个关键问题:一是时序不一致问题,即生成视频帧间内容的不一致,例如闪烁和主体变化等;二是语义不一致问题,即生成视频未能按照给定文本进行修改。解决上述两个核心问题将极大地推动基于文本的视频编辑与生成技术在实际场景中的应用和落地。

美图影像研究院(MT Lab)与中国科学院大学在 NeurIPS 2023 上共同提出一种基于文生图模型的视频编辑方法 EI2, 从理论上分析和论证了现有方案出现不一致的原因,并提出了有效的解决方案。

图片

论文链接:https://arxiv.org/pdf/2305.17431.pdf

EI2:基于文生图模型的视频一致性编辑解决方案

EI2 首先对语义不一致问题进行了分析,发现该问题不是由微调策略或过拟合现象出现所导致的,而是由新引入的时序模块造成的。这些模块虽然能提升文生图模型的时序连续性,但会减弱甚至消除其原有的生成和编辑能力。

EI2 方案将这一现象的出现归因于生成特征空间出现协变量偏移:由于时序模块只在目标视频上进行训练,其输出特征的分布与源模型的分布存在差异。此外,现有空间注意力机制为减小计算量,通常会忽略特定元素进行局部计算,从而导致次优解的出现。因此,高效地融合全局上的空间和时序注意力信息也是取得时序一致性编辑的关键。

图片

图 1 本文提出的 EI2 方案与已有方案在视频编辑任务上的结果对比

基于上述分析,EI2 设计了更为合理的时序模块并将其与文生图模型相结合,用于增强生成能力,以更好地解决视频编辑任务。具体而言,EI2 采用一次微调框架(One-shot Tuning),从理论和实践两方面对现有方法进行了改进。

首先,EI2 设计了偏移控制时序注意力模块,用于解决视频编辑过程中出现的语义不一致问题。EI2 从理论上证明了在特定假设下,协变量偏移与微调无关,是由时序注意力机制新引入的参数造成,这为解决语义不一致问题提供了有价值的指导。

通过上述论证,EI2 定位层归一化(Layer Norm)模块是协变量偏移出现的重要原因。为了解决这一问题,EI2 提出了简单有效的实例中心化模块以控制分布偏移。此外,EI2 也对原时序注意力模块中的权值进行归一化,从而限制方差的偏移。其次,EI2 设计了粗细力度帧间注意力模块来缓解视频编辑过程中出现的时序不一致问题。EI2 创新性地提出了一种粗细力度交互机制,用于更为有效地建立时空注意力机制,从而使得低成本的视频全局信息交互成为可能。与现有丢弃空间信息的方案相比,EI2 在空间维度上进行采样,这不仅保持了时空数据的整体结构,也减少了需要考虑的数据规模。

具体而言,粗细力度帧间注意力模块对于当前帧保留细粒度信息,而对于其他帧则进行下采样以获得粗粒度信息来做交互。这种方式使得 EI2 在有效学习时序信息的同时,保证了与现有时空交互方案接近的计算量。基于以上设计,实验结果表明 EI2 可以有效地解决视频编辑过程中出现的语义不一致问题并保证时序上的一致性,取得了超越现有方案的视频编辑效果。

图片

图 2 EI2 的训练和推理流程

实验结果

图片

表 1 与基线方法的量化对比

图片

图 3 与基线方法的可视化对比图片
图 4 协变量偏移控制的消融实验

图片

图 5 时空注意力机制的消融实验

总结

该论文创新性地提出了基于文生图模型的视频编辑新方案 EI2,有效地解决了现有方案遇到的语义和时序不一致问题。其中,EI2 从理论上证明了语义不一致问题由引入的时序模块产生的协变量偏移造成,并设计了偏移控制时序注意力进行改进。另外,EI2 提出了粗细力度帧间注意力模块,在提升视频编辑效果的同时也保证了较低的计算复杂度。与现有方案相比,EI2量化和可视化的分析中都表现出了明显的优势。

研究团队

本论文由美图影像研究院(MT Lab)和中国科学院大学的研究者们共同提出。

美图影像研究院成立于 2010 年,致力于计算机视觉深度学习计算机图形学等人工智能(AI)相关领域的研发。曾先后参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议,并斩获 ISIC Challenge 2018 皮肤癌病灶分割赛道冠军,ECCV 2018 图像增强技术比赛冠军,CVPR-NTIRE2019 图像增强比赛冠军,ICCV2019 服饰关键点估计比赛冠军等十余项冠亚军,在 AAAI、CVPR、ICCV、ECCV、NIPS 等国际顶级会议及期刊上累计发表 48 篇学术论文。

在美图影像研究院(MT Lab)的支持下,美图公司拥有丰富的 AIGC 场景落地经验。2010 年开始人工智能领域的相关探索,2013 年开始布局深度学习,2016 年推出 AIGC 雏形产品 “手绘自拍”,2022 年 AIGC 产品全面进入爆发期,2023年6月发布自研AI视觉大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI设计与AI视频。
工程EI2NeurIPS 2023
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

点估计技术

点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

协变量技术

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。 协变量(covariate)在心理学、行为科学中,是指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理,通过对输入同一层的数据进行汇总,计算平均值和方差,来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言,批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总,计算平均值和方法,再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越,也不会受到mini-batch选值的影响。

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

病灶分割技术

病灶分割(Lesion Segmentation)是医学图像处理的一部分,旨在从其它物体中分割出病灶。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~