Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文生视频领域又卷起来了!

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

图片

文本提示:A kitten in flowers, Chinese painting.(一只小猫在花丛中,中国画。)

图片

文本提示:A yellow robot.(一个黄色的机器人)

图片

文本提示:A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure...(海底一艘古老沉船的照片。海洋植物侵蚀了木结构……)

这些 demo 来自阿里联合浙江大学、华中科技大学提出的文生视频模型 I2VGen-XL,该模型能够生成各种类别的高质量视频,如艺术画、人像、动物、科幻图等。生成的视频具有高清、高分辨率、平滑、美观等优点,适合广泛的视频内容创作任务。在与 Gen2、Pika 生成效果对比上, I2VGen-XL 生成的视频动作更加丰富,主要表现在更真实、更多样的动作,而 Gen-2 和 Pika 生成的视频似乎更接近静态。

I2VGen-XL 效果展示。

除了生成效果,这项工作更令人印象深刻的一点是研究人员在数据上下的工夫。为了提高生成效果的多样性,研究人员收集了大约 3500 万单镜头文本 - 视频对和 60 亿文本 - 图像对来优化模型,这是一个非常庞大的数据集,其后续潜力令人期待。

图片

图片

论文细节

图片

  • 论文地址:https://arxiv.org/pdf/2311.04145.pdf

  • 论文主页:https://i2vgen-xl.github.io/page04.html

该研究表示得益于扩散模型的快速发展,视频合成最近取得了显著的进步。然而,它在语义的准确性、清晰度和时空连续性方面仍然面临挑战。

出现这种状况的原因一方面是由于缺乏良好的经过对齐的文本 - 视频数据,另一方面在于视频本身复杂的内在结构,使得模型难以同时保证语义和质量的卓越性。

为了解决上述问题,研究者受到 SDXL 方法的启发,提出了一种级联的 I2VGen-XL 方法,其能够生成具有连贯空间和运动动态化以及细节连续的高清视频。

I2VGen-XL 旨在从静态图像生成高质量视频。因此,它需要实现两个关键目标:语义一致性,即准确预测图像中的意图,然后在保持输入图像的内容和结构的同时生成精确的运动;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关重要。为此,I2VGenXL 通过由两个阶段组成的级联策略分解这两个目标:基础阶段和改进阶段。

  1. 基础阶段旨在保证低分辨率下生成视频的语义连贯,同时还要保留输入图像的内容和主体信息。为了达到这一目标,研究者设计了两个分层编码器,即固定 CLIP 编码器和可学习内容编码器,分别提取高级语义和低级细节,然后将其合并到视频扩散模型中。 

  2. 改进阶段:将视频分辨率提高到 1280×720,并改进生成视频中存在的细节和伪影。具体来说,研究者使用简单的文本作为输入来训练一个独特的视频扩散模型,并优化了其初始的 600 个去噪 step。通过使用噪声去噪过程,该研究实现了从低分辨率视频生成具有时间和空间一致性的高清视频。

图片

具体而言:

基础阶段。基于 VLDM,本文设计的第一阶段是低分辨率(即 448×256),主要侧重于在输入图像上结合多级特征提取,包括高级语义和低级细节学习。

  1. 高级语义学习。该研究表示用 CLIP 的视觉编码器来提取语义特征,这种方法可以学习高级语义,但忽略了图像中精细细节的感知。为了缓解这个问题,本文结合了一个额外的可训练全局编码器来学习具有相同形状的互补特征,其架构如表 1 所示。

  2. 低级细节。为了减少细节的损失,本文采用从 VQGAN 编码器(即 D.Enc.)提取的特征,并将它们直接添加到第一帧的输入噪声中。

图片

改进阶段。经过基础阶段可以获得具有多样化且语义准确的运动的低分辨率视频。然而,这些视频可能会遇到各种问题,例如噪声、时间和空间抖动以及变形。因此,改进模型有两个主要目标:i)增强视频分辨率,将其从 448 × 256 增加到 1280 × 720 或更高;ii) 提高视频的时空连续性和清晰度,解决时间和空间上的伪影问题。

为了提高视频质量,该研究训练了一个单独的 VLDM,专门处理高质量、高分辨率数据,并对第一阶段生成的视频采用 SDEdit 引入的噪声去噪过程。

该研究还使用 CLIP 对文本进行编码,并通过交叉注意力将其嵌入到 3D UNet 中。然后,基于基础阶段的预训练模型,研究者使用精心挑选的高质量视频训练高分辨率模型,所有视频的分辨率都大于 1280×720。

此外,该研究还收集了 3500 万个高质量 single-shot 视频和 60 亿张图像,以达到增强 I2VGen-XL 多样性和稳健性的目的。

最后,广泛的实验评估结果表明 I2VGen-XL 可以同时增强生成视频的语义准确性、细节的连续性和清晰度。此外,该研究还将 I2VGenXL 与当前的顶级方法进行了比较,结果都表明 I2VGenXL 在各种数据上的有效性。

实验结果

与 Gen2 和 Pika 的比较结果

为了证明新方法的有效性,研究者将 I2VGen-XL 的性能与 Gen-2 和 Pika 进行了比较,二者被公认为是目前文生视频领域最先进的方法。如图 4 所示,作者使用这两种方法的网页界面生成了三种类型图像的视频,包括虚拟、写实和抽象绘画。

图片

从这些结果中可以得出以下几个结论:i) 动作的丰富性:I2VGen-XL 的结果显示出更真实、更多样的动作,例如最上方的例子。相比之下,Gen-2 和 Pika 生成的视频似乎更接近静态,这表明 I2VGen-XL 实现了更丰富的运动;ii) ID 保留程度:从这三个样本中可以看出,Gen-2 和 Pika 成功地保留了物体的身份特征,而 I2VGen-XL 则丢失了输入图像的一些细节。在实验中,作者还发现 ID 保留程度和运动强度之间存在一定的权衡关系。I2VGen-XL 在这两个因素之间取得了平衡。

图片

I2VGen-XL 生成视频结果。

图片

I2VGen-XL 生成视频结果。

改进模型分析

图 3 展示了改进阶段前后生成的视频。这些结果表明,空间细节得到了大幅提升,包括面部和身体特征的细化,以及局部细节中噪音的明显减少。

图片

图片

为了进一步阐明改进模型的工作机制,本文在图 7 的频域中分析了在此过程中生成的视频中发生的空间和时间变化。图 7a 显示了四个空间输入的频谱,表明:低质量视频表现出与高频范围内的噪声相似的频率分布,而高质量视频表现出与输入图像的频率分布更相似。将其与图 7b 所示的空间频率分布相结合,可以观察到改进模型有效地保留了低频数据,同时在高频数据中表现出更平滑的变化。从时间维度的角度来看,图 7d 呈现了低质量视频(上)和高质量视频(下)的时间曲线,表明高清视频的连续性有了明显的改善。此外,结合图 7b 和图 7e 可以看出,改进模型在空间和时间域中保留了低频分量,减少了中频分量,并增强了高频分量。这表明时空域中的伪影主要存在于中频范围。

图片

定性分析

该研究还对更广泛的图像进行了实验,包括人脸、3D 卡通、动漫、国画、小动物等类别。结果如图 5 所示,图中可以观察到生成的视频考虑了图像的内容和合成视频的美感,同时还表现出有意义且准确的动作。例如,在第六行,模型准确地捕捉到了小猫可爱的嘴巴动作。这些结果表明 I2VGen-XL 表现出有前途的泛化能力。

图片

图片

生成稳定的人体运动仍然是视频合成的主要挑战。因此,该研究还专门验证了 I2VGen-XL 在人体图像上的稳健性,如图 8 所示。可以观察到,该模型对人体的预测和生成的运动相当真实,具有人体的大部分特征。

图片

文本 - 视频

文本到视频合成目前面临的主要挑战之一是高质量视频 - 文本对的收集,这使得与图像合成相比,实现视频和文本之间的语义对齐更加困难。因此,将 Stable Diffusion 等图像合成技术与图像到视频合成相结合,有助于提高生成视频的质量。事实上,为了尊重隐私,该研究几乎所有样本都是由两者结合生成的。另外,在图 6 中是本文单独生成的样本,可以观察到视频和文本表现出很高的语义一致性。

图片

了解更多内容,请参考原论文。

产业I2VGen-XL
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》,介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。据介绍,实验中生成的单个 qubit 的平均保真度为 98.8%。

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~