论文学习——Tune-A-Video

胖虎干嘛了 2024-01-04 原文

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Abstract

本文提出了一种方法，站在巨人的肩膀上——在大规模图像数据集上pretrain并表现良好的 text to image 生成模型——加入新结构并进行微调，训练出一套 one shot 的 text to video 生成器。这样做的优点在于利用已经非常成功、风格多样的图像扩散生成模型，在其基础上进行扩展，同时其训练时间很短，大大降低了训练开销。作为one shot 方法，tune a video还需要额外信息，一个文本-视频对儿作为demo。

作者对于T2I（text to image）模型得到了两个观察：
（1）T2I模型可以生成·展示动词项效果的·静止图像
（2）扩展T2I模型同时生成的多张图像展现出了良好的内容一致性。

有了这两个观察作为基础，其实生成视频的关键就在于如何保证一致的物体的连续运动。

为了更进一步，学习到连贯的动作，作者设计出one shot 的 Tune-A-Video模型。这个模型涉及到一个定制的时空注意力机制，以及一个高效的one shot 调整策略（tuning strategy）。在推理阶段，使用DDIM的inversion过程（常规DDIM在逆扩散过程中的采样部分是确定的：将预测的高斯噪声~N(μ, σ)中的标准差设置为0，以此消除逆扩散过程中的随机性；而DDIM inversion相反，其正向扩散过程是确定的。）来为采样过程提供结构性的引导。

1. Introduction

为在T2V领域赋值T2I生成模型的成果经验，有许多模型[30,35,6,42,40]也尝试将空间领域的T2I生成模型拓展到时空领域。它们通常在大规模的text-video数据集上采取标准的训练范式，效果很好，但计算开销太大太耗时。

本模型的思路：在大规模text-image数据集上完成预训练的T2I模型以及有了开放域概念的许多知识，那简单给它一个视频样例，它是否能够自行推理出其他的视频呢？

One-Shot Video Tuning，仅使用一个text-video对儿来训练T2V生成器，这个生成器从输入视频中捕获基础的动作信息，然后根据修改提示（edited prompts）生成新颖的视频。

上面abstract提到，生成视频的关键就在于如何保证一致的物体的连续运动。下面，作者从sota的T2I扩散模型中进行如下观察，并依此激励我们的模型。
（1）关于动作：T2I模型能够很好地根据包括动词项在内的文本生成的图片。这表明T2I模型在静态动作生成上，可以通过跨模态的注意力来考虑到文本中的动词项。
（2）关于一致的物体：简单的将T2I模型中的空间自注意力进行扩展，使之从生成一张图片变为生成多张图片，足可以生成内容一致的不同帧，如图2第1行是内容和背景不同的多张图像，而图2第2行是相同的人和沙滩。不过动作仍不是连续的，这表明T2I中的自注意力层只关注空间相似性而不关注像素点的位置。

Tune A Video方法是在sota 的T2I模型在时空维度上的简单膨胀。为避免计算量的平方级增长，对于帧数不断增多的任务来说，这种方案显然是不可行的。另外，使用原始的微调方法，更新所有的参数可能会破坏T2I模型已有的知识，并阻碍新概念视频的生成。为解决这个问题，作者使用稀疏的时空注意力机制而非full attention，仅使用视频的第一帧和前一帧，至于微调策略，只更新attention 块儿中的投影矩阵。以上操作只保证视频帧中的内容的一致性，但并不保证动作的连续性。

因此，在推理阶段，作者通过DDIM的inversion过程，从输入视频中寻求structure guidance。将该过程得到的逆转潜向量作为初始的噪音，这样来产生时间上连贯、动作平滑的视频帧。

作者贡献：
（1）为T2V生成任务提出了一类新的模型One-Shot Video Tuning，这消除了模型在大尺度视频数据集上训练的负担
（2）这是第一个使用T2I实现T2V生成任务的框架
（3）使用高效的attention tuning和structural inversion来显著提升时序上的联系性

3.2 网络膨胀

先说T2I模型，以LDM模型为例，使用U-Net，先使用孔家下采样再使用上采样，并保持跳联。U-Net由堆叠的2d残差卷积和transformer块儿们组成。每个transformer块儿都有一个空间自注意力层，一个交叉注意力层，一个前馈网络组成。空间自注意力层利用feature map中的像素位置寻找相似关系；交叉注意力则考虑像素和条件输入之间的关系。

z_vi表示video的第vi帧，空间自注意力可以表示为如下形式

下面讲怎么改：

将二维的LDM转换到时空域上：
（1）将其中的2d卷积层膨胀为伪3d卷积层，3x3变为1x3x3这样；
（2）对于每个transformer块儿加入时序的自注意力层（，以完成时间建模）；
（3）（为增强时序连贯性，）将空间自注意力机制转为时空自注意力机制。转换的方法并不是使用full attention 或者causal attention，它们也能捕获时空一致性。但由于在introduction中提到的开销问题，显然并不适用。本文采用的是系数的causal attention，将计算量从O（（mN）²）转为了O（2mN²），其中m为帧数，N为每帧中的squence数目。需要注意的是，这种自注意力机制里，计算query的向量是zvi，计算key和value使用的向量则是v1和vi-1的拼接。

4.4 微调和推理

模型微调

为获得时序建模能力，使用输入视频微调网络。

由于时空注意力机制通过查询之前帧上的相关位置来建模其时序一致性。因此固定ST-Attn layers中的W^K和W^V，仅更新投影矩阵W^Q。

而对于新加入的时序自注意力层，则更新所有参数，因为新加入层的参数不包含先验。

对于交叉注意力Cross-Attn，则通过更新Query的投影矩阵（query projection）来完善text-video的对应关系。

这样的微调，相对于完全调整来说更节约计算开销，并且也有助于保持原有T2I预训练所得到的的原有性质。下图中标亮了所有需要更新参数的模块。

通过DDIM的inversion获得结构上的指导

为了更好地确保不同帧之间的像素移动，在推理阶段，本模型从原视频中引入结构的指导。具体来说，通过DDIM的inversion过程，从没有文本条件的原视频中能够提取出潜向量噪音。这种噪音作为DDIM采样过程的起点，同时受到编辑提示edited prompt T*的引导，进入DDIM的采样过程，输出视频可以表示如下

有关论文学习——Tune-A-Video的更多相关文章

LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它
jquery - 使用 Rails 3 学习 Ajax 的资源 - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。有没有学习Ajax(jQuery)和Rails3的好资源？