模型详细情况和参数
SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。
这个模型可以生成14帧的576x1024分辨率的视频(还有一个SVD-XT版本,可以生成25帧的视频)。
下面的gif就是生成的样例~
SVD模型的训练分为3个阶段:
注意,Stable Video Diffusion模型的参数没有完整公布,根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构,它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿,因此,该模型的参数数量应该是超过10亿的。
训练技巧包括:
SVD模型相关的信息表格总结如下:
SVD信息 | 详细内容 |
---|---|
模型名称 | Stable Video Diffusion (SVD) |
架构 | 基于Stable Diffusion 2.1,包括时序层和噪声调整 |
训练阶段 | 1. 图像预训练(2D文本到图像) 2. 视频预训练(大量视频数据) 3. 高质量视频微调(小型高质量视频数据集) |
基本模型训练 | 初始分辨率256×384,迭代150k次;微调分辨率320×576,迭代100k次 |
高分辨率文本到视频模型 | 微调数据集约1M样本,分辨率576×1024,迭代50k次 |
高分辨率图像到视频模型 | 两个版本(14帧和25帧),具体的微调细节未提供 |
Camera Motion LoRAs | 训练用于控制图像到视频生成中的相机运动,涵盖水平移动、变焦和静态 |
帧插值 | 通过预测两个条件帧内的三个帧来提高帧率,仅需迭代约10k次 |
多视角生成 | 在多视角数据集上微调,如Objaverse和MVImgNet,用于生成单个图像的多视角序列 |
应用和性能 | 用于高质量的文本到视频和图像到视频合成,多视角生成表现优于现有技术,且计算成本更低 |
注意,SVD模型的代码通过MIT协议开源,完全免费商用授权。但是预训练结果官方说只能用于研究目的(research purpose only),不可以商用!。