SVD - Stable Video Diffusion

模型详细情况和参数

SVD

模型全称
Stable Video Diffusion
模型简称
SVD
模型类型
视觉大模型
发布日期
2023-11-21
预训练文件大小
9.56GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
10.0
模型代码开源协议
MIT License
预训练结果开源商用情况
开源不可商用 - 不可以商用
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Stable Video Diffusion 简介

更多介绍参考: https://www.datalearner.com/blog/1051700786899649 

SVD模型简介

SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。


这个模型可以生成14帧的576x1024分辨率的视频(还有一个SVD-XT版本,可以生成25帧的视频)。


下面的gif就是生成的样例~




SVD模型的训练细节

SVD模型的训练分为3个阶段:

  1. 图像预训练:使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。
  2. 视频预训练:在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。
  3. 高分辨率视频微调:使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。


注意,Stable Video Diffusion模型的参数没有完整公布,根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构,它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿,因此,该模型的参数数量应该是超过10亿的。


训练技巧包括:

  • 按分辨率调整noise schedule
  • 采用EDM训练框架
  • 使用vanilla分类无关指导生成连贯结果


SVD模型相关的信息表格总结如下:


SVD信息详细内容
模型名称Stable Video Diffusion (SVD)
架构基于Stable Diffusion 2.1,包括时序层和噪声调整
训练阶段1. 图像预训练(2D文本到图像)
2. 视频预训练(大量视频数据)
3. 高质量视频微调(小型高质量视频数据集)
基本模型训练初始分辨率256×384,迭代150k次;微调分辨率320×576,迭代100k次
高分辨率文本到视频模型微调数据集约1M样本,分辨率576×1024,迭代50k次
高分辨率图像到视频模型两个版本(14帧和25帧),具体的微调细节未提供
Camera Motion  LoRAs训练用于控制图像到视频生成中的相机运动,涵盖水平移动、变焦和静态
帧插值通过预测两个条件帧内的三个帧来提高帧率,仅需迭代约10k次
多视角生成在多视角数据集上微调,如Objaverse和MVImgNet,用于生成单个图像的多视角序列
应用和性能用于高质量的文本到视频和图像到视频合成,多视角生成表现优于现有技术,且计算成本更低


注意,SVD模型的代码通过MIT协议开源,完全免费商用授权。但是预训练结果官方说只能用于研究目的(research purpose only),不可以商用!。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

SVD所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

SVD相关的任务
文本生成视频

文本生成视频

Text to Video

35个资源