模型详细情况和参数
SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52以视频数据集上训练得到。
SVD-XT可以生成20帧的576x1024分辨率的视频,而SVD只能生成14帧。
SVD模型的详细信息: https://www.datalearner.com/ai-models/pretrained-models/SVD
下图是样例结果: