最新的Text-to-Video来了——Meta AI的Make-A-Video模型

原文摘要：我们提出了Make-A-Video——一种直接将文本到图像（T2I）生成的最新巨大进展转换为文本到视频（T2V）的方法。我们的直觉很简单：从成对的文本图像数据中了解世界的样子和描述方式，并从无监督的视频片段中了解世界是如何移动的。Make-A-Video有三个优点：（1）它加快了T2V模型的训练（它不需要从头开始学习视觉和多模态表示），（2）它不需要成对的文本视频数据，以及（3）生成的视频继承了当今图像生成模型的广度（审美、幻想描述等方面的多样性）。我们设计了一种简单而有效的方法，用新颖有效的时空模块建立T2I模型。首先，我们分解全时间U-Net和注意张量，并在空间和时间上近似它们。其次，我们设计了一个时空流水线来生成高分辨率和帧速率视频，其中包括视频解码器、插值模型和两个超分辨率模型，这两个模型可以支持T2V以外的各种应用。Make-A-Video在空间和时间分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频生成的最新技术，这是由定性和定量两个指标决定的。

最新的Text-to-Video来了——Meta AI的Make-A-Video模型

论文名：Make-A-Video: Text-to-Video Generation Without Text-Video Data

发布时间：2022-09

论文地址：https://makeavideo.studio/Make-A-Video.pdf

代码地址：