LaVie团队最新的作品，基于图片prompt生成视频的大模型。这个模型最大的特点是提出了一个新的任务，即将文本生成视频的任务变成文本+图片一起生成新视频。

这个任务的目标是生成不仅与文本描述相匹配，而且还符合图像提示中指定的视觉属性的视频。

为了实现这一目标，模型采用了两阶段方法：

通过图像编码器进行粗略的视觉嵌入：使用图像编码器从图像提示中提取视觉特征。然后，这些视觉特征被映射到文本嵌入空间，并与文本嵌入连接起来。这提供了图像提示的视觉外观的粗略编码。

通过注意力注入进行精细的视觉嵌入：将图像提示直接注入到文本到视频模型的跨帧注意力模块的不同层中。这是通过将图像提示的潜在表示作为额外的键和值附加到注意力模块来实现的。

这种粗到细的方法具有以下好处：

图像编码器提供了图像提示的全局表示，而注意力注入提供了细粒度的细节。

通过将图像提示注入到注意力模块中，模型可以直接从图像提示中借用视觉线索，以细化生成帧中的合成细节。

在不同层注入图像提示，使模型能够使用具有空间细节的多尺度特征来控制精细视觉特性的生成。

总结来说，这个模型提出了一种两阶段方法，首先使用图像编码器嵌入粗略的视觉信息，然后通过将图像提示直接注入到文本到视频模型的注意力模块中来进一步细化生成的视频。这种粗到细的方法帮助模型捕捉并反映在生成的视频中图像提示指定的视觉属性。

VideoBooth

模型基本信息