Vi

VideoBooth

视觉大模型

VideoBooth

发布时间: 2023-12-01

模型参数(Parameters)
30.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

视觉大模型

发布时间

2023-12-01

模型预文件大小

10.04GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

VideoBooth模型在各大评测榜单的评分

发布机构

上海人工智能实验室
上海人工智能实验室
查看发布机构详情

模型介绍

LaVie团队最新的作品,基于图片prompt生成视频的大模型。这个模型最大的特点是提出了一个新的任务,即将文本生成视频的任务变成文本+图片一起生成新视频。


这个任务的目标是生成不仅与文本描述相匹配,而且还符合图像提示中指定的视觉属性的视频。


为了实现这一目标,模型采用了两阶段方法:


通过图像编码器进行粗略的视觉嵌入:使用图像编码器从图像提示中提取视觉特征。然后,这些视觉特征被映射到文本嵌入空间,并与文本嵌入连接起来。这提供了图像提示的视觉外观的粗略编码。


通过注意力注入进行精细的视觉嵌入:将图像提示直接注入到文本到视频模型的跨帧注意力模块的不同层中。这是通过将图像提示的潜在表示作为额外的键和值附加到注意力模块来实现的。


这种粗到细的方法具有以下好处:


图像编码器提供了图像提示的全局表示,而注意力注入提供了细粒度的细节。

通过将图像提示注入到注意力模块中,模型可以直接从图像提示中借用视觉线索,以细化生成帧中的合成细节。

在不同层注入图像提示,使模型能够使用具有空间细节的多尺度特征来控制精细视觉特性的生成。


总结来说,这个模型提出了一种两阶段方法,首先使用图像编码器嵌入粗略的视觉信息,然后通过将图像提示直接注入到文本到视频模型的注意力模块中来进一步细化生成的视频。这种粗到细的方法帮助模型捕捉并反映在生成的视频中图像提示指定的视觉属性。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat