Co

Composer

基础大模型

Composer

发布时间: 2023-02-20

模型参数(Parameters)
50.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-02-20

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Composer 模型在各大评测榜单的评分

发布机构

模型介绍

最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但却存在可控性有限的问题。这项工作提供了一种新的生成范式,允许灵活控制输出图像,如空间布局和调色板,同时保持合成质量和模型的创造性。以合成性为核心思想,我们首先将图像分解成有代表性的因素,然后以所有这些因素为条件训练一个扩散模型,对输入进行重新组合。在推理阶段,丰富的中间表征作为可组合的元素发挥作用,导致一个巨大的设计空间(即与分解因素的数量成指数比例),用于可定制的内容创作。值得注意的是,我们的方法,我们称之为Composer,支持各种层次的条件,如文本描述作为全局信息,深度图和草图作为局部指导,颜色直方图作为低层次细节,等等。除了提高可控性,我们确认Composer可以作为一个通用的框架,并促进广泛的经典生成任务,而无需重新训练。代码和模型将被提供。




Composer,是组合式生成模型的实现。组合式生成模型,是指能够无缝地重新组合视觉组件以产生新图像的生成模型(图1)。具体来说,我们将Composer实现为一个具有UNet骨干的多条件扩散模型(Nichol等人,2021)。在Composer的每次训练迭代中,有两个阶段:在分解阶段,我们使用计算机视觉算法或预训练的模型将一批图像分解成单独的表征;而在组成阶段,我们优化Composer,使其能够从其表征子集中重建这些图像。尽管只用一个重建目标进行训练,但Composer能够从未曾见过的表征组合中解码新的图像,这些表征可能来自不同的来源,并且可能彼此不兼容。


Composer是一个大型的(50亿个参数)可控扩散模型,在数十亿个(文本、图像)对上训练。它可以通过组合以指数方式扩展控制空间,导致产生和操纵图像的大量方法,即使有限的手段得到无限的利用。


项目目前还没有开源更多预训练模型的细节,不过其官方GitHub中表示会进一步开发训练和推理代码以及未来可能会开放一个轻量级的模型。


项目更多案例:

 https://damo-vilab.github.io/composer-page/ 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat