CM3leon - CM3leon

模型详细情况和参数

CM3leon

模型全称
CM3leon
模型简称
CM3leon
模型类型
多模态大模型
发布日期
2023-07-14
预训练文件大小
0
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
不开源
预训练结果开源商用情况
不开源 - 不开源
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

CM3leon 简介

随着深度学习在视觉和语言领域的发展,文本到图像生成也成为了一个激动人心的研究方向。MetaAI提出的名为CM3Leon的新模型,它展示了在预训练和多任务微调的配合下,作为一个检索增强的自回归多模态语言模型,可以在图像生成任务上取得新的进步。


背景介绍

图像生成领域最近由diffusion模型占据主导,例如stable diffusion。虽然self-attention的transformer结构在NLP任务上表现优异,但在计算效率上落后,在图像生成领域应用相对较少。CM3Leon充分利用了transformer的自回归建模优势,在提升图像生成质量的同时,也展示了计算效率上的改进。


CM3Leon模型概览

CM3Leon使用了检索增强的预训练+多任务监督微调的方式。其中,预训练使用了大规模的Shutterstock数据集(3.4亿图像文本对),使模型可从检索记忆存储中获取相关知识。监督微调则使用了多种图像-文本组合任务,增强模型对指令的理解。这种训练方式借鉴了仅文本的GPT系列模型。CM3Leon还使用了一种自包含的对比解码生成方式。所有这些使其成为有竞争力的文本到图像生成模型。

  • 模型架构:基于检索增强的自回归Transformerdecoder架构
  • 模型规模:预训练了350M/760M/7B参数三个模型
  • 数据规模:预训练数据34亿图片文本对;微调数据300亿tokens
  • 训练方式:两阶段训练
  • 预训练:检索增强自回归预训练
  • 微调:多任务监督微调
  • 解码方式:自包含的对比解码生成


模型效果

CM3Leon在零样本MS-COCO图像生成任务上取得4.88的新state-of-the-art FID,使用的训练计算量只有其他模型的1/5(350M参数CM3Leon相当于20B参数PARTI模型)。微调后,它还展示了语言引导图像编辑、图像控制文本生成等强大的控制生成能力。


模型创新之处

CM3Leon的创新之处主要体现在:

1.    采用了预训练+微调的范式,借鉴纯文本模型recipe

2.    使用对比解码算法生成高质量图像

3.    训练数据规模大幅提升(34亿Shutterstock数据)

4.    提出检索增强训练带来显著效率提升


影响及未来方向

CM3Leon证明了刻板印象“计算效率低下”的自回归模型也可以具有很强的实用性。未来这一领域可能会关注如何继续提升自回归模型的质量、效率和创新应用等


总之,CM3Leon开创了新的文本到图像生成范式,也为未来的研究提供了很好的参考,值得密切关注。

 

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

CM3leon所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

CM3leon相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源