模型详细情况和参数
随着深度学习在视觉和语言领域的发展,文本到图像生成也成为了一个激动人心的研究方向。MetaAI提出的名为CM3Leon的新模型,它展示了在预训练和多任务微调的配合下,作为一个检索增强的自回归多模态语言模型,可以在图像生成任务上取得新的进步。
图像生成领域最近由diffusion模型占据主导,例如stable diffusion。虽然self-attention的transformer结构在NLP任务上表现优异,但在计算效率上落后,在图像生成领域应用相对较少。CM3Leon充分利用了transformer的自回归建模优势,在提升图像生成质量的同时,也展示了计算效率上的改进。
CM3Leon使用了检索增强的预训练+多任务监督微调的方式。其中,预训练使用了大规模的Shutterstock数据集(3.4亿图像文本对),使模型可从检索记忆存储中获取相关知识。监督微调则使用了多种图像-文本组合任务,增强模型对指令的理解。这种训练方式借鉴了仅文本的GPT系列模型。CM3Leon还使用了一种自包含的对比解码生成方式。所有这些使其成为有竞争力的文本到图像生成模型。
CM3Leon在零样本MS-COCO图像生成任务上取得4.88的新state-of-the-art FID,使用的训练计算量只有其他模型的1/5(350M参数CM3Leon相当于20B参数PARTI模型)。微调后,它还展示了语言引导图像编辑、图像控制文本生成等强大的控制生成能力。
CM3Leon的创新之处主要体现在:
1. 采用了预训练+微调的范式,借鉴纯文本模型recipe
2. 使用对比解码算法生成高质量图像
3. 训练数据规模大幅提升(34亿Shutterstock数据)
4. 提出检索增强训练带来显著效率提升
CM3Leon证明了刻板印象“计算效率低下”的自回归模型也可以具有很强的实用性。未来这一领域可能会关注如何继续提升自回归模型的质量、效率和创新应用等
总之,CM3Leon开创了新的文本到图像生成范式,也为未来的研究提供了很好的参考,值得密切关注。