DALL·E2

DALL·E2 预训练模型详情

模型全称

DALL·E2

发布组织

模型大小

未知

类型

计算机视觉

发布论文

Hierarchical Text-Conditional Image Generation with CLIP Latents

模型简介

像CLIP这样的对比性模型已经被证明可以学习稳健的图像表征,这些表征可以捕捉到语义和风格。为了利用这些表征来生成图像,我们提出了一个两阶段的模型:一个给定文本标题生成CLIP图像嵌入的先验器,以及一个以图像嵌入为条件生成图像的解码器。我们表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似性方面损失最小。我们以图像表征为条件的解码器也可以产生图像的变化,保留其语义和风格,同时改变图像表征中没有的非必要细节。此外,CLIP的联合嵌入空间使语言指导下的图像操作能够以0-shot的方式进行。我们对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,并产生更高质量的样本。