Imagen

Imagen 预训练模型详情

模型全称

Imagen

发布组织

Google

模型大小

类型

计算机视觉

发布论文

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

模型简介

我们提出了Imagen,一个文本到图像的扩散模型,具有空前的逼真度和深层次的语言理解。Imagen建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。我们的关键发现是,通用的大型语言模型(如T5),在纯文本语料库上进行了预训练,在为图像合成编码文本方面有惊人的效果:在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保真度和图像-文本的一致性。Imagen在COCO数据集上实现了新的最先进的FID得分,即7.27分,而不需要在COCO上进行训练,人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身相当。为了更深入地评估文本-图像模型,我们介绍了DrawBench,一个全面的、具有挑战性的文本-图像模型的基准。通过DrawBench,我们将Imagen与最近的方法,包括VQ-GAN+CLIP,Latent Diffusion Models和DALL-E 2进行了比较,发现人类评分者在样本质量和图像-文本对齐方面都比其他模型更喜欢Imagen。