DALL·E2的对手来了,谷歌Text-to-Image模型(Imagen)来临!

标签:Text-to-Image,图像生成 时间:2022-05-28 20:40:38.397 发布者:小木

论文名:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
发布时间:2022-05-23
论文地址:https://arxiv.org/abs/2205.11487
代码地址:

原文摘要:我们提出了Imagen,一个文本到图像的扩散模型,具有空前的逼真度和深层次的语言理解。Imagen建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。我们的关键发现是,通用的大型语言模型(如T5),在纯文本语料库上进行了预训练,在为图像合成编码文本方面有惊人的效果:在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保真度和图像-文本的一致性。Imagen在COCO数据集上实现了新的最先进的FID得分,即7.27分,而不需要在COCO上进行训练,人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身相当。为了更深入地评估文本-图像模型,我们介绍了DrawBench,一个全面的、具有挑战性的文本-图像模型的基准。通过DrawBench,我们将Imagen与最近的方法,包括VQ-GAN+CLIP,Latent Diffusion Models和DALL-E 2进行了比较,发现人类评分员在侧面比较中更喜欢Imagen而不是其他模型,无论是在样本质量和图像-文本对齐方面。有关结果的概述,请参见https://imagen.research.google/。