模型详细情况和参数
DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。
DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。DeepFloyd IF是一个模块化的组合,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基础模型,基于文本提示生成64x64像素的图像,以及两个超分辨率模型,分别设计用于生成分辨率逐步增加的图像:256x256像素和1024x1024像素。
模型的所有阶段都利用基于T5 transformer的冻结文本编码器提取文本嵌入,然后将其馈送到一个带有交叉注意力和注意力池化的UNet架构中。这是一个高效的模型,胜过当前最先进的模型,在COCO数据集上实现了零-shot FID得分为6.66。
DeepFloyd IF模型完全开源,目前已知包括7个模型,其参数规模和迭代步骤等信息如下:
模型名称 | 级联级别 | 参数规模 | Batch大小 | 迭代次数 |
---|---|---|---|---|
IF-I-M | I | 400M | 3072 | 250万 |
IF-I-L | I | 900M | 3200 | 300万 |
IF-I-XL* | I | 4.3B | 3072 | 242万 |
IF-II-M | II | 450M | 1536 | 250万 |
IF-II-L* | II | 1.2B | 1536 | 250万 |
IF-III-L* (soon) | III | 700M | 3072 | 125万 |
从官方展示的结果来看,DeepFloyd IF效果十分经验。