DeepFloyd IF
DeepFloyd IF
模型参数
43.0
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-04-26
模型文件大小
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Deep Floyd
查看发布机构详情 模型解读
DeepFloyd IF简介
DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。
DeepFloyd IF模型原理
DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。DeepFloyd IF是一个模块化的组合,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基础模型,基于文本提示生成64x64像素的图像,以及两个超分辨率模型,分别设计用于生成分辨率逐步增加的图像:256x256像素和1024x1024像素。
模型的所有阶段都利用基于T5 transformer的冻结文本编码器提取文本嵌入,然后将其馈送到一个带有交叉注意力和注意力池化的UNet架构中。这是一个高效的模型,胜过当前最先进的模型,在COCO数据集上实现了零-shot FID得分为6.66。

DeepFloyd IF开源结果
DeepFloyd IF模型完全开源,目前已知包括7个模型,其参数规模和迭代步骤等信息如下:
| 模型名称 | 级联级别 | 参数规模 | Batch大小 | 迭代次数 |
|---|---|---|---|---|
| IF-I-M | I | 400M | 3072 | 250万 |
| IF-I-L | I | 900M | 3200 | 300万 |
| IF-I-XL* | I | 4.3B | 3072 | 242万 |
| IF-II-M | II | 450M | 1536 | 250万 |
| IF-II-L* | II | 1.2B | 1536 | 250万 |
| IF-III-L* (soon) | III | 700M | 3072 | 125万 |
DeepFloyd IF效果
从官方展示的结果来看,DeepFloyd IF效果十分经验。
