DE

DeepFloyd IF

基础大模型

DeepFloyd IF

发布时间: 2023-04-26更新于: 2023-04-27 22:28:44.152270

在线体验GitHubHugging FaceCompare

模型参数

43亿

上下文长度

2K

中文支持

不支持

推理能力

DeepFloyd IF 是由 Deep Floyd 发布的 AI 模型，发布时间为 2023-04-26，定位为基础大模型，参数规模约为 43亿，上下文长度为 2K。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

DeepFloyd IF

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

暂无数据

发布时间

2023-04-26

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

43亿 / 不涉及

知识截止

暂无数据

DeepFloyd IF

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

https://github.com/deep-floyd/IF

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

DeepFloyd IF

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

暂无介绍博客

DeepFloyd IF

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

DeepFloyd IF

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

DeepFloyd IF

发布机构

Deep Floyd

查看发布机构详情

DeepFloyd IF

模型解读

DeepFloyd IF简介

DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。

DeepFloyd IF模型原理

DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。DeepFloyd IF是一个模块化的组合，由一个冻结的文本编码器和三个级联的像素扩散模块组成：一个基础模型，基于文本提示生成64x64像素的图像，以及两个超分辨率模型，分别设计用于生成分辨率逐步增加的图像：256x256像素和1024x1024像素。

模型的所有阶段都利用基于T5 transformer的冻结文本编码器提取文本嵌入，然后将其馈送到一个带有交叉注意力和注意力池化的UNet架构中。这是一个高效的模型，胜过当前最先进的模型，在COCO数据集上实现了零-shot FID得分为6.66。

DeepFloyd IF开源结果

DeepFloyd IF模型完全开源，目前已知包括7个模型，其参数规模和迭代步骤等信息如下：

模型名称	级联级别	参数规模	Batch大小	迭代次数
IF-I-M	I	400M	3072	250万
IF-I-L	I	900M	3200	300万
IF-I-XL*	I	4.3B	3072	242万
IF-II-M	II	450M	1536	250万
IF-II-L*	II	1.2B	1536	250万
IF-III-L* (soon)	III	700M	3072	125万

DeepFloyd IF效果

从官方展示的结果来看，DeepFloyd IF效果十分经验。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码