DE

DeepFloyd IF

基础大模型

DeepFloyd IF

发布时间: 2023-04-26更新于: 2023-04-27 22:28:44.152270
在线体验GitHubHugging FaceCompare
模型参数
43亿
上下文长度
2K
中文支持
不支持
推理能力

DeepFloyd IF 是由 Deep Floyd 发布的 AI 模型,发布时间为 2023-04-26,定位为 基础大模型,参数规模约为 43亿,上下文长度为 2K。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

DeepFloyd IF

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2023-04-26
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
43亿 / 不涉及
知识截止
暂无数据
DeepFloyd IF

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
DeepFloyd IF

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客
DeepFloyd IF

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
DeepFloyd IF

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

DeepFloyd IF

发布机构

DeepFloyd IF

模型解读

DeepFloyd IF简介

DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。


DeepFloyd IF模型原理

DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。DeepFloyd IF是一个模块化的组合,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基础模型,基于文本提示生成64x64像素的图像,以及两个超分辨率模型,分别设计用于生成分辨率逐步增加的图像:256x256像素和1024x1024像素。


模型的所有阶段都利用基于T5 transformer的冻结文本编码器提取文本嵌入,然后将其馈送到一个带有交叉注意力和注意力池化的UNet架构中。这是一个高效的模型,胜过当前最先进的模型,在COCO数据集上实现了零-shot FID得分为6.66。



DeepFloyd IF开源结果

DeepFloyd IF模型完全开源,目前已知包括7个模型,其参数规模和迭代步骤等信息如下:


模型名称级联级别参数规模Batch大小迭代次数
IF-I-MI400M3072250万
IF-I-LI900M3200300万
IF-I-XL*I4.3B3072242万
IF-II-MII450M1536250万
IF-II-L*II1.2B1536250万
IF-III-L* (soon)III700M3072125万



DeepFloyd IF效果

从官方展示的结果来看,DeepFloyd IF效果十分经验。




DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码