DeepFloyd IF - DeepFloyd IF

模型详细情况和参数

DeepFloyd IF

模型全称
DeepFloyd IF
模型简称
DeepFloyd IF
模型类型
基础大模型
发布日期
2023-04-26
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
43.0
模型代码开源协议
预训练结果开源商用情况
-
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
暂无
基础模型
无基础模型
发布机构

DeepFloyd IF 简介

DeepFloyd IF简介

DeepFloyd IF是由DeepFloyd、StabilityAI和LAION三家协作开发的一个Text-to-Image模型。它使用的是与Google Imagen类似的架构完成的一个图片生成模型。


DeepFloyd IF模型原理

DeepFloyd IF是一个具有高度照片级别真实感和语言理解能力的新型最先进的开源文本到图像模型。DeepFloyd IF是一个模块化的组合,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基础模型,基于文本提示生成64x64像素的图像,以及两个超分辨率模型,分别设计用于生成分辨率逐步增加的图像:256x256像素和1024x1024像素。


模型的所有阶段都利用基于T5 transformer的冻结文本编码器提取文本嵌入,然后将其馈送到一个带有交叉注意力和注意力池化的UNet架构中。这是一个高效的模型,胜过当前最先进的模型,在COCO数据集上实现了零-shot FID得分为6.66。



DeepFloyd IF开源结果

DeepFloyd IF模型完全开源,目前已知包括7个模型,其参数规模和迭代步骤等信息如下:


模型名称级联级别参数规模Batch大小迭代次数
IF-I-MI400M3072250万
IF-I-LI900M3200300万
IF-I-XL*I4.3B3072242万
IF-II-MII450M1536250万
IF-II-L*II1.2B1536250万
IF-III-L* (soon)III700M3072125万



DeepFloyd IF效果

从官方展示的结果来看,DeepFloyd IF效果十分经验。




欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DeepFloyd IF所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

DeepFloyd IF相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源