Emu - Emu

模型详细情况和参数

Emu

模型全称
Emu
模型简称
Emu
模型类型
多模态大模型
发布日期
2023-09-27
预训练文件大小
6GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
28.0
模型代码开源协议
不开源
预训练结果开源商用情况
不开源 - 不开源
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

Emu 简介

MetaAI发布的Emu模型是一个高质量的文本生成图片大模型,它包含了两个阶段,预训练阶段使用11亿的图像文本数据集训练,然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念,可以用较少的高质量图片微调文本生成图像大模型,获得更高质量的输出结果,但是不丢失预训练获得的基础能力。



Emu的模型技术细节


Emu不是一个开源的模型,因此缺少很多细节,MetaAI在论文中表示,他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。



U-Net 是一种深度学习网络,最初用于医学图像分割。它的特点是具有一个对称的“U”形结构,由两部分组成:收缩路径(用于捕获上下文信息)和扩展路径(用于精确定位)。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络,特别是在需要精确分割的应用场景中。



Emu的具体信息总结如下:

项目详细信息
模型架构基于潜在扩散模型的单阶段模型
预训练参数量自动编码器:16通道<br>U-Net:可训练参数28亿
预训练数据量11亿幅图像文本对
微调数据量2000幅人工筛选高质量图像
微调设置批量大小64,噪声偏移0.1
微调迭代轮数15000轮
生成分辨率1024x1024
效果视觉诱惑性明显优于当前SOTA模型SDXLv1.0
提出方法质量调优 - 使用极少量高质量数据微调
主要结论- 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构



尽管MetaAI没有开源这个模型,但是论文中给出了模型的具体效果,十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比,认为Emu比SDXL 1.0好。在人工匿名评价中,68.4%的人更加喜欢Emu生成的结果。






Emu在线演示系统



尽管MetaAI没有开源这个模型,但是Meta却上线了一个免费的文本生成图片的系统:Imagine,目前可以免费使用,额度很高,速度很快,但是目前仅支持美国地区。



地址: https://imagine.meta.com/ 





欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Emu所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

Emu相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源