Em

Emu

多模态大模型

Emu

发布时间: 2023-09-27

模型参数(Parameters)
28.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-09-27

模型预文件大小

6GB

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Emu模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

MetaAI发布的Emu模型是一个高质量的文本生成图片大模型,它包含了两个阶段,预训练阶段使用11亿的图像文本数据集训练,然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念,可以用较少的高质量图片微调文本生成图像大模型,获得更高质量的输出结果,但是不丢失预训练获得的基础能力。



Emu的模型技术细节


Emu不是一个开源的模型,因此缺少很多细节,MetaAI在论文中表示,他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。



U-Net 是一种深度学习网络,最初用于医学图像分割。它的特点是具有一个对称的“U”形结构,由两部分组成:收缩路径(用于捕获上下文信息)和扩展路径(用于精确定位)。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络,特别是在需要精确分割的应用场景中。



Emu的具体信息总结如下:

项目详细信息
模型架构基于潜在扩散模型的单阶段模型
预训练参数量自动编码器:16通道<br>U-Net:可训练参数28亿
预训练数据量11亿幅图像文本对
微调数据量2000幅人工筛选高质量图像
微调设置批量大小64,噪声偏移0.1
微调迭代轮数15000轮
生成分辨率1024x1024
效果视觉诱惑性明显优于当前SOTA模型SDXLv1.0
提出方法质量调优 - 使用极少量高质量数据微调
主要结论- 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构



尽管MetaAI没有开源这个模型,但是论文中给出了模型的具体效果,十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比,认为Emu比SDXL 1.0好。在人工匿名评价中,68.4%的人更加喜欢Emu生成的结果。






Emu在线演示系统



尽管MetaAI没有开源这个模型,但是Meta却上线了一个免费的文本生成图片的系统:Imagine,目前可以免费使用,额度很高,速度很快,但是目前仅支持美国地区。



地址: https://imagine.meta.com/ 





关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat