模型详细情况和参数
MetaAI发布的Emu模型是一个高质量的文本生成图片大模型,它包含了两个阶段,预训练阶段使用11亿的图像文本数据集训练,然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念,可以用较少的高质量图片微调文本生成图像大模型,获得更高质量的输出结果,但是不丢失预训练获得的基础能力。
Emu不是一个开源的模型,因此缺少很多细节,MetaAI在论文中表示,他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。
U-Net 是一种深度学习网络,最初用于医学图像分割。它的特点是具有一个对称的“U”形结构,由两部分组成:收缩路径(用于捕获上下文信息)和扩展路径(用于精确定位)。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络,特别是在需要精确分割的应用场景中。
Emu的具体信息总结如下:
项目 | 详细信息 |
---|---|
模型架构 | 基于潜在扩散模型的单阶段模型 |
预训练参数量 | 自动编码器:16通道<br>U-Net:可训练参数28亿 |
预训练数据量 | 11亿幅图像文本对 |
微调数据量 | 2000幅人工筛选高质量图像 |
微调设置 | 批量大小64,噪声偏移0.1 |
微调迭代轮数 | 15000轮 |
生成分辨率 | 1024x1024 |
效果 | 视觉诱惑性明显优于当前SOTA模型SDXLv1.0 |
提出方法 | 质量调优 - 使用极少量高质量数据微调 |
主要结论 | - 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构 |
尽管MetaAI没有开源这个模型,但是论文中给出了模型的具体效果,十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比,认为Emu比SDXL 1.0好。在人工匿名评价中,68.4%的人更加喜欢Emu生成的结果。
尽管MetaAI没有开源这个模型,但是Meta却上线了一个免费的文本生成图片的系统:Imagine,目前可以免费使用,额度很高,速度很快,但是目前仅支持美国地区。