M6

M6

基础大模型

Multi-Modality to Multi-Modality Multitask Mega-transformer

发布时间: 2021-03-01

模型参数(Parameters)
1000.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2021-03-01

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

M6模型在各大评测榜单的评分

发布机构

腾讯AI实验室
腾讯AI实验室
查看发布机构详情

模型介绍

M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer,是阿里巴巴达摩院在2021年6月份发布的多模态大模型(3月1日提交论文到arXiv)。是中文领域的多模态大模型。


就能力而言,M6类似于GPT-3和其他类似模型,如Wu Dao 2.0或MT-NGL 530B(我们对后两者了解甚少)。


InfoQ总结了M6的主要技能:“[它]具有超越传统AI的认知和创造力,擅长绘画、写作、问答,并在电子商务、制造业、文学艺术等许多领域具有广泛的应用前景。”


然而,阿里巴巴的研究人员强调的关键方面是显著的效率和能源成本改进。与1亿语言模型相比,他们将该模型的消耗降低了80%,并将其效率提高了11倍。


关于M6模型的具体参数和训练细节,目前阿里巴巴并没有公开详细的信息。但是据报道,M6模型采用了类似于GPT-3的预训练模式,通过多语言和多模态数据的预训练来提高模型的泛化能力。此外,阿里巴巴的研究人员还开发了一种名为“AdapTXT”的技术,能够自动为模型选择最优的训练数据,以进一步提高模型的准确性和效率。


M6的训练的数据集M6-Corpus相关信息

M6是基于阿里收集的M6-Corpus训练的。其中包含1.9T的图像和292G的文本。这是目前(2021年3月)中文领域中用于多模态和自然语言预训练的最大数据集。该数据集从网页中收集,包括不同类型的数据,并覆盖大量领域,包括百科全书、问答、论坛讨论、产品描述等。此外,达摩院还设计了精密的数据清洗过程,以确保数据的高质量。


下图是M6-Corpus数据集相关信息


其中,文本和图像关系数据集样例如下:


与当前业界公开的数据集相比,M6-Corpus也具有规模优势(不过不开源,而且数量虽然大,但是质量不清楚)



M6模型架构和训练信息

M6模型基于transformer,并通过多个任务进行预训练。预训练赋予了模型单模态和多模态理解和生成的能力。基于M6的架构,达摩院构建了M6-10B和M6-100B,它们分别扩展到100亿和1000亿参数。


M6首次将预训练与文本到图像生成相结合,使用训练好的向量量化生成对抗网络来表示具有离散图像编码的图像,然后使用预训练的M6来学习文本和编码之间的关系。这样的学习可以桥接两种模态,并实现可控的文本到图像生成。


下图是M6模型预训练任务概览:



M6目前包含3个版本,基础班、10B版本和100B版本。模型对比结果如下:





















关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat