M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer，是阿里巴巴达摩院在2021年6月份发布的多模态大模型（3月1日提交论文到arXiv）。是中文领域的多模态大模型。

就能力而言，M6类似于GPT-3和其他类似模型，如Wu Dao 2.0或MT-NGL 530B（我们对后两者了解甚少）。

InfoQ总结了M6的主要技能：“[它]具有超越传统AI的认知和创造力，擅长绘画、写作、问答，并在电子商务、制造业、文学艺术等许多领域具有广泛的应用前景。”

然而，阿里巴巴的研究人员强调的关键方面是显著的效率和能源成本改进。与1亿语言模型相比，他们将该模型的消耗降低了80％，并将其效率提高了11倍。

关于M6模型的具体参数和训练细节，目前阿里巴巴并没有公开详细的信息。但是据报道，M6模型采用了类似于GPT-3的预训练模式，通过多语言和多模态数据的预训练来提高模型的泛化能力。此外，阿里巴巴的研究人员还开发了一种名为“AdapTXT”的技术，能够自动为模型选择最优的训练数据，以进一步提高模型的准确性和效率。

M6的训练的数据集M6-Corpus相关信息

M6是基于阿里收集的M6-Corpus训练的。其中包含1.9T的图像和292G的文本。这是目前（2021年3月）中文领域中用于多模态和自然语言预训练的最大数据集。该数据集从网页中收集，包括不同类型的数据，并覆盖大量领域，包括百科全书、问答、论坛讨论、产品描述等。此外，达摩院还设计了精密的数据清洗过程，以确保数据的高质量。

下图是M6-Corpus数据集相关信息

其中，文本和图像关系数据集样例如下：

与当前业界公开的数据集相比，M6-Corpus也具有规模优势（不过不开源，而且数量虽然大，但是质量不清楚）

M6模型架构和训练信息

M6模型基于transformer，并通过多个任务进行预训练。预训练赋予了模型单模态和多模态理解和生成的能力。基于M6的架构，达摩院构建了M6-10B和M6-100B，它们分别扩展到100亿和1000亿参数。

M6首次将预训练与文本到图像生成相结合，使用训练好的向量量化生成对抗网络来表示具有离散图像编码的图像，然后使用预训练的M6来学习文本和编码之间的关系。这样的学习可以桥接两种模态，并实现可控的文本到图像生成。

下图是M6模型预训练任务概览：

M6目前包含3个版本，基础班、10B版本和100B版本。模型对比结果如下：

M6

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

M6模型在各大评测榜单的评分

发布机构

模型介绍

M6的训练的数据集M6-Corpus相关信息

M6模型架构和训练信息

关注DataLearnerAI公众号