DeepSeekAI开源国产第一个基于混合专家技术的大模型：DeepSeekMoE-16B，未来还有1450亿参数的MoE大模型

混合专家（Mixture of Experts）是大模型一种技术，这个技术将大模型划分为不同的子专家模型，每次推理只选择部分专家网络进行推理，在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好，推理速度很棒（参考：https://www.datalearner.com/blog/1051702307667324 ）。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型，DeepSeek-MoE 16B。

<center>![DeepSeek MoE](https://www.datalearner.com/resources/blog_images/ed8cb6bd-f285-4cd4-8291-fb292e5f9344.png "DeepSeek MoE")</center>
<center></center>

从模型公布的结果看，**16B的DeepSeek MoE模型推理只使用28亿参数，效果与70亿模型差不多**。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看，效果不够惊艳！

[TOC]

#### DeepSeek MoE 16B简介
DeepSeek是中国知名私募幻方量化旗下的大模型初创企业，在2023年7月份成立。在2023年11月底开源了四个大语言模型，表现水平与LLaMA2差不多，但是中文有明显提升。

此次开源的DeepSeek MoE 16B的模型也包含两个版本，一个是基座版本的DeepSeek MoE 16B Base，另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。

DeepSeek MoE 16B模型的参数164亿，预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数，因此约等于30亿参数规模的大模型，但是其效果和LLaMA2-7B差不多，也就是说，以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时，DeepSeekAI透露，他们正在训练有1450亿参数的MoE版本的大模型，但是每次推理仅激活190亿参数左右，但是性能与670亿参数模型效果差不多。

DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练，数据集包含网络、数学、中文等，应该和此前DeepSeek LLM系列模型用的是同样的数据集。

#### DeepSeek MoE 16B的评测对比
DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下：

| 参数内容 | LLaMA2-7B |DeepSeek 7B Base   | DeepSeek MoE 16B  | 
| ------------ | ------------ | ------------ | ------------ |
|  模型参数 | 70亿  |  69亿 | 164亿|
|每次推理参数 | 70亿 | 69亿 | 28亿 |
|4K输入的FLOPs| 187.9T |  183.5T | 74.4T |
|训练数据集大小 | 2万亿tokens |2万亿tokens | 2万亿tokens|
|MMLU 评分（文本理解）|45.8|48.2|45|
|CMMLU 评分（中文文本理解）|14.6|47.2|42.5|
|GSM8K评分（数学推理）|15.5|17.4|18.8|
|HumanEval评分（代码）|14.6|26.2|26.8|
|MBPP评分（代码）|21.8|39.5|39.2|

从这个对比结果结果可以看到（注意，这些均是基础模型版本，不带微调的结果，微调后效果会更高），DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多，但是其推理成本低很多。根据官方的描述，这个模型可以在40GB显存中运行，但是推理速度是7B模型的2.5倍。

聊天优化后的结果如下：

| 指标 | 抽样次数 | LLAMA2-7B SFT | DeepSeek 7B Chat | DeepSeekMoE 16B Chat|
|---|---|---|---|---|---|---|---|
| 参数总数 | N/A | 6.7B | 6.9B | 16.4B |
| 激活参数数 | N/A | 6.7B | 6.9B | 2.8B |
| 每 4K 令牌的 FLOPs | N/A | 187.9T | 183.5T | 74.4T |
| HellaSwag (Acc.) | 0-shot | 67.9 | 71.0 | 72.2 |
| PIQA (Acc.) | 0-shot | 76.9 | 78.4 | 79.7 |
| ARC-easy (Acc.) | 0-shot | 69.7 | 70.2 | 69.9 |
| ARC-challenge (Acc.) | 0-shot | 50.8 | 50.2 | 50.0 |
| BBH (EM) | 3-shot | 39.3 | 43.1 | 42.2 |
| RACE-middle (Acc.) | 5-shot | 63.9 | 66.1 | 64.8 |
| RACE-high (Acc.) | 5-shot | 49.6 | 50.8 | 50.6 |
| DROP (EM) | 1-shot | 40.0 | 41.7 | 33.8 |
| GSM8K (EM) | 0-shot | 63.4 | 62.6 | 62.2 |
| MATH (EM) | 4-shot | 13.5 | 14.7 | 15.2 |
| HumanEval (Pass@1) | 0-shot | 35.4 | 45.1 | 45.7 |
| MBPP (Pass@1) | 3-shot | 27.8 | 39.0 | 46.2 |
| TriviaQA (EM) | 5-shot | 60.1 | 59.5 | 63.3 |
| NaturalQuestions (EM) | 0-shot | 35.2 | 32.7 | 35.1 |
| MMLLU (Acc.) | 0-shot | 50.0 | 49.7 | 47.2 |
| WinoGrande (Acc.) | 0-shot | 65.1 | 68.4 | 69.0 |
| CLUE-WSC (EM) | 5-shot | 48.4 | 66.2 | 68.2 |
| CEval (Acc.) | 0-shot | 35.1 | 44.7 | 40.0 |
| CMMLU (Acc.) | 0-shot | 36.9 | 51.2 | 49.3 |

也就是说，这个模型的显存要求比7B模型高很多，但是推理速度更快。

#### DeepSeek MoE 145B的评测对比
除了上面这个164亿规模的DeepSeek MoE模型外，DeepSeekAI还训练了一个1446亿参数规模的MoE模型，未来还会开源。这个模型的效果与700亿参数规模的模型差不多，对比结果如下：

| 参数内容 | LLaMA2-70B |DeepSeek 67B Base   | DeepSeek MoE 145B  | 
| ------------ | ------------ | ------------ | ------------ |
|  模型参数 | 700亿  |  674亿 | 1446亿|
|每次推理参数 | 700亿 | 674亿 | 222亿 |
|4K输入的FLOPs|/ |  2057.5T | 585.6T |
|训练数据集大小 | 2万亿tokens |2450亿tokens | 2450亿tokens|
|MMLU 评分（文本理解）|84|45.1|39.4|
|CMMLU 评分（中文文本理解）|53.1|40.6|35.9|
|GSM8K评分（数学推理）|58.4|11.8|12.2|
|HumanEval评分（代码）|28.7|23.8|19.5|
|MBPP评分（代码）|62.9|33.6|33.2|

目前，这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模，约等于之前2万亿的1/10多一点。**还在继续训练中**，从评测结果看，效果比较一般。目前也没有公布预训练结果，可能需要一段时间。

#### DeepSeek MoE 16B与Mixtral 8×7B MoE对比
这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。

如下表所示：

| 基准测试 | Mixtral | DeepSeek MoE 16B | DeepSeek MoE 145B （2450亿）|
|-|-|-|-|  
|  模型参数 | 560亿  |  164亿 | 1446亿|
|每次推理参数 | 140亿 | 28亿 | 222亿 |
| MMLU | 70.6% | 45.0% | 39.4% |
| Code (Humaneval) | 40.2% | 26.8% | 19.5% |
| 数学 (MATH数据集) | 28.4% | 4.3% | 3.1% |
| GSM8K | 74.4% | 18.8% | 12.2% |

怎么说呢，DeepSeek MoE模型效果很一般。但是**可能是16B的DeepSeek MoE模型参数太少，而145B的DeepSeek MoE模型又没有训练完成的原因**。只有等后续DeepSeek MoE 145B完成之后了。

#### 总结
按照官方的材料，目前DeepSeek MoE 16B已经训练完毕，有2个模型，分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样，都是免费商用授权的。

从目前的评测结果看，这个MoE模型的评测结果似乎不够理想，基本可以理解为显存大小比70亿参数规模高，效果差不多，**唯一的优点是推理速度更快**。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。

DeepSeek目前开源的模型比较多，共6个，未来DeepSeek MoE 145B再开源2个就8个了，大家可以关注DataLearnerAI的模型信息卡：

|模型名称|参数规模|类型|DataLearnerAI模型信息卡地址|
|:----|:----|
|DeepSeek LLM 7B Base| 69亿|基座大模型|https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base
|DeepSeek LLM 7B Chat|69亿|聊天优化大模型| https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat
|DeepSeek MoE 16B Base| 164亿|混合专家基座大模型 |https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base
|DeepSeek MoE 16B Chat|164亿|混合专家聊天优化大模型 |https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat
|DeepSeek LLM 67B Base| 674亿|基座大模型 |https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base
|DeepSeek LLM 67B Chat|674亿|聊天优化大模型 |https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat

DeepSeekAI开源国产第一个基于混合专家技术的大模型：DeepSeekMoE-16B，未来还有1450亿参数的MoE大模型

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客