模型详细情况和参数
DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。
该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。
参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
---|---|---|---|
模型参数 | 70亿 | 69亿 | 164亿 |
每次推理参数 | 70亿 | 69亿 | 28亿 |
4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
详细介绍参考: https://www.datalearner.com/blog/1051704952803167
该模型免费商用授权。