DeepSeekMoE 145B Chat（DeepSeekMoE 145B Chat）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

DeepSeekMoE 145B Chat - DeepSeekMoE 145B Chat

模型详细情况和参数

模型全称: DeepSeekMoE 145B Chat
模型简称: DeepSeekMoE 145B Chat
模型类型: 聊天大模型
发布日期: 2024-01-11
预训练文件大小: 290GB
是否支持中文（中文优化）: 是
最高支持的上下文长度: 4K
模型参数数量（亿）: 1446.0
模型代码开源协议: MIT License
预训练结果开源商用情况: DEEPSEEK LICENSE AGREEMENT - 免费商用授权
模型GitHub链接: https://github.com/deepseek-ai/DeepSeek-MoE
模型HuggingFace链接: https://huggingface.co/deepseek-ai/deepseek-moe-16b-chat
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
基础模型: 无基础模型
发布机构: DeepSeek-AI

DeepSeekAI还训练了一个1446亿参数规模的MoE模型，未来还会开源。这个模型的效果与700亿参数规模的模型差不多，对比结果如下：

参数内容	LLaMA2-70B	DeepSeek 67B Base	DeepSeek MoE 145B
模型参数	700亿	674亿	1446亿
每次推理参数	700亿	674亿	222亿
4K输入的FLOPs	/	2057.5T	585.6T
训练数据集大小	2万亿tokens	2450亿tokens	2450亿tokens
MMLU 评分（文本理解）	84	45.1	39.4
CMMLU 评分（中文文本理解）	53.1	40.6	35.9
GSM8K评分（数学推理）	58.4	11.8	12.2
HumanEval评分（代码）	28.7	23.8	19.5
MBPP评分（代码）	62.9	33.6	33.2

目前，这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模，约等于之前2万亿的1/10多一点。还在继续训练中，从评测结果看，效果比较一般。目前也没有公布预训练结果，可能需要一段时间。