DeepSeekMoE 145B Chat

Name: DeepSeekMoE 145B Chat
Price: 免费商用授权
Rating: 5

聊天大模型

发布时间: 2024-01-11

GitHub Hugging Face 在线体验

模型参数（Parameters）

1446.0

最高上下文长度（Context Length）

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果

暂无数据

模型类型

聊天大模型

发布时间

2024-01-11

模型预文件大小

290GB

开源和体验地址

代码开源状态

MIT License

预训练权重开源

DEEPSEEK LICENSE AGREEMENT - 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-MoE

Hugging Face

https://huggingface.co/deepseek-ai/deepseek-moe-16b-chat

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

输入价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输出价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding（向量）

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding（向量）

输出不支持

DeepSeekMoE 145B Chat模型在各大评测榜单的评分

评测基准名称

评测类型

评测结果

发布机构

DeepSeek-AI

查看发布机构详情

模型介绍

DeepSeekAI还训练了一个1446亿参数规模的MoE模型，未来还会开源。这个模型的效果与700亿参数规模的模型差不多，对比结果如下：

参数内容	LLaMA2-70B	DeepSeek 67B Base	DeepSeek MoE 145B
模型参数	700亿	674亿	1446亿
每次推理参数	700亿	674亿	222亿
4K输入的FLOPs	/	2057.5T	585.6T
训练数据集大小	2万亿tokens	2450亿tokens	2450亿tokens
MMLU 评分（文本理解）	84	45.1	39.4
CMMLU 评分（中文文本理解）	53.1	40.6	35.9
GSM8K评分（数学推理）	58.4	11.8	12.2
HumanEval评分（代码）	28.7	23.8	19.5
MBPP评分（代码）	62.9	33.6	33.2

目前，这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模，约等于之前2万亿的1/10多一点。还在继续训练中，从评测结果看，效果比较一般。目前也没有公布预训练结果，可能需要一段时间。

详细介绍参考： https://www.datalearner.com/blog/1051704952803167

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯