DeepSeekMoE 16B Base

Name: DeepSeekMoE 16B Base
Price: 免费商用授权
Rating: 5

基础大模型

发布时间: 2024-01-11

GitHub Hugging Face 在线体验

模型参数（Parameters）

164.0

最高上下文长度（Context Length）

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果

暂无数据

模型类型

基础大模型

发布时间

2024-01-11

模型预文件大小

32.77GB

开源和体验地址

代码开源状态

MIT License

预训练权重开源

DEEPSEEK LICENSE AGREEMENT - 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-MoE

Hugging Face

https://huggingface.co/deepseek-ai/deepseek-moe-16b-base

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

输入价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输出价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding（向量）

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding（向量）

输出不支持

DeepSeekMoE 16B Base模型在各大评测榜单的评分

评测基准名称

评测类型

评测结果

发布机构

DeepSeek-AI

查看发布机构详情

模型介绍

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型，也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿，但是单次推理只会使用28亿参数，因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。

参数内容	LLaMA2-7B	DeepSeek 7B Base	DeepSeek MoE 16B
模型参数	70亿	69亿	164亿
每次推理参数	70亿	69亿	28亿
4K输入的FLOPs	187.9T	183.5T	74.4T
训练数据集大小	2万亿tokens	2万亿tokens	2万亿tokens
MMLU 评分（文本理解）	45.8	48.2	45
CMMLU 评分（中文文本理解）	14.6	47.2	42.5
GSM8K评分（数学推理）	15.5	17.4	18.8
HumanEval评分（代码）	14.6	26.2	26.8
MBPP评分（代码）	21.8	39.5	39.2

详细介绍参考： https://www.datalearner.com/blog/1051704952803167

该模型免费商用授权。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯