De

DeepSeekMoE 16B Base

基础大模型

DeepSeekMoE 16B Base

发布时间: 2024-01-11

模型参数(Parameters)
164.0
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

4K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2024-01-11

模型预文件大小

32.77GB

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

DeepSeekMoE 16B Base模型在各大评测榜单的评分

发布机构

模型介绍

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。



参数内容LLaMA2-7BDeepSeek 7B BaseDeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分(文本理解)45.848.245
CMMLU 评分(中文文本理解)14.647.242.5
GSM8K评分(数学推理)15.517.418.8
HumanEval评分(代码)14.626.226.8
MBPP评分(代码)21.839.539.2


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat