De

DeepSeekMoE 16B Chat

聊天大模型

DeepSeekMoE 16B Chat

发布时间: 2024-01-11

模型参数(Parameters)
164.0
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

聊天大模型

发布时间

2024-01-11

模型预文件大小

32.77GB

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

DeepSeekMoE 16B Chat模型在各大评测榜单的评分

模型介绍

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。


DeepSeekMoE 16B Chat是其聊天优化的版本。


评测结果如下:

指标抽样次数LLAMA2-7B SFTDeepSeek 7B ChatDeepSeekMoE 16B Chat
参数总数N/A6.7B6.9B16.4B
激活参数数N/A6.7B6.9B2.8B
每 4K 令牌的 FLOPsN/A187.9T183.5T74.4T
HellaSwag (Acc.)0-shot67.971.072.2
PIQA (Acc.)0-shot76.978.479.7
ARC-easy (Acc.)0-shot69.770.269.9
ARC-challenge (Acc.)0-shot50.850.250.0
BBH (EM)3-shot39.343.142.2
RACE-middle (Acc.)5-shot63.966.164.8
RACE-high (Acc.)5-shot49.650.850.6
DROP (EM)1-shot40.041.733.8
GSM8K (EM)0-shot63.462.662.2
MATH (EM)4-shot13.514.715.2
HumanEval (Pass@1)0-shot35.445.145.7
MBPP (Pass@1)3-shot27.839.046.2
TriviaQA (EM)5-shot60.159.563.3
NaturalQuestions (EM)0-shot35.232.735.1
MMLLU (Acc.)0-shot50.049.747.2
WinoGrande (Acc.)0-shot65.168.469.0
CLUE-WSC (EM)5-shot48.466.268.2
CEval (Acc.)0-shot35.144.740.0
CMMLU (Acc.)0-shot36.951.249.3



详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat