De

DeepSeekMoE 145B Chat

聊天大模型

DeepSeekMoE 145B Chat

发布时间: 2024-01-11

模型参数(Parameters)
1446.0
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

聊天大模型

发布时间

2024-01-11

模型预文件大小

290GB

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

DeepSeekMoE 145B Chat模型在各大评测榜单的评分

发布机构

模型介绍

DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:

参数内容LLaMA2-70BDeepSeek 67B BaseDeepSeek MoE 145B
模型参数700亿674亿1446亿
每次推理参数700亿674亿222亿
4K输入的FLOPs/2057.5T585.6T
训练数据集大小2万亿tokens2450亿tokens2450亿tokens
MMLU 评分(文本理解)8445.139.4
CMMLU 评分(中文文本理解)53.140.635.9
GSM8K评分(数学推理)58.411.812.2
HumanEval评分(代码)28.723.819.5
MBPP评分(代码)62.933.633.2


目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat