DeepSeek V2.5（DeepSeek V2.5 - 236B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

DeepSeek V2.5 - DeepSeek V2.5 - 236B

模型详细情况和参数

DeepSeek V2.5

模型全称: DeepSeek V2.5 - 236B
模型简称: DeepSeek V2.5
模型类型: 基础大模型
发布日期: 2024-09-05
预训练文件大小: 133GB
是否支持中文（中文优化）: 是
最高支持的上下文长度: 128K
模型参数数量（亿）: 2360.0
模型代码开源协议: DEEPSEEK LICENSE AGREEMENT
预训练结果开源商用情况: DEEPSEEK LICENSE AGREEMENT - 免费商用授权
模型GitHub链接: https://github.com/deepseek-ai/DeepSeek-V2
模型HuggingFace链接: https://huggingface.co/deepseek-ai/DeepSeek-V2.5
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: DeepSeek-V2.5: A New Open-Source Model Combining General and Coding Capabilities
基础模型: 无基础模型
发布机构: DeepSeek-AI

DeepSeek V2.5 - 236B 简介

DeepSeek-V2.5是由DeepSeek开源第一个参数规模达到2360亿参数的大语言模型。是DeepSeek-V2.0的一个迭代升级版本。

根据官方提供的信息，DeepSeek-V2.5 是 DeepSeek-V2-0628 和 DeepSeek-Coder-V2-0724 的强大结合体。这个新版本不仅保留了聊天模型的一般对话能力，还保留了编码模型的强大代码处理能力，并且更好地符合人类的偏好。此外，DeepSeek-V2.5 在写作和指令遵循等任务上也有显著改进。

在内部中文评估中，DeepSeek-V2.5 在内容创作和问答等任务上与 GPT-4o mini 和 ChatGPT-4o-latest（由 GPT-4o 评判）相比，胜率显著提高，增强了整体用户体验。

在编码领域，DeepSeek-V2.5 保留了 DeepSeek-Coder-V2-0724 的强大代码能力，并在 HumanEval Python 和 LiveCodeBench（2024年1月至9月）测试中表现出显著改进。尽管 DeepSeek-Coder-V2-0724 在 HumanEval 多语言和 Aider 测试中略胜一筹，两个版本在 SWE-verified 测试中表现相对较低，表明需要进一步改进。此外，在 FIM 补全任务中，DS-FIM-Eval 内部测试集显示提高了 5.1%，增强了插件补全体验。DeepSeek-V2.5 还针对常见编码场景进行了优化，以改善用户体验。在 DS-Arena-Code 内部主观评估中，DeepSeek-V2.5 与竞争对手相比胜率显著提高，GPT-4o 作为评判。

与2.0版本的模型相比，主要的评测指标对比如下：

然而，与DeepSeek-V2.0相比，其MMLU等评测结果没有提升。

本模型是基于DeepSeek开源协议开源的，但是可以免费商用。