大模型编程水平评测对比

大模型编程能力评测对比表

欢迎访问我们的大模型代码能力评测页面！在这里，我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具，帮助您在众多的模型中做出明智的选择。

关于大模型的其它综合能力排行（如文本理解、数学能力等）参考DataLearner大模型综合排行榜： https://www.datalearner.com/ai-models/llm-evaluation

当前选择的评测基准包括2个：

Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同，有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是，它不仅仅依赖于代码的语法正确性，还依赖于功能正确性。也就是说，生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务，因为在实际编程中，代码不仅需要语法正确，还需要能够正确执行预定任务。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100
MBPP - MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏，随时使用~

开源标志含义：

- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源

按条件筛选

全部

3B及以下

13B

34B

65B

100B及以上

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	模型地址
Claude 3.5 Sonnet		92.0	/	Claude 3.5 Sonnet模型地址
GPT-4o		90.2	/	GPT-4o模型地址
Llama3.1-405B Instruct	4050.0	89.0	88.6	Llama3.1-405B Instruct模型地址
DeepSeek V2.5	2360.0	89.0	/	DeepSeek V2.5模型地址
GPT-4	1750.0	85.4	83.5	GPT-4模型地址
Llama3-400B-Instruct-InTraining	4000.0	84.1	/	Llama3-400B-Instruct-InTraining模型地址
Grok-1.5		74.1	/	Grok-1.5模型地址
DeepSeek-V2-236B-Chat	2360.0	73.8	61.4	DeepSeek-V2-236B-Chat模型地址
DBRX Instruct	1320.0	70.1	/	DBRX Instruct模型地址
Grok-1	3140.0	63.2	/	Grok-1模型地址
Qwen1.5-110B	1100.0	52.4	58.1	Qwen1.5-110B模型地址
GPT-3.5	1750.0	48.1	52.2	GPT-3.5模型地址
Mixtral-8×22B-MoE	1410.0	45.1	71.2	Mixtral-8×22B-MoE模型地址
DeepSeek-V2-236B	2360.0	40.9	66.6	DeepSeek-V2-236B模型地址
PaLM-Coder	5400.0	35.9	47.0	PaLM-Coder模型地址
Codex	1750.0	28.81	/	Codex模型地址
PaLM	5400.0	26.2	47.0	PaLM模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！