Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100
MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|
Claude 3.5 Sonnet |
92.0 |
/ |
Claude 3.5 Sonnet模型地址 | |||
GPT-4o |
90.2 |
/ |
GPT-4o模型地址 | |||
Llama3.1-405B Instruct |
4050.0 |
89.0 |
88.6 |
Llama3.1-405B Instruct模型地址 | ||
DeepSeek V2.5 |
2360.0 |
89.0 |
/ |
DeepSeek V2.5模型地址 | ||
GPT-4 |
1750.0 |
85.4 |
83.5 |
GPT-4模型地址 | ||
Llama3-400B-Instruct-InTraining |
4000.0 |
84.1 |
/ |
Llama3-400B-Instruct-InTraining模型地址 | ||
Grok-1.5 |
74.1 |
/ |
Grok-1.5模型地址 | |||
DeepSeek-V2-236B-Chat |
2360.0 |
73.8 |
61.4 |
DeepSeek-V2-236B-Chat模型地址 | ||
DBRX Instruct |
1320.0 |
70.1 |
/ |
DBRX Instruct模型地址 | ||
Grok-1 |
3140.0 |
63.2 |
/ |
Grok-1模型地址 | ||
Qwen1.5-110B |
1100.0 |
52.4 |
58.1 |
Qwen1.5-110B模型地址 | ||
GPT-3.5 |
1750.0 |
48.1 |
52.2 |
GPT-3.5模型地址 | ||
Mixtral-8×22B-MoE |
1410.0 |
45.1 |
71.2 |
Mixtral-8×22B-MoE模型地址 | ||
DeepSeek-V2-236B |
2360.0 |
40.9 |
66.6 |
DeepSeek-V2-236B模型地址 | ||
PaLM-Coder |
5400.0 |
35.9 |
47.0 |
PaLM-Coder模型地址 | ||
Codex |
1750.0 |
28.81 |
/ |
Codex模型地址 | ||
PaLM |
5400.0 |
26.2 |
47.0 |
PaLM模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!