MBPP

Mostly Basic Python Problems

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。

Python 难度：Basic

问题数量

974

机构

Google

类别

代码生成

评估指标

Pass@k

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

MBPP基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）
Llama3.1-405B Instruct	88.6		2024-07-23	4050.0
Gemini 1.5 Pro	87.8		2024-02-15	0.0
Llama3.3-70B-Instruct	87.6		2024-12-06	700.0
GPT-4o mini	87.2		2024-07-18	0.0
Llama3.1-70B-Instruct	86.0		2024-07-23	700.0
Claude 3.5 Haiku	85.6		2024-10-22	0.0
Qwen2.5-72B	84.7		2024-09-18	727.0
Qwen2.5-32B	84.0		2024-09-18	320.0
Qwen2.5-Max	80.6		2025-01-28	未知
Llama 4 Maverick	77.6		2025-04-05	4000.0
Qwen2.5-7B	74.9		2024-09-18	70.0
Mistral-Small-3.1-24B-Instruct-2503	74.71		2025-03-17	240.0
Gemma 3 - 27B (IT)	74.4		2025-03-12	270.0
C4AI Aya Vision 32B	70.43		2025-03-04	320.0
Llama3.1-8B-Instruct	69.4		2024-07-23	80.0
Llama 4 Scout	67.8		2025-04-05	1090.0
Phi-4-mini-instruct (3.8B)	65.3		2025-02-27	38.0
Moonlight-16B-A3B-Instruct	63.8		2025-02-23	160.0
Gemma 2 - 9B	62.2		2024-06-27	90.0
Qwen2.5-3B	57.1		2024-09-18	30.0
Llama3.1-8B	53.9		2024-07-23	80.0
Mistral-7B-Instruct-v0.3	51.1		2024-05-22	70.0
Llama-3.2-3B	48.7		2024-09-18	32.0
Amazon Nova Pro	0.0		2024-12-03	未知

Llama3.1-405B Instruct

得分:

88.6

发布时间:

2024-07-23

参数规模(亿):

4050.0

Gemini 1.5 Pro

得分:

87.8

发布时间:

2024-02-15

参数规模(亿):

0.0

Llama3.3-70B-Instruct

得分:

87.6

发布时间:

2024-12-06

参数规模(亿):

700.0

GPT-4o mini

得分:

87.2

发布时间:

2024-07-18

参数规模(亿):

0.0

Llama3.1-70B-Instruct

得分:

86.0

发布时间:

2024-07-23

参数规模(亿):

700.0

Claude 3.5 Haiku

得分:

85.6

发布时间:

2024-10-22

参数规模(亿):

0.0

Qwen2.5-72B

得分:

84.7

发布时间:

2024-09-18

参数规模(亿):

727.0

Qwen2.5-32B

得分:

84.0

发布时间:

2024-09-18

参数规模(亿):

320.0

Qwen2.5-Max

得分:

80.6

发布时间:

2025-01-28

参数规模(亿):

未知

Llama 4 Maverick

得分:

77.6

发布时间:

2025-04-05

参数规模(亿):

4000.0

Qwen2.5-7B

得分:

74.9

发布时间:

2024-09-18

参数规模(亿):

70.0

Mistral-Small-3.1-24B-Instruct-2503

得分:

74.71

发布时间:

2025-03-17

参数规模(亿):

240.0

Gemma 3 - 27B (IT)

得分:

74.4

发布时间:

2025-03-12

参数规模(亿):

270.0

C4AI Aya Vision 32B

得分:

70.43

发布时间:

2025-03-04

参数规模(亿):

320.0

Llama3.1-8B-Instruct

得分:

69.4

发布时间:

2024-07-23

参数规模(亿):

80.0

Llama 4 Scout

得分:

67.8

发布时间:

2025-04-05

参数规模(亿):

1090.0

Phi-4-mini-instruct (3.8B)

得分:

65.3

发布时间:

2025-02-27

参数规模(亿):

38.0

Moonlight-16B-A3B-Instruct

得分:

63.8

发布时间:

2025-02-23

参数规模(亿):

160.0

Gemma 2 - 9B

得分:

62.2

发布时间:

2024-06-27

参数规模(亿):

90.0

Qwen2.5-3B

得分:

57.1

发布时间:

2024-09-18

参数规模(亿):

30.0

Llama3.1-8B

得分:

53.9

发布时间:

2024-07-23

参数规模(亿):

80.0

Mistral-7B-Instruct-v0.3

得分:

51.1

发布时间:

2024-05-22

参数规模(亿):

70.0

Llama-3.2-3B

得分:

48.7

发布时间:

2024-09-18

参数规模(亿):

32.0

Amazon Nova Pro

得分:

0.0

发布时间:

2024-12-03

参数规模(亿):

未知