主流基础大模型评测基准榜单 | 快速更新、详细对比 | MMLU, MMLU Pro, GSM8K, HumanEval等 | 数据学习（DataLearner)

大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现，包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果，帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比，快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见： LLM 评测基准列表与介绍

自定义评测选择

模型名称	MMLU Pro 知识问答	MMLU 知识问答	GSM8K 数学推理	MATH 数学推理	GPQA Diamond 常识推理	HumanEval 代码生成	MATH-500 数学推理	LiveCodeBench 代码生成	参数数量	开源情况	发布机构
Gemini 1.5 Pro	76.10	87.10	0.00	82.90	53.50	89.00	0.00	0.00	未知
Llama3.1-405B Instruct	73.40	88.60	0.00	73.90	49.00	89.00	0.00	30.20	4050.0
Phi 4 - 14B	70.40	0.00	0.00	0.00	0.00	0.00	0.00	0.00	140.0
Qwen2.5-32B	69.23	83.30	95.90	83.10	0.00	88.40	0.00	51.20	320.0
Mistral-Small-3.1-24B-Instruct-2503	66.76	80.62	0.00	69.30	45.96	88.41	0.00	0.00	240.0
Llama3.1-70B-Instruct	66.40	86.00	0.00	67.80	48.00	80.50	0.00	33.30	700.0
Claude 3.5 Haiku	65.00	77.60	0.00	69.20	41.60	88.10	0.00	0.00	未知
Qwen2.5-14B	63.69	0.00	0.00	0.00	0.00	0.00	0.00	0.00	140.0
GPT-4o mini	61.70	82.00	91.30	70.20	41.10	87.20	0.00	0.00	未知
Llama3.1-405B	61.60	0.00	0.00	0.00	0.00	0.00	0.00	0.00	4050.0
Gemma 3 - 12B (IT)	60.60	0.00	0.00	83.80	40.90	0.00	0.00	24.60	120.0
Qwen2.5-72B	58.10	86.10	91.50	62.10	45.90	59.10	0.00	0.00	727.0
Gemma2-27B	56.54	0.00	0.00	0.00	0.00	0.00	0.00	0.00	270.0
Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	0.00	0.00	0.00	700.0
Qwen2.5-7B	45.00	74.20	85.40	49.80	36.40	57.90	0.00	0.00	70.0
Gemma 2 - 9B	44.70	71.30	70.70	37.70	32.80	37.80	0.00	0.00	90.0
Llama3.1-8B	35.40	66.60	55.30	20.50	25.80	33.50	0.00	0.00	80.0
Qwen2.5-3B	34.60	65.60	79.10	42.60	24.30	42.10	0.00	0.00	30.0
Llama-3.2-3B	25.00	54.75	34.00	8.50	26.60	28.00	0.00	0.00	32.0
Grok 3 mini	0.00	0.00	0.00	0.00	65.00	0.00	0.00	0.00	未知

Gemini 1.5 Pro

MMLU Pro

76.10

MMLU

87.10

GSM8K

0.00

MATH

82.90

GPQA Diamond

53.50

HumanEval

89.00

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-405B Instruct

MMLU Pro

73.40

MMLU

88.60

GSM8K

0.00

MATH

73.90

GPQA Diamond

49.00

HumanEval

89.00

MATH-500

0.00

LiveCodeBench

30.20

Phi 4 - 14B

MMLU Pro

70.40

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Qwen2.5-32B

MMLU Pro

69.23

MMLU

83.30

GSM8K

95.90

MATH

83.10

GPQA Diamond

0.00

HumanEval

88.40

MATH-500

0.00

LiveCodeBench

51.20

Mistral-Small-3.1-24B-Instruct-2503

MMLU Pro

66.76

MMLU

80.62

GSM8K

0.00

MATH

69.30

GPQA Diamond

45.96

HumanEval

88.41

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-70B-Instruct

MMLU Pro

66.40

MMLU

86.00

GSM8K

0.00

MATH

67.80

GPQA Diamond

48.00

HumanEval

80.50

MATH-500

0.00

LiveCodeBench

33.30

Claude 3.5 Haiku

MMLU Pro

65.00

MMLU

77.60

GSM8K

0.00

MATH

69.20

GPQA Diamond

41.60

HumanEval

88.10

MATH-500

0.00

LiveCodeBench

0.00

Qwen2.5-14B

MMLU Pro

63.69

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

GPT-4o mini

MMLU Pro

61.70

MMLU

82.00

GSM8K

91.30

MATH

70.20

GPQA Diamond

41.10

HumanEval

87.20

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-405B

MMLU Pro

61.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Gemma 3 - 12B (IT)

MMLU Pro

60.60

MMLU

0.00

GSM8K

0.00

MATH

83.80

GPQA Diamond

40.90

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

24.60

Qwen2.5-72B

MMLU Pro

58.10

MMLU

86.10

GSM8K

91.50

MATH

62.10

GPQA Diamond

45.90

HumanEval

59.10

MATH-500

0.00

LiveCodeBench

0.00

Gemma2-27B

MMLU Pro

56.54

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-70B

MMLU Pro

52.47

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Qwen2.5-7B

MMLU Pro

45.00

MMLU

74.20

GSM8K

85.40

MATH

49.80

GPQA Diamond

36.40

HumanEval

57.90

MATH-500

0.00

LiveCodeBench

0.00

Gemma 2 - 9B

MMLU Pro

44.70

MMLU

71.30

GSM8K

70.70

MATH

37.70

GPQA Diamond

32.80

HumanEval

37.80

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-8B

MMLU Pro

35.40

MMLU

66.60

GSM8K

55.30

MATH

20.50

GPQA Diamond

25.80

HumanEval

33.50

MATH-500

0.00

LiveCodeBench

0.00

Qwen2.5-3B

MMLU Pro

34.60

MMLU

65.60

GSM8K

79.10

MATH

42.60

GPQA Diamond

24.30

HumanEval

42.10

MATH-500

0.00

LiveCodeBench

0.00

Llama-3.2-3B

MMLU Pro

25.00

MMLU

54.75

GSM8K

34.00

MATH

8.50

GPQA Diamond

26.60

HumanEval

28.00

MATH-500

0.00

LiveCodeBench

0.00

Grok 3 mini

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

65.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00