主流大模型评测基准榜单

模型名称	MMLU Pro 知识问答	MMLU 知识问答	GSM8K 数学推理	MATH 数学推理	GPQA Diamond 常识推理	HumanEval 代码生成	MATH-500 数学推理	LiveCodeBench 代码生成	参数数量
OpenAI o1	91.04	91.80	0.00	96.40	77.30	0.00	96.40	71.00	未知
Hunyuan-T1	87.20	0.00	0.00	0.00	69.30	0.00	96.20	64.90	未知
Gemini-2.5-Pro-Preview-06-05	86.00	0.00	0.00	0.00	86.40	0.00	98.80	77.10	未知
OpenAI o3	85.60	0.00	0.00	0.00	83.30	0.00	98.10	75.80	未知
DeepSeek-R1-0528	85.00	0.00	0.00	0.00	81.00	0.00	98.00	73.30	6850.0
Claude Opus 4	85.00	0.00	0.00	0.00	79.60	0.00	98.20	56.60	未知
DeepSeek-R1	84.00	90.80	0.00	0.00	71.50	0.00	97.30	65.90	6710.0
MiniMax-M1-80k	81.10	0.00	0.00	0.00	70.00	0.00	96.80	65.00	4560.0
OpenAI o4 - mini	80.60	0.00	0.00	0.00	81.40	0.00	0.00	0.00	未知
MiniMax-M1-40k	80.60	0.00	0.00	0.00	69.20	0.00	96.00	62.30	4560.0
OpenAI o1-mini	80.30	85.20	0.00	0.00	60.00	92.40	90.00	52.00	未知
Hunyuan-TurboS	79.00	89.50	0.00	89.70	57.50	91.00	0.00	32.00	未知
QwQ-32B	76.00	0.00	0.00	0.00	58.00	19.00	91.00	0.00	325.0
QwQ-32B-Preview	70.97	0.00	0.00	0.00	0.00	0.00	90.60	0.00	320.0
Qwen3-235B-A22B	68.18	0.00	94.39	0.00	71.10	0.00	96.20	70.70	2350.0
Magistral-Small-2506	0.00	0.00	0.00	0.00	68.18	0.00	0.00	55.84	240.0
Magistral-Medium-2506	0.00	0.00	0.00	0.00	70.83	0.00	0.00	59.36	未知
DeepSeek-R1-Distill-Llama-70B	0.00	0.00	0.00	0.00	65.20	0.00	94.50	0.00	700.0
o3-pro	0.00	0.00	0.00	0.00	84.00	0.00	0.00	0.00	未知
Gemini 2.5 Pro Deep Think	0.00	0.00	0.00	0.00	0.00	0.00	0.00	80.40	未知
OpenAI o3-mini (medium)	0.00	0.00	0.00	0.00	0.00	0.00	0.00	67.40	未知
Claude Sonnet 4	0.00	0.00	0.00	0.00	75.40	0.00	0.00	0.00	未知
Gemini 2.5 Flash-Lite	0.00	84.50	0.00	0.00	66.70	0.00	0.00	34.30	未知
Gemini-2.5-Pro-Preview-05-06	0.00	0.00	0.00	0.00	83.00	0.00	98.80	77.10	未知
Grok 3.5	0.00	0.00	0.00	0.00	88.20	0.00	0.00	0.00	未知
OpenAI o3-mini (high)	0.00	86.90	0.00	97.90	79.70	97.60	97.90	69.50	未知
Qwen3-32B	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.70	220.0
Kimi k1.5 (Short-CoT)	0.00	87.40	0.00	0.00	0.00	0.00	94.60	0.00	未知
Gemini 2.5 Flash	0.00	0.00	0.00	0.00	78.30	0.00	0.00	63.40	未知
Gemini 2.5 Pro Experimental 03-25	0.00	0.00	0.00	0.00	84.00	0.00	0.00	70.40	未知
QwQ-Max-Preview	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.60	未知
Kimi-k1.6-IOI	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.90	未知
Kimi-k1.6-IOI-high	0.00	0.00	0.00	0.00	0.00	0.00	0.00	73.80	未知
DeepSeek-R1-Distill-Qwen-7B	0.00	0.00	0.00	0.00	49.50	0.00	91.40	0.00	70.0
Phi-4-instruct (reasoning-trained)	0.00	0.00	0.00	0.00	49.00	0.00	90.40	0.00	38.0
Claude Sonnet 3.7-64K Extended Thinking	0.00	0.00	0.00	0.00	84.80	0.00	96.20	0.00	未知
Grok-3 - Reasoning Beta	0.00	0.00	0.00	0.00	84.60	0.00	0.00	79.40	未知
Grok-3 mini - Reasoning	0.00	0.00	0.00	0.00	84.00	0.00	0.00	0.00	未知
Kimi k1.5 (Long-CoT)	0.00	0.00	0.00	0.00	0.00	0.00	96.20	0.00	未知

OpenAI o1

MMLU Pro

91.04

MMLU

91.80

GSM8K

0.00

MATH

96.40

GPQA Diamond

77.30

HumanEval

0.00

MATH-500

96.40

LiveCodeBench

71.00

Hunyuan-T1

MMLU Pro

87.20

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

69.30

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

64.90

Gemini-2.5-Pro-Preview-06-05

MMLU Pro

86.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

86.40

HumanEval

0.00

MATH-500

98.80

LiveCodeBench

77.10

OpenAI o3

MMLU Pro

85.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

83.30

HumanEval

0.00

MATH-500

98.10

LiveCodeBench

75.80

DeepSeek-R1-0528

MMLU Pro

85.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

81.00

HumanEval

0.00

MATH-500

98.00

LiveCodeBench

73.30

Claude Opus 4

MMLU Pro

85.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

79.60

HumanEval

0.00

MATH-500

98.20

LiveCodeBench

56.60

DeepSeek-R1

MMLU Pro

84.00

MMLU

90.80

GSM8K

0.00

MATH

0.00

GPQA Diamond

71.50

HumanEval

0.00

MATH-500

97.30

LiveCodeBench

65.90

MiniMax-M1-80k

MMLU Pro

81.10

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

70.00

HumanEval

0.00

MATH-500

96.80

LiveCodeBench

65.00

OpenAI o4 - mini

MMLU Pro

80.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

81.40

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

MiniMax-M1-40k

MMLU Pro

80.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

69.20

HumanEval

0.00

MATH-500

96.00

LiveCodeBench

62.30

OpenAI o1-mini

MMLU Pro

80.30

MMLU

85.20

GSM8K

0.00

MATH

0.00

GPQA Diamond

60.00

HumanEval

92.40

MATH-500

90.00

LiveCodeBench

52.00

Hunyuan-TurboS

MMLU Pro

79.00

MMLU

89.50

GSM8K

0.00

MATH

89.70

GPQA Diamond

57.50

HumanEval

91.00

MATH-500

0.00

LiveCodeBench

32.00

QwQ-32B

MMLU Pro

76.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

58.00

HumanEval

19.00

MATH-500

91.00

LiveCodeBench

0.00

QwQ-32B-Preview

MMLU Pro

70.97

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

90.60

LiveCodeBench

0.00

Qwen3-235B-A22B

MMLU Pro

68.18

MMLU

0.00

GSM8K

94.39

MATH

0.00

GPQA Diamond

71.10

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

70.70

Magistral-Small-2506

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

68.18

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

55.84

Magistral-Medium-2506

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

70.83

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

59.36

DeepSeek-R1-Distill-Llama-70B

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

65.20

HumanEval

0.00

MATH-500

94.50

LiveCodeBench

0.00

o3-pro

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Gemini 2.5 Pro Deep Think

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

80.40

OpenAI o3-mini (medium)

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

67.40

Claude Sonnet 4

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

75.40

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Gemini 2.5 Flash-Lite

MMLU Pro

0.00

MMLU

84.50

GSM8K

0.00

MATH

0.00

GPQA Diamond

66.70

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

34.30

Gemini-2.5-Pro-Preview-05-06

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

83.00

HumanEval

0.00

MATH-500

98.80

LiveCodeBench

77.10

Grok 3.5

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

88.20

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

OpenAI o3-mini (high)

MMLU Pro

0.00

MMLU

86.90

GSM8K

0.00

MATH

97.90

GPQA Diamond

79.70

HumanEval

97.60

MATH-500

97.90

LiveCodeBench

69.50

Qwen3-32B

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

65.70

Kimi k1.5 (Short-CoT)

MMLU Pro

0.00

MMLU

87.40

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

94.60

LiveCodeBench

0.00

Gemini 2.5 Flash

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

78.30

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

63.40

Gemini 2.5 Pro Experimental 03-25

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

70.40

QwQ-Max-Preview

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

65.60

Kimi-k1.6-IOI

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

65.90

Kimi-k1.6-IOI-high

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

73.80

DeepSeek-R1-Distill-Qwen-7B

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

49.50

HumanEval

0.00

MATH-500

91.40

LiveCodeBench

0.00

Phi-4-instruct (reasoning-trained)

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

49.00

HumanEval

0.00

MATH-500

90.40

LiveCodeBench

0.00

Claude Sonnet 3.7-64K Extended Thinking

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.80

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

0.00

Grok-3 - Reasoning Beta

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.60

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

79.40

Grok-3 mini - Reasoning

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Kimi k1.5 (Long-CoT)

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

0.00

大模型评测基准与性能对比

自定义评测选择

大模型评测基准与性能对比

自定义评测选择

评测基准选择

模型选择