主流大模型评测基准榜单

模型名称	MMLU Pro 知识问答	MMLU 知识问答	GSM8K 数学推理	MATH 数学推理	GPQA Diamond 常识推理	HumanEval 代码生成	MATH-500 数学推理	LiveCodeBench 代码生成	参数数量
OpenAI o1	91.04	91.80	0.00	96.40	77.30	0.00	96.40	71.00	未知
GPT-4.5	86.10	0.00	0.00	0.00	71.40	0.00	90.70	46.40	未知
Gemini-2.5-Pro-Preview-06-05	86.00	0.00	0.00	0.00	86.40	0.00	98.80	77.10	未知
OpenAI o3	85.60	0.00	0.00	0.00	83.30	0.00	98.10	75.80	未知
Claude Opus 4	85.00	0.00	0.00	0.00	79.60	0.00	98.20	56.60	未知
DeepSeek-R1-0528	85.00	0.00	0.00	0.00	81.00	0.00	98.00	73.30	6850.0
DeepSeek-R1	84.00	90.80	0.00	0.00	71.50	0.00	97.30	65.90	6710.0
Llama 4 Behemoth Instruct	82.20	0.00	0.00	0.00	73.70	0.00	95.00	49.40	20000.0
DeepSeek-V3-0324	81.20	0.00	0.00	0.00	68.40	0.00	94.00	49.20	6810.0
MiniMax-M1-80k	81.10	0.00	0.00	0.00	70.00	0.00	96.80	65.00	4560.0
OpenAI o4 - mini	80.60	0.00	0.00	0.00	81.40	0.00	0.00	0.00	未知
MiniMax-M1-40k	80.60	0.00	0.00	0.00	69.20	0.00	96.00	62.30	4560.0
Llama 4 Maverick Instruct	80.50	0.00	0.00	0.00	69.80	0.00	0.00	43.40	4000.0
GPT-4.1	80.50	0.00	0.00	0.00	66.30	0.00	0.00	0.00	未知
OpenAI o1-mini	80.30	85.20	0.00	0.00	60.00	92.40	90.00	52.00	未知
Gemini 2.0 Pro Experimental	79.10	86.50	0.00	91.80	64.70	0.00	0.00	0.00	未知
Hunyuan-TurboS	79.00	89.50	0.00	89.70	57.50	91.00	0.00	32.00	未知
GPT-4o(2024-11-20)	77.90	85.70	0.00	68.50	0.00	90.20	0.00	0.00	未知
GPT-4o	77.90	88.70	0.00	75.90	53.60	90.00	75.90	35.10	未知
Claude 3.5 Sonnet	77.64	88.30	0.00	71.10	59.40	92.00	0.00	0.00	未知
Gemini 2.0 Flash Experimental	76.24	83.40	0.00	0.00	65.20	0.00	0.00	29.10	未知
Qwen2.5-Max	76.10	87.90	94.50	68.50	0.00	73.20	0.00	0.00	未知
DeepSeek-V3	75.90	88.50	0.00	87.80	59.10	89.00	87.80	34.60	6810.0
Grok 2	75.50	87.50	0.00	76.10	56.00	88.40	0.00	0.00	未知
Llama 4 Scout Instruct	74.30	0.00	0.00	0.00	57.20	0.00	0.00	32.80	1090.0
Llama3.1-405B Instruct	73.40	88.60	0.00	73.90	49.00	89.00	0.00	30.20	4050.0
Gemini 2.0 Flash-Lite	71.60	78.20	0.00	86.80	51.50	0.00	0.00	28.90	未知
Qwen3-235B-A22B	68.18	0.00	94.39	0.00	71.10	0.00	96.20	70.70	2350.0
Llama 4 Maverick	62.90	85.50	0.00	61.20	0.00	0.00	0.00	0.00	4000.0
Llama3.1-405B	61.60	0.00	0.00	0.00	0.00	0.00	0.00	0.00	4050.0
Llama 4 Scout	58.20	79.60	0.00	50.30	0.00	0.00	0.00	0.00	1090.0
Mixtral-8x22B-Instruct-v0.1	56.33	0.00	0.00	0.00	0.00	0.00	0.00	0.00	1410.0
Grok-1.5	51.00	81.30	0.00	50.60	35.90	74.10	0.00	0.00	未知
Grok 3.5	0.00	0.00	0.00	0.00	88.20	0.00	0.00	0.00	未知
Gemini-2.5-Pro-Preview-05-06	0.00	0.00	0.00	0.00	83.00	0.00	98.80	77.10	未知
Claude Sonnet 4	0.00	0.00	0.00	0.00	75.40	0.00	0.00	0.00	未知
Magistral-Medium-2506	0.00	0.00	0.00	0.00	70.83	0.00	0.00	59.36	未知
o3-pro	0.00	0.00	0.00	0.00	84.00	0.00	0.00	0.00	未知
Gemini 2.5 Pro Deep Think	0.00	0.00	0.00	0.00	0.00	0.00	0.00	80.40	未知
Gemini 2.5 Flash-Lite	0.00	84.50	0.00	0.00	66.70	0.00	0.00	34.30	未知
Gemini 2.5 Flash	0.00	0.00	0.00	0.00	78.30	0.00	0.00	63.40	未知
GPT-4.1 nano	0.00	80.10	0.00	0.00	50.30	0.00	0.00	0.00	未知
GPT-4.1 mini	0.00	87.50	0.00	0.00	65.00	0.00	0.00	0.00	未知
QwQ-Max-Preview	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.60	未知
Kimi-k1.6-IOI	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.90	未知
Kimi-k1.6-IOI-high	0.00	0.00	0.00	0.00	0.00	0.00	0.00	73.80	未知
Claude Sonnet 3.7-64K Extended Thinking	0.00	0.00	0.00	0.00	84.80	0.00	96.20	0.00	未知
Claude Sonnet 3.7	0.00	0.00	0.00	0.00	68.00	0.00	82.20	0.00	未知
Grok-3 - Reasoning Beta	0.00	0.00	0.00	0.00	84.60	0.00	0.00	79.40	未知
Grok-3 mini - Reasoning	0.00	0.00	0.00	0.00	84.00	0.00	0.00	0.00	未知
Grok 3 mini	0.00	0.00	0.00	0.00	65.00	0.00	0.00	0.00	未知
Grok 3	0.00	0.00	0.00	0.00	80.40	0.00	0.00	70.60	未知
Kimi k1.5 (Long-CoT)	0.00	0.00	0.00	0.00	0.00	0.00	96.20	0.00	未知
Kimi k1.5 (Short-CoT)	0.00	87.40	0.00	0.00	0.00	0.00	94.60	0.00	未知
OpenAI o3-mini (high)	0.00	86.90	0.00	97.90	79.70	97.60	97.90	69.50	未知
OpenAI o3-mini (medium)	0.00	0.00	0.00	0.00	0.00	0.00	0.00	67.40	未知
Amazon Nova Pro	0.00	85.90	0.00	76.60	0.00	89.00	0.00	0.00	未知

OpenAI o1

MMLU Pro

91.04

MMLU

91.80

GSM8K

0.00

MATH

96.40

GPQA Diamond

77.30

HumanEval

0.00

MATH-500

96.40

LiveCodeBench

71.00

GPT-4.5

MMLU Pro

86.10

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

71.40

HumanEval

0.00

MATH-500

90.70

LiveCodeBench

46.40

Gemini-2.5-Pro-Preview-06-05

MMLU Pro

86.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

86.40

HumanEval

0.00

MATH-500

98.80

LiveCodeBench

77.10

OpenAI o3

MMLU Pro

85.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

83.30

HumanEval

0.00

MATH-500

98.10

LiveCodeBench

75.80

Claude Opus 4

MMLU Pro

85.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

79.60

HumanEval

0.00

MATH-500

98.20

LiveCodeBench

56.60

DeepSeek-R1-0528

MMLU Pro

85.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

81.00

HumanEval

0.00

MATH-500

98.00

LiveCodeBench

73.30

DeepSeek-R1

MMLU Pro

84.00

MMLU

90.80

GSM8K

0.00

MATH

0.00

GPQA Diamond

71.50

HumanEval

0.00

MATH-500

97.30

LiveCodeBench

65.90

Llama 4 Behemoth Instruct

MMLU Pro

82.20

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

73.70

HumanEval

0.00

MATH-500

95.00

LiveCodeBench

49.40

DeepSeek-V3-0324

MMLU Pro

81.20

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

68.40

HumanEval

0.00

MATH-500

94.00

LiveCodeBench

49.20

MiniMax-M1-80k

MMLU Pro

81.10

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

70.00

HumanEval

0.00

MATH-500

96.80

LiveCodeBench

65.00

OpenAI o4 - mini

MMLU Pro

80.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

81.40

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

MiniMax-M1-40k

MMLU Pro

80.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

69.20

HumanEval

0.00

MATH-500

96.00

LiveCodeBench

62.30

Llama 4 Maverick Instruct

MMLU Pro

80.50

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

69.80

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

43.40

GPT-4.1

MMLU Pro

80.50

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

66.30

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

OpenAI o1-mini

MMLU Pro

80.30

MMLU

85.20

GSM8K

0.00

MATH

0.00

GPQA Diamond

60.00

HumanEval

92.40

MATH-500

90.00

LiveCodeBench

52.00

Gemini 2.0 Pro Experimental

MMLU Pro

79.10

MMLU

86.50

GSM8K

0.00

MATH

91.80

GPQA Diamond

64.70

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Hunyuan-TurboS

MMLU Pro

79.00

MMLU

89.50

GSM8K

0.00

MATH

89.70

GPQA Diamond

57.50

HumanEval

91.00

MATH-500

0.00

LiveCodeBench

32.00

GPT-4o(2024-11-20)

MMLU Pro

77.90

MMLU

85.70

GSM8K

0.00

MATH

68.50

GPQA Diamond

0.00

HumanEval

90.20

MATH-500

0.00

LiveCodeBench

0.00

GPT-4o

MMLU Pro

77.90

MMLU

88.70

GSM8K

0.00

MATH

75.90

GPQA Diamond

53.60

HumanEval

90.00

MATH-500

75.90

LiveCodeBench

35.10

Claude 3.5 Sonnet

MMLU Pro

77.64

MMLU

88.30

GSM8K

0.00

MATH

71.10

GPQA Diamond

59.40

HumanEval

92.00

MATH-500

0.00

LiveCodeBench

0.00

Gemini 2.0 Flash Experimental

MMLU Pro

76.24

MMLU

83.40

GSM8K

0.00

MATH

0.00

GPQA Diamond

65.20

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

29.10

Qwen2.5-Max

MMLU Pro

76.10

MMLU

87.90

GSM8K

94.50

MATH

68.50

GPQA Diamond

0.00

HumanEval

73.20

MATH-500

0.00

LiveCodeBench

0.00

DeepSeek-V3

MMLU Pro

75.90

MMLU

88.50

GSM8K

0.00

MATH

87.80

GPQA Diamond

59.10

HumanEval

89.00

MATH-500

87.80

LiveCodeBench

34.60

Grok 2

MMLU Pro

75.50

MMLU

87.50

GSM8K

0.00

MATH

76.10

GPQA Diamond

56.00

HumanEval

88.40

MATH-500

0.00

LiveCodeBench

0.00

Llama 4 Scout Instruct

MMLU Pro

74.30

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

57.20

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

32.80

Llama3.1-405B Instruct

MMLU Pro

73.40

MMLU

88.60

GSM8K

0.00

MATH

73.90

GPQA Diamond

49.00

HumanEval

89.00

MATH-500

0.00

LiveCodeBench

30.20

Gemini 2.0 Flash-Lite

MMLU Pro

71.60

MMLU

78.20

GSM8K

0.00

MATH

86.80

GPQA Diamond

51.50

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

28.90

Qwen3-235B-A22B

MMLU Pro

68.18

MMLU

0.00

GSM8K

94.39

MATH

0.00

GPQA Diamond

71.10

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

70.70

Llama 4 Maverick

MMLU Pro

62.90

MMLU

85.50

GSM8K

0.00

MATH

61.20

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Llama3.1-405B

MMLU Pro

61.60

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Llama 4 Scout

MMLU Pro

58.20

MMLU

79.60

GSM8K

0.00

MATH

50.30

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Mixtral-8x22B-Instruct-v0.1

MMLU Pro

56.33

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Grok-1.5

MMLU Pro

51.00

MMLU

81.30

GSM8K

0.00

MATH

50.60

GPQA Diamond

35.90

HumanEval

74.10

MATH-500

0.00

LiveCodeBench

0.00

Grok 3.5

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

88.20

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Gemini-2.5-Pro-Preview-05-06

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

83.00

HumanEval

0.00

MATH-500

98.80

LiveCodeBench

77.10

Claude Sonnet 4

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

75.40

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Magistral-Medium-2506

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

70.83

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

59.36

o3-pro

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Gemini 2.5 Pro Deep Think

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

80.40

Gemini 2.5 Flash-Lite

MMLU Pro

0.00

MMLU

84.50

GSM8K

0.00

MATH

0.00

GPQA Diamond

66.70

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

34.30

Gemini 2.5 Flash

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

78.30

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

63.40

GPT-4.1 nano

MMLU Pro

0.00

MMLU

80.10

GSM8K

0.00

MATH

0.00

GPQA Diamond

50.30

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

GPT-4.1 mini

MMLU Pro

0.00

MMLU

87.50

GSM8K

0.00

MATH

0.00

GPQA Diamond

65.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

QwQ-Max-Preview

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

65.60

Kimi-k1.6-IOI

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

65.90

Kimi-k1.6-IOI-high

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

73.80

Claude Sonnet 3.7-64K Extended Thinking

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.80

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

0.00

Claude Sonnet 3.7

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

68.00

HumanEval

0.00

MATH-500

82.20

LiveCodeBench

0.00

Grok-3 - Reasoning Beta

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.60

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

79.40

Grok-3 mini - Reasoning

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

84.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Grok 3 mini

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

65.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

0.00

Grok 3

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

80.40

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

70.60

Kimi k1.5 (Long-CoT)

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

96.20

LiveCodeBench

0.00

Kimi k1.5 (Short-CoT)

MMLU Pro

0.00

MMLU

87.40

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

94.60

LiveCodeBench

0.00

OpenAI o3-mini (high)

MMLU Pro

0.00

MMLU

86.90

GSM8K

0.00

MATH

97.90

GPQA Diamond

79.70

HumanEval

97.60

MATH-500

97.90

LiveCodeBench

69.50

OpenAI o3-mini (medium)

MMLU Pro

0.00

MMLU

0.00

GSM8K

0.00

MATH

0.00

GPQA Diamond

0.00

HumanEval

0.00

MATH-500

0.00

LiveCodeBench

67.40

Amazon Nova Pro

MMLU Pro

0.00

MMLU

85.90

GSM8K

0.00

MATH

76.60

GPQA Diamond

0.00

HumanEval

89.00

MATH-500

0.00

LiveCodeBench

0.00

大模型评测基准与性能对比

自定义评测选择

大模型评测基准与性能对比

自定义评测选择

评测基准选择

模型选择