MATH-500

MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

英文难度：高难度

问题数量

500

机构

OpenAI

类别

数学推理

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

MATH-500基准测试简介

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

模型简称	得分	发布机构	发布时间	参数规模（亿）
Gemini-2.5-Pro-Preview-06-05	98.8		2025-06-05	未知
Gemini-2.5-Pro-Preview-05-06	98.8		2025-05-06	未知
Claude Opus 4	98.2		2025-05-23	未知
OpenAI o3	98.1		2025-04-16	未知
DeepSeek-R1-0528	98.0		2025-05-28	6850.0
OpenAI o3-mini (high)	97.9		2025-01-31	未知
DeepSeek-R1	97.3		2025-01-20	6710.0
MiniMax-M1-80k	96.8		2025-06-16	4560.0
OpenAI o1	96.4		2024-12-05	未知
Hunyuan-T1	96.2		2025-03-21	0.0
Qwen3-235B-A22B	96.2		2025-04-28	2350.0
Kimi k1.5 (Long-CoT)	96.2		2025-01-22	未知
Claude Sonnet 3.7-64K Extended Thinking	96.2		2025-02-25	未知
MiniMax-M1-40k	96.0		2025-06-16	4560.0
Llama 4 Behemoth Instruct	95.0		2025-04-05	20000.0
Kimi k1.5 (Short-CoT)	94.6		2025-01-22	未知
DeepSeek-R1-Distill-Llama-70B	94.5		2025-01-20	700.0
DeepSeek-V3-0324	94.0		2025-03-24	6810.0
DeepSeek-R1-Distill-Qwen-7B	91.4		2025-01-20	70.0
QwQ-32B	91.0		2025-03-06	325.0
GPT-4.5	90.7		2025-02-28	未知
QwQ-32B-Preview	90.6		2024-11-28	320.0
Phi-4-instruct (reasoning-trained)	90.4		2025-02-27	38.0
OpenAI o1-mini	90.0		2024-09-12	未知
DeepSeek-V3	87.8		2024-12-26	6810.0
Claude Sonnet 3.7	82.2		2025-02-25	未知
Claude 3.5 Sonnet New	78.0		2024-10-22	0.0
GPT-4o	75.9		2024-05-13	未知
Phi-4-mini-instruct (3.8B)	71.8		2025-02-27	38.0

Gemini-2.5-Pro-Preview-06-05

得分:

98.8

发布时间:

2025-06-05

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-05-06

得分:

98.8

发布时间:

2025-05-06

参数规模(亿):

未知

Claude Opus 4

得分:

98.2

发布时间:

2025-05-23

参数规模(亿):

未知

OpenAI o3

得分:

98.1

发布时间:

2025-04-16

参数规模(亿):

未知

DeepSeek-R1-0528

得分:

98.0

发布时间:

2025-05-28

参数规模(亿):

6850.0

OpenAI o3-mini (high)

得分:

97.9

发布时间:

2025-01-31

参数规模(亿):

未知

DeepSeek-R1

得分:

97.3

发布时间:

2025-01-20

参数规模(亿):

6710.0

MiniMax-M1-80k

得分:

96.8

发布时间:

2025-06-16

参数规模(亿):

4560.0

OpenAI o1

得分:

96.4

发布时间:

2024-12-05

参数规模(亿):

未知

Hunyuan-T1

得分:

96.2

发布时间:

2025-03-21

参数规模(亿):

0.0

Qwen3-235B-A22B

得分:

96.2

发布时间:

2025-04-28

参数规模(亿):

2350.0

Kimi k1.5 (Long-CoT)

得分:

96.2

发布时间:

2025-01-22

参数规模(亿):

未知

Claude Sonnet 3.7-64K Extended Thinking

得分:

96.2

发布时间:

2025-02-25

参数规模(亿):

未知

MiniMax-M1-40k

得分:

96.0

发布时间:

2025-06-16

参数规模(亿):

4560.0

Llama 4 Behemoth Instruct

得分:

95.0

发布时间:

2025-04-05

参数规模(亿):

20000.0

Kimi k1.5 (Short-CoT)

得分:

94.6

发布时间:

2025-01-22

参数规模(亿):

未知

DeepSeek-R1-Distill-Llama-70B

得分:

94.5

发布时间:

2025-01-20

参数规模(亿):

700.0

DeepSeek-V3-0324

得分:

94.0

发布时间:

2025-03-24

参数规模(亿):

6810.0

DeepSeek-R1-Distill-Qwen-7B

得分:

91.4

发布时间:

2025-01-20

参数规模(亿):

70.0

QwQ-32B

得分:

91.0

发布时间:

2025-03-06

参数规模(亿):

325.0

GPT-4.5

得分:

90.7

发布时间:

2025-02-28

参数规模(亿):

未知

QwQ-32B-Preview

得分:

90.6

发布时间:

2024-11-28

参数规模(亿):

320.0

Phi-4-instruct (reasoning-trained)

得分:

90.4

发布时间:

2025-02-27

参数规模(亿):

38.0

OpenAI o1-mini

得分:

90.0

发布时间:

2024-09-12

参数规模(亿):

未知

DeepSeek-V3

得分:

87.8

发布时间:

2024-12-26

参数规模(亿):

6810.0

Claude Sonnet 3.7

得分:

82.2

发布时间:

2025-02-25

参数规模(亿):

未知

Claude 3.5 Sonnet New

得分:

78.0

发布时间:

2024-10-22

参数规模(亿):

0.0

GPT-4o

得分:

75.9

发布时间:

2024-05-13

参数规模(亿):

未知

Phi-4-mini-instruct (3.8B)

得分:

71.8

发布时间:

2025-02-27

参数规模(亿):

38.0