AIME 2024

AIME 2024

AIME全称是American Invitational Mathematics Examination，即美国数学邀请赛，是美国面向中学生的邀请式竞赛，3个小时完成15道题，难度很高。

英文难度：高难度

问题数量

15

机构

个人

类别

数学推理

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

AIME 2024基准测试简介

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

模型简称	得分	发布机构	发布时间	参数规模（亿）
Grok-3 mini - Reasoning	96.0		2025-02-18	未知
Grok 3.5	95.6		2025-05-06	未知
OpenAI o4 - mini	93.4		2025-04-16	未知
Grok-3 - Reasoning Beta	93.3		2025-02-18	未知
o3-pro	93.0		2025-06-10	未知
Gemini 2.5 Pro Experimental 03-25	92.0		2025-03-25	0.0
Gemini-2.5-Pro-Preview-06-05	92.0		2025-06-05	未知
Gemini-2.5-Pro-Preview-05-06	92.0		2025-05-06	未知
OpenAI o3	91.6		2025-04-16	未知
DeepSeek-R1-0528	91.4		2025-05-28	6850.0
Gemini 2.5 Flash	88.0		2025-04-17	未知
OpenAI o3-mini (high)	87.0		2025-01-31	未知
MiniMax-M1-80k	86.0		2025-06-16	4560.0
Qwen3-235B-A22B	85.7		2025-04-28	2350.0
Grok 3	84.2		2025-02-17	未知
MiniMax-M1-40k	83.3		2025-06-16	4560.0
Qwen3-32B	81.4		2025-04-28	220.0
Claude Sonnet 3.7-64K Extended Thinking	80.0		2025-02-25	未知
DeepSeek-R1	79.8		2025-01-20	6710.0
QwQ-32B	79.5		2025-03-06	325.0
OpenAI o1	79.2		2024-12-05	未知
Hunyuan-T1	78.2		2025-03-21	0.0
Claude Opus 4	76.0		2025-05-23	未知
Magistral-Medium-2506	73.59		2025-06-10	未知
Magistral-Small-2506	70.68		2025-06-10	240.0
OpenAI o1-mini	63.6		2024-09-12	未知
DeepSeek-V3-0324	59.4		2025-03-24	6810.0
DeepSeek-R1-Distill-Qwen-7B	53.3		2025-01-20	70.0
QwQ-32B-Preview	50.0		2024-11-28	320.0
Phi-4-instruct (reasoning-trained)	50.0		2025-02-27	38.0
GPT-4.1 mini	49.6		2025-04-14	未知
GPT-4.1	48.1		2025-04-14	未知
Grok 3 mini	40.0		2025-02-18	未知
DeepSeek-V3	39.0		2024-12-26	6810.0
GPT-4.5	36.7		2025-02-28	未知
Gemini 2.0 Pro Experimental	36.0		2025-02-05	未知
GPT-4.1 nano	29.4		2025-04-14	未知
Claude Sonnet 3.7	23.3		2025-02-25	未知
Claude 3.5 Sonnet New	16.0		2024-10-22	0.0
Phi-4-mini-instruct (3.8B)	10.0		2025-02-27	38.0
GPT-4o	9.3		2024-05-13	未知

Grok-3 mini - Reasoning

得分:

96.0

发布时间:

2025-02-18

参数规模(亿):

未知

Grok 3.5

得分:

95.6

发布时间:

2025-05-06

参数规模(亿):

未知

OpenAI o4 - mini

得分:

93.4

发布时间:

2025-04-16

参数规模(亿):

未知

Grok-3 - Reasoning Beta

得分:

93.3

发布时间:

2025-02-18

参数规模(亿):

未知

o3-pro

得分:

93.0

发布时间:

2025-06-10

参数规模(亿):

未知

Gemini 2.5 Pro Experimental 03-25

得分:

92.0

发布时间:

2025-03-25

参数规模(亿):

0.0

Gemini-2.5-Pro-Preview-06-05

得分:

92.0

发布时间:

2025-06-05

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-05-06

得分:

92.0

发布时间:

2025-05-06

参数规模(亿):

未知

OpenAI o3

得分:

91.6

发布时间:

2025-04-16

参数规模(亿):

未知

DeepSeek-R1-0528

得分:

91.4

发布时间:

2025-05-28

参数规模(亿):

6850.0

Gemini 2.5 Flash

得分:

88.0

发布时间:

2025-04-17

参数规模(亿):

未知

OpenAI o3-mini (high)

得分:

87.0

发布时间:

2025-01-31

参数规模(亿):

未知

MiniMax-M1-80k

得分:

86.0

发布时间:

2025-06-16

参数规模(亿):

4560.0

Qwen3-235B-A22B

得分:

85.7

发布时间:

2025-04-28

参数规模(亿):

2350.0

Grok 3

得分:

84.2

发布时间:

2025-02-17

参数规模(亿):

未知

MiniMax-M1-40k

得分:

83.3

发布时间:

2025-06-16

参数规模(亿):

4560.0

Qwen3-32B

得分:

81.4

发布时间:

2025-04-28

参数规模(亿):

220.0

Claude Sonnet 3.7-64K Extended Thinking

得分:

80.0

发布时间:

2025-02-25

参数规模(亿):

未知

DeepSeek-R1

得分:

79.8

发布时间:

2025-01-20

参数规模(亿):

6710.0

QwQ-32B

得分:

79.5

发布时间:

2025-03-06

参数规模(亿):

325.0

OpenAI o1

得分:

79.2

发布时间:

2024-12-05

参数规模(亿):

未知

Hunyuan-T1

得分:

78.2

发布时间:

2025-03-21

参数规模(亿):

0.0

Claude Opus 4

得分:

76.0

发布时间:

2025-05-23

参数规模(亿):

未知

Magistral-Medium-2506

得分:

73.59

发布时间:

2025-06-10

参数规模(亿):

未知

Magistral-Small-2506

得分:

70.68

发布时间:

2025-06-10

参数规模(亿):

240.0

OpenAI o1-mini

得分:

63.6

发布时间:

2024-09-12

参数规模(亿):

未知

DeepSeek-V3-0324

得分:

59.4

发布时间:

2025-03-24

参数规模(亿):

6810.0

DeepSeek-R1-Distill-Qwen-7B

得分:

53.3

发布时间:

2025-01-20

参数规模(亿):

70.0

QwQ-32B-Preview

得分:

50.0

发布时间:

2024-11-28

参数规模(亿):

320.0

Phi-4-instruct (reasoning-trained)

得分:

50.0

发布时间:

2025-02-27

参数规模(亿):

38.0

GPT-4.1 mini

得分:

49.6

发布时间:

2025-04-14

参数规模(亿):

未知

GPT-4.1

得分:

48.1

发布时间:

2025-04-14

参数规模(亿):

未知

Grok 3 mini

得分:

40.0

发布时间:

2025-02-18

参数规模(亿):

未知

DeepSeek-V3

得分:

39.0

发布时间:

2024-12-26

参数规模(亿):

6810.0

GPT-4.5

得分:

36.7

发布时间:

2025-02-28

参数规模(亿):

未知

Gemini 2.0 Pro Experimental

得分:

36.0

发布时间:

2025-02-05

参数规模(亿):

未知

GPT-4.1 nano

得分:

29.4

发布时间:

2025-04-14

参数规模(亿):

未知

Claude Sonnet 3.7

得分:

23.3

发布时间:

2025-02-25

参数规模(亿):

未知

Claude 3.5 Sonnet New

得分:

16.0

发布时间:

2024-10-22

参数规模(亿):

0.0

Phi-4-mini-instruct (3.8B)

得分:

10.0

发布时间:

2025-02-27

参数规模(亿):

38.0

GPT-4o

得分:

9.3

发布时间:

2024-05-13

参数规模(亿):

未知