2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
AIME 2024
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
15
个人
数学推理
Accuracy
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Grok-3 mini - Reasoning | 96.0 |
|
2025-02-18 | 未知 |
Grok-3 - Reasoning Beta | 93.3 |
|
2025-02-18 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 92.0 |
![]() |
2025-03-25 | 0.0 |
OpenAI o3-mini (high) | 87.0 |
![]() |
2025-01-31 | 未知 |
Grok 3 | 83.9 |
|
2025-02-17 | 未知 |
Claude Sonnet 3.7-64K Extended Thinking | 80.0 |
![]() |
2025-02-25 | 未知 |
DeepSeek-R1 | 79.8 |
![]() |
2025-01-20 | 6710.0 |
QwQ-32B | 79.5 |
![]() |
2025-03-06 | 325.0 |
OpenAI o1 | 79.2 |
![]() |
2024-12-05 | 未知 |
Hunyuan-T1 | 78.2 |
![]() |
2025-03-21 | 0.0 |
OpenAI o1-mini | 63.6 |
![]() |
2024-09-12 | 未知 |
DeepSeek-V3-0324 | 59.4 |
![]() |
2025-03-24 | 6810.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 |
![]() |
2025-01-20 | 70.0 |
QwQ-32B-Preview | 50.0 |
![]() |
2024-11-28 | 320.0 |
Phi-4-instruct (reasoning-trained) | 50.0 |
![]() |
2025-02-27 | 38.0 |
Grok 3 mini | 40.0 |
|
2025-02-18 | 未知 |
DeepSeek-V3 | 39.0 |
![]() |
2024-12-26 | 6810.0 |
GPT-4.5 | 36.7 |
![]() |
2025-02-28 | 未知 |
Gemini 2.0 Pro Experimental | 36.0 |
![]() |
2025-02-05 | 未知 |
Claude Sonnet 3.7 | 23.3 |
![]() |
2025-02-25 | 未知 |
Claude 3.5 Sonnet New | 16.0 |
![]() |
2024-10-22 | 0.0 |
Phi-4-mini-instruct (3.8B) | 10.0 |
![]() |
2025-02-27 | 38.0 |
GPT-4o | 9.3 |
![]() |
2024-05-13 | 未知 |