AIME 2024

AIME 2024

AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。

英文 难度:高难度
问题数量

15

机构

个人

类别

数学推理

评估指标

Accuracy

AIME 2024基准测试简介

2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

模型简称 得分 发布机构 发布时间 参数规模(亿)
Grok-3 mini - Reasoning 96.0 xAI 2025-02-18 未知
Grok-3 - Reasoning Beta 93.3 xAI 2025-02-18 未知
Gemini 2.5 Pro Experimental 03-25 92.0 Google Deep Mind 2025-03-25 0.0
OpenAI o3-mini (high) 87.0 OpenAI 2025-01-31 未知
Grok 3 83.9 xAI 2025-02-17 未知
Claude Sonnet 3.7-64K Extended Thinking 80.0 Anthropic 2025-02-25 未知
DeepSeek-R1 79.8 DeepSeek-AI 2025-01-20 6710.0
QwQ-32B 79.5 阿里巴巴 2025-03-06 325.0
OpenAI o1 79.2 OpenAI 2024-12-05 未知
Hunyuan-T1 78.2 腾讯AI实验室 2025-03-21 0.0
OpenAI o1-mini 63.6 OpenAI 2024-09-12 未知
DeepSeek-V3-0324 59.4 DeepSeek-AI 2025-03-24 6810.0
DeepSeek-R1-Distill-Qwen-7B 53.3 DeepSeek-AI 2025-01-20 70.0
QwQ-32B-Preview 50.0 阿里巴巴 2024-11-28 320.0
Phi-4-instruct (reasoning-trained) 50.0 Microsoft 2025-02-27 38.0
Grok 3 mini 40.0 xAI 2025-02-18 未知
DeepSeek-V3 39.0 DeepSeek-AI 2024-12-26 6810.0
GPT-4.5 36.7 OpenAI 2025-02-28 未知
Gemini 2.0 Pro Experimental 36.0 DeepMind 2025-02-05 未知
Claude Sonnet 3.7 23.3 Anthropic 2025-02-25 未知
Claude 3.5 Sonnet New 16.0 Anthropic 2024-10-22 0.0
Phi-4-mini-instruct (3.8B) 10.0 Microsoft 2025-02-27 38.0
GPT-4o 9.3 OpenAI 2024-05-13 未知
得分:
96.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
93.3
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
92.0
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
87.0
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
83.9
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
80.0
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
79.8
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
79.5
发布时间:
2025-03-06
参数规模(亿):
325.0
得分:
79.2
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
78.2
发布时间:
2025-03-21
参数规模(亿):
0.0
得分:
63.6
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
59.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
53.3
发布时间:
2025-01-20
参数规模(亿):
70.0
得分:
50.0
发布时间:
2024-11-28
参数规模(亿):
320.0
得分:
50.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
40.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
39.0
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
36.7
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
36.0
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
23.3
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
16.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
10.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
9.3
发布时间:
2024-05-13
参数规模(亿):
未知