MATH

Mathematics Problem Solving

一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。

英语 难度:Expert
问题数量

12500

机构

Google

类别

数学推理

评估指标

Accuracy

MATH基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
OpenAI o3-mini (high) 97.9 OpenAI 2025-01-31 未知
OpenAI o1 96.4 OpenAI 2024-12-05 未知
Gemini 2.0 Pro Experimental 91.8 DeepMind 2025-02-05 未知
Hunyuan-TurboS 89.7 腾讯AI实验室 2025-03-10 未知
Gemma 3 - 27B (IT) 89.0 Google Deep Mind 2025-03-12 270.0
DeepSeek-V3 87.8 DeepSeek-AI 2024-12-26 6810.0
Gemma 3 - 12B (IT) 83.8 Google Deep Mind 2025-03-12 120.0
Gemini 1.5 Pro 82.9 Google Deep Mind 2024-02-15 0.0
Claude 3.5 Sonnet New 78.3 Anthropic 2024-10-22 0.0
Llama3.3-70B-Instruct 77.0 Facebook AI研究实验室 2024-12-06 700.0
Amazon Nova Pro 76.6 亚马逊 2024-12-03 未知
Grok 2 76.1 xAI 2024-08-13 未知
GPT-4o 75.9 OpenAI 2024-05-13 未知
Llama3.1-405B Instruct 73.9 Facebook AI研究实验室 2024-07-23 4050.0
Claude 3.5 Sonnet 71.1 Anthropic 2024-06-21 未知
GPT-4o mini 70.2 OpenAI 2024-07-18 0.0
Mistral-Small-3.1-24B-Instruct-2503 69.3 MistralAI 2025-03-17 240.0
C4AI Aya Vision 32B 69.3 CohereAI 2025-03-04 320.0
Claude 3.5 Haiku 69.2 Anthropic 2024-10-22 0.0
Qwen2.5-Max 68.5 阿里巴巴 2025-01-28 未知
GPT-4o(2024-11-20) 68.5 OpenAI 2024-11-20 未知
Llama3.1-70B-Instruct 67.8 Facebook AI研究实验室 2024-07-23 700.0
Phi-4-mini-instruct (3.8B) 64.0 Microsoft 2025-02-27 38.0
Qwen2.5-72B 62.1 阿里巴巴 2024-09-18 727.0
Llama 4 Maverick 61.2 Facebook AI研究实验室 2025-04-05 4000.0
Claude3-Opus 60.1 Anthropic 2024-03-04 0.0
Grok-1.5 50.6 xAI 2024-03-29 未知
Llama 4 Scout 50.3 Facebook AI研究实验室 2025-04-05 1090.0
Qwen2.5-7B 49.8 阿里巴巴 2024-09-18 70.0
Llama3.1-8B-Instruct 47.6 Facebook AI研究实验室 2024-07-23 80.0
Moonlight-16B-A3B-Instruct 45.3 Moonshot AI 2025-02-23 160.0
Qwen2.5-3B 42.6 阿里巴巴 2024-09-18 30.0
Gemma 2 - 9B 37.7 Google Research 2024-06-27 90.0
Llama3.1-8B 20.5 Facebook AI研究实验室 2024-07-23 80.0
Mistral-7B-Instruct-v0.3 10.2 MistralAI 2024-05-22 70.0
Llama-3.2-3B 8.5 Facebook AI研究实验室 2024-09-18 32.0
得分:
97.9
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
96.4
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
91.8
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
89.7
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
89.0
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
87.8
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
83.8
发布时间:
2025-03-12
参数规模(亿):
120.0
得分:
82.9
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
78.3
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
77.0
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
76.6
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
76.1
发布时间:
2024-08-13
参数规模(亿):
未知
得分:
75.9
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
73.9
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
71.1
发布时间:
2024-06-21
参数规模(亿):
未知
得分:
70.2
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
69.3
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
69.3
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
69.2
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
68.5
发布时间:
2025-01-28
参数规模(亿):
未知
得分:
68.5
发布时间:
2024-11-20
参数规模(亿):
未知
得分:
67.8
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
64.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
62.1
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
61.2
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
60.1
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
50.6
发布时间:
2024-03-29
参数规模(亿):
未知
得分:
50.3
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
49.8
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
47.6
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
45.3
发布时间:
2025-02-23
参数规模(亿):
160.0
得分:
42.6
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
37.7
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
20.5
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
10.2
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
8.5
发布时间:
2024-09-18
参数规模(亿):
32.0