GSM8K

Grade School Math 8K

一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。

英语 难度:Intermediate
问题数量

8500

机构

Google

类别

数学推理

评估指标

Accuracy

GSM8K基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
Claude3-Opus 95.0 Anthropic 2024-03-04 0.0
Qwen2.5-Max 94.5 阿里巴巴 2025-01-28 未知
Qwen2.5-72B 91.5 阿里巴巴 2024-09-18 727.0
GPT-4o mini 91.3 OpenAI 2024-07-18 0.0
Phi-4-mini-instruct (3.8B) 88.6 Microsoft 2025-02-27 38.0
Qwen2.5-7B 85.4 阿里巴巴 2024-09-18 70.0
Llama3.1-8B-Instruct 82.4 Facebook AI研究实验室 2024-07-23 80.0
Qwen2.5-3B 79.1 阿里巴巴 2024-09-18 30.0
Moonlight-16B-A3B-Instruct 77.4 Moonshot AI 2025-02-23 160.0
Gemma 2 - 9B 70.7 Google Research 2024-06-27 90.0
Llama3.1-8B 55.3 Facebook AI研究实验室 2024-07-23 80.0
Mistral-7B-Instruct-v0.3 36.2 MistralAI 2024-05-22 70.0
Llama-3.2-3B 34.0 Facebook AI研究实验室 2024-09-18 32.0
Amazon Nova Pro 0.0 亚马逊 2024-12-03 未知
Gemini 1.5 Pro 0.0 Google Deep Mind 2024-02-15 0.0
Llama3.1-405B Instruct 0.0 Facebook AI研究实验室 2024-07-23 4050.0
得分:
95.0
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
94.5
发布时间:
2025-01-28
参数规模(亿):
未知
得分:
91.5
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
91.3
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
88.6
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
85.4
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
82.4
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
79.1
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
77.4
发布时间:
2025-02-23
参数规模(亿):
160.0
得分:
70.7
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
55.3
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
36.2
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
34.0
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
0.0
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
0.0
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
0.0
发布时间:
2024-07-23
参数规模(亿):
4050.0