在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。
MATH-500
OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准
500
OpenAI
数学推理
Accuracy
在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
OpenAI o3-mini (high) | 97.9 |
![]() |
2025-01-31 | 未知 |
DeepSeek-R1 | 97.3 |
![]() |
2025-01-20 | 6710.0 |
OpenAI o1 | 96.4 |
![]() |
2024-12-05 | 未知 |
Kimi k1.5 (Long-CoT) | 96.2 |
![]() |
2025-01-22 | 未知 |
Hunyuan-T1 | 96.2 |
![]() |
2025-03-21 | 0.0 |
Claude Sonnet 3.7-64K Extended Thinking | 96.2 |
![]() |
2025-02-25 | 未知 |
Llama 4 Behemoth Instruct | 95.0 |
![]() |
2025-04-05 | 20000.0 |
Kimi k1.5 (Short-CoT) | 94.6 |
![]() |
2025-01-22 | 未知 |
DeepSeek-R1-Distill-Llama-70B | 94.5 |
![]() |
2025-01-20 | 700.0 |
DeepSeek-V3-0324 | 94.0 |
![]() |
2025-03-24 | 6810.0 |
DeepSeek-R1-Distill-Qwen-7B | 91.4 |
![]() |
2025-01-20 | 70.0 |
QwQ-32B | 91.0 |
![]() |
2025-03-06 | 325.0 |
GPT-4.5 | 90.7 |
![]() |
2025-02-28 | 未知 |
QwQ-32B-Preview | 90.6 |
![]() |
2024-11-28 | 320.0 |
Phi-4-instruct (reasoning-trained) | 90.4 |
![]() |
2025-02-27 | 38.0 |
OpenAI o1-mini | 90.0 |
![]() |
2024-09-12 | 未知 |
DeepSeek-V3 | 87.8 |
![]() |
2024-12-26 | 6810.0 |
Claude Sonnet 3.7 | 82.2 |
![]() |
2025-02-25 | 未知 |
Claude 3.5 Sonnet New | 78.0 |
![]() |
2024-10-22 | 0.0 |
GPT-4o | 75.9 |
![]() |
2024-05-13 | 未知 |
Phi-4-mini-instruct (3.8B) | 71.8 |
![]() |
2025-02-27 | 38.0 |