MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

英文难度：高难度

500

OpenAI

数学推理

Accuracy

MATH-500基准测试简介

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...