MATH-500

MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

英文 难度:高难度
问题数量

500

机构

OpenAI

类别

数学推理

评估指标

Accuracy

MATH-500基准测试简介

在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...