评测名称 | 评测能力方向 | 评测结果 |
---|---|---|
MMLU | 知识问答 | 91.8 |
MMLU Pro | 知识问答 | 91.04 |
MATH | 数学推理 | 96.4 |
HLE | 知识问答 | 9.1 |
GPQA Diamond | 常识推理 | 77.3 |
SimpleQA | 真实性评估 | 42.6 |
SWE-bench Verified | 代码生成 | 48.9 |
MATH-500 | 数学推理 | 96.4 |
AIME 2024 | 数学推理 | 79.2 |
LiveCodeBench | 代码生成 | 71.0 |
OpenAI发布的推理大模型。