GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。

英文难度：中等难度

问题数量

198

机构

CohereAI

类别

常识推理

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

GPQA Diamond基准测试简介

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...