GPQA Diamond

GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。

英文 难度:中等难度
问题数量

198

机构

CohereAI

类别

常识推理

评估指标

Accuracy

GPQA Diamond基准测试简介

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...