GPQA

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

英文难度：高难度

问题数量

448

机构

CohereAI

类别

知识问答

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

GPQA基准测试简介

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

模型简称	得分	发布时间	参数规模（亿）
DeepSeek-V3-0324	68.4	2025-03-24	6810.0
DeepSeek-V3	59.1	2024-12-26	6810.0
Mistral-Small-3.1-24B-Instruct-2503	44.42	2025-03-17	240.0
GPT-4o mini	40.2	2024-07-18	0.0
Claude 3.5 Haiku	37.5	2024-10-22	0.0
Gemma 3 - 27B (IT)	36.83	2025-03-12	270.0
C4AI Aya Vision 32B	34.38	2025-03-04	320.0