GPQA

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

英文 难度:高难度
问题数量

448

机构

CohereAI

类别

知识问答

评估指标

Accuracy

GPQA基准测试简介

研究生级别的 **Google 防查找问答基准测试**(即Graduate-Level Google-Proof Q&A Benchmark,简称 GPQA)是大型语言模型(LLM)面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限,提供一个严格的测试平台,不仅评估模型的事实记忆能力,还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA,涵盖它的起源、目的、组成部分,以及领先的大型语言模型在这个高要求基准测试中的表现。

模型简称 得分 发布机构 发布时间 参数规模(亿)
DeepSeek-V3-0324 68.4 DeepSeek-AI 2025-03-24 6810.0
DeepSeek-V3 59.1 DeepSeek-AI 2024-12-26 6810.0
Mistral-Small-3.1-24B-Instruct-2503 44.42 MistralAI 2025-03-17 240.0
GPT-4o mini 40.2 OpenAI 2024-07-18 0.0
Claude 3.5 Haiku 37.5 Anthropic 2024-10-22 0.0
Gemma 3 - 27B (IT) 36.83 Google Deep Mind 2025-03-12 270.0
C4AI Aya Vision 32B 34.38 CohereAI 2025-03-04 320.0
得分:
68.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
59.1
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
44.42
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
40.2
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
37.5
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
36.83
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
34.38
发布时间:
2025-03-04
参数规模(亿):
320.0