研究生级别的 **Google 防查找问答基准测试**(即Graduate-Level Google-Proof Q&A Benchmark,简称 GPQA)是大型语言模型(LLM)面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限,提供一个严格的测试平台,不仅评估模型的事实记忆能力,还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA,涵盖它的起源、目的、组成部分,以及领先的大型语言模型在这个高要求基准测试中的表现。
A Graduate-Level Google-Proof Q&A Benchmark
一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准
448
CohereAI
知识问答
Accuracy
研究生级别的 **Google 防查找问答基准测试**(即Graduate-Level Google-Proof Q&A Benchmark,简称 GPQA)是大型语言模型(LLM)面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限,提供一个严格的测试平台,不仅评估模型的事实记忆能力,还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA,涵盖它的起源、目的、组成部分,以及领先的大型语言模型在这个高要求基准测试中的表现。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
DeepSeek-V3-0324 | 68.4 |
![]() |
2025-03-24 | 6810.0 |
DeepSeek-V3 | 59.1 |
![]() |
2024-12-26 | 6810.0 |
Mistral-Small-3.1-24B-Instruct-2503 | 44.42 |
![]() |
2025-03-17 | 240.0 |
GPT-4o mini | 40.2 |
![]() |
2024-07-18 | 0.0 |
Claude 3.5 Haiku | 37.5 |
![]() |
2024-10-22 | 0.0 |
Gemma 3 - 27B (IT) | 36.83 |
![]() |
2025-03-12 | 270.0 |
C4AI Aya Vision 32B | 34.38 |
![]() |
2025-03-04 | 320.0 |