GPQA Diamond

GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。

英文 难度:中等难度
问题数量

198

机构

CohereAI

类别

常识推理

评估指标

Accuracy

GPQA Diamond基准测试简介

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。

模型简称 得分 发布机构 发布时间 参数规模(亿)
Claude Sonnet 3.7-64K Extended Thinking 84.8 Anthropic 2025-02-25 未知
Grok-3 - Reasoning Beta 84.6 xAI 2025-02-18 未知
Gemini 2.5 Pro Experimental 03-25 84.0 Google Deep Mind 2025-03-25 0.0
Grok-3 mini - Reasoning 84.0 xAI 2025-02-18 未知
OpenAI o3 83.3 OpenAI 2025-04-16 未知
OpenAI o4 - mini 81.4 OpenAI 2025-04-16 未知
Grok 3 80.2 xAI 2025-02-17 未知
OpenAI o3-mini (high) 79.7 OpenAI 2025-01-31 未知
Gemini 2.5 Flash 78.3 Google Deep Mind 2025-04-17 未知
OpenAI o1 77.3 OpenAI 2024-12-05 未知
Llama 4 Behemoth Instruct 73.7 Facebook AI研究实验室 2025-04-05 20000.0
DeepSeek-R1 71.5 DeepSeek-AI 2025-01-20 6710.0
GPT-4.5 71.4 OpenAI 2025-02-28 未知
Llama 4 Maverick Instruct 69.8 Facebook AI研究实验室 2025-04-05 4000.0
Hunyuan-T1 69.3 腾讯AI实验室 2025-03-21 0.0
DeepSeek-V3-0324 68.4 DeepSeek-AI 2025-03-24 6810.0
Claude Sonnet 3.7 68.0 Anthropic 2025-02-25 未知
GPT-4.1 66.3 OpenAI 2025-04-14 未知
DeepSeek-R1-Distill-Llama-70B 65.2 DeepSeek-AI 2025-01-20 700.0
GPT-4.1 mini 65.0 OpenAI 2025-04-14 未知
Claude 3.5 Sonnet New 65.0 Anthropic 2024-10-22 0.0
Grok 3 mini 65.0 xAI 2025-02-18 未知
Gemini 2.0 Pro Experimental 64.7 DeepMind 2025-02-05 未知
OpenAI o1-mini 60.0 OpenAI 2024-09-12 未知
Claude 3.5 Sonnet 59.4 Anthropic 2024-06-21 未知
DeepSeek-V3 59.1 DeepSeek-AI 2024-12-26 6810.0
QwQ-32B 58.0 阿里巴巴 2025-03-06 325.0
Hunyuan-TurboS 57.5 腾讯AI实验室 2025-03-10 未知
Llama 4 Scout Instruct 57.2 Facebook AI研究实验室 2025-04-05 1090.0
Grok 2 56.0 xAI 2024-08-13 未知
GPT-4o 53.6 OpenAI 2024-05-13 未知
Gemini 1.5 Pro 53.5 Google Deep Mind 2024-02-15 0.0
Llama3.3-70B-Instruct 50.5 Facebook AI研究实验室 2024-12-06 700.0
Claude3-Opus 50.4 Anthropic 2024-03-04 0.0
GPT-4.1 nano 50.3 OpenAI 2025-04-14 未知
DeepSeek-R1-Distill-Qwen-7B 49.5 DeepSeek-AI 2025-01-20 70.0
Phi-4-instruct (reasoning-trained) 49.0 Microsoft 2025-02-27 38.0
Llama3.1-405B Instruct 49.0 Facebook AI研究实验室 2024-07-23 4050.0
Llama3.1-70B-Instruct 48.0 Facebook AI研究实验室 2024-07-23 700.0
Mistral-Small-3.1-24B-Instruct-2503 45.96 MistralAI 2025-03-17 240.0
Qwen2.5-72B 45.9 阿里巴巴 2024-09-18 727.0
Gemma 3 - 27B (IT) 42.4 Google Deep Mind 2025-03-12 270.0
Claude 3.5 Haiku 41.6 Anthropic 2024-10-22 0.0
GPT-4o mini 41.1 OpenAI 2024-07-18 0.0
Gemma 3 - 12B (IT) 40.9 Google Deep Mind 2025-03-12 120.0
Qwen2.5-7B 36.4 阿里巴巴 2024-09-18 70.0
Phi-4-mini-instruct (3.8B) 36.0 Microsoft 2025-02-27 38.0
Grok-1.5 35.9 xAI 2024-03-29 未知
C4AI Aya Vision 32B 33.84 CohereAI 2025-03-04 320.0
Gemma 2 - 9B 32.8 Google Research 2024-06-27 90.0
Llama-3.2-3B 26.6 Facebook AI研究实验室 2024-09-18 32.0
Llama3.1-8B-Instruct 26.3 Facebook AI研究实验室 2024-07-23 80.0
Llama3.1-8B 25.8 Facebook AI研究实验室 2024-07-23 80.0
Mistral-7B-Instruct-v0.3 24.7 MistralAI 2024-05-22 70.0
Qwen2.5-3B 24.3 阿里巴巴 2024-09-18 30.0
Amazon Nova Pro 0.0 亚马逊 2024-12-03 未知
得分:
84.8
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
84.6
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
84.0
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
84.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
83.3
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
81.4
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
80.2
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
79.7
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
78.3
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
77.3
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
73.7
发布时间:
2025-04-05
参数规模(亿):
20000.0
得分:
71.5
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
71.4
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
69.8
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
69.3
发布时间:
2025-03-21
参数规模(亿):
0.0
得分:
68.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
68.0
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
66.3
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
65.2
发布时间:
2025-01-20
参数规模(亿):
700.0
得分:
65.0
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
65.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
65.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
64.7
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
60.0
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
59.4
发布时间:
2024-06-21
参数规模(亿):
未知
得分:
59.1
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
58.0
发布时间:
2025-03-06
参数规模(亿):
325.0
得分:
57.5
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
57.2
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
56.0
发布时间:
2024-08-13
参数规模(亿):
未知
得分:
53.6
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
53.5
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
50.5
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
50.4
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
50.3
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
49.5
发布时间:
2025-01-20
参数规模(亿):
70.0
得分:
49.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
49.0
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
48.0
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
45.96
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
45.9
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
42.4
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
41.6
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
41.1
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
40.9
发布时间:
2025-03-12
参数规模(亿):
120.0
得分:
36.4
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
36.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
35.9
发布时间:
2024-03-29
参数规模(亿):
未知
得分:
33.84
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
32.8
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
26.6
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
26.3
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
25.8
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
24.7
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
24.3
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
0.0
发布时间:
2024-12-03
参数规模(亿):
未知