GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。

英文难度：中等难度

问题数量

198

机构

CohereAI

类别

常识推理

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

GPQA Diamond基准测试简介

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

模型简称	得分	发布时间	参数规模（亿）
Grok 3.5	88.2	2025-05-06	未知
Gemini-2.5-Pro-Preview-06-05	86.4	2025-06-05	未知
Claude Sonnet 3.7-64K Extended Thinking	84.8	2025-02-25	未知
Grok-3 - Reasoning Beta	84.6	2025-02-18	未知
Gemini 2.5 Pro Experimental 03-25	84.0	2025-03-25	0.0
o3-pro	84.0	2025-06-10	未知
Grok-3 mini - Reasoning	84.0	2025-02-18	未知
OpenAI o3	83.3	2025-04-16	未知
Gemini-2.5-Pro-Preview-05-06	83.0	2025-05-06	未知
OpenAI o4 - mini	81.4	2025-04-16	未知
DeepSeek-R1-0528	81.0	2025-05-28	6850.0
Grok 3	80.4	2025-02-17	未知
OpenAI o3-mini (high)	79.7	2025-01-31	未知
Claude Opus 4	79.6	2025-05-23	未知
Gemini 2.5 Flash	78.3	2025-04-17	未知
OpenAI o1	77.3	2024-12-05	未知
Claude Sonnet 4	75.4	2025-05-23	未知
Llama 4 Behemoth Instruct	73.7	2025-04-05	20000.0
DeepSeek-R1	71.5	2025-01-20	6710.0
GPT-4.5	71.4	2025-02-28	未知
Qwen3-235B-A22B	71.1	2025-04-28	2350.0
Magistral-Medium-2506	70.83	2025-06-10	未知
MiniMax-M1-80k	70.0	2025-06-16	4560.0
Llama 4 Maverick Instruct	69.8	2025-04-05	4000.0
Hunyuan-T1	69.3	2025-03-21	0.0
MiniMax-M1-40k	69.2	2025-06-16	4560.0
DeepSeek-V3-0324	68.4	2025-03-24	6810.0
Magistral-Small-2506	68.18	2025-06-10	240.0
Claude Sonnet 3.7	68.0	2025-02-25	未知
Gemini 2.5 Flash-Lite	66.7	2025-06-17	未知
GPT-4.1	66.3	2025-04-14	未知
DeepSeek-R1-Distill-Llama-70B	65.2	2025-01-20	700.0
Gemini 2.0 Flash Experimental	65.2	2024-12-11	未知
GPT-4.1 mini	65.0	2025-04-14	未知
Claude 3.5 Sonnet New	65.0	2024-10-22	0.0
Grok 3 mini	65.0	2025-02-18	未知
Gemini 2.0 Pro Experimental	64.7	2025-02-05	未知
OpenAI o1-mini	60.0	2024-09-12	未知
Claude 3.5 Sonnet	59.4	2024-06-21	未知
DeepSeek-V3	59.1	2024-12-26	6810.0
QwQ-32B	58.0	2025-03-06	325.0
Hunyuan-TurboS	57.5	2025-03-10	未知
Llama 4 Scout Instruct	57.2	2025-04-05	1090.0
Grok 2	56.0	2024-08-13	未知
GPT-4o	53.6	2024-05-13	未知
Gemini 1.5 Pro	53.5	2024-02-15	0.0
Gemini 2.0 Flash-Lite	51.5	2025-02-05	未知
Llama3.3-70B-Instruct	50.5	2024-12-06	700.0
Claude3-Opus	50.4	2024-03-04	0.0
GPT-4.1 nano	50.3	2025-04-14	未知
DeepSeek-R1-Distill-Qwen-7B	49.5	2025-01-20	70.0
Phi-4-instruct (reasoning-trained)	49.0	2025-02-27	38.0
Llama3.1-405B Instruct	49.0	2024-07-23	4050.0
Llama3.1-70B-Instruct	48.0	2024-07-23	700.0
Mistral-Small-3.1-24B-Instruct-2503	45.96	2025-03-17	240.0
Qwen2.5-72B	45.9	2024-09-18	727.0
Gemma 3 - 27B (IT)	42.4	2025-03-12	270.0
Claude 3.5 Haiku	41.6	2024-10-22	0.0
GPT-4o mini	41.1	2024-07-18	0.0
Gemma 3 - 12B (IT)	40.9	2025-03-12	120.0
Qwen2.5-7B	36.4	2024-09-18	70.0
Phi-4-mini-instruct (3.8B)	36.0	2025-02-27	38.0
Grok-1.5	35.9	2024-03-29	未知
C4AI Aya Vision 32B	33.84	2025-03-04	320.0
Gemma 2 - 9B	32.8	2024-06-27	90.0
Llama-3.2-3B	26.6	2024-09-18	32.0
Llama3.1-8B-Instruct	26.3	2024-07-23	80.0
Llama3.1-8B	25.8	2024-07-23	80.0
Mistral-7B-Instruct-v0.3	24.7	2024-05-22	70.0
Qwen2.5-3B	24.3	2024-09-18	30.0
Amazon Nova Pro	0.0	2024-12-03	未知

Grok 3.5

得分:

88.2

发布时间:

2025-05-06

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-06-05

得分:

86.4

发布时间:

2025-06-05

参数规模(亿):

未知

Claude Sonnet 3.7-64K Extended Thinking

得分:

84.8

发布时间:

2025-02-25

参数规模(亿):

未知

Grok-3 - Reasoning Beta

得分:

84.6

发布时间:

2025-02-18

参数规模(亿):

未知

Gemini 2.5 Pro Experimental 03-25

得分:

84.0

发布时间:

2025-03-25

参数规模(亿):

0.0

o3-pro

得分:

84.0

发布时间:

2025-06-10

参数规模(亿):

未知

Grok-3 mini - Reasoning

得分:

84.0

发布时间:

2025-02-18

参数规模(亿):

未知

OpenAI o3

得分:

83.3

发布时间:

2025-04-16

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-05-06

得分:

83.0

发布时间:

2025-05-06

参数规模(亿):

未知

OpenAI o4 - mini

得分:

81.4

发布时间:

2025-04-16

参数规模(亿):

未知

DeepSeek-R1-0528

得分:

81.0

发布时间:

2025-05-28

参数规模(亿):

6850.0

Grok 3

得分:

80.4

发布时间:

2025-02-17

参数规模(亿):

未知

OpenAI o3-mini (high)

得分:

79.7

发布时间:

2025-01-31

参数规模(亿):

未知

Claude Opus 4

得分:

79.6

发布时间:

2025-05-23

参数规模(亿):

未知

Gemini 2.5 Flash

得分:

78.3

发布时间:

2025-04-17

参数规模(亿):

未知

OpenAI o1

得分:

77.3

发布时间:

2024-12-05

参数规模(亿):

未知

Claude Sonnet 4

得分:

75.4

发布时间:

2025-05-23

参数规模(亿):

未知

Llama 4 Behemoth Instruct

得分:

73.7

发布时间:

2025-04-05

参数规模(亿):

20000.0

DeepSeek-R1

得分:

71.5

发布时间:

2025-01-20

参数规模(亿):

6710.0

GPT-4.5

得分:

71.4

发布时间:

2025-02-28

参数规模(亿):

未知

Qwen3-235B-A22B

得分:

71.1

发布时间:

2025-04-28

参数规模(亿):

2350.0

Magistral-Medium-2506

得分:

70.83

发布时间:

2025-06-10

参数规模(亿):

未知

MiniMax-M1-80k

得分:

70.0

发布时间:

2025-06-16

参数规模(亿):

4560.0

Llama 4 Maverick Instruct

得分:

69.8

发布时间:

2025-04-05

参数规模(亿):

4000.0

Hunyuan-T1

得分:

69.3

发布时间:

2025-03-21

参数规模(亿):

0.0

MiniMax-M1-40k

得分:

69.2

发布时间:

2025-06-16

参数规模(亿):

4560.0

DeepSeek-V3-0324

得分:

68.4

发布时间:

2025-03-24

参数规模(亿):

6810.0

Magistral-Small-2506

得分:

68.18

发布时间:

2025-06-10

参数规模(亿):

240.0

Claude Sonnet 3.7

得分:

68.0

发布时间:

2025-02-25

参数规模(亿):

未知

Gemini 2.5 Flash-Lite

得分:

66.7

发布时间:

2025-06-17

参数规模(亿):

未知

GPT-4.1

得分:

66.3

发布时间:

2025-04-14

参数规模(亿):

未知

DeepSeek-R1-Distill-Llama-70B

得分:

65.2

发布时间:

2025-01-20

参数规模(亿):

700.0

Gemini 2.0 Flash Experimental

得分:

65.2

发布时间:

2024-12-11

参数规模(亿):

未知

GPT-4.1 mini

得分:

65.0

发布时间:

2025-04-14

参数规模(亿):

未知

Claude 3.5 Sonnet New

得分:

65.0

发布时间:

2024-10-22

参数规模(亿):

0.0

Grok 3 mini

得分:

65.0

发布时间:

2025-02-18

参数规模(亿):

未知

Gemini 2.0 Pro Experimental

得分:

64.7

发布时间:

2025-02-05

参数规模(亿):

未知

OpenAI o1-mini

得分:

60.0

发布时间:

2024-09-12

参数规模(亿):

未知

Claude 3.5 Sonnet

得分:

59.4

发布时间:

2024-06-21

参数规模(亿):

未知

DeepSeek-V3

得分:

59.1

发布时间:

2024-12-26

参数规模(亿):

6810.0

QwQ-32B

得分:

58.0

发布时间:

2025-03-06

参数规模(亿):

325.0

Hunyuan-TurboS

得分:

57.5

发布时间:

2025-03-10

参数规模(亿):

未知

Llama 4 Scout Instruct

得分:

57.2

发布时间:

2025-04-05

参数规模(亿):

1090.0

Grok 2

得分:

56.0

发布时间:

2024-08-13

参数规模(亿):

未知

GPT-4o

得分:

53.6

发布时间:

2024-05-13

参数规模(亿):

未知

Gemini 1.5 Pro

得分:

53.5

发布时间:

2024-02-15

参数规模(亿):

0.0

Gemini 2.0 Flash-Lite

得分:

51.5

发布时间:

2025-02-05

参数规模(亿):

未知

Llama3.3-70B-Instruct

得分:

50.5

发布时间:

2024-12-06

参数规模(亿):

700.0

Claude3-Opus

得分:

50.4

发布时间:

2024-03-04

参数规模(亿):

0.0

GPT-4.1 nano

得分:

50.3

发布时间:

2025-04-14

参数规模(亿):

未知

DeepSeek-R1-Distill-Qwen-7B

得分:

49.5

发布时间:

2025-01-20

参数规模(亿):

70.0

Phi-4-instruct (reasoning-trained)

得分:

49.0

发布时间:

2025-02-27

参数规模(亿):

38.0

Llama3.1-405B Instruct

得分:

49.0

发布时间:

2024-07-23

参数规模(亿):

4050.0

Llama3.1-70B-Instruct

得分:

48.0

发布时间:

2024-07-23

参数规模(亿):

700.0

Mistral-Small-3.1-24B-Instruct-2503

得分:

45.96

发布时间:

2025-03-17

参数规模(亿):

240.0

Qwen2.5-72B

得分:

45.9

发布时间:

2024-09-18

参数规模(亿):

727.0

Gemma 3 - 27B (IT)

得分:

42.4

发布时间:

2025-03-12

参数规模(亿):

270.0

Claude 3.5 Haiku

得分:

41.6

发布时间:

2024-10-22

参数规模(亿):

0.0

GPT-4o mini

得分:

41.1

发布时间:

2024-07-18

参数规模(亿):

0.0

Gemma 3 - 12B (IT)

得分:

40.9

发布时间:

2025-03-12

参数规模(亿):

120.0

Qwen2.5-7B

得分:

36.4

发布时间:

2024-09-18

参数规模(亿):

70.0

Phi-4-mini-instruct (3.8B)

得分:

36.0

发布时间:

2025-02-27

参数规模(亿):

38.0

Grok-1.5

得分:

35.9

发布时间:

2024-03-29

参数规模(亿):

未知

C4AI Aya Vision 32B

得分:

33.84

发布时间:

2025-03-04

参数规模(亿):

320.0

Gemma 2 - 9B

得分:

32.8

发布时间:

2024-06-27

参数规模(亿):

90.0

Llama-3.2-3B

得分:

26.6

发布时间:

2024-09-18

参数规模(亿):

32.0

Llama3.1-8B-Instruct

得分:

26.3

发布时间:

2024-07-23

参数规模(亿):

80.0

Llama3.1-8B

得分:

25.8

发布时间:

2024-07-23

参数规模(亿):

80.0

Mistral-7B-Instruct-v0.3

得分:

24.7

发布时间:

2024-05-22

参数规模(亿):

70.0

Qwen2.5-3B

得分:

24.3

发布时间:

2024-09-18

参数规模(亿):

30.0

Amazon Nova Pro

得分:

0.0

发布时间:

2024-12-03

参数规模(亿):

未知