通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。
GPQA Diamond
GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。
198
CohereAI
常识推理
Accuracy
通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Claude Sonnet 3.7-64K Extended Thinking | 84.8 |
![]() |
2025-02-25 | 未知 |
Grok-3 - Reasoning Beta | 84.6 |
|
2025-02-18 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 84.0 |
![]() |
2025-03-25 | 0.0 |
Grok-3 mini - Reasoning | 84.0 |
|
2025-02-18 | 未知 |
OpenAI o3 | 83.3 |
![]() |
2025-04-16 | 未知 |
OpenAI o4 - mini | 81.4 |
![]() |
2025-04-16 | 未知 |
Grok 3 | 80.2 |
|
2025-02-17 | 未知 |
OpenAI o3-mini (high) | 79.7 |
![]() |
2025-01-31 | 未知 |
Gemini 2.5 Flash | 78.3 |
![]() |
2025-04-17 | 未知 |
OpenAI o1 | 77.3 |
![]() |
2024-12-05 | 未知 |
Llama 4 Behemoth Instruct | 73.7 |
![]() |
2025-04-05 | 20000.0 |
DeepSeek-R1 | 71.5 |
![]() |
2025-01-20 | 6710.0 |
GPT-4.5 | 71.4 |
![]() |
2025-02-28 | 未知 |
Llama 4 Maverick Instruct | 69.8 |
![]() |
2025-04-05 | 4000.0 |
Hunyuan-T1 | 69.3 |
![]() |
2025-03-21 | 0.0 |
DeepSeek-V3-0324 | 68.4 |
![]() |
2025-03-24 | 6810.0 |
Claude Sonnet 3.7 | 68.0 |
![]() |
2025-02-25 | 未知 |
GPT-4.1 | 66.3 |
![]() |
2025-04-14 | 未知 |
DeepSeek-R1-Distill-Llama-70B | 65.2 |
![]() |
2025-01-20 | 700.0 |
GPT-4.1 mini | 65.0 |
![]() |
2025-04-14 | 未知 |
Claude 3.5 Sonnet New | 65.0 |
![]() |
2024-10-22 | 0.0 |
Grok 3 mini | 65.0 |
|
2025-02-18 | 未知 |
Gemini 2.0 Pro Experimental | 64.7 |
![]() |
2025-02-05 | 未知 |
OpenAI o1-mini | 60.0 |
![]() |
2024-09-12 | 未知 |
Claude 3.5 Sonnet | 59.4 |
![]() |
2024-06-21 | 未知 |
DeepSeek-V3 | 59.1 |
![]() |
2024-12-26 | 6810.0 |
QwQ-32B | 58.0 |
![]() |
2025-03-06 | 325.0 |
Hunyuan-TurboS | 57.5 |
![]() |
2025-03-10 | 未知 |
Llama 4 Scout Instruct | 57.2 |
![]() |
2025-04-05 | 1090.0 |
Grok 2 | 56.0 |
|
2024-08-13 | 未知 |
GPT-4o | 53.6 |
![]() |
2024-05-13 | 未知 |
Gemini 1.5 Pro | 53.5 |
![]() |
2024-02-15 | 0.0 |
Llama3.3-70B-Instruct | 50.5 |
![]() |
2024-12-06 | 700.0 |
Claude3-Opus | 50.4 |
![]() |
2024-03-04 | 0.0 |
GPT-4.1 nano | 50.3 |
![]() |
2025-04-14 | 未知 |
DeepSeek-R1-Distill-Qwen-7B | 49.5 |
![]() |
2025-01-20 | 70.0 |
Phi-4-instruct (reasoning-trained) | 49.0 |
![]() |
2025-02-27 | 38.0 |
Llama3.1-405B Instruct | 49.0 |
![]() |
2024-07-23 | 4050.0 |
Llama3.1-70B-Instruct | 48.0 |
![]() |
2024-07-23 | 700.0 |
Mistral-Small-3.1-24B-Instruct-2503 | 45.96 |
![]() |
2025-03-17 | 240.0 |
Qwen2.5-72B | 45.9 |
![]() |
2024-09-18 | 727.0 |
Gemma 3 - 27B (IT) | 42.4 |
![]() |
2025-03-12 | 270.0 |
Claude 3.5 Haiku | 41.6 |
![]() |
2024-10-22 | 0.0 |
GPT-4o mini | 41.1 |
![]() |
2024-07-18 | 0.0 |
Gemma 3 - 12B (IT) | 40.9 |
![]() |
2025-03-12 | 120.0 |
Qwen2.5-7B | 36.4 |
![]() |
2024-09-18 | 70.0 |
Phi-4-mini-instruct (3.8B) | 36.0 |
![]() |
2025-02-27 | 38.0 |
Grok-1.5 | 35.9 |
|
2024-03-29 | 未知 |
C4AI Aya Vision 32B | 33.84 |
![]() |
2025-03-04 | 320.0 |
Gemma 2 - 9B | 32.8 |
![]() |
2024-06-27 | 90.0 |
Llama-3.2-3B | 26.6 |
![]() |
2024-09-18 | 32.0 |
Llama3.1-8B-Instruct | 26.3 |
![]() |
2024-07-23 | 80.0 |
Llama3.1-8B | 25.8 |
![]() |
2024-07-23 | 80.0 |
Mistral-7B-Instruct-v0.3 | 24.7 |
![]() |
2024-05-22 | 70.0 |
Qwen2.5-3B | 24.3 |
![]() |
2024-09-18 | 30.0 |
Amazon Nova Pro | 0.0 |
![]() |
2024-12-03 | 未知 |