SimpleQA

SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度

英文 难度:高难度
问题数量

4326

机构

OpenAI

类别

真实性评估

评估指标

Accuracy

SimpleQA基准测试简介

2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。

模型简称 得分 发布机构 发布时间 参数规模(亿)
GPT-4.5 62.5 OpenAI 2025-02-28 未知
Gemini 2.5 Pro Experimental 03-25 52.9 Google Deep Mind 2025-03-25 0.0
Gemini 2.0 Pro Experimental 44.3 DeepMind 2025-02-05 未知
Grok 3 43.6 xAI 2025-02-17 未知
OpenAI o1 42.6 OpenAI 2024-12-05 未知
GPT-4o(2024-11-20) 38.8 OpenAI 2024-11-20 未知
GPT-4o 38.2 OpenAI 2024-05-13 未知
DeepSeek-R1 30.1 DeepSeek-AI 2025-01-20 6710.0
Gemini 2.5 Flash 29.7 Google Deep Mind 2025-04-17 未知
Claude 3.5 Sonnet New 28.4 Anthropic 2024-10-22 0.0
DeepSeek-V3 24.9 DeepSeek-AI 2024-12-26 6810.0
Hunyuan-TurboS 22.8 腾讯AI实验室 2025-03-10 未知
Llama3.1-405B Instruct 17.1 Facebook AI研究实验室 2024-07-23 4050.0
OpenAI o3-mini (high) 13.8 OpenAI 2025-01-31 未知
Mistral-Small-3.1-24B-Instruct-2503 10.43 MistralAI 2025-03-17 240.0
Gemma 3 - 27B (IT) 10.0 Google Deep Mind 2025-03-12 270.0
GPT-4o mini 9.5 OpenAI 2024-07-18 0.0
Claude 3.5 Haiku 8.02 Anthropic 2024-10-22 0.0
C4AI Aya Vision 32B 7.65 CohereAI 2025-03-04 320.0
Gemma 3 - 12B (IT) 6.3 Google Deep Mind 2025-03-12 120.0
得分:
62.5
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
52.9
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
44.3
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
43.6
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
42.6
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
38.8
发布时间:
2024-11-20
参数规模(亿):
未知
得分:
38.2
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
30.1
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
29.7
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
28.4
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
24.9
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
22.8
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
17.1
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
13.8
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
10.43
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
10.0
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
9.5
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
8.02
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
7.65
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
6.3
发布时间:
2025-03-12
参数规模(亿):
120.0