SimpleQA

SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度

英文难度：高难度

问题数量

4326

机构

OpenAI

类别

真实性评估

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

SimpleQA基准测试简介

2024年10月，OpenAI推出了一款名为**SimpleQA**的全新评测基准，旨在解决语言模型生成内容中的“幻觉”问题（即模型生成看似合理但实际错误的信息），并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。

模型简称	得分	发布机构	发布时间	参数规模（亿）
GPT-4.5	62.5		2025-02-28	未知
Grok 3.5	58.1		2025-05-06	未知
Gemini-2.5-Pro-Preview-06-05	54.0		2025-06-05	未知
Gemini-2.5-Pro-Preview-05-06	54.0		2025-05-06	未知
Gemini 2.5 Pro Experimental 03-25	52.9		2025-03-25	0.0
OpenAI o3	49.4		2025-04-16	未知
Gemini 2.0 Pro Experimental	44.3		2025-02-05	未知
Grok 3	43.4		2025-02-17	未知
OpenAI o1	42.6		2024-12-05	未知
GPT-4o(2024-11-20)	38.8		2024-11-20	未知
GPT-4o	38.2		2024-05-13	未知
DeepSeek-R1	30.1		2025-01-20	6710.0
Gemini 2.0 Flash Experimental	29.9		2024-12-11	未知
Gemini 2.5 Flash	29.7		2025-04-17	未知
Claude 3.5 Sonnet New	28.4		2024-10-22	0.0
DeepSeek-R1-0528	27.8		2025-05-28	6850.0
DeepSeek-V3	24.9		2024-12-26	6810.0
Hunyuan-TurboS	22.8		2025-03-10	未知
Gemini 2.0 Flash-Lite	21.7		2025-02-05	未知
MiniMax-M1-80k	18.5		2025-06-16	4560.0
MiniMax-M1-40k	17.9		2025-06-16	4560.0
Llama3.1-405B Instruct	17.1		2024-07-23	4050.0
OpenAI o3-mini (high)	13.8		2025-01-31	未知
Gemini 2.5 Flash-Lite	13.0		2025-06-17	未知
Qwen3-235B-A22B	11.0		2025-04-28	2350.0
Mistral-Small-3.1-24B-Instruct-2503	10.43		2025-03-17	240.0
Gemma 3 - 27B (IT)	10.0		2025-03-12	270.0
GPT-4o mini	9.5		2024-07-18	0.0
Claude 3.5 Haiku	8.02		2024-10-22	0.0
C4AI Aya Vision 32B	7.65		2025-03-04	320.0
Gemma 3 - 12B (IT)	6.3		2025-03-12	120.0

GPT-4.5

得分:

62.5

发布时间:

2025-02-28

参数规模(亿):

未知

Grok 3.5

得分:

58.1

发布时间:

2025-05-06

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-06-05

得分:

54.0

发布时间:

2025-06-05

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-05-06

得分:

54.0

发布时间:

2025-05-06

参数规模(亿):

未知

Gemini 2.5 Pro Experimental 03-25

得分:

52.9

发布时间:

2025-03-25

参数规模(亿):

0.0

OpenAI o3

得分:

49.4

发布时间:

2025-04-16

参数规模(亿):

未知

Gemini 2.0 Pro Experimental

得分:

44.3

发布时间:

2025-02-05

参数规模(亿):

未知

Grok 3

得分:

43.4

发布时间:

2025-02-17

参数规模(亿):

未知

OpenAI o1

得分:

42.6

发布时间:

2024-12-05

参数规模(亿):

未知

GPT-4o(2024-11-20)

得分:

38.8

发布时间:

2024-11-20

参数规模(亿):

未知

GPT-4o

得分:

38.2

发布时间:

2024-05-13

参数规模(亿):

未知

DeepSeek-R1

得分:

30.1

发布时间:

2025-01-20

参数规模(亿):

6710.0

Gemini 2.0 Flash Experimental

得分:

29.9

发布时间:

2024-12-11

参数规模(亿):

未知

Gemini 2.5 Flash

得分:

29.7

发布时间:

2025-04-17

参数规模(亿):

未知

Claude 3.5 Sonnet New

得分:

28.4

发布时间:

2024-10-22

参数规模(亿):

0.0

DeepSeek-R1-0528

得分:

27.8

发布时间:

2025-05-28

参数规模(亿):

6850.0

DeepSeek-V3

得分:

24.9

发布时间:

2024-12-26

参数规模(亿):

6810.0

Hunyuan-TurboS

得分:

22.8

发布时间:

2025-03-10

参数规模(亿):

未知

Gemini 2.0 Flash-Lite

得分:

21.7

发布时间:

2025-02-05

参数规模(亿):

未知

MiniMax-M1-80k

得分:

18.5

发布时间:

2025-06-16

参数规模(亿):

4560.0

MiniMax-M1-40k

得分:

17.9

发布时间:

2025-06-16

参数规模(亿):

4560.0

Llama3.1-405B Instruct

得分:

17.1

发布时间:

2024-07-23

参数规模(亿):

4050.0

OpenAI o3-mini (high)

得分:

13.8

发布时间:

2025-01-31

参数规模(亿):

未知

Gemini 2.5 Flash-Lite

得分:

13.0

发布时间:

2025-06-17

参数规模(亿):

未知

Qwen3-235B-A22B

得分:

11.0

发布时间:

2025-04-28

参数规模(亿):

2350.0

Mistral-Small-3.1-24B-Instruct-2503

得分:

10.43

发布时间:

2025-03-17

参数规模(亿):

240.0

Gemma 3 - 27B (IT)

得分:

10.0

发布时间:

2025-03-12

参数规模(亿):

270.0

GPT-4o mini

得分:

9.5

发布时间:

2024-07-18

参数规模(亿):

0.0

Claude 3.5 Haiku

得分:

8.02

发布时间:

2024-10-22

参数规模(亿):

0.0

C4AI Aya Vision 32B

得分:

7.65

发布时间:

2025-03-04

参数规模(亿):

320.0

Gemma 3 - 12B (IT)

得分:

6.3

发布时间:

2025-03-12

参数规模(亿):

120.0