2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。
SimpleQA
OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度
4326
OpenAI
真实性评估
Accuracy
2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
GPT-4.5 | 62.5 |
![]() |
2025-02-28 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 52.9 |
![]() |
2025-03-25 | 0.0 |
Gemini 2.0 Pro Experimental | 44.3 |
![]() |
2025-02-05 | 未知 |
Grok 3 | 43.6 |
|
2025-02-17 | 未知 |
OpenAI o1 | 42.6 |
![]() |
2024-12-05 | 未知 |
GPT-4o(2024-11-20) | 38.8 |
![]() |
2024-11-20 | 未知 |
GPT-4o | 38.2 |
![]() |
2024-05-13 | 未知 |
DeepSeek-R1 | 30.1 |
![]() |
2025-01-20 | 6710.0 |
Gemini 2.5 Flash | 29.7 |
![]() |
2025-04-17 | 未知 |
Claude 3.5 Sonnet New | 28.4 |
![]() |
2024-10-22 | 0.0 |
DeepSeek-V3 | 24.9 |
![]() |
2024-12-26 | 6810.0 |
Hunyuan-TurboS | 22.8 |
![]() |
2025-03-10 | 未知 |
Llama3.1-405B Instruct | 17.1 |
![]() |
2024-07-23 | 4050.0 |
OpenAI o3-mini (high) | 13.8 |
![]() |
2025-01-31 | 未知 |
Mistral-Small-3.1-24B-Instruct-2503 | 10.43 |
![]() |
2025-03-17 | 240.0 |
Gemma 3 - 27B (IT) | 10.0 |
![]() |
2025-03-12 | 270.0 |
GPT-4o mini | 9.5 |
![]() |
2024-07-18 | 0.0 |
Claude 3.5 Haiku | 8.02 |
![]() |
2024-10-22 | 0.0 |
C4AI Aya Vision 32B | 7.65 |
![]() |
2025-03-04 | 320.0 |
Gemma 3 - 12B (IT) | 6.3 |
![]() |
2025-03-12 | 120.0 |