SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度

英文难度：高难度

4326

OpenAI

真实性评估

Accuracy

SimpleQA基准测试简介

2024年10月，OpenAI推出了一款名为**SimpleQA**的全新评测基准，旨在解决语言模型生成内容中的“幻觉”问题（即模型生成看似合理但实际错误的信息），并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...