SimpleQA

SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度

英文 难度:高难度
问题数量

4326

机构

OpenAI

类别

真实性评估

评估指标

Accuracy

SimpleQA基准测试简介

2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...