TruthfulQA

TruthfulQA

一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。

英语 难度:Advanced
问题数量

817

机构

Google

类别

真实性评估

评估指标

Accuracy

TruthfulQA基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
Qwen2.5-72B 60.4 阿里巴巴 2024-09-18 727.0
Amazon Nova Pro 0.0 亚马逊 2024-12-03 未知
Gemini 1.5 Pro 0.0 Google Deep Mind 2024-02-15 0.0
Llama3.1-405B Instruct 0.0 Facebook AI研究实验室 2024-07-23 4050.0
得分:
60.4
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
0.0
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
0.0
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
0.0
发布时间:
2024-07-23
参数规模(亿):
4050.0
Back to Top