TruthfulQA

TruthfulQA

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。

英语难度：Advanced

问题数量

817

机构

Google

类别

真实性评估

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

TruthfulQA基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）
Qwen2.5-72B	60.4		2024-09-18	727.0
Amazon Nova Pro	0.0		2024-12-03	未知
Gemini 1.5 Pro	0.0		2024-02-15	0.0
Llama3.1-405B Instruct	0.0		2024-07-23	4050.0

Qwen2.5-72B

得分:

60.4

发布时间:

2024-09-18

参数规模(亿):

727.0

Amazon Nova Pro

得分:

0.0

发布时间:

2024-12-03

参数规模(亿):

未知

Gemini 1.5 Pro

得分:

0.0

发布时间:

2024-02-15

参数规模(亿):

0.0

Llama3.1-405B Instruct

得分:

0.0

发布时间:

2024-07-23

参数规模(亿):

4050.0