TruthfulQA
一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Qwen2.5-72B | 60.4 |
|
2024-09-18 | 727.0 |
Amazon Nova Pro | 0.0 |
|
2024-12-03 | 未知 |
Gemini 1.5 Pro | 0.0 |
|
2024-02-15 | 0.0 |
Llama3.1-405B Instruct | 0.0 |
|
2024-07-23 | 4050.0 |