AI2 Reasoning Challenge
一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。
7787
Allen Institute for AI
常识推理
Accuracy
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Gemma 2 - 9B | 68.2 |
![]() |
2024-06-27 | 90.0 |
Qwen2.5-7B | 63.7 |
![]() |
2024-09-18 | 70.0 |
Mistral-7B-Instruct-v0.3 | 60.0 |
![]() |
2024-05-22 | 70.0 |
Llama3.1-8B | 59.3 |
![]() |
2024-07-23 | 80.0 |