ARC

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。

英语难度：Advanced

问题数量

7787

机构

Allen Institute for AI

类别

常识推理

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

ARC基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）
Gemma 2 - 9B	68.2		2024-06-27	90.0
Qwen2.5-7B	63.7		2024-09-18	70.0
Mistral-7B-Instruct-v0.3	60.0		2024-05-22	70.0
Llama3.1-8B	59.3		2024-07-23	80.0

Gemma 2 - 9B

得分:

68.2

发布时间:

2024-06-27

参数规模(亿):

90.0

Qwen2.5-7B

得分:

63.7

发布时间:

2024-09-18

参数规模(亿):

70.0

Mistral-7B-Instruct-v0.3

得分:

60.0

发布时间:

2024-05-22

参数规模(亿):

70.0

Llama3.1-8B

得分:

59.3

发布时间:

2024-07-23

参数规模(亿):

80.0