ARC

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。

英语 难度:Advanced
问题数量

7787

机构

Allen Institute for AI

类别

常识推理

评估指标

Accuracy

ARC基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
Gemma 2 - 9B 68.2 Google Research 2024-06-27 90.0
Qwen2.5-7B 63.7 阿里巴巴 2024-09-18 70.0
Mistral-7B-Instruct-v0.3 60.0 MistralAI 2024-05-22 70.0
Llama3.1-8B 59.3 Facebook AI研究实验室 2024-07-23 80.0
得分:
68.2
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
63.7
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
60.0
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
59.3
发布时间:
2024-07-23
参数规模(亿):
80.0