大模型评测基准榜单 | MMLU, MMLU Pro, GSM8K, HumanEval等主流大模型评测数据集 | 数据学习 (DataLearner)

MMLU

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。
Advanced
英语
University of California, Berkeley

MMLU Pro

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。
Expert
英语
University of California, Berkeley

GSM8K

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。
Intermediate
英语
Google

HumanEval

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。
Advanced
Python
OpenAI

MBPP

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。
Basic
Python
Google

HellaSwag

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。
Intermediate
英语
University of Washington

ARC

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。
Advanced
英语
Allen Institute for AI

TruthfulQA

真实性评估

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。
Advanced
英语
Google

BIG-bench

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。
Advanced
多语言
Google

C-Eval

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。
Advanced
中文
清华大学等

SuperGLUE

自然语言理解

一个包含 8 个自然语言理解任务的基准，旨在评估模型在复杂的语言理解和推理任务上的性能。
Advanced
英语
NYU & Facebook AI

DROP

一个需要模型进行离散推理的阅读理解基准，包括计数、比较和排序等操作。
Advanced
英语
Allen Institute for AI

MATH

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。
Expert
英语
Google

BBH

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。
Expert
英语
Google

ARC-AGI

Keras创始人创建的通用人工智能评测系统
难
英语
François Chollet