大模型评测基准榜单 | MMLU, MMLU Pro, GSM8K, HumanEval等主流大模型评测数据集 | 数据学习 (DataLearner)

业界主流大模型评测基准

本页面汇总了当前业界主流的大模型评测基准，包括 MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台，帮助大家了解不同大模型在各种评测数据集上的性能表现。你可以通过浏览这些基准的详细信息，深入了解大模型在知识问答、数学推理、代码生成等方面的优劣，以便更好地选择和优化你的模型。

大模型在评测基准的详细评测结果：主流大模型评测基准榜单

MMLU

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。
Advanced
英语
University of California, Berkeley

MMLU Pro

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。
高难度
英文
Berkeley Artificial Intelligence Research

GSM8K

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。
Intermediate
英语
Google

HumanEval

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。
Advanced
Python
OpenAI

MBPP

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。
Basic
Python
Google

HellaSwag

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。
Intermediate
英语
University of Washington

ARC

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。
Advanced
英语
Allen Institute for AI

TruthfulQA

真实性评估

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。
Advanced
英语
Google

BIG-bench

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。
Advanced
多语言
Google

C-Eval

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。
Advanced
中文
清华大学等

SuperGLUE

自然语言理解

一个包含 8 个自然语言理解任务的基准，旨在评估模型在复杂的语言理解和推理任务上的性能。
Advanced
英语
NYU & Facebook AI

DROP

一个需要模型进行离散推理的阅读理解基准，包括计数、比较和排序等操作。
Advanced
英语
Allen Institute for AI

MATH

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。
Expert
英语
Google

BBH

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。
Expert
英语
Google

ARC-AGI

Keras创始人创建的通用人工智能评测系统
难
英语
François Chollet

HLE

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准
高难度
英文
Center for AI Safety

GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。
中等难度
英文
CohereAI

SimpleQA

真实性评估

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度
高难度
英文
OpenAI

SWE-bench

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集
高难度
英文
普林斯顿大学

SWE-bench Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测
高难度
英文
OpenAI

MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准
高难度
英文
OpenAI

AIME 2024

AIME全称是American Invitational Mathematics Examination，即美国数学邀请赛，是美国面向中学生的邀请式竞赛，3个小时完成15道题，难度很高。
高难度
英文
个人

IC SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准
高难度
英文
OpenAI

SWE Manager Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准
高难度
英文
OpenAI

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台，通过来自顶级竞赛平台的高难度编程任务，全面评估大型语言模型在复杂编码场景中的能力。
高难度
多语言
UC Berkeley

GPQA

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准
高难度
英文
CohereAI

AIME2025

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力
高难度
英文
个人