MMLU
知识问答
  • 一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。
  • Advanced
  • 英语
  • University of California, Berkeley
MMLU Pro
知识问答
  • MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。
  • 高难度
  • 英文
  • Berkeley Artificial Intelligence Research
GSM8K
数学推理
  • 一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。
  • Intermediate
  • 英语
  • Google
HumanEval
代码生成
  • 一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。
  • Advanced
  • Python
  • OpenAI
MBPP
代码生成
  • 一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。
  • Basic
  • Python
  • Google
HellaSwag
常识推理
  • 一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。
  • Intermediate
  • 英语
  • University of Washington
ARC
常识推理
  • 一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。
  • Advanced
  • 英语
  • Allen Institute for AI
TruthfulQA
真实性评估
  • 一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。
  • Advanced
  • 英语
  • Google
BIG-bench
综合评估
  • 一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。
  • Advanced
  • 多语言
  • Google
C-Eval
知识问答
  • 一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。
  • Advanced
  • 中文
  • 清华大学等
SuperGLUE
自然语言理解
  • 一个包含 8 个自然语言理解任务的基准,旨在评估模型在复杂的语言理解和推理任务上的性能。
  • Advanced
  • 英语
  • NYU & Facebook AI
DROP
阅读理解
  • 一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。
  • Advanced
  • 英语
  • Allen Institute for AI
MATH
数学推理
  • 一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。
  • Expert
  • 英语
  • Google
BBH
综合评估
  • BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。
  • Expert
  • 英语
  • Google
ARC-AGI
通用知识
  • Keras创始人创建的通用人工智能评测系统
  • 英语
  • François Chollet
HLE
知识问答
  • 研究生水平以上的超高难度、覆盖超多学科的大模型评测基准
  • 高难度
  • 英文
  • Center for AI Safety
GPQA Diamond
常识推理
  • GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。
  • 中等难度
  • 英文
  • CohereAI
SimpleQA
真实性评估
  • OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度
  • 高难度
  • 英文
  • OpenAI
SWE-bench
代码生成
  • 一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集
  • 高难度
  • 英文
  • 普林斯顿大学
SWE-bench Verified
代码生成
  • OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测
  • 高难度
  • 英文
  • OpenAI
MATH-500
数学推理
  • OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准
  • 高难度
  • 英文
  • OpenAI
AIME 2024
数学推理
  • AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
  • 高难度
  • 英文
  • 个人
IC SWE-Lancer(Diamond)
代码生成
  • OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准
  • 高难度
  • 英文
  • OpenAI
SWE Manager Lancer(Diamond)
代码生成
  • OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准
  • 高难度
  • 英文
  • OpenAI