MMLU
知识问答
  • 一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。
  • Advanced
  • 英语
  • University of California, Berkeley
MMLU Pro
知识问答
  • MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。
  • Expert
  • 英语
  • University of California, Berkeley
GSM8K
数学推理
  • 一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。
  • Intermediate
  • 英语
  • Google
HumanEval
代码生成
  • 一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。
  • Advanced
  • Python
  • OpenAI
MBPP
代码生成
  • 一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。
  • Basic
  • Python
  • Google
HellaSwag
常识推理
  • 一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。
  • Intermediate
  • 英语
  • University of Washington
ARC
常识推理
  • 一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。
  • Advanced
  • 英语
  • Allen Institute for AI
TruthfulQA
真实性评估
  • 一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。
  • Advanced
  • 英语
  • Google
BIG-bench
综合评估
  • 一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。
  • Advanced
  • 多语言
  • Google
C-Eval
知识问答
  • 一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。
  • Advanced
  • 中文
  • 清华大学等
SuperGLUE
自然语言理解
  • 一个包含 8 个自然语言理解任务的基准,旨在评估模型在复杂的语言理解和推理任务上的性能。
  • Advanced
  • 英语
  • NYU & Facebook AI
DROP
阅读理解
  • 一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。
  • Advanced
  • 英语
  • Allen Institute for AI
MATH
数学推理
  • 一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。
  • Expert
  • 英语
  • Google
BBH
综合评估
  • BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。
  • Expert
  • 英语
  • Google