MMLU

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。

英语难度：Advanced

问题数量

15000

机构

University of California, Berkeley

类别

知识问答

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

MMLU基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...