大模型MMLU Pro评测基准详情以及最新排行结果

MMLU Pro

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

英文难度：高难度

MMLU Pro基准测试简介

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...

模型简称

得分

发布机构

发布时间

参数规模（亿）

加载中...

MMLU Pro

问题数量

机构

类别

评估指标

MMLU Pro基准测试简介