大模型HLE评测基准详情以及最新排行结果

HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

英文难度：高难度

HLE基准测试简介

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...

模型简称

得分

发布机构

发布时间

参数规模（亿）

加载中...

HLE

问题数量

机构

类别

评估指标

HLE基准测试简介