HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

英文难度：高难度

问题数量

3000

机构

Center for AI Safety

类别

知识问答

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

HLE基准测试简介

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

模型简称	得分	发布时间	参数规模（亿）
OpenAI o3	20.32	2025-04-16	未知
Gemini 2.5 Pro Experimental 03-25	18.8	2025-03-25	0.0
OpenAI o4 - mini	14.28	2025-04-16	未知
Gemini 2.5 Flash	12.1	2025-04-17	未知
OpenAI o1	9.1	2024-12-05	未知