HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

英文 难度:高难度
问题数量

3000

机构

Center for AI Safety

类别

知识问答

评估指标

Accuracy

HLE基准测试简介

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

模型简称 得分 发布机构 发布时间 参数规模(亿)
OpenAI o3 20.32 OpenAI 2025-04-16 未知
Gemini 2.5 Pro Experimental 03-25 18.8 Google Deep Mind 2025-03-25 0.0
OpenAI o4 - mini 14.28 OpenAI 2025-04-16 未知
Gemini 2.5 Flash 12.1 Google Deep Mind 2025-04-17 未知
OpenAI o1 9.1 OpenAI 2024-12-05 未知
得分:
20.32
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
18.8
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
14.28
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
12.1
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
9.1
发布时间:
2024-12-05
参数规模(亿):
未知