大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
HumanEval
代码生成
MATH-500
数学推理
LiveCodeBench
代码生成
参数数量 开源情况 发布机构
Phi 4 - 14B 70.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 Microsoft
Qwen2.5-14B 63.69 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 阿里巴巴
Gemma 3 - 12B (IT) 60.60 0.00 0.00 83.80 40.90 0.00 0.00 24.60 120.0 Google Deep Mind
Moonlight-16B-A3B-Instruct 42.40 70.00 77.40 45.30 0.00 48.10 0.00 0.00 160.0 Moonshot AI
MMLU Pro
70.40
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
63.69
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
60.60
MMLU
0.00
GSM8K
0.00
MATH
83.80
GPQA Diamond
40.90
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
24.60
MMLU Pro
42.40
MMLU
70.00
GSM8K
77.40
MATH
45.30
GPQA Diamond
0.00
HumanEval
48.10
MATH-500
0.00
LiveCodeBench
0.00