大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
HumanEval
代码生成
MATH-500
数学推理
LiveCodeBench
代码生成
参数数量 开源情况 发布机构
Phi-4-mini-instruct (3.8B) 52.80 67.30 88.60 64.00 36.00 74.40 71.80 0.00 38.0 Microsoft
Qwen2.5-3B 34.60 65.60 79.10 42.60 24.30 42.10 0.00 0.00 30.0 阿里巴巴
Llama-3.2-3B 25.00 54.75 34.00 8.50 26.60 28.00 0.00 0.00 32.0 Facebook AI研究实验室
Phi-4-instruct (reasoning-trained) 0.00 0.00 0.00 0.00 49.00 0.00 90.40 0.00 38.0 Microsoft
MMLU Pro
52.80
MMLU
67.30
GSM8K
88.60
MATH
64.00
GPQA Diamond
36.00
HumanEval
74.40
MATH-500
71.80
LiveCodeBench
0.00
MMLU Pro
34.60
MMLU
65.60
GSM8K
79.10
MATH
42.60
GPQA Diamond
24.30
HumanEval
42.10
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
25.00
MMLU
54.75
GSM8K
34.00
MATH
8.50
GPQA Diamond
26.60
HumanEval
28.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
49.00
HumanEval
0.00
MATH-500
90.40
LiveCodeBench
0.00