大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
BBH
综合评估
HumanEval
代码生成
MBPP
代码生成
参数数量 开源情况 发布机构
Gemini 1.5 Pro 76.10 87.10 0.00 82.90 53.50 0.00 89.00 87.80 未知 Google Deep Mind
Llama3.1-405B Instruct 73.40 88.60 0.00 73.90 49.00 89.20 89.00 88.60 4050.0 Facebook AI研究实验室
Phi 4 - 14B 70.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 Microsoft
Qwen2.5-32B 69.23 0.00 0.00 0.00 0.00 0.00 0.00 0.00 320.0 阿里巴巴
Llama3.1-70B-Instruct 66.40 86.00 0.00 67.80 48.00 0.00 80.50 86.00 700.0 Facebook AI研究实验室
Qwen2.5-14B 63.69 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 阿里巴巴
GPT-4o mini 63.09 82.00 91.30 70.20 41.10 0.00 87.20 0.00 未知 OpenAI
Claude 3.5 Haiku 62.12 0.00 0.00 0.00 0.00 0.00 0.00 0.00 未知 Anthropic
Llama3.1-405B 61.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4050.0 Facebook AI研究实验室
Gemma 3 - 12B (IT) 60.60 0.00 0.00 83.80 40.90 0.00 0.00 0.00 120.0 Google Deep Mind
Qwen2.5-72B 58.10 86.10 91.50 62.10 45.90 86.30 59.10 84.70 727.0 阿里巴巴
Gemma2-27B 56.54 0.00 0.00 0.00 0.00 0.00 0.00 0.00 270.0 Google Deep Mind
Llama3.1-70B 52.47 0.00 0.00 0.00 0.00 0.00 0.00 0.00 700.0 Facebook AI研究实验室
Qwen2.5-7B 45.00 74.20 85.40 49.80 36.40 0.00 57.90 74.90 70.0 阿里巴巴
Gemma 2 - 9B 44.70 71.30 70.70 37.70 32.80 68.20 37.80 62.20 90.0 Google Research
Llama3.1-8B 35.40 66.60 55.30 20.50 25.80 57.70 33.50 53.90 80.0 Facebook AI研究实验室
Qwen2.5-3B 34.60 65.60 79.10 42.60 24.30 56.30 42.10 57.10 30.0 阿里巴巴
Llama-3.2-3B 25.00 54.75 34.00 8.50 26.60 46.80 28.00 48.70 32.0 Facebook AI研究实验室
Grok 3 mini 0.00 0.00 0.00 0.00 65.00 0.00 0.00 0.00 未知 xAI
MMLU Pro
76.10
MMLU
87.10
GSM8K
0.00
MATH
82.90
GPQA Diamond
53.50
BBH
0.00
HumanEval
89.00
MBPP
87.80
MMLU Pro
73.40
MMLU
88.60
GSM8K
0.00
MATH
73.90
GPQA Diamond
49.00
BBH
89.20
HumanEval
89.00
MBPP
88.60
MMLU Pro
70.40
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
69.23
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
66.40
MMLU
86.00
GSM8K
0.00
MATH
67.80
GPQA Diamond
48.00
BBH
0.00
HumanEval
80.50
MBPP
86.00
MMLU Pro
63.69
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
63.09
MMLU
82.00
GSM8K
91.30
MATH
70.20
GPQA Diamond
41.10
BBH
0.00
HumanEval
87.20
MBPP
0.00
MMLU Pro
62.12
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
61.60
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
60.60
MMLU
0.00
GSM8K
0.00
MATH
83.80
GPQA Diamond
40.90
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
58.10
MMLU
86.10
GSM8K
91.50
MATH
62.10
GPQA Diamond
45.90
BBH
86.30
HumanEval
59.10
MBPP
84.70
MMLU Pro
56.54
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
52.47
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
45.00
MMLU
74.20
GSM8K
85.40
MATH
49.80
GPQA Diamond
36.40
BBH
0.00
HumanEval
57.90
MBPP
74.90
MMLU Pro
44.70
MMLU
71.30
GSM8K
70.70
MATH
37.70
GPQA Diamond
32.80
BBH
68.20
HumanEval
37.80
MBPP
62.20
MMLU Pro
35.40
MMLU
66.60
GSM8K
55.30
MATH
20.50
GPQA Diamond
25.80
BBH
57.70
HumanEval
33.50
MBPP
53.90
MMLU Pro
34.60
MMLU
65.60
GSM8K
79.10
MATH
42.60
GPQA Diamond
24.30
BBH
56.30
HumanEval
42.10
MBPP
57.10
MMLU Pro
25.00
MMLU
54.75
GSM8K
34.00
MATH
8.50
GPQA Diamond
26.60
BBH
46.80
HumanEval
28.00
MBPP
48.70
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
65.00
BBH
0.00
HumanEval
0.00
MBPP
0.00