大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
HumanEval
代码生成
MATH-500
数学推理
LiveCodeBench
代码生成
参数数量 开源情况 发布机构
Gemini 1.5 Pro 76.10 87.10 0.00 82.90 53.50 89.00 0.00 0.00 未知 Google Deep Mind
Llama3.1-405B Instruct 73.40 88.60 0.00 73.90 49.00 89.00 0.00 30.20 4050.0 Facebook AI研究实验室
Phi 4 - 14B 70.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 Microsoft
Qwen2.5-32B 69.23 83.30 95.90 83.10 0.00 88.40 0.00 51.20 320.0 阿里巴巴
Mistral-Small-3.1-24B-Instruct-2503 66.76 80.62 0.00 69.30 45.96 88.41 0.00 0.00 240.0 MistralAI
Llama3.1-70B-Instruct 66.40 86.00 0.00 67.80 48.00 80.50 0.00 33.30 700.0 Facebook AI研究实验室
Claude 3.5 Haiku 65.00 77.60 0.00 69.20 41.60 88.10 0.00 0.00 未知 Anthropic
Qwen2.5-14B 63.69 0.00 0.00 0.00 0.00 0.00 0.00 0.00 140.0 阿里巴巴
GPT-4o mini 61.70 82.00 91.30 70.20 41.10 87.20 0.00 0.00 未知 OpenAI
Llama3.1-405B 61.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4050.0 Facebook AI研究实验室
Gemma 3 - 12B (IT) 60.60 0.00 0.00 83.80 40.90 0.00 0.00 24.60 120.0 Google Deep Mind
Qwen2.5-72B 58.10 86.10 91.50 62.10 45.90 59.10 0.00 0.00 727.0 阿里巴巴
Gemma2-27B 56.54 0.00 0.00 0.00 0.00 0.00 0.00 0.00 270.0 Google Deep Mind
Llama3.1-70B 52.47 0.00 0.00 0.00 0.00 0.00 0.00 0.00 700.0 Facebook AI研究实验室
Qwen2.5-7B 45.00 74.20 85.40 49.80 36.40 57.90 0.00 0.00 70.0 阿里巴巴
Gemma 2 - 9B 44.70 71.30 70.70 37.70 32.80 37.80 0.00 0.00 90.0 Google Research
Llama3.1-8B 35.40 66.60 55.30 20.50 25.80 33.50 0.00 0.00 80.0 Facebook AI研究实验室
Qwen2.5-3B 34.60 65.60 79.10 42.60 24.30 42.10 0.00 0.00 30.0 阿里巴巴
Llama-3.2-3B 25.00 54.75 34.00 8.50 26.60 28.00 0.00 0.00 32.0 Facebook AI研究实验室
Grok 3 mini 0.00 0.00 0.00 0.00 65.00 0.00 0.00 0.00 未知 xAI
MMLU Pro
76.10
MMLU
87.10
GSM8K
0.00
MATH
82.90
GPQA Diamond
53.50
HumanEval
89.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
73.40
MMLU
88.60
GSM8K
0.00
MATH
73.90
GPQA Diamond
49.00
HumanEval
89.00
MATH-500
0.00
LiveCodeBench
30.20
MMLU Pro
70.40
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
69.23
MMLU
83.30
GSM8K
95.90
MATH
83.10
GPQA Diamond
0.00
HumanEval
88.40
MATH-500
0.00
LiveCodeBench
51.20
MMLU Pro
66.76
MMLU
80.62
GSM8K
0.00
MATH
69.30
GPQA Diamond
45.96
HumanEval
88.41
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
66.40
MMLU
86.00
GSM8K
0.00
MATH
67.80
GPQA Diamond
48.00
HumanEval
80.50
MATH-500
0.00
LiveCodeBench
33.30
MMLU Pro
65.00
MMLU
77.60
GSM8K
0.00
MATH
69.20
GPQA Diamond
41.60
HumanEval
88.10
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
63.69
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
61.70
MMLU
82.00
GSM8K
91.30
MATH
70.20
GPQA Diamond
41.10
HumanEval
87.20
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
61.60
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
60.60
MMLU
0.00
GSM8K
0.00
MATH
83.80
GPQA Diamond
40.90
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
24.60
MMLU Pro
58.10
MMLU
86.10
GSM8K
91.50
MATH
62.10
GPQA Diamond
45.90
HumanEval
59.10
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
56.54
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
52.47
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
45.00
MMLU
74.20
GSM8K
85.40
MATH
49.80
GPQA Diamond
36.40
HumanEval
57.90
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
44.70
MMLU
71.30
GSM8K
70.70
MATH
37.70
GPQA Diamond
32.80
HumanEval
37.80
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
35.40
MMLU
66.60
GSM8K
55.30
MATH
20.50
GPQA Diamond
25.80
HumanEval
33.50
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
34.60
MMLU
65.60
GSM8K
79.10
MATH
42.60
GPQA Diamond
24.30
HumanEval
42.10
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
25.00
MMLU
54.75
GSM8K
34.00
MATH
8.50
GPQA Diamond
26.60
HumanEval
28.00
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
65.00
HumanEval
0.00
MATH-500
0.00
LiveCodeBench
0.00