大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
BBH
综合评估
HumanEval
代码生成
MBPP
代码生成
参数数量 开源情况 发布机构
OpenAI o1 91.04 91.80 0.00 96.40 77.30 0.00 0.00 0.00 未知 OpenAI
DeepSeek-R1 84.00 90.80 0.00 0.00 71.50 0.00 0.00 0.00 6710.0 DeepSeek-AI
OpenAI o1-mini 80.30 85.20 0.00 0.00 60.00 0.00 92.40 0.00 未知 OpenAI
Hunyuan-TurboS 79.00 89.50 0.00 89.70 57.50 92.20 91.00 0.00 未知 腾讯AI实验室
QwQ-32B 76.00 0.00 0.00 0.00 58.00 0.00 19.00 0.00 325.0 阿里巴巴
QwQ-32B-Preview 70.97 0.00 0.00 0.00 0.00 0.00 0.00 0.00 320.0 阿里巴巴
DeepSeek-R1-Distill-Llama-70B 0.00 0.00 0.00 0.00 65.20 0.00 0.00 0.00 700.0 DeepSeek-AI
OpenAI o3-mini (high) 0.00 86.90 0.00 97.90 79.70 0.00 97.60 0.00 未知 OpenAI
Kimi k1.5 (Short-CoT) 0.00 87.40 0.00 0.00 0.00 0.00 0.00 0.00 未知 Moonshot AI
Grok-3 mini - Reasoning 0.00 0.00 0.00 0.00 84.00 0.00 0.00 0.00 未知 xAI
Grok-3 - Reasoning Beta 0.00 0.00 0.00 0.00 85.00 0.00 0.00 0.00 未知 xAI
Claude Sonnet 3.7-64K Extended Thinking 0.00 0.00 0.00 0.00 84.80 0.00 0.00 0.00 未知 Anthropic
Phi-4-instruct (reasoning-trained) 0.00 0.00 0.00 0.00 49.00 0.00 0.00 0.00 38.0 Microsoft
DeepSeek-R1-Distill-Qwen-7B 0.00 0.00 0.00 0.00 49.50 0.00 0.00 0.00 70.0 DeepSeek-AI
MMLU Pro
91.04
MMLU
91.80
GSM8K
0.00
MATH
96.40
GPQA Diamond
77.30
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
84.00
MMLU
90.80
GSM8K
0.00
MATH
0.00
GPQA Diamond
71.50
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
80.30
MMLU
85.20
GSM8K
0.00
MATH
0.00
GPQA Diamond
60.00
BBH
0.00
HumanEval
92.40
MBPP
0.00
MMLU Pro
79.00
MMLU
89.50
GSM8K
0.00
MATH
89.70
GPQA Diamond
57.50
BBH
92.20
HumanEval
91.00
MBPP
0.00
MMLU Pro
76.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
58.00
BBH
0.00
HumanEval
19.00
MBPP
0.00
MMLU Pro
70.97
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
65.20
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
86.90
GSM8K
0.00
MATH
97.90
GPQA Diamond
79.70
BBH
0.00
HumanEval
97.60
MBPP
0.00
MMLU Pro
0.00
MMLU
87.40
GSM8K
0.00
MATH
0.00
GPQA Diamond
0.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
84.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
85.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
84.80
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
49.00
BBH
0.00
HumanEval
0.00
MBPP
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
49.50
BBH
0.00
HumanEval
0.00
MBPP
0.00