主流大模型评测基准榜单

大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现，包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果，帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比，快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见： LLM 评测基准列表与介绍

模型名称	MMLU Pro 知识问答	MMLU 知识问答	GSM8K 数学推理	MATH 数学推理	GPQA Diamond 常识推理	HumanEval 代码生成	MATH-500 数学推理	LiveCodeBench 代码生成	参数数量
QwQ-32B	76.00	0.00	0.00	0.00	58.00	19.00	91.00	0.00	325.0
QwQ-32B-Preview	70.97	0.00	0.00	0.00	0.00	0.00	90.60	0.00	320.0
Qwen2.5-32B	69.23	83.30	95.90	83.10	0.00	88.40	0.00	51.20	320.0
Gemma 3 - 27B (IT)	67.50	76.90	0.00	89.00	42.40	87.80	0.00	29.70	270.0
Mistral-Small-3.1-24B-Instruct-2503	66.76	80.62	0.00	69.30	45.96	88.41	0.00	0.00	240.0
Gemma2-27B	56.54	0.00	0.00	0.00	0.00	0.00	0.00	0.00	270.0
C4AI Aya Vision 32B	47.16	72.14	0.00	69.30	33.84	62.20	0.00	0.00	320.0
Qwen3-32B	0.00	0.00	0.00	0.00	0.00	0.00	0.00	65.70	220.0
Magistral-Small-2506	0.00	0.00	0.00	0.00	68.18	0.00	0.00	55.84	240.0