主流大模型评测基准榜单

大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现，包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果，帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比，快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见： LLM 评测基准列表与介绍

模型名称	MMLU Pro 知识问答	MMLU 知识问答	GSM8K 数学推理	MATH 数学推理	GPQA Diamond 常识推理	HumanEval 代码生成	MATH-500 数学推理	LiveCodeBench 代码生成	参数数量
Llama3.3-70B-Instruct	68.90	86.00	0.00	77.00	50.50	88.40	0.00	33.30	700.0
Llama3.1-70B-Instruct	66.40	86.00	0.00	67.80	48.00	80.50	0.00	33.30	700.0
Qwen2.5-72B	58.10	86.10	91.50	62.10	45.90	59.10	0.00	0.00	727.0
Llama3-70B-Instruct	56.20	0.00	0.00	0.00	0.00	0.00	0.00	0.00	700.0
Llama3-70B	52.78	0.00	0.00	0.00	0.00	0.00	0.00	0.00	700.0
Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	0.00	0.00	0.00	700.0
DeepSeek-R1-Distill-Llama-70B	0.00	0.00	0.00	0.00	65.20	0.00	94.50	0.00	700.0