650亿参数规模大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

🏆 大模型综合能力评测对比表

欢迎访问我们的大模型综合评测页面！在这里，我们为您汇总了当前主流大模型在各评测数据集上的表现榜单。随着各种AI模型的快速发展，选择合适的模型成为了研究和开发的一大挑战。我们的页面旨在为研究者和开发者提供一个全面、权威的模型对比工具，帮助您在众多的模型中做出明智的选择。通过深入了解不同模型在各种数据集上的性能，您可以更加精确地定位每个模型的优势和不足，为您的项目选择最合适的工具。不仅如此，对于希望进一步优化或改进模型的开发者，此榜单也提供了丰富的启示和参考价值。进入，探索，和发掘AI模型的无限潜力。

关于大模型的编程能力参考DataLearner大模型能力排行榜： https://www.datalearner.com/ai-models/llm-coding-evaluation

尽管大模型发展很快，但是很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少，甚至只选择对自己有利的结果，为了更加方便大家对比相关的结果，我们收集了当前主流的大模型在不同评测基准上的评测结果，主要针对国内开源模型和国际主流模型为主（注意，得分为0表示没有公布！）。
关于具体的评测指标结果参考DataLearner博客解释：https://www.datalearner.com/blog/1051692198628431
当前选择的评测基准包括四个：

MMLU - 一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。

欢迎大家收藏，随时使用~

开源标志含义：

- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源

按条件筛选

全部

3B及以下

7B

13B

34B

65B

100B及以上

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	发布者	开源情况	模型地址
Qwen2.5-72B	727.0	86.1	/	/	91.5	62.1	86.3	/			Qwen2.5-72B模型地址
Qwen2-72B	727.0	84.2	91.0	/	89.5	51.1	82.4	/			Qwen2-72B模型地址
Llama3.1-70B-Instruct	700.0	83.6	/	/	95.1	68.0	/	/			Llama3.1-70B-Instruct模型地址
Qwen2-72B-Instruct	720.0	82.3	83.8	/	91.1	59.7	/	9.12			Qwen2-72B-Instruct模型地址
Llama3-70B-Instruct	700.0	82.0	/	/	93.0	50.4	/	/			Llama3-70B-Instruct模型地址
Qwen2.5-Math-72B	727.0	80.8	/	/	95.9	85.9	/	/			Qwen2.5-Math-72B模型地址
Llama3-70B	700.0	79.5	/	/	/	/	/	/			Llama3-70B模型地址
Llama3.1-70B	700.0	79.3	/	/	/	/	/	/			Llama3.1-70B模型地址
Gemini-pro	1000.0	79.13	/	/	86.5	/	/	/			Gemini-pro模型地址
Qwen1.5-72B-Chat	720.0	77.5	84.1	/	79.5	34.1	65.5	8.67			Qwen1.5-72B-Chat模型地址
Qwen-72B	720.0	77.4	83.3	62.5	78.9	/	/	/			Qwen-72B模型地址
Qwen2-57B-A14B	570.0	76.5	87.7	/	80.7	43.0	67.0	/			Qwen2-57B-A14B模型地址
XVERSE-65B	650.0	70.8	/	61.8	60.3	/	/	/			XVERSE-65B模型地址
Mixtral-8×7B-MoE	450.0	70.6	/	/	74.4	28.4	/	8.3			Mixtral-8×7B-MoE模型地址
LLaMA2 70B	700.0	68.9	/	54.2	56.8	/	/	/			LLaMA2 70B模型地址
Jamba-v0.1	520.0	67.4	/	/	59.9	/	45.4	/			Jamba-v0.1模型地址
LLaMA 65B	650.0	63.4	38.8	47.6	50.9	/	/	/			LLaMA 65B模型地址

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	发布者	开源情况	模型地址
Qwen2.5-72B	727.0	86.1	/	/	91.5	62.1	86.3	/			Qwen2.5-72B模型地址
Qwen2-72B	727.0	84.2	91.0	/	89.5	51.1	82.4	/			Qwen2-72B模型地址
Llama3.1-70B-Instruct	700.0	83.6	/	/	95.1	68.0	/	/			Llama3.1-70B-Instruct模型地址
Qwen2-72B-Instruct	720.0	82.3	83.8	/	91.1	59.7	/	9.12			Qwen2-72B-Instruct模型地址
Llama3-70B-Instruct	700.0	82.0	/	/	93.0	50.4	/	/			Llama3-70B-Instruct模型地址
Qwen2.5-Math-72B	727.0	80.8	/	/	95.9	85.9	/	/			Qwen2.5-Math-72B模型地址
Llama3-70B	700.0	79.5	/	/	/	/	/	/			Llama3-70B模型地址
Llama3.1-70B	700.0	79.3	/	/	/	/	/	/			Llama3.1-70B模型地址
Gemini-pro	1000.0	79.13	/	/	86.5	/	/	/			Gemini-pro模型地址
Qwen1.5-72B-Chat	720.0	77.5	84.1	/	79.5	34.1	65.5	8.67			Qwen1.5-72B-Chat模型地址
Qwen-72B	720.0	77.4	83.3	62.5	78.9	/	/	/			Qwen-72B模型地址
Qwen2-57B-A14B	570.0	76.5	87.7	/	80.7	43.0	67.0	/			Qwen2-57B-A14B模型地址
XVERSE-65B	650.0	70.8	/	61.8	60.3	/	/	/			XVERSE-65B模型地址
Mixtral-8×7B-MoE	450.0	70.6	/	/	74.4	28.4	/	8.3			Mixtral-8×7B-MoE模型地址
LLaMA2 70B	700.0	68.9	/	54.2	56.8	/	/	/			LLaMA2 70B模型地址
Jamba-v0.1	520.0	67.4	/	/	59.9	/	45.4	/			Jamba-v0.1模型地址
LLaMA 65B	650.0	63.4	38.8	47.6	50.9	/	/	/			LLaMA 65B模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！