130亿参数规模大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

🏆 大模型综合能力评测对比表

欢迎访问我们的大模型综合评测页面！在这里，我们为您汇总了当前主流大模型在各评测数据集上的表现榜单。随着各种AI模型的快速发展，选择合适的模型成为了研究和开发的一大挑战。我们的页面旨在为研究者和开发者提供一个全面、权威的模型对比工具，帮助您在众多的模型中做出明智的选择。通过深入了解不同模型在各种数据集上的性能，您可以更加精确地定位每个模型的优势和不足，为您的项目选择最合适的工具。不仅如此，对于希望进一步优化或改进模型的开发者，此榜单也提供了丰富的启示和参考价值。进入，探索，和发掘AI模型的无限潜力。

关于大模型的编程能力参考DataLearner大模型能力排行榜： https://www.datalearner.com/ai-models/llm-coding-evaluation

尽管大模型发展很快，但是很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少，甚至只选择对自己有利的结果，为了更加方便大家对比相关的结果，我们收集了当前主流的大模型在不同评测基准上的评测结果，主要针对国内开源模型和国际主流模型为主（注意，得分为0表示没有公布！）。
关于具体的评测指标结果参考DataLearner博客解释：https://www.datalearner.com/blog/1051692198628431
当前选择的评测基准包括四个：

MMLU - 一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。

欢迎大家收藏，随时使用~

开源标志含义：

- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源

按条件筛选

全部

3B及以下

7B

13B

34B

65B

100B及以上

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	发布者	开源情况	模型地址
Qwen2.5-14B	140.0	79.7	/	/	92.9	57.7	78.2	/			Qwen2.5-14B模型地址
Mistral NeMo-Base-12B	120.0	68.0	/	/	/	/	/	7.84			Mistral NeMo-Base-12B模型地址
Mistral NeMo-Instruct-12B	120.0	68.0	/	/	/	/	/	7.84			Mistral NeMo-Instruct-12B模型地址
Qwen-14B	140.0	66.3	72.1	/	61.3	/	/	/			Qwen-14B模型地址
XVERSE-13B-Chat	130.0	60.2	53.1	48.3	/	/	/	/			XVERSE-13B-Chat模型地址
Baichuan2-13B-Base	130.0	59.17	58.1	48.17	52.77	/	/	/			Baichuan2-13B-Base模型地址
ChatGLM2 12B	120.0	56.18	61.6	/	40.94	/	/	/			ChatGLM2 12B模型地址
XVERSE-13B	130.0	55.1	54.7	41.4	/	/	/	/			XVERSE-13B模型地址
LLaMA2 13B	130.0	54.84	/	39.1	28.7	/	/	/			LLaMA2 13B模型地址
Baichuan 13B - Chat	130.0	52.1	51.5	/	26.6	/	/	/			Baichuan 13B - Chat模型地址
Baichuan 13B - Base	130.0	51.62	52.4	/	26.6	/	/	/			Baichuan 13B - Base模型地址
LLaMA 13B	130.0	46.94	/	33.9	17.8	/	/	/			LLaMA 13B模型地址
Ziya-LLaMA-13B-Pretrain-v1	130.0	43.9	30.2	27.2	/	/	/	/			Ziya-LLaMA-13B-Pretrain-v1模型地址
OpenLLaMA 13B	130.0	42.4	24.7	24.0	/	/	/	/			OpenLLaMA 13B模型地址
MOSS	160.0	27.4	33.13	26.8	/	/	/	/			MOSS模型地址
Pythia	120.0	25.1	26.2	25.3	/	/	/	/			Pythia模型地址
CPM-Bee	100.0	/	54.1	/	/	/	/	/			CPM-Bee模型地址

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	发布者	开源情况	模型地址
Qwen2.5-14B	140.0	79.7	/	/	92.9	57.7	78.2	/			Qwen2.5-14B模型地址
Mistral NeMo-Base-12B	120.0	68.0	/	/	/	/	/	7.84			Mistral NeMo-Base-12B模型地址
Mistral NeMo-Instruct-12B	120.0	68.0	/	/	/	/	/	7.84			Mistral NeMo-Instruct-12B模型地址
Qwen-14B	140.0	66.3	72.1	/	61.3	/	/	/			Qwen-14B模型地址
XVERSE-13B-Chat	130.0	60.2	53.1	48.3	/	/	/	/			XVERSE-13B-Chat模型地址
Baichuan2-13B-Base	130.0	59.17	58.1	48.17	52.77	/	/	/			Baichuan2-13B-Base模型地址
ChatGLM2 12B	120.0	56.18	61.6	/	40.94	/	/	/			ChatGLM2 12B模型地址
XVERSE-13B	130.0	55.1	54.7	41.4	/	/	/	/			XVERSE-13B模型地址
LLaMA2 13B	130.0	54.84	/	39.1	28.7	/	/	/			LLaMA2 13B模型地址
Baichuan 13B - Chat	130.0	52.1	51.5	/	26.6	/	/	/			Baichuan 13B - Chat模型地址
Baichuan 13B - Base	130.0	51.62	52.4	/	26.6	/	/	/			Baichuan 13B - Base模型地址
LLaMA 13B	130.0	46.94	/	33.9	17.8	/	/	/			LLaMA 13B模型地址
Ziya-LLaMA-13B-Pretrain-v1	130.0	43.9	30.2	27.2	/	/	/	/			Ziya-LLaMA-13B-Pretrain-v1模型地址
OpenLLaMA 13B	130.0	42.4	24.7	24.0	/	/	/	/			OpenLLaMA 13B模型地址
MOSS	160.0	27.4	33.13	26.8	/	/	/	/			MOSS模型地址
Pythia	120.0	25.1	26.2	25.3	/	/	/	/			Pythia模型地址
CPM-Bee	100.0	/	54.1	/	/	/	/	/			CPM-Bee模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！