大模型综合评测对比

🏆 大模型综合能力评测对比表

MMLU - 一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。

全部

3B及以下

13B

34B

65B

100B及以上

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	模型地址
GPT-4o		88.7	/	/	90.5	76.6	/	/	GPT-4o模型地址
Claude 3.5 Sonnet		88.7	/	/	96.4	71.1	/	/	Claude 3.5 Sonnet模型地址
Llama3.1-405B Instruct	4050.0	87.3	/	/	96.8	73.8	/	/	Llama3.1-405B Instruct模型地址
GPT-4	1750.0	86.4	68.7	/	87.1	42.5	/	9.32	GPT-4模型地址
Llama3-400B-Instruct-InTraining	4000.0	86.1	/	/	94.1	57.8	/	/	Llama3-400B-Instruct-InTraining模型地址
Llama3.1-405B	4050.0	85.2	/	/	/	/	/	/	Llama3.1-405B模型地址
Llama3-400B-InTraining	4000.0	84.8	/	/	/	/	/	/	Llama3-400B-InTraining模型地址
Grok-1.5		81.3	/	/	90.0	50.6	/	/	Grok-1.5模型地址
Qwen1.5-110B	1100.0	80.4	/	/	85.4	49.6	74.8	8.88	Qwen1.5-110B模型地址
DeepSeek V2.5	2360.0	80.4	/	/	95.1	74.7	/	/	DeepSeek V2.5模型地址
DeepSeek-V2-236B	2360.0	78.5	81.7	/	79.2	43.6	78.9	/	DeepSeek-V2-236B模型地址
PaLM 2	3400.0	78.3	/	/	80.7	/	/	/	PaLM 2模型地址
Mixtral-8×22B-MoE	1410.0	77.75	/	/	78.6	41.8	/	/	Mixtral-8×22B-MoE模型地址
DBRX Instruct	1320.0	73.7	/	/	72.8	/	/	8.39	DBRX Instruct模型地址
Grok-1	3140.0	73.0	/	/	62.9	/	/	/	Grok-1模型地址
DeepSeek-V2-236B-Chat	2360.0	71.1	65.2	/	84.4	32.6	71.7	/	DeepSeek-V2-236B-Chat模型地址
GPT-3.5	1750.0	70.0	54.4	/	57.1	/	/	8.39	GPT-3.5模型地址
PaLM	5400.0	69.3	/	/	56.5	/	/	/	PaLM模型地址
GPT-3	1750.0	53.9	/	/	/	/	/	/	GPT-3模型地址
GLM-130B	1300.0	44.8	44.0	/	/	/	/	/	GLM-130B模型地址
OPT	1750.0	25.2	25.0	24.2	/	/	/	/	OPT模型地址
WizardLM-2 8x22B	1760.0	/	/	/	/	/	/	9.12	WizardLM-2 8x22B模型地址
DeepSeek-R1-Lite-Preview		/	/	/	/	91.6	/	/	DeepSeek-R1-Lite-Preview模型地址

模型名称	参数大小	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	模型地址
GPT-4o		88.7	/	/	90.5	76.6	/	/	GPT-4o模型地址
Claude 3.5 Sonnet		88.7	/	/	96.4	71.1	/	/	Claude 3.5 Sonnet模型地址
Llama3.1-405B Instruct	4050.0	87.3	/	/	96.8	73.8	/	/	Llama3.1-405B Instruct模型地址
GPT-4	1750.0	86.4	68.7	/	87.1	42.5	/	9.32	GPT-4模型地址
Llama3-400B-Instruct-InTraining	4000.0	86.1	/	/	94.1	57.8	/	/	Llama3-400B-Instruct-InTraining模型地址
Llama3.1-405B	4050.0	85.2	/	/	/	/	/	/	Llama3.1-405B模型地址
Llama3-400B-InTraining	4000.0	84.8	/	/	/	/	/	/	Llama3-400B-InTraining模型地址
Grok-1.5		81.3	/	/	90.0	50.6	/	/	Grok-1.5模型地址
Qwen1.5-110B	1100.0	80.4	/	/	85.4	49.6	74.8	8.88	Qwen1.5-110B模型地址
DeepSeek V2.5	2360.0	80.4	/	/	95.1	74.7	/	/	DeepSeek V2.5模型地址
DeepSeek-V2-236B	2360.0	78.5	81.7	/	79.2	43.6	78.9	/	DeepSeek-V2-236B模型地址
PaLM 2	3400.0	78.3	/	/	80.7	/	/	/	PaLM 2模型地址
Mixtral-8×22B-MoE	1410.0	77.75	/	/	78.6	41.8	/	/	Mixtral-8×22B-MoE模型地址
DBRX Instruct	1320.0	73.7	/	/	72.8	/	/	8.39	DBRX Instruct模型地址
Grok-1	3140.0	73.0	/	/	62.9	/	/	/	Grok-1模型地址
DeepSeek-V2-236B-Chat	2360.0	71.1	65.2	/	84.4	32.6	71.7	/	DeepSeek-V2-236B-Chat模型地址
GPT-3.5	1750.0	70.0	54.4	/	57.1	/	/	8.39	GPT-3.5模型地址
PaLM	5400.0	69.3	/	/	56.5	/	/	/	PaLM模型地址
GPT-3	1750.0	53.9	/	/	/	/	/	/	GPT-3模型地址
GLM-130B	1300.0	44.8	44.0	/	/	/	/	/	GLM-130B模型地址
OPT	1750.0	25.2	25.0	24.2	/	/	/	/	OPT模型地址
WizardLM-2 8x22B	1760.0	/	/	/	/	/	/	9.12	WizardLM-2 8x22B模型地址
DeepSeek-R1-Lite-Preview		/	/	/	/	91.6	/	/	DeepSeek-R1-Lite-Preview模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！