MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
Phi-3-small 7B |
70.0 |
75.3 |
/ |
45.0 |
88.9 |
/ |
/ |
8.7 |
Phi-3-small 7B模型地址 | ||
GLM-4-9B |
90.0 |
74.7 |
/ |
/ |
84.0 |
30.4 |
/ |
/ |
GLM-4-9B模型地址 | ||
Qwen2.5-7B |
70.0 |
74.2 |
/ |
/ |
85.4 |
49.8 |
70.4 |
/ |
Qwen2.5-7B模型地址 | ||
GLM-4-9B-Chat |
90.0 |
72.4 |
75.6 |
/ |
79.6 |
50.6 |
/ |
8.35 |
GLM-4-9B-Chat模型地址 | ||
Apollo-7B |
70.0 |
71.86 |
/ |
/ |
/ |
/ |
/ |
/ |
Apollo-7B模型地址 | ||
Gemma 2 - 9B |
90.0 |
71.3 |
/ |
52.8 |
68.6 |
36.6 |
68.2 |
/ |
Gemma 2 - 9B模型地址 | ||
Qwen2-7B |
70.0 |
70.3 |
83.2 |
/ |
79.9 |
44.2 |
62.6 |
/ |
Qwen2-7B模型地址 | ||
Llama3.1-8B-Instruct |
80.0 |
69.4 |
/ |
/ |
84.5 |
519.0 |
/ |
/ |
Llama3.1-8B-Instruct模型地址 | ||
Llama3-8B-Instruct |
80.0 |
68.4 |
/ |
/ |
79.6 |
30.0 |
/ |
/ |
Llama3-8B-Instruct模型地址 | ||
Llama3.1-8B |
80.0 |
66.7 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3.1-8B模型地址 | ||
Llama3-8B |
80.0 |
66.6 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3-8B模型地址 | ||
Gemma 7B |
70.0 |
64.3 |
/ |
41.7 |
46.4 |
24.3 |
55.1 |
/ |
Gemma 7B模型地址 | ||
Yi-6B-200K |
60.0 |
64.0 |
73.5 |
/ |
/ |
/ |
/ |
/ |
Yi-6B-200K模型地址 | ||
Starling-7B-LM-Beta |
70.0 |
63.9 |
/ |
/ |
/ |
/ |
/ |
8.09 |
Starling-7B-LM-Beta模型地址 | ||
Yi-6B |
60.0 |
63.2 |
72.0 |
/ |
/ |
/ |
/ |
/ |
Yi-6B模型地址 | ||
ChatGLM3-6B-Base |
60.0 |
61.4 |
69.0 |
53.7 |
72.3 |
/ |
/ |
/ |
ChatGLM3-6B-Base模型地址 | ||
Mistral 7B |
73.0 |
60.1 |
/ |
43.0 |
52.1 |
/ |
/ |
/ |
Mistral 7B模型地址 | ||
DeciLM-7B |
70.4 |
59.76 |
/ |
/ |
47.38 |
/ |
/ |
/ |
DeciLM-7B模型地址 | ||
Qwen-7B |
70.0 |
56.7 |
59.6 |
/ |
51.6 |
/ |
/ |
/ |
Qwen-7B模型地址 | ||
Baichuan2-7B-Base |
70.0 |
54.16 |
54.0 |
42.73 |
24.49 |
/ |
/ |
/ |
Baichuan2-7B-Base模型地址 | ||
InternLM 7B |
70.0 |
51.0 |
53.4 |
37.6 |
31.2 |
/ |
/ |
/ |
InternLM 7B模型地址 | ||
InternLM Chat 7B 8K |
70.0 |
50.8 |
53.2 |
42.5 |
31.2 |
/ |
/ |
/ |
InternLM Chat 7B 8K模型地址 | ||
ChatGLM2-6B |
62.0 |
47.86 |
51.7 |
/ |
32.37 |
/ |
/ |
/ |
ChatGLM2-6B模型地址 | ||
LLaMA2 7B |
70.0 |
45.3 |
/ |
29.3 |
14.6 |
/ |
/ |
/ |
LLaMA2 7B模型地址 | ||
Baichuan 7B |
70.0 |
42.3 |
42.8 |
34.44 |
9.7 |
/ |
/ |
/ |
Baichuan 7B模型地址 | ||
DeepSeek Coder-6.7B Instruct |
67.0 |
37.2 |
/ |
/ |
62.8 |
28.6 |
46.9 |
/ |
DeepSeek Coder-6.7B Instruct模型地址 | ||
ChatGLM-6B |
62.0 |
36.9 |
38.9 |
/ |
4.82 |
/ |
/ |
/ |
ChatGLM-6B模型地址 | ||
LLaMA 7B |
70.0 |
35.1 |
27.1 |
23.9 |
11.0 |
/ |
/ |
/ |
LLaMA 7B模型地址 | ||
CodeGemma-7B |
70.0 |
/ |
/ |
/ |
44.2 |
19.9 |
/ |
/ |
CodeGemma-7B模型地址 | ||
CodeGemma-7B-IT |
70.0 |
/ |
/ |
/ |
41.2 |
20.9 |
/ |
/ |
CodeGemma-7B-IT模型地址 | ||
WizardLM-2-70B |
70.0 |
/ |
/ |
/ |
/ |
/ |
/ |
8.92 |
WizardLM-2-70B模型地址 | ||
WizardLM-2-7B |
70.0 |
/ |
/ |
/ |
/ |
/ |
/ |
8.28 |
WizardLM-2-7B模型地址 | ||
Aquila-7B |
70.0 |
/ |
25.5 |
25.58 |
/ |
/ |
/ |
/ |
Aquila-7B模型地址 |
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
70.0 |
75.3 |
/ |
45.0 |
88.9 |
/ |
/ |
8.7 |
Phi-3-small 7B模型地址 | |||
90.0 |
74.7 |
/ |
/ |
84.0 |
30.4 |
/ |
/ |
GLM-4-9B模型地址 | |||
70.0 |
74.2 |
/ |
/ |
85.4 |
49.8 |
70.4 |
/ |
Qwen2.5-7B模型地址 | |||
90.0 |
72.4 |
75.6 |
/ |
79.6 |
50.6 |
/ |
8.35 |
GLM-4-9B-Chat模型地址 | |||
70.0 |
71.86 |
/ |
/ |
/ |
/ |
/ |
/ |
Apollo-7B模型地址 | |||
90.0 |
71.3 |
/ |
52.8 |
68.6 |
36.6 |
68.2 |
/ |
Gemma 2 - 9B模型地址 | |||
70.0 |
70.3 |
83.2 |
/ |
79.9 |
44.2 |
62.6 |
/ |
Qwen2-7B模型地址 | |||
80.0 |
69.4 |
/ |
/ |
84.5 |
519.0 |
/ |
/ |
Llama3.1-8B-Instruct模型地址 | |||
80.0 |
68.4 |
/ |
/ |
79.6 |
30.0 |
/ |
/ |
Llama3-8B-Instruct模型地址 | |||
80.0 |
66.7 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3.1-8B模型地址 | |||
80.0 |
66.6 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3-8B模型地址 | |||
70.0 |
64.3 |
/ |
41.7 |
46.4 |
24.3 |
55.1 |
/ |
Gemma 7B模型地址 | |||
60.0 |
64.0 |
73.5 |
/ |
/ |
/ |
/ |
/ |
Yi-6B-200K模型地址 | |||
70.0 |
63.9 |
/ |
/ |
/ |
/ |
/ |
8.09 |
Starling-7B-LM-Beta模型地址 | |||
60.0 |
63.2 |
72.0 |
/ |
/ |
/ |
/ |
/ |
Yi-6B模型地址 | |||
60.0 |
61.4 |
69.0 |
53.7 |
72.3 |
/ |
/ |
/ |
ChatGLM3-6B-Base模型地址 | |||
73.0 |
60.1 |
/ |
43.0 |
52.1 |
/ |
/ |
/ |
Mistral 7B模型地址 | |||
70.4 |
59.76 |
/ |
/ |
47.38 |
/ |
/ |
/ |
DeciLM-7B模型地址 | |||
70.0 |
56.7 |
59.6 |
/ |
51.6 |
/ |
/ |
/ |
Qwen-7B模型地址 | |||
70.0 |
54.16 |
54.0 |
42.73 |
24.49 |
/ |
/ |
/ |
Baichuan2-7B-Base模型地址 | |||
70.0 |
51.0 |
53.4 |
37.6 |
31.2 |
/ |
/ |
/ |
InternLM 7B模型地址 | |||
70.0 |
50.8 |
53.2 |
42.5 |
31.2 |
/ |
/ |
/ |
InternLM Chat 7B 8K模型地址 | |||
62.0 |
47.86 |
51.7 |
/ |
32.37 |
/ |
/ |
/ |
ChatGLM2-6B模型地址 | |||
70.0 |
45.3 |
/ |
29.3 |
14.6 |
/ |
/ |
/ |
LLaMA2 7B模型地址 | |||
70.0 |
42.3 |
42.8 |
34.44 |
9.7 |
/ |
/ |
/ |
Baichuan 7B模型地址 | |||
67.0 |
37.2 |
/ |
/ |
62.8 |
28.6 |
46.9 |
/ |
DeepSeek Coder-6.7B Instruct模型地址 | |||
62.0 |
36.9 |
38.9 |
/ |
4.82 |
/ |
/ |
/ |
ChatGLM-6B模型地址 | |||
70.0 |
35.1 |
27.1 |
23.9 |
11.0 |
/ |
/ |
/ |
LLaMA 7B模型地址 | |||
70.0 |
/ |
/ |
/ |
44.2 |
19.9 |
/ |
/ |
CodeGemma-7B模型地址 | |||
70.0 |
/ |
/ |
/ |
41.2 |
20.9 |
/ |
/ |
CodeGemma-7B-IT模型地址 | |||
70.0 |
/ |
/ |
/ |
/ |
/ |
/ |
8.92 |
WizardLM-2-70B模型地址 | |||
70.0 |
/ |
/ |
/ |
/ |
/ |
/ |
8.28 |
WizardLM-2-7B模型地址 | |||
70.0 |
/ |
25.5 |
25.58 |
/ |
/ |
/ |
/ |
Aquila-7B模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!