MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
Phi-3-mini 3.8B |
38.0 |
68.8 |
/ |
37.5 |
82.5 |
/ |
/ |
8.38 |
Phi-3-mini 3.8B模型地址 | ||
Qwen2.5-3B |
30.0 |
65.6 |
/ |
/ |
79.1 |
42.6 |
56.3 |
/ |
Qwen2.5-3B模型地址 | ||
Qwen2.5-1.5B |
15.0 |
60.9 |
/ |
/ |
68.5 |
35.0 |
45.1 |
/ |
Qwen2.5-1.5B模型地址 | ||
Phi-2 |
27.0 |
56.7 |
/ |
/ |
61.1 |
/ |
/ |
/ |
Phi-2模型地址 | ||
Qwen2-1.5B |
15.0 |
56.5 |
70.6 |
/ |
58.5 |
21.7 |
37.2 |
/ |
Qwen2-1.5B模型地址 | ||
MiniCPM-2B-DPO |
24.0 |
53.46 |
51.13 |
/ |
53.83 |
10.24 |
36.87 |
7.25 |
MiniCPM-2B-DPO模型地址 | ||
Qwen2.5-0.5B |
5.0 |
47.5 |
/ |
/ |
41.6 |
19.5 |
20.3 |
/ |
Qwen2.5-0.5B模型地址 | ||
Stable LM Zephyr 3B |
30.0 |
45.9 |
30.34 |
/ |
52.54 |
12.2 |
37.86 |
6.64 |
Stable LM Zephyr 3B模型地址 | ||
Qwen2-0.5B |
4.0 |
45.4 |
58.2 |
/ |
58.5 |
10.7 |
28.4 |
/ |
Qwen2-0.5B模型地址 | ||
Qwen-1.8B |
18.0 |
45.3 |
/ |
/ |
32.3 |
/ |
/ |
/ |
Qwen-1.8B模型地址 | ||
Gemma 2B |
20.0 |
42.3 |
/ |
24.2 |
17.7 |
11.8 |
35.2 |
/ |
Gemma 2B模型地址 | ||
Gemma 2B - It |
20.0 |
42.3 |
/ |
24.2 |
17.7 |
11.8 |
35.2 |
/ |
Gemma 2B - It模型地址 | ||
Stable LM 2 - 1.6B |
16.0 |
38.93 |
/ |
/ |
17.82 |
/ |
/ |
/ |
Stable LM 2 - 1.6B模型地址 | ||
RecurrentGemma-2B |
27.0 |
38.4 |
/ |
23.8 |
13.4 |
11.8 |
/ |
/ |
RecurrentGemma-2B模型地址 | ||
Phi-1.5 |
13.0 |
37.6 |
/ |
/ |
40.2 |
/ |
/ |
/ |
Phi-1.5模型地址 | ||
TinyLlama |
11.0 |
24.3 |
25.02 |
/ |
2.27 |
/ |
/ |
/ |
TinyLlama模型地址 | ||
CodeGemma-2B |
20.0 |
/ |
/ |
/ |
41.2 |
20.9 |
/ |
/ |
CodeGemma-2B模型地址 | ||
Phi-1 |
13.0 |
/ |
/ |
/ |
/ |
/ |
/ |
/ |
Phi-1模型地址 |
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
38.0 |
68.8 |
/ |
37.5 |
82.5 |
/ |
/ |
8.38 |
Phi-3-mini 3.8B模型地址 | |||
30.0 |
65.6 |
/ |
/ |
79.1 |
42.6 |
56.3 |
/ |
Qwen2.5-3B模型地址 | |||
15.0 |
60.9 |
/ |
/ |
68.5 |
35.0 |
45.1 |
/ |
Qwen2.5-1.5B模型地址 | |||
27.0 |
56.7 |
/ |
/ |
61.1 |
/ |
/ |
/ |
Phi-2模型地址 | |||
15.0 |
56.5 |
70.6 |
/ |
58.5 |
21.7 |
37.2 |
/ |
Qwen2-1.5B模型地址 | |||
24.0 |
53.46 |
51.13 |
/ |
53.83 |
10.24 |
36.87 |
7.25 |
MiniCPM-2B-DPO模型地址 | |||
5.0 |
47.5 |
/ |
/ |
41.6 |
19.5 |
20.3 |
/ |
Qwen2.5-0.5B模型地址 | |||
30.0 |
45.9 |
30.34 |
/ |
52.54 |
12.2 |
37.86 |
6.64 |
Stable LM Zephyr 3B模型地址 | |||
4.0 |
45.4 |
58.2 |
/ |
58.5 |
10.7 |
28.4 |
/ |
Qwen2-0.5B模型地址 | |||
18.0 |
45.3 |
/ |
/ |
32.3 |
/ |
/ |
/ |
Qwen-1.8B模型地址 | |||
20.0 |
42.3 |
/ |
24.2 |
17.7 |
11.8 |
35.2 |
/ |
Gemma 2B模型地址 | |||
20.0 |
42.3 |
/ |
24.2 |
17.7 |
11.8 |
35.2 |
/ |
Gemma 2B - It模型地址 | |||
16.0 |
38.93 |
/ |
/ |
17.82 |
/ |
/ |
/ |
Stable LM 2 - 1.6B模型地址 | |||
27.0 |
38.4 |
/ |
23.8 |
13.4 |
11.8 |
/ |
/ |
RecurrentGemma-2B模型地址 | |||
13.0 |
37.6 |
/ |
/ |
40.2 |
/ |
/ |
/ |
Phi-1.5模型地址 | |||
11.0 |
24.3 |
25.02 |
/ |
2.27 |
/ |
/ |
/ |
TinyLlama模型地址 | |||
20.0 |
/ |
/ |
/ |
41.2 |
20.9 |
/ |
/ |
CodeGemma-2B模型地址 | |||
13.0 |
/ |
/ |
/ |
/ |
/ |
/ |
/ |
Phi-1模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!