MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2.5-14B |
140.0 |
79.7 |
/ |
/ |
92.9 |
57.7 |
78.2 |
/ |
Qwen2.5-14B模型地址 | ||
Mistral NeMo-Base-12B |
120.0 |
68.0 |
/ |
/ |
/ |
/ |
/ |
7.84 |
Mistral NeMo-Base-12B模型地址 | ||
Mistral NeMo-Instruct-12B |
120.0 |
68.0 |
/ |
/ |
/ |
/ |
/ |
7.84 |
Mistral NeMo-Instruct-12B模型地址 | ||
Qwen-14B |
140.0 |
66.3 |
72.1 |
/ |
61.3 |
/ |
/ |
/ |
Qwen-14B模型地址 | ||
XVERSE-13B-Chat |
130.0 |
60.2 |
53.1 |
48.3 |
/ |
/ |
/ |
/ |
XVERSE-13B-Chat模型地址 | ||
Baichuan2-13B-Base |
130.0 |
59.17 |
58.1 |
48.17 |
52.77 |
/ |
/ |
/ |
Baichuan2-13B-Base模型地址 | ||
ChatGLM2 12B |
120.0 |
56.18 |
61.6 |
/ |
40.94 |
/ |
/ |
/ |
ChatGLM2 12B模型地址 | ||
XVERSE-13B |
130.0 |
55.1 |
54.7 |
41.4 |
/ |
/ |
/ |
/ |
XVERSE-13B模型地址 | ||
LLaMA2 13B |
130.0 |
54.84 |
/ |
39.1 |
28.7 |
/ |
/ |
/ |
LLaMA2 13B模型地址 | ||
Baichuan 13B - Chat |
130.0 |
52.1 |
51.5 |
/ |
26.6 |
/ |
/ |
/ |
Baichuan 13B - Chat模型地址 | ||
Baichuan 13B - Base |
130.0 |
51.62 |
52.4 |
/ |
26.6 |
/ |
/ |
/ |
Baichuan 13B - Base模型地址 | ||
LLaMA 13B |
130.0 |
46.94 |
/ |
33.9 |
17.8 |
/ |
/ |
/ |
LLaMA 13B模型地址 | ||
Ziya-LLaMA-13B-Pretrain-v1 |
130.0 |
43.9 |
30.2 |
27.2 |
/ |
/ |
/ |
/ |
Ziya-LLaMA-13B-Pretrain-v1模型地址 | ||
OpenLLaMA 13B |
130.0 |
42.4 |
24.7 |
24.0 |
/ |
/ |
/ |
/ |
OpenLLaMA 13B模型地址 | ||
MOSS |
160.0 |
27.4 |
33.13 |
26.8 |
/ |
/ |
/ |
/ |
MOSS模型地址 | ||
Pythia |
120.0 |
25.1 |
26.2 |
25.3 |
/ |
/ |
/ |
/ |
Pythia模型地址 | ||
CPM-Bee |
100.0 |
/ |
54.1 |
/ |
/ |
/ |
/ |
/ |
CPM-Bee模型地址 |
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
140.0 |
79.7 |
/ |
/ |
92.9 |
57.7 |
78.2 |
/ |
Qwen2.5-14B模型地址 | |||
120.0 |
68.0 |
/ |
/ |
/ |
/ |
/ |
7.84 |
Mistral NeMo-Base-12B模型地址 | |||
120.0 |
68.0 |
/ |
/ |
/ |
/ |
/ |
7.84 |
Mistral NeMo-Instruct-12B模型地址 | |||
140.0 |
66.3 |
72.1 |
/ |
61.3 |
/ |
/ |
/ |
Qwen-14B模型地址 | |||
130.0 |
60.2 |
53.1 |
48.3 |
/ |
/ |
/ |
/ |
XVERSE-13B-Chat模型地址 | |||
130.0 |
59.17 |
58.1 |
48.17 |
52.77 |
/ |
/ |
/ |
Baichuan2-13B-Base模型地址 | |||
120.0 |
56.18 |
61.6 |
/ |
40.94 |
/ |
/ |
/ |
ChatGLM2 12B模型地址 | |||
130.0 |
55.1 |
54.7 |
41.4 |
/ |
/ |
/ |
/ |
XVERSE-13B模型地址 | |||
130.0 |
54.84 |
/ |
39.1 |
28.7 |
/ |
/ |
/ |
LLaMA2 13B模型地址 | |||
130.0 |
52.1 |
51.5 |
/ |
26.6 |
/ |
/ |
/ |
Baichuan 13B - Chat模型地址 | |||
130.0 |
51.62 |
52.4 |
/ |
26.6 |
/ |
/ |
/ |
Baichuan 13B - Base模型地址 | |||
130.0 |
46.94 |
/ |
33.9 |
17.8 |
/ |
/ |
/ |
LLaMA 13B模型地址 | |||
130.0 |
43.9 |
30.2 |
27.2 |
/ |
/ |
/ |
/ |
Ziya-LLaMA-13B-Pretrain-v1模型地址 | |||
130.0 |
42.4 |
24.7 |
24.0 |
/ |
/ |
/ |
/ |
OpenLLaMA 13B模型地址 | |||
160.0 |
27.4 |
33.13 |
26.8 |
/ |
/ |
/ |
/ |
MOSS模型地址 | |||
120.0 |
25.1 |
26.2 |
25.3 |
/ |
/ |
/ |
/ |
Pythia模型地址 | |||
100.0 |
/ |
54.1 |
/ |
/ |
/ |
/ |
/ |
CPM-Bee模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!