MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2.5-32B |
320.0 |
83.3 |
/ |
/ |
92.9 |
57.7 |
84.5 |
/ |
Qwen2.5-32B模型地址 | ||
YAYI2-30B |
300.0 |
80.5 |
80.9 |
62.0 |
71.2 |
/ |
/ |
/ |
YAYI2-30B模型地址 | ||
Yi-1.5-34B |
340.0 |
77.1 |
/ |
71.1 |
82.7 |
41.0 |
76.4 |
/ |
Yi-1.5-34B模型地址 | ||
Yi-34B |
340.0 |
76.3 |
81.4 |
/ |
/ |
/ |
/ |
/ |
Yi-34B模型地址 | ||
Yi-34B-200K |
340.0 |
76.1 |
81.9 |
/ |
/ |
/ |
/ |
/ |
Yi-34B-200K模型地址 | ||
Gemma2-27B |
270.0 |
75.0 |
/ |
/ |
75.0 |
/ |
/ |
/ |
Gemma2-27B模型地址 | ||
Qwen1.5-32B |
320.0 |
73.4 |
83.5 |
/ |
77.4 |
36.1 |
/ |
8.3 |
Qwen1.5-32B模型地址 | ||
Aquila2-34B |
340.0 |
67.79 |
63.07 |
/ |
58.4 |
/ |
/ |
/ |
Aquila2-34B模型地址 | ||
Grok-0 |
330.0 |
65.7 |
/ |
/ |
56.8 |
/ |
/ |
/ |
Grok-0模型地址 | ||
LLaMA2 34B |
340.0 |
62.6 |
/ |
43.4 |
42.2 |
/ |
/ |
/ |
LLaMA2 34B模型地址 | ||
XVERSE-MoE-A4.2B |
258.0 |
60.2 |
60.5 |
48.0 |
51.2 |
/ |
/ |
/ |
XVERSE-MoE-A4.2B模型地址 | ||
LLaMA 33B |
330.0 |
57.8 |
/ |
41.7 |
35.6 |
/ |
/ |
/ |
LLaMA 33B模型地址 |
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
320.0 |
83.3 |
/ |
/ |
92.9 |
57.7 |
84.5 |
/ |
Qwen2.5-32B模型地址 | |||
300.0 |
80.5 |
80.9 |
62.0 |
71.2 |
/ |
/ |
/ |
YAYI2-30B模型地址 | |||
340.0 |
77.1 |
/ |
71.1 |
82.7 |
41.0 |
76.4 |
/ |
Yi-1.5-34B模型地址 | |||
340.0 |
76.3 |
81.4 |
/ |
/ |
/ |
/ |
/ |
Yi-34B模型地址 | |||
340.0 |
76.1 |
81.9 |
/ |
/ |
/ |
/ |
/ |
Yi-34B-200K模型地址 | |||
270.0 |
75.0 |
/ |
/ |
75.0 |
/ |
/ |
/ |
Gemma2-27B模型地址 | |||
320.0 |
73.4 |
83.5 |
/ |
77.4 |
36.1 |
/ |
8.3 |
Qwen1.5-32B模型地址 | |||
340.0 |
67.79 |
63.07 |
/ |
58.4 |
/ |
/ |
/ |
Aquila2-34B模型地址 | |||
330.0 |
65.7 |
/ |
/ |
56.8 |
/ |
/ |
/ |
Grok-0模型地址 | |||
340.0 |
62.6 |
/ |
43.4 |
42.2 |
/ |
/ |
/ |
LLaMA2 34B模型地址 | |||
258.0 |
60.2 |
60.5 |
48.0 |
51.2 |
/ |
/ |
/ |
XVERSE-MoE-A4.2B模型地址 | |||
330.0 |
57.8 |
/ |
41.7 |
35.6 |
/ |
/ |
/ |
LLaMA 33B模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!