MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2.5-72B |
727.0 |
86.1 |
/ |
/ |
91.5 |
62.1 |
86.3 |
/ |
Qwen2.5-72B模型地址 | ||
Qwen2-72B |
727.0 |
84.2 |
91.0 |
/ |
89.5 |
51.1 |
82.4 |
/ |
Qwen2-72B模型地址 | ||
Llama3.1-70B-Instruct |
700.0 |
83.6 |
/ |
/ |
95.1 |
68.0 |
/ |
/ |
Llama3.1-70B-Instruct模型地址 | ||
Qwen2-72B-Instruct |
720.0 |
82.3 |
83.8 |
/ |
91.1 |
59.7 |
/ |
9.12 |
Qwen2-72B-Instruct模型地址 | ||
Llama3-70B-Instruct |
700.0 |
82.0 |
/ |
/ |
93.0 |
50.4 |
/ |
/ |
Llama3-70B-Instruct模型地址 | ||
Qwen2.5-Math-72B |
727.0 |
80.8 |
/ |
/ |
95.9 |
85.9 |
/ |
/ |
Qwen2.5-Math-72B模型地址 | ||
Llama3-70B |
700.0 |
79.5 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3-70B模型地址 | ||
Llama3.1-70B |
700.0 |
79.3 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3.1-70B模型地址 | ||
Gemini-pro |
1000.0 |
79.13 |
/ |
/ |
86.5 |
/ |
/ |
/ |
Gemini-pro模型地址 | ||
Qwen1.5-72B-Chat |
720.0 |
77.5 |
84.1 |
/ |
79.5 |
34.1 |
65.5 |
8.67 |
Qwen1.5-72B-Chat模型地址 | ||
Qwen-72B |
720.0 |
77.4 |
83.3 |
62.5 |
78.9 |
/ |
/ |
/ |
Qwen-72B模型地址 | ||
Qwen2-57B-A14B |
570.0 |
76.5 |
87.7 |
/ |
80.7 |
43.0 |
67.0 |
/ |
Qwen2-57B-A14B模型地址 | ||
XVERSE-65B |
650.0 |
70.8 |
/ |
61.8 |
60.3 |
/ |
/ |
/ |
XVERSE-65B模型地址 | ||
Mixtral-8×7B-MoE |
450.0 |
70.6 |
/ |
/ |
74.4 |
28.4 |
/ |
8.3 |
Mixtral-8×7B-MoE模型地址 | ||
LLaMA2 70B |
700.0 |
68.9 |
/ |
54.2 |
56.8 |
/ |
/ |
/ |
LLaMA2 70B模型地址 | ||
Jamba-v0.1 |
520.0 |
67.4 |
/ |
/ |
59.9 |
/ |
45.4 |
/ |
Jamba-v0.1模型地址 | ||
LLaMA 65B |
650.0 |
63.4 |
38.8 |
47.6 |
50.9 |
/ |
/ |
/ |
LLaMA 65B模型地址 |
模型名称 | 参数大小 | MMLU | CEval | AGIEval | GSM8K | MATH | BBH | MT Bench | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|---|---|---|
727.0 |
86.1 |
/ |
/ |
91.5 |
62.1 |
86.3 |
/ |
Qwen2.5-72B模型地址 | |||
727.0 |
84.2 |
91.0 |
/ |
89.5 |
51.1 |
82.4 |
/ |
Qwen2-72B模型地址 | |||
700.0 |
83.6 |
/ |
/ |
95.1 |
68.0 |
/ |
/ |
Llama3.1-70B-Instruct模型地址 | |||
720.0 |
82.3 |
83.8 |
/ |
91.1 |
59.7 |
/ |
9.12 |
Qwen2-72B-Instruct模型地址 | |||
700.0 |
82.0 |
/ |
/ |
93.0 |
50.4 |
/ |
/ |
Llama3-70B-Instruct模型地址 | |||
727.0 |
80.8 |
/ |
/ |
95.9 |
85.9 |
/ |
/ |
Qwen2.5-Math-72B模型地址 | |||
700.0 |
79.5 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3-70B模型地址 | |||
700.0 |
79.3 |
/ |
/ |
/ |
/ |
/ |
/ |
Llama3.1-70B模型地址 | |||
1000.0 |
79.13 |
/ |
/ |
86.5 |
/ |
/ |
/ |
Gemini-pro模型地址 | |||
720.0 |
77.5 |
84.1 |
/ |
79.5 |
34.1 |
65.5 |
8.67 |
Qwen1.5-72B-Chat模型地址 | |||
720.0 |
77.4 |
83.3 |
62.5 |
78.9 |
/ |
/ |
/ |
Qwen-72B模型地址 | |||
570.0 |
76.5 |
87.7 |
/ |
80.7 |
43.0 |
67.0 |
/ |
Qwen2-57B-A14B模型地址 | |||
650.0 |
70.8 |
/ |
61.8 |
60.3 |
/ |
/ |
/ |
XVERSE-65B模型地址 | |||
450.0 |
70.6 |
/ |
/ |
74.4 |
28.4 |
/ |
8.3 |
Mixtral-8×7B-MoE模型地址 | |||
700.0 |
68.9 |
/ |
54.2 |
56.8 |
/ |
/ |
/ |
LLaMA2 70B模型地址 | |||
520.0 |
67.4 |
/ |
/ |
59.9 |
/ |
45.4 |
/ |
Jamba-v0.1模型地址 | |||
650.0 |
63.4 |
38.8 |
47.6 |
50.9 |
/ |
/ |
/ |
LLaMA 65B模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!