MMLU

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。

英语 难度:Advanced
问题数量

15000

机构

University of California, Berkeley

类别

知识问答

评估指标

Accuracy

MMLU基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
OpenAI o1 91.8 OpenAI 2024-12-05 未知
DeepSeek-R1 90.8 DeepSeek-AI 2025-01-20 6710.0
Hunyuan-TurboS 89.5 腾讯AI实验室 2025-03-10 未知
GPT-4o 88.7 OpenAI 2024-05-13 未知
Llama3.1-405B Instruct 88.6 Facebook AI研究实验室 2024-07-23 4050.0
DeepSeek-V3 88.5 DeepSeek-AI 2024-12-26 6810.0
Claude 3.5 Sonnet 88.3 Anthropic 2024-06-21 未知
Claude 3.5 Sonnet New 88.3 Anthropic 2024-10-22 0.0
Qwen2.5-Max 87.9 阿里巴巴 2025-01-28 未知
GPT-4.1 mini 87.5 OpenAI 2025-04-14 未知
Grok 2 87.5 xAI 2024-08-13 未知
Kimi k1.5 (Short-CoT) 87.4 Moonshot AI 2025-01-22 未知
Gemini 1.5 Pro 87.1 Google Deep Mind 2024-02-15 0.0
OpenAI o3-mini (high) 86.9 OpenAI 2025-01-31 未知
Claude3-Opus 86.8 Anthropic 2024-03-04 0.0
Gemini 2.0 Pro Experimental 86.5 DeepMind 2025-02-05 未知
Qwen2.5-72B 86.1 阿里巴巴 2024-09-18 727.0
Llama3.1-70B-Instruct 86.0 Facebook AI研究实验室 2024-07-23 700.0
Llama3.3-70B-Instruct 86.0 Facebook AI研究实验室 2024-12-06 700.0
Amazon Nova Pro 85.9 亚马逊 2024-12-03 未知
GPT-4o(2024-11-20) 85.7 OpenAI 2024-11-20 未知
Llama 4 Maverick 85.5 Facebook AI研究实验室 2025-04-05 4000.0
OpenAI o1-mini 85.2 OpenAI 2024-09-12 未知
GPT-4o mini 82.0 OpenAI 2024-07-18 0.0
Grok-1.5 81.3 xAI 2024-03-29 未知
Mistral-Small-3.1-24B-Instruct-2503 80.62 MistralAI 2025-03-17 240.0
GPT-4.1 nano 80.1 OpenAI 2025-04-14 未知
Llama 4 Scout 79.6 Facebook AI研究实验室 2025-04-05 1090.0
Claude 3.5 Haiku 77.6 Anthropic 2024-10-22 0.0
Gemma 3 - 27B (IT) 76.9 Google Deep Mind 2025-03-12 270.0
Qwen2.5-7B 74.2 阿里巴巴 2024-09-18 70.0
C4AI Aya Vision 32B 72.14 CohereAI 2025-03-04 320.0
Gemma 2 - 9B 71.3 Google Research 2024-06-27 90.0
Moonlight-16B-A3B-Instruct 70.0 Moonshot AI 2025-02-23 160.0
Llama3.1-8B-Instruct 68.1 Facebook AI研究实验室 2024-07-23 80.0
Phi-4-mini-instruct (3.8B) 67.3 Microsoft 2025-02-27 38.0
Llama3.1-8B 66.6 Facebook AI研究实验室 2024-07-23 80.0
Qwen2.5-3B 65.6 阿里巴巴 2024-09-18 30.0
Mistral-7B-Instruct-v0.3 64.2 MistralAI 2024-05-22 70.0
Llama-3.2-3B 54.75 Facebook AI研究实验室 2024-09-18 32.0
GPT-4.5 0.0 OpenAI 2025-02-28 未知
得分:
91.8
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
90.8
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
89.5
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
88.7
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
88.6
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
88.5
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
88.3
发布时间:
2024-06-21
参数规模(亿):
未知
得分:
88.3
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
87.9
发布时间:
2025-01-28
参数规模(亿):
未知
得分:
87.5
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
87.5
发布时间:
2024-08-13
参数规模(亿):
未知
得分:
87.4
发布时间:
2025-01-22
参数规模(亿):
未知
得分:
87.1
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
86.9
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
86.8
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
86.5
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
86.1
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
86.0
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
86.0
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
85.9
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
85.7
发布时间:
2024-11-20
参数规模(亿):
未知
得分:
85.5
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
85.2
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
82.0
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
81.3
发布时间:
2024-03-29
参数规模(亿):
未知
得分:
80.62
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
80.1
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
79.6
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
77.6
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
76.9
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
74.2
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
72.14
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
71.3
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
70.0
发布时间:
2025-02-23
参数规模(亿):
160.0
得分:
68.1
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
67.3
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
66.6
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
65.6
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
64.2
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
54.75
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
0.0
发布时间:
2025-02-28
参数规模(亿):
未知