MMLU Pro

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

英文难度：高难度

问题数量

38500

机构

Berkeley Artificial Intelligence Research

类别

知识问答

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

MMLU Pro基准测试简介

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

模型简称	得分	发布时间	参数规模（亿）
OpenAI o1	91.04	2024-12-05	未知
Hunyuan-T1	87.2	2025-03-21	0.0
GPT-4.5	86.1	2025-02-28	未知
Gemini-2.5-Pro-Preview-06-05	86.0	2025-06-05	未知
OpenAI o3	85.6	2025-04-16	未知
DeepSeek-R1-0528	85.0	2025-05-28	6850.0
Claude Opus 4	85.0	2025-05-23	未知
DeepSeek-R1	84.0	2025-01-20	6710.0
Llama 4 Behemoth Instruct	82.2	2025-04-05	20000.0
DeepSeek-V3-0324	81.2	2025-03-24	6810.0
MiniMax-M1-80k	81.1	2025-06-16	4560.0
MiniMax-M1-40k	80.6	2025-06-16	4560.0
OpenAI o4 - mini	80.6	2025-04-16	未知
GPT-4.1	80.5	2025-04-14	未知
Llama 4 Maverick Instruct	80.5	2025-04-05	4000.0
OpenAI o1-mini	80.3	2024-09-12	未知
Gemini 2.0 Pro Experimental	79.1	2025-02-05	未知
Hunyuan-TurboS	79.0	2025-03-10	未知
Claude 3.5 Sonnet New	78.0	2024-10-22	0.0
GPT-4o(2024-11-20)	77.9	2024-11-20	未知
GPT-4o	77.9	2024-05-13	未知
Claude 3.5 Sonnet	77.64	2024-06-21	未知
Gemini 2.0 Flash Experimental	76.24	2024-12-11	未知
Gemini 1.5 Pro	76.1	2024-02-15	0.0
Qwen2.5-Max	76.1	2025-01-28	未知
QwQ-32B	76.0	2025-03-06	325.0
DeepSeek-V3	75.9	2024-12-26	6810.0
Grok 2	75.5	2024-08-13	未知
Llama 4 Scout Instruct	74.3	2025-04-05	1090.0
Llama3.1-405B Instruct	73.4	2024-07-23	4050.0
Gemini 2.0 Flash-Lite	71.6	2025-02-05	未知
QwQ-32B-Preview	70.97	2024-11-28	320.0
Phi 4 - 14B	70.4	2024-12-12	140.0
Qwen2.5-32B	69.23	2024-09-18	320.0
Llama3.3-70B-Instruct	68.9	2024-12-06	700.0
Claude3-Opus	68.45	2024-03-04	0.0
Qwen3-235B-A22B	68.18	2025-04-28	2350.0
Gemma 3 - 27B (IT)	67.5	2025-03-12	270.0
Mistral-Small-3.1-24B-Instruct-2503	66.76	2025-03-17	240.0
Llama3.1-70B-Instruct	66.4	2024-07-23	700.0
Claude 3.5 Haiku	65.0	2024-10-22	0.0
Qwen2.5-14B	63.69	2024-09-18	140.0
Llama 4 Maverick	62.9	2025-04-05	4000.0
GPT-4o mini	61.7	2024-07-18	0.0
Llama3.1-405B	61.6	2024-07-23	4050.0
Gemma 3 - 12B (IT)	60.6	2025-03-12	120.0
Llama 4 Scout	58.2	2025-04-05	1090.0
Qwen2.5-72B	58.1	2024-09-18	727.0
Claude3-Sonnet	56.8	2024-03-04	0.0
Gemma2-27B	56.54	2024-05-14	270.0
Mixtral-8x22B-Instruct-v0.1	56.33	2024-04-17	1410.0
Llama3-70B-Instruct	56.2	2024-04-18	700.0
Phi-4-mini-instruct (3.8B)	52.8	2025-02-27	38.0
Llama3-70B	52.78	2024-04-18	700.0
Llama3.1-70B	52.47	2024-07-23	700.0
Grok-1.5	51.0	2024-03-29	未知
C4AI Aya Vision 32B	47.16	2025-03-04	320.0
Qwen2.5-7B	45.0	2024-09-18	70.0
Gemma 2 - 9B	44.7	2024-06-27	90.0
Llama3.1-8B-Instruct	44.0	2024-07-23	80.0
Moonlight-16B-A3B-Instruct	42.4	2025-02-23	160.0
Llama3.1-8B	35.4	2024-07-23	80.0
Qwen2.5-3B	34.6	2024-09-18	30.0
Mistral-7B-Instruct-v0.3	30.9	2024-05-22	70.0
Llama-3.2-3B	25.0	2024-09-18	32.0
Amazon Nova Pro	0.0	2024-12-03	未知

OpenAI o1

得分:

91.04

发布时间:

2024-12-05

参数规模(亿):

未知

Hunyuan-T1

得分:

87.2

发布时间:

2025-03-21

参数规模(亿):

0.0

GPT-4.5

得分:

86.1

发布时间:

2025-02-28

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-06-05

得分:

86.0

发布时间:

2025-06-05

参数规模(亿):

未知

OpenAI o3

得分:

85.6

发布时间:

2025-04-16

参数规模(亿):

未知

DeepSeek-R1-0528

得分:

85.0

发布时间:

2025-05-28

参数规模(亿):

6850.0

Claude Opus 4

得分:

85.0

发布时间:

2025-05-23

参数规模(亿):

未知

DeepSeek-R1

得分:

84.0

发布时间:

2025-01-20

参数规模(亿):

6710.0

Llama 4 Behemoth Instruct

得分:

82.2

发布时间:

2025-04-05

参数规模(亿):

20000.0

DeepSeek-V3-0324

得分:

81.2

发布时间:

2025-03-24

参数规模(亿):

6810.0

MiniMax-M1-80k

得分:

81.1

发布时间:

2025-06-16

参数规模(亿):

4560.0

MiniMax-M1-40k

得分:

80.6

发布时间:

2025-06-16

参数规模(亿):

4560.0

OpenAI o4 - mini

得分:

80.6

发布时间:

2025-04-16

参数规模(亿):

未知

GPT-4.1

得分:

80.5

发布时间:

2025-04-14

参数规模(亿):

未知

Llama 4 Maverick Instruct

得分:

80.5

发布时间:

2025-04-05

参数规模(亿):

4000.0

OpenAI o1-mini

得分:

80.3

发布时间:

2024-09-12

参数规模(亿):

未知

Gemini 2.0 Pro Experimental

得分:

79.1

发布时间:

2025-02-05

参数规模(亿):

未知

Hunyuan-TurboS

得分:

79.0

发布时间:

2025-03-10

参数规模(亿):

未知

Claude 3.5 Sonnet New

得分:

78.0

发布时间:

2024-10-22

参数规模(亿):

0.0

GPT-4o(2024-11-20)

得分:

77.9

发布时间:

2024-11-20

参数规模(亿):

未知

GPT-4o

得分:

77.9

发布时间:

2024-05-13

参数规模(亿):

未知

Claude 3.5 Sonnet

得分:

77.64

发布时间:

2024-06-21

参数规模(亿):

未知

Gemini 2.0 Flash Experimental

得分:

76.24

发布时间:

2024-12-11

参数规模(亿):

未知

Gemini 1.5 Pro

得分:

76.1

发布时间:

2024-02-15

参数规模(亿):

0.0

Qwen2.5-Max

得分:

76.1

发布时间:

2025-01-28

参数规模(亿):

未知

QwQ-32B

得分:

76.0

发布时间:

2025-03-06

参数规模(亿):

325.0

DeepSeek-V3

得分:

75.9

发布时间:

2024-12-26

参数规模(亿):

6810.0

Grok 2

得分:

75.5

发布时间:

2024-08-13

参数规模(亿):

未知

Llama 4 Scout Instruct

得分:

74.3

发布时间:

2025-04-05

参数规模(亿):

1090.0

Llama3.1-405B Instruct

得分:

73.4

发布时间:

2024-07-23

参数规模(亿):

4050.0

Gemini 2.0 Flash-Lite

得分:

71.6

发布时间:

2025-02-05

参数规模(亿):

未知

QwQ-32B-Preview

得分:

70.97

发布时间:

2024-11-28

参数规模(亿):

320.0

Phi 4 - 14B

得分:

70.4

发布时间:

2024-12-12

参数规模(亿):

140.0

Qwen2.5-32B

得分:

69.23

发布时间:

2024-09-18

参数规模(亿):

320.0

Llama3.3-70B-Instruct

得分:

68.9

发布时间:

2024-12-06

参数规模(亿):

700.0

Claude3-Opus

得分:

68.45

发布时间:

2024-03-04

参数规模(亿):

0.0

Qwen3-235B-A22B

得分:

68.18

发布时间:

2025-04-28

参数规模(亿):

2350.0

Gemma 3 - 27B (IT)

得分:

67.5

发布时间:

2025-03-12

参数规模(亿):

270.0

Mistral-Small-3.1-24B-Instruct-2503

得分:

66.76

发布时间:

2025-03-17

参数规模(亿):

240.0

Llama3.1-70B-Instruct

得分:

66.4

发布时间:

2024-07-23

参数规模(亿):

700.0

Claude 3.5 Haiku

得分:

65.0

发布时间:

2024-10-22

参数规模(亿):

0.0

Qwen2.5-14B

得分:

63.69

发布时间:

2024-09-18

参数规模(亿):

140.0

Llama 4 Maverick

得分:

62.9

发布时间:

2025-04-05

参数规模(亿):

4000.0

GPT-4o mini

得分:

61.7

发布时间:

2024-07-18

参数规模(亿):

0.0

Llama3.1-405B

得分:

61.6

发布时间:

2024-07-23

参数规模(亿):

4050.0

Gemma 3 - 12B (IT)

得分:

60.6

发布时间:

2025-03-12

参数规模(亿):

120.0

Llama 4 Scout

得分:

58.2

发布时间:

2025-04-05

参数规模(亿):

1090.0

Qwen2.5-72B

得分:

58.1

发布时间:

2024-09-18

参数规模(亿):

727.0

Claude3-Sonnet

得分:

56.8

发布时间:

2024-03-04

参数规模(亿):

0.0

Gemma2-27B

得分:

56.54

发布时间:

2024-05-14

参数规模(亿):

270.0

Mixtral-8x22B-Instruct-v0.1

得分:

56.33

发布时间:

2024-04-17

参数规模(亿):

1410.0

Llama3-70B-Instruct

得分:

56.2

发布时间:

2024-04-18

参数规模(亿):

700.0

Phi-4-mini-instruct (3.8B)

得分:

52.8

发布时间:

2025-02-27

参数规模(亿):

38.0

Llama3-70B

得分:

52.78

发布时间:

2024-04-18

参数规模(亿):

700.0

Llama3.1-70B

得分:

52.47

发布时间:

2024-07-23

参数规模(亿):

700.0

Grok-1.5

得分:

51.0

发布时间:

2024-03-29

参数规模(亿):

未知

C4AI Aya Vision 32B

得分:

47.16

发布时间:

2025-03-04

参数规模(亿):

320.0

Qwen2.5-7B

得分:

45.0

发布时间:

2024-09-18

参数规模(亿):

70.0

Gemma 2 - 9B

得分:

44.7

发布时间:

2024-06-27

参数规模(亿):

90.0

Llama3.1-8B-Instruct

得分:

44.0

发布时间:

2024-07-23

参数规模(亿):

80.0

Moonlight-16B-A3B-Instruct

得分:

42.4

发布时间:

2025-02-23

参数规模(亿):

160.0

Llama3.1-8B

得分:

35.4

发布时间:

2024-07-23

参数规模(亿):

80.0

Qwen2.5-3B

得分:

34.6

发布时间:

2024-09-18

参数规模(亿):

30.0

Mistral-7B-Instruct-v0.3

得分:

30.9

发布时间:

2024-05-22

参数规模(亿):

70.0

Llama-3.2-3B

得分:

25.0

发布时间:

2024-09-18

参数规模(亿):

32.0

Amazon Nova Pro

得分:

0.0

发布时间:

2024-12-03

参数规模(亿):

未知