大模型BBH评测基准详情以及最新排行结果

BBH

Big Bench Hard

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。

英语难度：Expert

模型简称	得分	发布时间	参数规模（亿）
Claude 3.5 Sonnet New	92.6	2024-10-22	0.0
DeepSeek-V3	92.3	2024-12-26	6810.0
Hunyuan-TurboS	92.2	2025-03-10	未知
GPT-4o	91.7	2024-05-13	未知
Llama3.1-405B Instruct	89.2	2024-07-23	4050.0
Qwen3-235B-A22B	88.87	2025-04-28	2350.0
Qwen2.5-72B	86.3	2024-09-18	727.0
Gemma 2 - 9B	68.2	2024-06-27	90.0
Moonlight-16B-A3B-Instruct	65.2	2025-02-23	160.0
Llama3.1-8B	57.7	2024-07-23	80.0
Qwen2.5-3B	56.3	2024-09-18	30.0
Mistral-7B-Instruct-v0.3	56.1	2024-05-22	70.0
Llama-3.2-3B	46.8	2024-09-18	32.0
Amazon Nova Pro	0.0	2024-12-03	未知
Gemini 1.5 Pro	0.0	2024-02-15	0.0

模型简称

得分

发布机构

发布时间

参数规模（亿）

Claude 3.5 Sonnet New

92.6

2024-10-22

0.0

DeepSeek-V3

92.3

2024-12-26

6810.0

Hunyuan-TurboS

92.2

2025-03-10

未知

GPT-4o

91.7

2024-05-13

未知

Llama3.1-405B Instruct

89.2

2024-07-23

4050.0

Qwen3-235B-A22B

88.87

2025-04-28

2350.0

Qwen2.5-72B

86.3

2024-09-18

727.0

Gemma 2 - 9B

68.2

2024-06-27

90.0

Moonlight-16B-A3B-Instruct

65.2

2025-02-23

160.0

Llama3.1-8B

57.7

2024-07-23

80.0

Qwen2.5-3B

56.3

2024-09-18

30.0

Mistral-7B-Instruct-v0.3

56.1

2024-05-22

70.0

Llama-3.2-3B

46.8

2024-09-18

32.0

Amazon Nova Pro

0.0

2024-12-03

未知

Gemini 1.5 Pro

0.0

2024-02-15

0.0

Claude 3.5 Sonnet New

得分:

92.6

发布时间:

2024-10-22

参数规模(亿):

0.0

DeepSeek-V3

得分:

92.3

发布时间:

2024-12-26

参数规模(亿):

6810.0

Hunyuan-TurboS

得分:

92.2

发布时间:

2025-03-10

参数规模(亿):

未知

GPT-4o

得分:

91.7

发布时间:

2024-05-13

参数规模(亿):

未知

Llama3.1-405B Instruct

得分:

89.2

发布时间:

2024-07-23

参数规模(亿):

4050.0

Qwen3-235B-A22B

得分:

88.87

发布时间:

2025-04-28

参数规模(亿):

2350.0

Qwen2.5-72B

得分:

86.3

发布时间:

2024-09-18

参数规模(亿):

727.0

Gemma 2 - 9B

得分:

68.2

发布时间:

2024-06-27

参数规模(亿):

90.0

Moonlight-16B-A3B-Instruct

得分:

65.2

发布时间:

2025-02-23

参数规模(亿):

160.0

Llama3.1-8B

得分:

57.7

发布时间:

2024-07-23

参数规模(亿):

80.0

Qwen2.5-3B

得分:

56.3

发布时间:

2024-09-18

参数规模(亿):

30.0

Mistral-7B-Instruct-v0.3

得分:

56.1

发布时间:

2024-05-22

参数规模(亿):

70.0

Llama-3.2-3B

得分:

46.8

发布时间:

2024-09-18

参数规模(亿):

32.0

Amazon Nova Pro

得分:

0.0

发布时间:

2024-12-03

参数规模(亿):

未知

Gemini 1.5 Pro

得分:

0.0

发布时间:

2024-02-15

参数规模(亿):

0.0

BBH

问题数量

机构

类别

评估指标

BBH基准测试简介

Claude 3.5 Sonnet New

DeepSeek-V3

Hunyuan-TurboS

GPT-4o

Llama3.1-405B Instruct

Qwen3-235B-A22B

Qwen2.5-72B

Gemma 2 - 9B

Moonlight-16B-A3B-Instruct

Llama3.1-8B

Qwen2.5-3B

Mistral-7B-Instruct-v0.3

Llama-3.2-3B

Amazon Nova Pro

Gemini 1.5 Pro