BBH

Big Bench Hard

BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。

英语 难度:Expert
问题数量

23

机构

Google

类别

综合评估

评估指标

Varies

BBH基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
Claude 3.5 Sonnet New 92.6 Anthropic 2024-10-22 0.0
DeepSeek-V3 92.3 DeepSeek-AI 2024-12-26 6810.0
Hunyuan-TurboS 92.2 腾讯AI实验室 2025-03-10 未知
GPT-4o 91.7 OpenAI 2024-05-13 未知
Llama3.1-405B Instruct 89.2 Facebook AI研究实验室 2024-07-23 4050.0
Qwen2.5-72B 86.3 阿里巴巴 2024-09-18 727.0
Gemma 2 - 9B 68.2 Google Research 2024-06-27 90.0
Moonlight-16B-A3B-Instruct 65.2 Moonshot AI 2025-02-23 160.0
Llama3.1-8B 57.7 Facebook AI研究实验室 2024-07-23 80.0
Qwen2.5-3B 56.3 阿里巴巴 2024-09-18 30.0
Mistral-7B-Instruct-v0.3 56.1 MistralAI 2024-05-22 70.0
Llama-3.2-3B 46.8 Facebook AI研究实验室 2024-09-18 32.0
Amazon Nova Pro 0.0 亚马逊 2024-12-03 未知
Gemini 1.5 Pro 0.0 Google Deep Mind 2024-02-15 0.0
得分:
92.6
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
92.3
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
92.2
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
91.7
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
89.2
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
86.3
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
68.2
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
65.2
发布时间:
2025-02-23
参数规模(亿):
160.0
得分:
57.7
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
56.3
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
56.1
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
46.8
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
0.0
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
0.0
发布时间:
2024-02-15
参数规模(亿):
0.0