Big Bench Hard
BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Claude 3.5 Sonnet New | 92.6 |
![]() |
2024-10-22 | 0.0 |
DeepSeek-V3 | 92.3 |
![]() |
2024-12-26 | 6810.0 |
Hunyuan-TurboS | 92.2 |
![]() |
2025-03-10 | 未知 |
GPT-4o | 91.7 |
![]() |
2024-05-13 | 未知 |
Llama3.1-405B Instruct | 89.2 |
![]() |
2024-07-23 | 4050.0 |
Qwen2.5-72B | 86.3 |
![]() |
2024-09-18 | 727.0 |
Gemma 2 - 9B | 68.2 |
![]() |
2024-06-27 | 90.0 |
Moonlight-16B-A3B-Instruct | 65.2 |
![]() |
2025-02-23 | 160.0 |
Llama3.1-8B | 57.7 |
![]() |
2024-07-23 | 80.0 |
Qwen2.5-3B | 56.3 |
![]() |
2024-09-18 | 30.0 |
Mistral-7B-Instruct-v0.3 | 56.1 |
![]() |
2024-05-22 | 70.0 |
Llama-3.2-3B | 46.8 |
![]() |
2024-09-18 | 32.0 |
Amazon Nova Pro | 0.0 |
![]() |
2024-12-03 | 未知 |
Gemini 1.5 Pro | 0.0 |
![]() |
2024-02-15 | 0.0 |