BBH

Big Bench Hard

BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。

英语 难度:Expert
问题数量

23

机构

Google

类别

综合评估

评估指标

Varies

BBH基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...