BIG-bench

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。

多语言难度：Advanced

问题数量

200

机构

Google

类别

综合评估

评估指标

Varies

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

BIG-bench基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）