BIG-bench

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。

多语言 难度:Advanced
问题数量

200

机构

Google

类别

综合评估

评估指标

Varies

BIG-bench基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...