Beyond the Imitation Game Benchmark
一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。
200
Google
综合评估
Varies