Massive Multitask Language Understanding
一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。
15000
University of California, Berkeley
知识问答
Accuracy