本页面汇总了当前业界主流的大模型评测基准,包括 MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台,帮助大家了解不同大模型在各种评测数据集上的性能表现。你可以通过浏览这些基准的详细信息,深入了解大模型在知识问答、数学推理、代码生成等方面的优劣,以便更好地选择和优化你的模型。