本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Llama3.3-70B-Instruct | 68.90 | 86.00 | 0.00 | 77.00 | 50.50 | 88.40 | 0.00 | 33.30 | 700.0 |
![]() |
|
Llama3.1-70B-Instruct | 66.40 | 86.00 | 0.00 | 67.80 | 48.00 | 80.50 | 0.00 | 33.30 | 700.0 |
![]() |
|
Qwen2.5-72B | 58.10 | 86.10 | 91.50 | 62.10 | 45.90 | 59.10 | 0.00 | 0.00 | 727.0 |
![]() |
|
Llama3-70B-Instruct | 56.20 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
Llama3-70B | 52.78 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
Llama3.1-70B | 52.47 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
DeepSeek-R1-Distill-Llama-70B | 0.00 | 0.00 | 0.00 | 0.00 | 65.20 | 0.00 | 94.50 | 0.00 | 700.0 |
![]() |