本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Phi-4-mini-instruct (3.8B) | 52.80 | 67.30 | 88.60 | 64.00 | 36.00 | 0.00 | 74.40 | 65.30 | 38.0 |
![]() |
|
Qwen2.5-3B | 34.60 | 65.60 | 79.10 | 42.60 | 24.30 | 56.30 | 42.10 | 57.10 | 30.0 |
![]() |
|
Llama-3.2-3B | 25.00 | 54.75 | 34.00 | 8.50 | 26.60 | 46.80 | 28.00 | 48.70 | 32.0 |
![]() |
|
Phi-4-instruct (reasoning-trained) | 0.00 | 0.00 | 0.00 | 0.00 | 49.00 | 0.00 | 0.00 | 0.00 | 38.0 |
![]() |