本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2.5-7B | 45.00 | 74.20 | 85.40 | 49.80 | 36.40 | 0.00 | 57.90 | 74.90 | 70.0 |
![]() |
|
Gemma 2 - 9B | 44.70 | 71.30 | 70.70 | 37.70 | 32.80 | 68.20 | 37.80 | 62.20 | 90.0 |
![]() |
|
Llama3.1-8B-Instruct | 44.00 | 68.10 | 82.40 | 47.60 | 26.30 | 0.00 | 66.50 | 69.40 | 80.0 |
![]() |
|
Llama3.1-8B | 35.40 | 66.60 | 55.30 | 20.50 | 25.80 | 57.70 | 33.50 | 53.90 | 80.0 |
![]() |
|
Mistral-7B-Instruct-v0.3 | 30.90 | 64.20 | 36.20 | 10.20 | 24.70 | 56.10 | 29.30 | 51.10 | 70.0 |
![]() |
|
DeepSeek-R1-Distill-Qwen-7B | 0.00 | 0.00 | 0.00 | 0.00 | 49.50 | 0.00 | 0.00 | 0.00 | 70.0 |
![]() |