本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Gemini 1.5 Pro | 76.10 | 87.10 | 0.00 | 82.90 | 53.50 | 0.00 | 89.00 | 87.80 | 未知 |
![]() |
|
Llama3.1-405B Instruct | 73.40 | 88.60 | 0.00 | 73.90 | 49.00 | 89.20 | 89.00 | 88.60 | 4050.0 |
![]() |
|
Phi 4 - 14B | 70.40 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 140.0 |
![]() |
|
Qwen2.5-32B | 69.23 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 320.0 |
![]() |
|
Llama3.1-70B-Instruct | 66.40 | 86.00 | 0.00 | 67.80 | 48.00 | 0.00 | 80.50 | 86.00 | 700.0 |
![]() |
|
Qwen2.5-14B | 63.69 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 140.0 |
![]() |
|
GPT-4o mini | 63.09 | 82.00 | 91.30 | 70.20 | 41.10 | 0.00 | 87.20 | 0.00 | 未知 |
![]() |
|
Claude 3.5 Haiku | 62.12 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Llama3.1-405B | 61.60 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 4050.0 |
![]() |
|
Gemma 3 - 12B (IT) | 60.60 | 0.00 | 0.00 | 83.80 | 40.90 | 0.00 | 0.00 | 0.00 | 120.0 |
![]() |
|
Qwen2.5-72B | 58.10 | 86.10 | 91.50 | 62.10 | 45.90 | 86.30 | 59.10 | 84.70 | 727.0 |
![]() |
|
Gemma2-27B | 56.54 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 270.0 |
![]() |
|
Llama3.1-70B | 52.47 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
Qwen2.5-7B | 45.00 | 74.20 | 85.40 | 49.80 | 36.40 | 0.00 | 57.90 | 74.90 | 70.0 |
![]() |
|
Gemma 2 - 9B | 44.70 | 71.30 | 70.70 | 37.70 | 32.80 | 68.20 | 37.80 | 62.20 | 90.0 |
![]() |
|
Llama3.1-8B | 35.40 | 66.60 | 55.30 | 20.50 | 25.80 | 57.70 | 33.50 | 53.90 | 80.0 |
![]() |
|
Qwen2.5-3B | 34.60 | 65.60 | 79.10 | 42.60 | 24.30 | 56.30 | 42.10 | 57.10 | 30.0 |
![]() |
|
Llama-3.2-3B | 25.00 | 54.75 | 34.00 | 8.50 | 26.60 | 46.80 | 28.00 | 48.70 | 32.0 |
![]() |
|
Grok 3 mini | 0.00 | 0.00 | 0.00 | 0.00 | 65.00 | 0.00 | 0.00 | 0.00 | 未知 |
|