本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Gemini 2.0 Pro Experimental | 79.10 | 86.50 | 0.00 | 91.80 | 64.70 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Claude 3.5 Sonnet New | 78.00 | 88.30 | 0.00 | 78.30 | 65.00 | 92.60 | 93.70 | 0.00 | 未知 |
![]() |
|
GPT-4o(2024-11-20) | 77.90 | 85.70 | 0.00 | 68.50 | 0.00 | 0.00 | 90.20 | 0.00 | 未知 |
![]() |
|
Qwen2.5-Max | 76.10 | 87.90 | 94.50 | 68.50 | 0.00 | 0.00 | 73.20 | 80.60 | 未知 |
![]() |
|
DeepSeek-V3 | 75.90 | 88.50 | 0.00 | 87.80 | 59.10 | 92.30 | 89.00 | 0.00 | 6810.0 |
![]() |
|
Grok 2 | 75.50 | 87.50 | 0.00 | 76.10 | 56.00 | 0.00 | 88.40 | 0.00 | 未知 |
|
|
Llama3.3-70B-Instruct | 68.90 | 86.00 | 0.00 | 77.00 | 50.50 | 0.00 | 88.40 | 87.60 | 700.0 |
![]() |
|
Gemma 3 - 27B (IT) | 67.50 | 0.00 | 0.00 | 89.00 | 42.40 | 0.00 | 0.00 | 0.00 | 270.0 |
![]() |
|
Mixtral-8x22B-Instruct-v0.1 | 56.33 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1410.0 |
![]() |
|
Llama3-70B-Instruct | 56.20 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
Phi-4-mini-instruct (3.8B) | 52.80 | 67.30 | 88.60 | 64.00 | 36.00 | 0.00 | 74.40 | 65.30 | 38.0 |
![]() |
|
Llama3-70B | 52.78 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
Grok-1.5 | 51.00 | 81.30 | 0.00 | 50.60 | 35.90 | 0.00 | 74.10 | 0.00 | 未知 |
|
|
Llama3.1-8B-Instruct | 44.00 | 68.10 | 82.40 | 47.60 | 26.30 | 0.00 | 66.50 | 69.40 | 80.0 |
![]() |
|
Moonlight-16B-A3B-Instruct | 42.40 | 70.00 | 77.40 | 45.30 | 0.00 | 65.20 | 48.10 | 63.80 | 160.0 |
![]() |
|
Mistral-7B-Instruct-v0.3 | 30.90 | 64.20 | 36.20 | 10.20 | 24.70 | 56.10 | 29.30 | 51.10 | 70.0 |
![]() |
|
Grok 3 | 0.00 | 0.00 | 0.00 | 0.00 | 75.00 | 0.00 | 0.00 | 0.00 | 未知 |
|
|
Claude Sonnet 3.7 | 0.00 | 0.00 | 0.00 | 0.00 | 68.00 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
GPT-4.5 | 0.00 | 0.00 | 0.00 | 0.00 | 71.40 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |