本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI o1 | 91.04 | 91.80 | 0.00 | 96.40 | 77.30 | 0.00 | 96.40 | 71.00 | 未知 |
![]() |
|
GPT-4.5 | 86.10 | 0.00 | 0.00 | 0.00 | 71.40 | 0.00 | 90.70 | 46.40 | 未知 |
![]() |
|
OpenAI o3 | 85.60 | 0.00 | 0.00 | 0.00 | 83.30 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
DeepSeek-R1 | 84.00 | 90.80 | 0.00 | 0.00 | 71.50 | 0.00 | 97.30 | 65.90 | 6710.0 |
![]() |
|
Llama 4 Behemoth Instruct | 82.20 | 0.00 | 0.00 | 0.00 | 73.70 | 0.00 | 95.00 | 49.40 | 20000.0 |
![]() |
|
DeepSeek-V3-0324 | 81.20 | 0.00 | 0.00 | 0.00 | 68.40 | 0.00 | 94.00 | 49.20 | 6810.0 |
![]() |
|
OpenAI o4 - mini | 80.60 | 0.00 | 0.00 | 0.00 | 81.40 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Llama 4 Maverick Instruct | 80.50 | 0.00 | 0.00 | 0.00 | 69.80 | 0.00 | 0.00 | 43.40 | 4000.0 |
![]() |
|
GPT-4.1 | 80.50 | 0.00 | 0.00 | 0.00 | 66.30 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
OpenAI o1-mini | 80.30 | 85.20 | 0.00 | 0.00 | 60.00 | 92.40 | 90.00 | 52.00 | 未知 |
![]() |
|
Gemini 2.0 Pro Experimental | 79.10 | 86.50 | 0.00 | 91.80 | 64.70 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Hunyuan-TurboS | 79.00 | 89.50 | 0.00 | 89.70 | 57.50 | 91.00 | 0.00 | 32.00 | 未知 |
![]() |
|
GPT-4o | 77.90 | 88.70 | 0.00 | 75.90 | 53.60 | 90.00 | 75.90 | 35.10 | 未知 |
![]() |
|
GPT-4o(2024-11-20) | 77.90 | 85.70 | 0.00 | 68.50 | 0.00 | 90.20 | 0.00 | 0.00 | 未知 |
![]() |
|
Claude 3.5 Sonnet | 77.64 | 88.30 | 0.00 | 71.10 | 59.40 | 92.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Gemini 2.0 Flash Experimental | 76.24 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Qwen2.5-Max | 76.10 | 87.90 | 94.50 | 68.50 | 0.00 | 73.20 | 0.00 | 0.00 | 未知 |
![]() |
|
DeepSeek-V3 | 75.90 | 88.50 | 0.00 | 87.80 | 59.10 | 89.00 | 87.80 | 34.60 | 6810.0 |
![]() |
|
Grok 2 | 75.50 | 87.50 | 0.00 | 76.10 | 56.00 | 88.40 | 0.00 | 0.00 | 未知 |
|
|
Llama 4 Scout Instruct | 74.30 | 0.00 | 0.00 | 0.00 | 57.20 | 0.00 | 0.00 | 32.80 | 1090.0 |
![]() |
|
Llama3.1-405B Instruct | 73.40 | 88.60 | 0.00 | 73.90 | 49.00 | 89.00 | 0.00 | 30.20 | 4050.0 |
![]() |
|
Qwen3-235B-A22B | 68.18 | 0.00 | 94.39 | 0.00 | 0.00 | 0.00 | 0.00 | 70.70 | 2350.0 |
![]() |
|
Llama 4 Maverick | 62.90 | 85.50 | 0.00 | 61.20 | 0.00 | 0.00 | 0.00 | 0.00 | 4000.0 |
![]() |
|
Llama3.1-405B | 61.60 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 4050.0 |
![]() |
|
Llama 4 Scout | 58.20 | 79.60 | 0.00 | 50.30 | 0.00 | 0.00 | 0.00 | 0.00 | 1090.0 |
![]() |
|
Mixtral-8x22B-Instruct-v0.1 | 56.33 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1410.0 |
![]() |
|
Grok-1.5 | 51.00 | 81.30 | 0.00 | 50.60 | 35.90 | 74.10 | 0.00 | 0.00 | 未知 |
|
|
Kimi k1.5 (Long-CoT) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 96.20 | 0.00 | 未知 |
![]() |
|
Amazon Nova Pro | 0.00 | 85.90 | 0.00 | 76.60 | 0.00 | 89.00 | 0.00 | 0.00 | 未知 |
![]() |
|
OpenAI o3-mini (medium) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 67.40 | 未知 |
![]() |
|
Gemini 2.5 Flash | 0.00 | 0.00 | 0.00 | 0.00 | 78.30 | 0.00 | 0.00 | 63.40 | 未知 |
![]() |
|
GPT-4.1 nano | 0.00 | 80.10 | 0.00 | 0.00 | 50.30 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
GPT-4.1 mini | 0.00 | 87.50 | 0.00 | 0.00 | 65.00 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
OpenAI o3-mini (high) | 0.00 | 86.90 | 0.00 | 97.90 | 79.70 | 97.60 | 97.90 | 69.50 | 未知 |
![]() |
|
Kimi k1.5 (Short-CoT) | 0.00 | 87.40 | 0.00 | 0.00 | 0.00 | 0.00 | 94.60 | 0.00 | 未知 |
![]() |
|
Claude Sonnet 3.7-64K Extended Thinking | 0.00 | 0.00 | 0.00 | 0.00 | 84.80 | 0.00 | 96.20 | 0.00 | 未知 |
![]() |
|
Grok 3 | 0.00 | 0.00 | 0.00 | 0.00 | 80.20 | 0.00 | 0.00 | 70.60 | 未知 |
|
|
Grok 3 mini | 0.00 | 0.00 | 0.00 | 0.00 | 65.00 | 0.00 | 0.00 | 0.00 | 未知 |
|
|
Grok-3 mini - Reasoning | 0.00 | 0.00 | 0.00 | 0.00 | 84.00 | 0.00 | 0.00 | 0.00 | 未知 |
|
|
Grok-3 - Reasoning Beta | 0.00 | 0.00 | 0.00 | 0.00 | 84.60 | 0.00 | 0.00 | 79.40 | 未知 |
|
|
Claude Sonnet 3.7 | 0.00 | 0.00 | 0.00 | 0.00 | 68.00 | 0.00 | 82.20 | 0.00 | 未知 |
![]() |
|
QwQ-Max-Preview | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 65.60 | 未知 |
![]() |
|
Kimi-k1.6-IOI | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 65.90 | 未知 |
![]() |
|
Kimi-k1.6-IOI-high | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 73.80 | 未知 |
![]() |