本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI o1 | 91.04 | 91.80 | 0.00 | 96.40 | 77.30 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
DeepSeek-R1 | 84.00 | 90.80 | 0.00 | 0.00 | 71.50 | 0.00 | 0.00 | 0.00 | 6710.0 |
![]() |
|
OpenAI o1-mini | 80.30 | 85.20 | 0.00 | 0.00 | 60.00 | 0.00 | 92.40 | 0.00 | 未知 |
![]() |
|
Hunyuan-TurboS | 79.00 | 89.50 | 0.00 | 89.70 | 57.50 | 92.20 | 91.00 | 0.00 | 未知 |
![]() |
|
QwQ-32B | 76.00 | 0.00 | 0.00 | 0.00 | 58.00 | 0.00 | 19.00 | 0.00 | 325.0 |
![]() |
|
QwQ-32B-Preview | 70.97 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 320.0 |
![]() |
|
DeepSeek-R1-Distill-Llama-70B | 0.00 | 0.00 | 0.00 | 0.00 | 65.20 | 0.00 | 0.00 | 0.00 | 700.0 |
![]() |
|
OpenAI o3-mini (high) | 0.00 | 86.90 | 0.00 | 97.90 | 79.70 | 0.00 | 97.60 | 0.00 | 未知 |
![]() |
|
Kimi k1.5 (Short-CoT) | 0.00 | 87.40 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Grok-3 mini - Reasoning | 0.00 | 0.00 | 0.00 | 0.00 | 84.00 | 0.00 | 0.00 | 0.00 | 未知 |
|
|
Grok-3 - Reasoning Beta | 0.00 | 0.00 | 0.00 | 0.00 | 85.00 | 0.00 | 0.00 | 0.00 | 未知 |
|
|
Claude Sonnet 3.7-64K Extended Thinking | 0.00 | 0.00 | 0.00 | 0.00 | 84.80 | 0.00 | 0.00 | 0.00 | 未知 |
![]() |
|
Phi-4-instruct (reasoning-trained) | 0.00 | 0.00 | 0.00 | 0.00 | 49.00 | 0.00 | 0.00 | 0.00 | 38.0 |
![]() |
|
DeepSeek-R1-Distill-Qwen-7B | 0.00 | 0.00 | 0.00 | 0.00 | 49.50 | 0.00 | 0.00 | 0.00 | 70.0 |
![]() |