本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
模型名称 | 参数数量 | 开源情况 | 发布机构 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
QwQ-32B | 76.00 | 0.00 | 0.00 | 0.00 | 58.00 | 19.00 | 91.00 | 0.00 | 325.0 |
![]() |
|
QwQ-32B-Preview | 70.97 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 90.60 | 0.00 | 320.0 |
![]() |
|
Qwen2.5-32B | 69.23 | 83.30 | 95.90 | 83.10 | 0.00 | 88.40 | 0.00 | 51.20 | 320.0 |
![]() |
|
Gemma 3 - 27B (IT) | 67.50 | 76.90 | 0.00 | 89.00 | 42.40 | 87.80 | 0.00 | 29.70 | 270.0 |
![]() |
|
Mistral-Small-3.1-24B-Instruct-2503 | 66.76 | 80.62 | 0.00 | 69.30 | 45.96 | 88.41 | 0.00 | 0.00 | 240.0 |
![]() |
|
Gemma2-27B | 56.54 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 270.0 |
![]() |
|
C4AI Aya Vision 32B | 47.16 | 72.14 | 0.00 | 69.30 | 33.84 | 62.20 | 0.00 | 0.00 | 320.0 |
![]() |
|
Qwen3-32B | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 65.70 | 220.0 |
![]() |