在人工智能领域,随着大型语言模型(LLMs)在各类任务中的表现不断提升,评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域,AI 模型是否能够准确地解决真实的编程问题,是衡量其真正应用潜力的关键。而在这方面,OpenAI 推出的 *SWE-bench Verified* 基准测试,旨在提供一个更加可靠和精确的评估工具,帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。
Software Engineering Bench - Verified
OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测
500
OpenAI
代码生成
Accuracy
在人工智能领域,随着大型语言模型(LLMs)在各类任务中的表现不断提升,评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域,AI 模型是否能够准确地解决真实的编程问题,是衡量其真正应用潜力的关键。而在这方面,OpenAI 推出的 *SWE-bench Verified* 基准测试,旨在提供一个更加可靠和精确的评估工具,帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Claude Sonnet 3.7 | 70.3 |
![]() |
2025-02-25 | 未知 |
OpenAI o3 | 69.1 |
![]() |
2025-04-16 | 未知 |
OpenAI o4 - mini | 68.1 |
![]() |
2025-04-16 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 63.8 |
![]() |
2025-03-25 | 0.0 |
Gemini 2.5 Flash | 63.8 |
![]() |
2025-04-17 | 未知 |
GPT-4.1 | 54.6 |
![]() |
2025-04-14 | 未知 |
OpenAI o3-mini (high) | 49.3 |
![]() |
2025-01-31 | 未知 |
DeepSeek-R1 | 49.2 |
![]() |
2025-01-20 | 6710.0 |
Claude 3.5 Sonnet New | 49.0 |
![]() |
2024-10-22 | 0.0 |
OpenAI o1 | 48.9 |
![]() |
2024-12-05 | 未知 |
GPT-4.5 | 38.0 |
![]() |
2025-02-28 | 未知 |
GPT-4o | 31.0 |
![]() |
2024-05-13 | 未知 |
GPT-4.1 mini | 23.6 |
![]() |
2025-04-14 | 未知 |