SWE-bench Verified

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

英文 难度:高难度
问题数量

500

机构

OpenAI

类别

代码生成

评估指标

Accuracy

SWE-bench Verified基准测试简介

在人工智能领域,随着大型语言模型(LLMs)在各类任务中的表现不断提升,评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域,AI 模型是否能够准确地解决真实的编程问题,是衡量其真正应用潜力的关键。而在这方面,OpenAI 推出的 *SWE-bench Verified* 基准测试,旨在提供一个更加可靠和精确的评估工具,帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

模型简称 得分 发布机构 发布时间 参数规模(亿)
Claude Sonnet 3.7 70.3 Anthropic 2025-02-25 未知
OpenAI o3 69.1 OpenAI 2025-04-16 未知
OpenAI o4 - mini 68.1 OpenAI 2025-04-16 未知
Gemini 2.5 Pro Experimental 03-25 63.8 Google Deep Mind 2025-03-25 0.0
Gemini 2.5 Flash 63.8 Google Deep Mind 2025-04-17 未知
GPT-4.1 54.6 OpenAI 2025-04-14 未知
OpenAI o3-mini (high) 49.3 OpenAI 2025-01-31 未知
DeepSeek-R1 49.2 DeepSeek-AI 2025-01-20 6710.0
Claude 3.5 Sonnet New 49.0 Anthropic 2024-10-22 0.0
OpenAI o1 48.9 OpenAI 2024-12-05 未知
GPT-4.5 38.0 OpenAI 2025-02-28 未知
GPT-4o 31.0 OpenAI 2024-05-13 未知
GPT-4.1 mini 23.6 OpenAI 2025-04-14 未知
得分:
70.3
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
69.1
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
68.1
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
63.8
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
63.8
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
54.6
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
49.3
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
49.2
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
49.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
48.9
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
38.0
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
31.0
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
23.6
发布时间:
2025-04-14
参数规模(亿):
未知