SWE-bench Verified

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

英文难度：高难度

问题数量

500

机构

OpenAI

类别

代码生成

评估指标

Accuracy

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

SWE-bench Verified基准测试简介

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

模型简称	得分	发布时间	参数规模（亿）
Claude Sonnet 4	72.7	2025-05-23	未知
Claude Opus 4	72.5	2025-05-23	未知
Claude Sonnet 3.7	70.3	2025-02-25	未知
OpenAI o3	69.1	2025-04-16	未知
OpenAI o4 - mini	68.1	2025-04-16	未知
Gemini 2.5 Flash	63.8	2025-04-17	未知
Gemini 2.5 Pro Experimental 03-25	63.8	2025-03-25	0.0
Gemini-2.5-Pro-Preview-05-06	63.2	2025-05-06	未知
Gemini-2.5-Pro-Preview-06-05	59.6	2025-06-05	未知
DeepSeek-R1-0528	57.6	2025-05-28	6850.0
MiniMax-M1-80k	56.0	2025-06-16	4560.0
MiniMax-M1-40k	55.6	2025-06-16	4560.0
GPT-4.1	54.6	2025-04-14	未知
OpenAI o3-mini (high)	49.3	2025-01-31	未知
DeepSeek-R1	49.2	2025-01-20	6710.0
Claude 3.5 Sonnet New	49.0	2024-10-22	0.0
OpenAI o1	48.9	2024-12-05	未知
GPT-4.5	38.0	2025-02-28	未知
Qwen3-235B-A22B	34.4	2025-04-28	2350.0
GPT-4o	31.0	2024-05-13	未知
Gemini 2.5 Flash-Lite	27.6	2025-06-17	未知
GPT-4.1 mini	23.6	2025-04-14	未知
Gemini 2.0 Flash Experimental	21.4	2024-12-11	未知