IC SWE-Lancer(Diamond)

Individual Contributor SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准

英文 难度:高难度
问题数量

237

机构

OpenAI

类别

代码生成

评估指标

Pass @K

IC SWE-Lancer(Diamond)基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
GPT-4.1 mini 33.0 OpenAI 2025-04-14 未知
GPT-4.5 32.6 OpenAI 2025-02-28 未知
GPT-4o 23.3 OpenAI 2024-05-13 未知
GPT-4.1 nano 15.3 OpenAI 2025-04-14 未知
GPT-4.1 14.4 OpenAI 2025-04-14 未知
得分:
33.0
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
32.6
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
23.3
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
15.3
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
14.4
发布时间:
2025-04-14
参数规模(亿):
未知