LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。
LiveCodeBench
LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。
511
UC Berkeley
代码生成
Pass @K
LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Kimi-k1.6-IOI-high | 73.8 | Moonshot AI | 2025-03-20 | 未知 |
OpenAI o1 | 71.0 | OpenAI | 2024-12-05 | 未知 |
OpenAI o3-mini (high) | 69.5 | OpenAI | 2025-01-31 | 未知 |
OpenAI o3-mini (medium) | 67.4 | OpenAI | 2025-01-31 | 未知 |
Kimi-k1.6-IOI | 65.9 | Moonshot AI | 2025-03-20 | 未知 |
QwQ-Max-Preview | 65.6 | 阿里巴巴 | 2025-03-20 | 未知 |
OpenAI o1-mini | 52.0 | OpenAI | 2024-09-12 | 未知 |
Claude 3.5 Sonnet New | 38.7 | Anthropic | 2024-10-22 | 0.0 |
GPT-4o | 35.1 | OpenAI | 2024-05-13 | 未知 |
DeepSeek-V3 | 34.6 | DeepSeek-AI | 2024-12-26 | 6810.0 |
Hunyuan-TurboS | 32.0 | 腾讯AI实验室 | 2025-03-10 | 未知 |
Llama3.1-405B Instruct | 30.2 | Facebook AI研究实验室 | 2024-07-23 | 4050.0 |
Gemma 3 - 27B (IT) | 29.7 | Google Deep Mind | 2025-03-12 | 270.0 |
Gemma 3 - 12B (IT) | 24.6 | Google Deep Mind | 2025-03-12 | 120.0 |