LiveCodeBench

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。

多语言 难度:高难度
问题数量

511

机构

UC Berkeley

类别

代码生成

评估指标

Pass @K

LiveCodeBench基准测试简介

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

模型简称 得分 发布机构 发布时间 参数规模(亿)
Kimi-k1.6-IOI-high 73.8 Moonshot AI 2025-03-20 未知
OpenAI o1 71.0 OpenAI 2024-12-05 未知
OpenAI o3-mini (high) 69.5 OpenAI 2025-01-31 未知
OpenAI o3-mini (medium) 67.4 OpenAI 2025-01-31 未知
Kimi-k1.6-IOI 65.9 Moonshot AI 2025-03-20 未知
QwQ-Max-Preview 65.6 阿里巴巴 2025-03-20 未知
OpenAI o1-mini 52.0 OpenAI 2024-09-12 未知
Claude 3.5 Sonnet New 38.7 Anthropic 2024-10-22 0.0
GPT-4o 35.1 OpenAI 2024-05-13 未知
DeepSeek-V3 34.6 DeepSeek-AI 2024-12-26 6810.0
Hunyuan-TurboS 32.0 腾讯AI实验室 2025-03-10 未知
Llama3.1-405B Instruct 30.2 Facebook AI研究实验室 2024-07-23 4050.0
Gemma 3 - 27B (IT) 29.7 Google Deep Mind 2025-03-12 270.0
Gemma 3 - 12B (IT) 24.6 Google Deep Mind 2025-03-12 120.0