LiveCodeBench

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台，通过来自顶级竞赛平台的高难度编程任务，全面评估大型语言模型在复杂编码场景中的能力。

多语言难度：高难度

问题数量

511

机构

UC Berkeley

类别

代码生成

评估指标

Pass @K

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

LiveCodeBench基准测试简介

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

模型简称	得分	发布机构	发布时间	参数规模（亿）
Gemini 2.5 Pro Deep Think	80.4		2025-06-17	未知
Grok-3 - Reasoning Beta	79.4		2025-02-18	未知
Gemini-2.5-Pro-Preview-05-06	77.1		2025-05-06	未知
Gemini-2.5-Pro-Preview-06-05	77.1		2025-06-05	未知
OpenAI o3	75.8		2025-04-16	未知
Kimi-k1.6-IOI-high	73.8		2025-03-20	未知
DeepSeek-R1-0528	73.3		2025-05-28	6850.0
OpenAI o1	71.0		2024-12-05	未知
Qwen3-235B-A22B	70.7		2025-04-28	2350.0
Grok 3	70.6		2025-02-17	未知
Gemini 2.5 Pro Experimental 03-25	70.4		2025-03-25	0.0
OpenAI o3-mini (high)	69.5		2025-01-31	未知
OpenAI o3-mini (medium)	67.4		2025-01-31	未知
DeepSeek-R1	65.9		2025-01-20	6710.0
Kimi-k1.6-IOI	65.9		2025-03-20	未知
Qwen3-32B	65.7		2025-04-28	220.0
QwQ-Max-Preview	65.6		2025-03-20	未知
MiniMax-M1-80k	65.0		2025-06-16	4560.0
Hunyuan-T1	64.9		2025-03-21	0.0
Gemini 2.5 Flash	63.4		2025-04-17	未知
MiniMax-M1-40k	62.3		2025-06-16	4560.0
Magistral-Medium-2506	59.36		2025-06-10	未知
Claude Opus 4	56.6		2025-05-23	未知
Magistral-Small-2506	55.84		2025-06-10	240.0
OpenAI o1-mini	52.0		2024-09-12	未知
Qwen2.5-32B	51.2		2024-09-18	320.0
Llama 4 Behemoth Instruct	49.4		2025-04-05	20000.0
DeepSeek-V3-0324	49.2		2025-03-24	6810.0
GPT-4.5	46.4		2025-02-28	未知
Llama 4 Maverick Instruct	43.4		2025-04-05	4000.0
Claude 3.5 Sonnet New	38.7		2024-10-22	0.0
GPT-4o	35.1		2024-05-13	未知
DeepSeek-V3	34.6		2024-12-26	6810.0
Gemini 2.5 Flash-Lite	34.3		2025-06-17	未知
Llama3.1-70B-Instruct	33.3		2024-07-23	700.0
Llama3.3-70B-Instruct	33.3		2024-12-06	700.0
Llama 4 Scout Instruct	32.8		2025-04-05	1090.0
Hunyuan-TurboS	32.0		2025-03-10	未知
Llama3.1-405B Instruct	30.2		2024-07-23	4050.0
Gemma 3 - 27B (IT)	29.7		2025-03-12	270.0
Gemini 2.0 Flash Experimental	29.1		2024-12-11	未知
Gemini 2.0 Flash-Lite	28.9		2025-02-05	未知
Gemma 3 - 12B (IT)	24.6		2025-03-12	120.0

Gemini 2.5 Pro Deep Think

得分:

80.4

发布时间:

2025-06-17

参数规模(亿):

未知

Grok-3 - Reasoning Beta

得分:

79.4

发布时间:

2025-02-18

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-05-06

得分:

77.1

发布时间:

2025-05-06

参数规模(亿):

未知

Gemini-2.5-Pro-Preview-06-05

得分:

77.1

发布时间:

2025-06-05

参数规模(亿):

未知

OpenAI o3

得分:

75.8

发布时间:

2025-04-16

参数规模(亿):

未知

Kimi-k1.6-IOI-high

得分:

73.8

发布时间:

2025-03-20

参数规模(亿):

未知

DeepSeek-R1-0528

得分:

73.3

发布时间:

2025-05-28

参数规模(亿):

6850.0

OpenAI o1

得分:

71.0

发布时间:

2024-12-05

参数规模(亿):

未知

Qwen3-235B-A22B

得分:

70.7

发布时间:

2025-04-28

参数规模(亿):

2350.0

Grok 3

得分:

70.6

发布时间:

2025-02-17

参数规模(亿):

未知

Gemini 2.5 Pro Experimental 03-25

得分:

70.4

发布时间:

2025-03-25

参数规模(亿):

0.0

OpenAI o3-mini (high)

得分:

69.5

发布时间:

2025-01-31

参数规模(亿):

未知

OpenAI o3-mini (medium)

得分:

67.4

发布时间:

2025-01-31

参数规模(亿):

未知

DeepSeek-R1

得分:

65.9

发布时间:

2025-01-20

参数规模(亿):

6710.0

Kimi-k1.6-IOI

得分:

65.9

发布时间:

2025-03-20

参数规模(亿):

未知

Qwen3-32B

得分:

65.7

发布时间:

2025-04-28

参数规模(亿):

220.0

QwQ-Max-Preview

得分:

65.6

发布时间:

2025-03-20

参数规模(亿):

未知

MiniMax-M1-80k

得分:

65.0

发布时间:

2025-06-16

参数规模(亿):

4560.0

Hunyuan-T1

得分:

64.9

发布时间:

2025-03-21

参数规模(亿):

0.0

Gemini 2.5 Flash

得分:

63.4

发布时间:

2025-04-17

参数规模(亿):

未知

MiniMax-M1-40k

得分:

62.3

发布时间:

2025-06-16

参数规模(亿):

4560.0

Magistral-Medium-2506

得分:

59.36

发布时间:

2025-06-10

参数规模(亿):

未知

Claude Opus 4

得分:

56.6

发布时间:

2025-05-23

参数规模(亿):

未知

Magistral-Small-2506

得分:

55.84

发布时间:

2025-06-10

参数规模(亿):

240.0

OpenAI o1-mini

得分:

52.0

发布时间:

2024-09-12

参数规模(亿):

未知

Qwen2.5-32B

得分:

51.2

发布时间:

2024-09-18

参数规模(亿):

320.0

Llama 4 Behemoth Instruct

得分:

49.4

发布时间:

2025-04-05

参数规模(亿):

20000.0

DeepSeek-V3-0324

得分:

49.2

发布时间:

2025-03-24

参数规模(亿):

6810.0

GPT-4.5

得分:

46.4

发布时间:

2025-02-28

参数规模(亿):

未知

Llama 4 Maverick Instruct

得分:

43.4

发布时间:

2025-04-05

参数规模(亿):

4000.0

Claude 3.5 Sonnet New

得分:

38.7

发布时间:

2024-10-22

参数规模(亿):

0.0

GPT-4o

得分:

35.1

发布时间:

2024-05-13

参数规模(亿):

未知

DeepSeek-V3

得分:

34.6

发布时间:

2024-12-26

参数规模(亿):

6810.0

Gemini 2.5 Flash-Lite

得分:

34.3

发布时间:

2025-06-17

参数规模(亿):

未知

Llama3.1-70B-Instruct

得分:

33.3

发布时间:

2024-07-23

参数规模(亿):

700.0

Llama3.3-70B-Instruct

得分:

33.3

发布时间:

2024-12-06

参数规模(亿):

700.0

Llama 4 Scout Instruct

得分:

32.8

发布时间:

2025-04-05

参数规模(亿):

1090.0

Hunyuan-TurboS

得分:

32.0

发布时间:

2025-03-10

参数规模(亿):

未知

Llama3.1-405B Instruct

得分:

30.2

发布时间:

2024-07-23

参数规模(亿):

4050.0

Gemma 3 - 27B (IT)

得分:

29.7

发布时间:

2025-03-12

参数规模(亿):

270.0

Gemini 2.0 Flash Experimental

得分:

29.1

发布时间:

2024-12-11

参数规模(亿):

未知

Gemini 2.0 Flash-Lite

得分:

28.9

发布时间:

2025-02-05

参数规模(亿):

未知

Gemma 3 - 12B (IT)

得分:

24.6

发布时间:

2025-03-12

参数规模(亿):

120.0