HumanEval

HumanEval

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。

Python 难度：Advanced

问题数量

164

机构

OpenAI

类别

代码生成

评估指标

Pass@k

论文链接数据集链接官方网站 DataLearnerAI详细介绍博客

HumanEval基准测试简介

模型简称	得分	发布机构	发布时间	参数规模（亿）
加载中...