HumanEval

HumanEval

一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。

Python 难度:Advanced
问题数量

164

机构

OpenAI

类别

代码生成

评估指标

Pass@k

HumanEval基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
加载中...