Salesforce AI Research团队最近发布了他们的新型大型语言模型（LLM）——CodeGen2.5。尽管近期的趋势是开发越来越大的语言模型，但是CodeGen2.5证明了，如果训练得当，一个小型模型也可以取得出人意料的好性能。

主要贡献

CodeGen2.5的主要贡献包括：

发布了在HumanEval上达到最新水平的CodeGen2.5 LLM，参数量为70亿。
CodeGen2.5的参数量为70亿，与参数量大于150亿的代码生成模型（如CodeGen1-16B、CodeGen2-16B、StarCoder-15B）相当，但大小不到一半。
引入了强大的内插采样，即模型可以“阅读”当前位置左右两侧的文本。
优化了在Flash attention下的快速采样，以便优化服务和在个人机器上的本地部署。
采用Apache 2.0许可。

动机

在2022年，Salesforce Research发布了CodeGen，这是首批用于程序合成的LLM之一，参数量为160亿。CodeGen模型允许用户将自然语言（如英语）“翻译”成编程语言（如Python）。对于这类模型，自从发现了规模定律（即模型和数据集大小之间的幂律关系）以来，主导趋势一直是将LLM扩展到更大的规模。

然而，CodeGen2.5采用了一种特殊的训练策略，允许模型在多个周期内进行训练，这可能使得我们可以使用更多的数据来训练一个较小的模型，而不是一个较大的模型，后者在生产环境中的服务和维护成本较高。

结论

CodeGen模型家族迎来了新成员——CodeGen2.5，小巧但强大。我们展示了多周期训练可以缓解数据限制，并导致小型但强大的模型。除了相对较小的规模外，CodeGen2.5还具有强大的内插采样和快速采样功能，这两者都使得这些模型能够用于编码助手的产品化。在未来，我们将进一步推动这类模型的边界。

CodeGen2.5

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

CodeGen2.5模型在各大评测榜单的评分

发布机构

模型介绍

主要贡献

动机

结论

关注DataLearnerAI公众号