Co

CodeGen2.5

编程大模型

CodeGen2.5

发布时间: 2023-07-07

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

编程大模型

发布时间

2023-07-07

模型预文件大小

27GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

CodeGen2.5模型在各大评测榜单的评分

发布机构

模型介绍

Salesforce AI Research团队最近发布了他们的新型大型语言模型(LLM)——CodeGen2.5。尽管近期的趋势是开发越来越大的语言模型,但是CodeGen2.5证明了,如果训练得当,一个小型模型也可以取得出人意料的好性能。

主要贡献

CodeGen2.5的主要贡献包括:

  1. 发布了在HumanEval上达到最新水平的CodeGen2.5 LLM,参数量为70亿。
  2. CodeGen2.5的参数量为70亿,与参数量大于150亿的代码生成模型(如CodeGen1-16B、CodeGen2-16B、StarCoder-15B)相当,但大小不到一半。
  3. 引入了强大的内插采样,即模型可以“阅读”当前位置左右两侧的文本。
  4. 优化了在Flash attention下的快速采样,以便优化服务和在个人机器上的本地部署。
  5. 采用Apache 2.0许可。

动机

在2022年,Salesforce Research发布了CodeGen,这是首批用于程序合成的LLM之一,参数量为160亿。CodeGen模型允许用户将自然语言(如英语)“翻译”成编程语言(如Python)。对于这类模型,自从发现了规模定律(即模型和数据集大小之间的幂律关系)以来,主导趋势一直是将LLM扩展到更大的规模。

然而,CodeGen2.5采用了一种特殊的训练策略,允许模型在多个周期内进行训练,这可能使得我们可以使用更多的数据来训练一个较小的模型,而不是一个较大的模型,后者在生产环境中的服务和维护成本较高。

结论

CodeGen模型家族迎来了新成员——CodeGen2.5,小巧但强大。我们展示了多周期训练可以缓解数据限制,并导致小型但强大的模型。除了相对较小的规模外,CodeGen2.5还具有强大的内插采样和快速采样功能,这两者都使得这些模型能够用于编码助手的产品化。在未来,我们将进一步推动这类模型的边界。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat