基于GitHub上授权许可的代码进行训练的大语言模型,支持80+的编程语言
模型发布时间: 2023-05-04
模型发布机构: BigCode
模型所属类型: 自然语言处理
模型官方地址: https://huggingface.co/blog/starcoder
StarCoder和StarCoderBase是基于GitHub许可数据训练的大型代码语言模型(CodeLLM),包括80多种编程语言、Git提交、GitHub问题和Jupyter笔记本。与LLaMA类似,我们为1万亿个代币训练了一个~15B的参数模型。我们针对35B Python令牌对StarCoderBase模型进行了微调,产生了一个我们称之为StarCoder的新模型。
我们发现,StarCoderBase在流行的编程基准测试中优于现有的开放代码LLM,并与OpenAI的Code-cushman-001(支持GitHub Copilot早期版本的原始Codex模型)等封闭模型相匹配或超越。StarCoder模型的上下文长度超过8000个令牌,可以处理比任何其他开放LLM都多的输入,从而实现各种有趣的应用程序。例如,通过用一系列对话提示StarCoder模型,我们使它们能够充当技术助理。此外,这些模型可以用于自动完成代码,通过指令对代码进行修改,并用自然语言解释代码片段。我们采取了几个重要步骤来实现安全的开放模型发布,包括改进的PII编辑管道、新颖的归因跟踪工具,并在改进的OpenRAIL许可证版本下公开StarCoder。更新后的许可证简化了公司将模型集成到其产品中的过程。我们相信,凭借其强大的性能,StarCoder模型将成为社区使用和调整其以适应其用例和产品的坚实基础。