St

StarCoder2-15B

编程大模型

StarCoder2-15B

发布时间: 2024-02-28

模型参数(Parameters)
150.0
最高上下文长度(Context Length)
4K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

4K tokens

最长输出结果
未披露
模型类型

编程大模型

发布时间

2024-02-28

模型预文件大小

63.88GB

开源和体验地址

代码开源状态
预训练权重开源
BigCode OpenRAIL-M v1 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

StarCoder2-15B模型在各大评测榜单的评分

发布机构

模型介绍

StarCoder 2是一个开放科学合作项目,旨在负责任地开发用于代码生成的大型语言模型(Code LLMs)。这个项目通过结合Software Heritage的庞大源代码档案库,精心挑选了包括GitHub拉取请求、Jupyter和Kaggle笔记本以及代码文档等高质量数据源,构建了一个比首个StarCoder数据集大4倍的训练集。StarCoder 2模型具有3B、7B和15B三种参数规模,经过3.3至4.3万亿令牌的训练,全面评估了它们在一系列Code LLM基准测试上的性能。

数据来源与预处理

StarCoder 2项目涵盖了多种数据来源,包括源代码、GitHub问题、拉取请求、Jupyter和Kaggle笔记本、文档以及数学和编码挑战的特定数据集等。在数据预处理阶段,项目团队实施了去重、个人信息(PII)编辑、去污染、恶意代码移除以及处理开发者的退出请求等步骤,以确保数据的质量和安全性。

模型架构与训练细节

StarCoder 2模型采用了先进的架构和训练策略,通过两阶段训练过程(基础模型训练和长上下文窗口微调)来优化模型性能。此外,项目还详细记录了训练过程中的CO2排放量,体现了对环境责任的关注。

性能评估

通过在代码完成、修复、编辑、数学推理和代码执行理解等多个基准测试上的评估,StarCoder 2在多数基准测试中的表现超越了相同规模的其他Code LLMs,甚至在某些测试中超过了规模更大的模型。

社会影响与局限性

StarCoder 2项目不仅推动了代码大型语言模型的技术进步,还通过开放模型权重和训练数据,促进了开源社区的发展和科学研究的进步。同时,项目团队也深入探讨了该技术的挑战、风险以及潜在的社会影响。

总结

StarCoder 2代表了代码大型语言模型发展的一个重要里程碑,它的成功不仅归功于庞大且多样化的训练数据集,还体现了负责任AI开发和开放科学合作的精神。随着技术的不断进步,相信未来StarCoder及其后续产品将在软件开发和代码生成领域发挥更大的作用。

通过这篇博客,我希望能够为大家提供一个关于StarCoder 2项目的全面了解,从它的构建过程、数据处理、模型训练到社会影响等各个方面,展现这一代表最新科技成就的大型语言模型的全貌。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat