模型详细情况和参数
CodeLLaMA是基于Llama 2基础模型继续训练和微调得到的代码专用语言模型。相比完全从头训练,继承Llama 2的预训练带来明显提升。关于CodeLlama系列模型的介绍参考: https://www.datalearner.com/blog/1051692893755811
CodeLlama系列最早是在2023年8月份发布的。但是不包含700亿参数规模的大模型。在2024年1月30日,MetaAI开源了700亿参数规模版本的CodeLlama-70B,包含三个版本:
CodeLlama-70B模型版本 | 模型简介 | DataLearner模型信息卡地址 |
---|---|---|
CodeLlama-70B-Base | CodeLlama-70B最基础的版本,支持不同的编程语言。 | 点击访问CodeLlama-70B-Base的模型信息卡 |
CodeLlama-70B-Python | 针对Python编程语言优化的版本。 | 点击访问CodeLlama-70B-Python的模型信息卡地址 |
CodeLlama-70B-Instruct | 指令优化的编程大模型,可以识别用户的文本指令生成代码。 | 点击访问CodeLlama-70B-Instruct模型信息卡 |
这里说的CodeLlama-70B-Python就是其中针对Python优化的版本。相比较基础版本的CodeLlama-70B-Base,它在更多的Python数据集上预训练。需要注意的是,基础版本的CodeLlama-70B-Base和CodeLlama-70B-Python都是代码补全大模型,没有对指令的优化。
CodeLlama系列模型的代码表现很好,本次开源的CodeLlama-70B系列提升更加明显,其中,基础版本的CodeLlama-70B-Base在HumanEval@1得分53.0分,指令优化版本最高得分67.8,超过了GPT-4论文中的得分(GPT论文分数67分,但是在微软的论文中测试结果是82分)。
根据官网的论文介绍,CodeLLaMA的特点如下: