PanGu-Coder2 - PanGu-Coder2

模型详细情况和参数

PanGu-Coder2

模型全称
PanGu-Coder2
模型简称
PanGu-Coder2
模型类型
编程大模型
发布日期
2023-07-27
预训练文件大小
0GB
是否支持中文(中文优化)
最高支持的上下文长度
8K
模型参数数量(亿)
150.0
模型代码开源协议
不开源
预训练结果开源商用情况
不开源 - 不开源
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

PanGu-Coder2 简介

PanGu-Coder2 是一种大型语言模型,专门用于代码生成。它基于一种被称为 RRTF (RankResponses to align Test&Teacher Feedback) 的新框架,该框架结合了多种先进技术,包括指令调整、Evol-Instruct 方法和强化学习。RRTF 的核心思想是通过使用测试信号和人类偏好作为反馈来对响应进行排名,从而引导模型生成更高质量的代码。

在模型架构方面,PanGu-Coder2 是一个基于解码器的 Transformer,具有 Multi-Query-Attention 和学习的绝对位置嵌入。同时,它使用了 FlashAttention 来减少计算和内存使用量,因此模型的最大长度可以扩展到 8192。模型的详细超参数如下:

  • 隐藏层大小:6144
  • 最大长度:8192
  • 注意力头的数量:48
  • Transformer 隐藏层的数量:40

在训练过程中,PanGu-Coder2 使用了 Evol-Instruct 技术来构建训练语料库,这种技术可以通过深度演化来迭代地从 Alpaca 20K 数据集中获取新的编程问题。通过这些问题,模型可以从不同的模型中采样答案。总的来说,他们收集了一个包含 100K 编程问题及其答案的初始语料库,这些问题和答案被称为指令和解决方案对。此外,他们还对初始语料库进行了数据预处理,并将语料库的大小减少到了 68K。

在训练过程中,PanGu-Coder2 使用了 RRTF 框架,该框架可以根据人类的偏好对来自不同来源的响应进行排名,并通过排名损失函数对模型进行调整。与 RLHF 相比,RRTF 可以有效地将语言模型的输出概率与人类的偏好对齐,只需要在调整期间使用 1-2 个模型,而且在实现、超参数调整和训练方面比 PPO 更简单。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

PanGu-Coder2所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

PanGu-Coder2相关的任务
代码补全

代码补全

Code Completion

35个资源