模型发布时间: 2021-06-04
模型发布机构: EleutherAI
模型所属类型: 自然语言处理
GPT-J 6B是一个由EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。
GPT-J 6B是一个transformer结构的模型,使用了Ben Wang的Mesh Transformer JAX训练。
GPT-J 6B模型的具体信息如下:
超参数项 | 参数值 |
---|---|
参数数量(nparameters) | 6053381344 |
层数(nlayers) | 28 |
模型维度(dmodel) | 4096 |
前馈网络维度(dff,feedforward dimension) | 16384 |
heads数量(nheads) | 16 |
head维度(dhead) | 256 |
nctx | 2048 |
词汇数量(nvocab) | 50257() |
位置编码(Positional Encoding) | Rotary Position Embedding(RoPE) |
RoPE维度(RoPE Dimensions) | 64 |