GPT-J 6B

Name: GPT-J 6B
Author: EleutherAI

基础大模型

GPT-J 6B

发布时间: 2021-06-04更新于: 2025-07-02 21:47:09711

在线体验GitHub Hugging Face Compare

模型参数

60亿

上下文长度

中文支持

不支持

推理能力

GPT-J 6B 是由 EleutherAI 发布的 AI 模型，发布时间为 2021-06-04，定位为基础大模型，参数规模约为 60亿，上下文长度为 2K，模型文件大小约 24.2GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-J 6B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

文本 → 文本

发布时间

2021-06-04

模型文件大小

24.2GB

MoE架构

是

总参数 / 激活参数

60亿 / 不涉及

知识截止

暂无数据

GPT-J 6B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

Hugging Face

https://huggingface.co/EleutherAI/gpt-j-6b

在线体验

暂无在线体验地址

GPT-J 6B

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

暂无介绍博客

GPT-J 6B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

GPT-J 6B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-J 6B

发布机构

EleutherAI

查看发布机构详情

GPT-J 6B

模型解读

GPT-J 6B仅支持英文。

GPT-J 6B是一个由EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一，在各种自然语言任务（如聊天、摘要和问答等）方面表现良好。"GPT-J"指的是模型类别，而"6B"表示可训练参数的数量为60亿。

GPT-J 6B是一个transformer结构的模型，使用了Ben Wang的Mesh Transformer JAX训练。

GPT-J 6B模型的具体信息如下：

超参数项	参数值
参数数量（n_parameters）	6053381344
层数（n_layers）	28
模型维度（d_model）	4096
前馈网络维度（d_ff，feedforward dimension）	16384
heads数量（n_heads）	16
head维度（d_head）	256
nctx	2048
词汇数量（n_vocab）	50257（）
位置编码（Positional Encoding）	Rotary Position Embedding（RoPE）
RoPE维度（RoPE Dimensions）	64

注意：GPT-J 6B模型使用了一个包含50257个单词的分词词汇表进行训练，使用与GPT-2/GPT-3相同的BPE集合。不过，虽然矩阵大小50400，但是GPT-3的tokenizer只使用了500257条记录。

GPT-J 6B模型由28层组成，模型维度为4096，前馈维度为16384。模型维度被分成16个头，每个头的维度为256。旋转位置嵌入（RoPE）应用于每个头的64个维度。该模型使用了一个包含50257个单词的分词词汇表进行训练，使用与GPT-2/GPT-3相同的BPE集合。

GPT-J 6B的训练数据是Pile（Pile介绍： https://www.datalearner.com/ai-dataset/pile ）

训练过程
该模型在 TPU v3-256 pod 上进行了383,500步的训练，训练了4020亿个令牌。它作为自回归语言模型进行训练，使用交叉熵损失来最大化预测下一个令牌的正确性的可能性。

预期用途和限制
GPT-J 学习了英语语言的内部表示，可用于提取下游任务中有用的特征。但是，该模型最擅长的是预训练生成提示文本，这也是它的预训练目标。

使用方式

可以使用 AutoModelForCausalLM 功能轻松加载此模型：

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")

其中，tokenizer 负责将输入的文本转换为模型可以理解的输入，而 model 则负责进行文本生成。

基础模型

GPT-J

查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送