XL

XLNet

XLNet

发布时间: 2019-06-19161
模型参数
3.4亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2019-06-19
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
3.4 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

Google Brain Team
查看发布机构详情

模型解读

XLNet是由CMU教授与谷歌公司于2019年发布的一种自然语言处理模型,它是一种基于Transformer架构的预训练模型,旨在解决语言模型训练中的一些限制问题。


在论文中,作者提到,他们的XLNet-Large使用与BERT-Large类似的架构超参数,因此模型大小基本一致。所以推测参数在3.4亿左右。

Our largest model XLNet-Large has the same architecture hyperparameters as BERT-Large, which results in a similar model size. During pretraining, we always use a full sequence length of 512. Firstly, to provide a fair comparison with BERT (section 3.2), we also trained XLNet-Large-wikibooks on BooksCorpus and Wikipedia only, where we reuse all pretraining hyper-parameters as in the original BERT. Then, we scale up the training of XLNet-Large by using all the datasets described above.


与传统的语言模型不同,XLNet采用了一种无向图模型来预测下一个词或序列,这种模型不仅考虑了当前词的上下文信息,还考虑了序列中所有其他词的信息。因此,XLNet可以更好地处理长距离依赖性和上下文中的复杂关系。


XLNet还采用了一种自回归模型和自编码模型相结合的方法,以利用二者的优点。自回归模型可以处理序列中的时间依赖性,而自编码模型可以更好地处理上下文信息。此外,XLNet还使用了一个新的预训练目标,即Permutation Language Modeling (PLM),来更好地捕捉序列中不同词之间的依赖关系。


XLNet的性能在多个自然语言处理任务中都表现出色,包括文本分类、问答、文本生成等。与其他语言模型相比,XLNet在处理长文本时具有更好的性能和更强的泛化能力。这使得XLNet成为自然语言处理领域的一种重要的预训练模型,并被广泛应用于各种文本处理任务。




XLNet在大模型训练的贡献


XLNet在自然语言处理领域的贡献主要有以下几个方面:


  1.  解决了自然语言处理中的一些限制问题:与传统的语言模型不同,XLNet采用了一种无向图模型来预测下一个词或序列,这种模型不仅考虑了当前词的上下文信息,还考虑了序列中所有其他词的信息。因此,XLNet可以更好地处理长距离依赖性和上下文中的复杂关系,解决了自然语言处理中一些传统模型的限制问题。
  2.  创新的预训练目标:XLNet采用了一种新的预训练目标,即Permutation Language Modeling (PLM),来更好地捕捉序列中不同词之间的依赖关系。与传统的语言模型相比,PLM可以更好地学习序列中所有词之间的关系,从而更好地提取序列中的信息和特征。
  3. 在多个自然语言处理任务中取得了优异的性能:XLNet在多个自然语言处理任务中都表现出色,包括文本分类、问答、文本生成等。与其他语言模型相比,XLNet在处理长文本时具有更好的性能和更强的泛化能力。这使得XLNet成为自然语言处理领域的一种重要的预训练模型,并被广泛应用于各种文本处理任务。

总之,XLNet通过创新的预训练目标和无向图模型的设计,以及在多个自然语言处理任务中的优异表现,对自然语言处理领域的发展和应用都做出了重要的贡献。



XLNet与BERT在预训练模型上有以下区别


XLNet与BERT在预训练模型上有以下区别:

  • 训练目标不同:BERT采用的是Masked Language Modeling (MLM)和Next Sentence Prediction (NSP)两个预训练目标,而XLNet采用的是Permutation Language Modeling (PLM)预训练目标。BERT的MLM目标是在输入的序列中随机mask掉一些词,然后让模型根据上下文预测这些被mask的词;NSP目标则是让模型根据输入的两个句子预测这两个句子是否是连续的。而XLNet的PLM目标是在输入的序列中随机permute掉一些词,并根据上下文预测这些词的排列方式。
  • 无向图模型:与BERT采用的自回归模型不同,XLNet采用的是Transformer-XL中的无向图模型。这种模型考虑了序列中所有词之间的依赖关系,可以更好地处理长距离依赖性和上下文中的复杂关系。
  • 排列式采样:在训练过程中,XLNet采用了一种排列式采样的方法,即每次从序列中采样一组不同的词序列作为输入。这种方法可以使得模型在训练过程中更好地学习不同的排列方式和依赖关系,从而提高模型的泛化能力。


总的来说,XLNet与BERT的最大区别在于预训练目标和无向图模型的设计。XLNet的无向图模型可以更好地处理序列中的依赖关系,而XLNet的PLM目标则可以更好地捕捉序列中不同词之间的依赖关系,从而提高模型的泛化能力。这些特点使得XLNet在处理长文本和复杂语境时表现出更好的性能。



XLNet的代码和预训练结果都是公开可以使用的:

 https://github.com/zihangdai/xlnet 

 

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码