XLNet（XLNet）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

XL

XLNet

XLNet

发布时间: 2019-06-19更新于: 2023-03-13 10:10:41.563239

在线体验GitHubHugging FaceCompare

模型参数

3.4亿

上下文长度

2K

中文支持

不支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

XLNet

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2019-06-19

模型文件大小

XLNet

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

XLNet

官方介绍与博客

官方论文

XLNet: Generalized Autoregressive Pretraining for Language Understanding

DataLearnerAI博客

暂无介绍博客

XLNet

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

XLNet

评测结果

当前尚无可展示的评测数据。

XLNet

发布机构

Google Brain Team

查看发布机构详情

XLNet

模型解读

XLNet是由CMU教授与谷歌公司于2019年发布的一种自然语言处理模型，它是一种基于Transformer架构的预训练模型，旨在解决语言模型训练中的一些限制问题。

在论文中，作者提到，他们的XLNet-Large使用与BERT-Large类似的架构超参数，因此模型大小基本一致。所以推测参数在3.4亿左右。

Our largest model XLNet-Large has the same architecture hyperparameters as BERT-Large, which results in a similar model size. During pretraining, we always use a full sequence length of 512. Firstly, to provide a fair comparison with BERT (section 3.2), we also trained XLNet-Large-wikibooks on BooksCorpus and Wikipedia only, where we reuse all pretraining hyper-parameters as in the original BERT. Then, we scale up the training of XLNet-Large by using all the datasets described above.

与传统的语言模型不同，XLNet采用了一种无向图模型来预测下一个词或序列，这种模型不仅考虑了当前词的上下文信息，还考虑了序列中所有其他词的信息。因此，XLNet可以更好地处理长距离依赖性和上下文中的复杂关系。

XLNet还采用了一种自回归模型和自编码模型相结合的方法，以利用二者的优点。自回归模型可以处理序列中的时间依赖性，而自编码模型可以更好地处理上下文信息。此外，XLNet还使用了一个新的预训练目标，即Permutation Language Modeling (PLM)，来更好地捕捉序列中不同词之间的依赖关系。

XLNet的性能在多个自然语言处理任务中都表现出色，包括文本分类、问答、文本生成等。与其他语言模型相比，XLNet在处理长文本时具有更好的性能和更强的泛化能力。这使得XLNet成为自然语言处理领域的一种重要的预训练模型，并被广泛应用于各种文本处理任务。

XLNet在大模型训练的贡献

XLNet在自然语言处理领域的贡献主要有以下几个方面：

解决了自然语言处理中的一些限制问题：与传统的语言模型不同，XLNet采用了一种无向图模型来预测下一个词或序列，这种模型不仅考虑了当前词的上下文信息，还考虑了序列中所有其他词的信息。因此，XLNet可以更好地处理长距离依赖性和上下文中的复杂关系，解决了自然语言处理中一些传统模型的限制问题。
创新的预训练目标：XLNet采用了一种新的预训练目标，即Permutation Language Modeling (PLM)，来更好地捕捉序列中不同词之间的依赖关系。与传统的语言模型相比，PLM可以更好地学习序列中所有词之间的关系，从而更好地提取序列中的信息和特征。
在多个自然语言处理任务中取得了优异的性能：XLNet在多个自然语言处理任务中都表现出色，包括文本分类、问答、文本生成等。与其他语言模型相比，XLNet在处理长文本时具有更好的性能和更强的泛化能力。这使得XLNet成为自然语言处理领域的一种重要的预训练模型，并被广泛应用于各种文本处理任务。

总之，XLNet通过创新的预训练目标和无向图模型的设计，以及在多个自然语言处理任务中的优异表现，对自然语言处理领域的发展和应用都做出了重要的贡献。

XLNet与BERT在预训练模型上有以下区别

XLNet与BERT在预训练模型上有以下区别：

训练目标不同：BERT采用的是Masked Language Modeling (MLM)和Next Sentence Prediction (NSP)两个预训练目标，而XLNet采用的是Permutation Language Modeling (PLM)预训练目标。BERT的MLM目标是在输入的序列中随机mask掉一些词，然后让模型根据上下文预测这些被mask的词；NSP目标则是让模型根据输入的两个句子预测这两个句子是否是连续的。而XLNet的PLM目标是在输入的序列中随机permute掉一些词，并根据上下文预测这些词的排列方式。
无向图模型：与BERT采用的自回归模型不同，XLNet采用的是Transformer-XL中的无向图模型。这种模型考虑了序列中所有词之间的依赖关系，可以更好地处理长距离依赖性和上下文中的复杂关系。
排列式采样：在训练过程中，XLNet采用了一种排列式采样的方法，即每次从序列中采样一组不同的词序列作为输入。这种方法可以使得模型在训练过程中更好地学习不同的排列方式和依赖关系，从而提高模型的泛化能力。

总的来说，XLNet与BERT的最大区别在于预训练目标和无向图模型的设计。XLNet的无向图模型可以更好地处理序列中的依赖关系，而XLNet的PLM目标则可以更好地捕捉序列中不同词之间的依赖关系，从而提高模型的泛化能力。这些特点使得XLNet在处理长文本和复杂语境时表现出更好的性能。

XLNet的代码和预训练结果都是公开可以使用的：

https://github.com/zihangdai/xlnet

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码