模型全称
XLNet
发布组织
模型大小
类型
自然语言处理
发布论文
XLNet: Generalized Autoregressive Pretraining for Language Understanding
模型简介
由于具有对双向语境进行建模的能力,像BERT这样基于去噪自动编码的预训练比基于自回归语言建模的预训练方法取得更好的性能。然而,依靠用掩码破坏输入,BERT忽略了被掩码位置之间的依赖性,并受到预训练-调整差异的影响。鉴于这些优点和缺点,我们提出了XLNet,一种通用的自回归预训练方法,(1)通过最大化因式分解顺序的所有排列的预期可能性来学习双向语境,(2)由于其自回归表述,克服了BERT的限制。此外,XLNet将最先进的自回归模型Transformer-XL的理念融入预训练中。根据经验,在可比较的实验设置下,XLNet在20个任务上的表现优于BERT,通常有很大的差距,包括问题回答、自然语言推理、情感分析和文档排名。