UL2

UL2 预训练模型详情

模型全称

Unifying Language Learning Paradigms

发布组织

模型大小

类型

自然语言处理

发布论文

Unifying Language Learning Paradigms

模型简介

现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。本文提出了一个统一的预训练模型的框架,这些模型在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,我们为NLP中的自我监督提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互投射的,以及不同目标之间的插值是如何有效的。然后,我们提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标,并发现我们的方法在多种不同的设置中超越了T5和/或类似GPT的模型,从而推动了Pareto-frontier的发展。最后,通过将我们的模型扩展到20B的参数,我们在50个公认的有监督的NLP任务上取得了SOTA性能,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果,在零次的SuperGLUE上超过了175B GPT-3,在一次的总结上是T5-XXL性能的三倍。