ERNIE 3.0

ERNIE 3.0 预训练模型详情

模型全称

Enhanced Representation through kNowledge IntEgration 3.0

发布组织

模型大小

类型

自然语言处理

发布论文

ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

模型简介

预训练的模型在各种自然语言处理(NLP)任务中取得了最先进的成果。最近的工作,如T5和GPT-3表明,扩大预训练语言模型的规模可以提高其泛化能力。特别是拥有1750亿个参数的GPT-3模型,显示了其强大的任务诊断性的零次/零次学习能力。尽管它们很成功,但这些大规模的模型是在没有引入语言知识和世界知识等知识的情况下对纯文本进行训练。此外,大多数大规模模型是以自动回归的方式进行训练的。因此,这种传统的微调方法在解决下游语言理解任务时表现出相对较弱的性能。为了解决上述问题,我们提出了一个统一的框架,名为ERNIE 3.0,用于预训练大规模知识增强模型。它融合了自动回归网络和自动编码网络,因此,训练后的模型可以很容易地通过零点学习、几点学习或微调来适应自然语言理解和生成任务。我们在一个由普通文本和大规模知识图谱组成的4TB语料库上用100亿个参数训练该模型。实证结果表明,该模型在54个中文NLP任务上的表现优于最先进的模型,其英文版本在SuperGLUE基准测试(2021年7月3日)中取得了第一名,比人类的表现高出+0.8%(90.6%对89.8%)。