模型详细情况和参数
百度文心大模型3.0版本。
ERNIE 3.0使用了4TB的中文语料库,模型参数100亿,是截至目前使用最多中文语料的预训练模型。
预训练的模型在各种自然语言处理(NLP)任务中取得了最先进的成果。最近的工作,如T5和GPT-3表明,扩大预训练语言模型的规模可以提高其泛化能力。特别是拥有1750亿个参数的GPT-3模型,显示了其强大的任务诊断性零次/零次学习能力。尽管它们很成功,但这些大规模的模型是在没有引入语言知识和世界知识的情况下对普通文本进行训练的。此外,大多数大规模模型是以自动回归的方式进行训练的。因此,这种传统的微调方法在解决下游语言理解任务时表现出相对较弱的性能。为了解决上述问题,我们提出了一个统一的框架,名为ERNIE 3.0,用于预训练大规模知识增强模型。它融合了自动回归网络和自动编码网络,因此,训练后的模型可以很容易地通过零点学习、几点学习或微调来适应自然语言理解和生成任务。我们在一个由普通文本和大规模知识图谱组成的4TB语料库上用100亿个参数训练该模型。实证结果表明,该模型在54个中文NLP任务上的表现优于最先进的模型,其英文版本在SuperGLUE基准测试中取得了第一名(2021年7月3日),比人类的表现高出+0.8%(90.6% vs. 89.8%)。
模型部分开源: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0