PanGu-Alpha

PanGu-Alpha 预训练模型详情

模型全称

PanGu-Alpha

发布组织

模型大小

类型

自然语言处理

发布论文

PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation

模型简介

大规模预训练语言模型(PLMs)已经成为自然语言处理(NLP)的新范式。像GPT-3这样拥有数千亿参数的PLM在自然语言的理解和生成上表现出了强大的性能,并采用了textit{few-shot in-context}学习。在这项工作中,我们介绍了我们在训练大规模自回归语言模型方面的实践,该模型被命名为PanGu-α,其参数高达2000亿。PanGu-α是在MindSpore下开发的,并在2048个Ascend 910 AI处理器的集群上进行训练。训练的并行策略是基于MindSpore Auto-parallel实现的,它由五个并行维度组成,以有效地将训练任务扩展到2048个处理器上,包括数据并行、操作级模型并行、管道模型并行、优化器模型并行和重物化。为了提高PanGu-α的泛化能力,我们从广泛的领域收集了1.1TB高质量的中国数据来预训练模型。我们实证测试了PanGu-α在各种场景下的生成能力,包括文本总结、问题回答、对话生成等。此外,我们还研究了模型的规模对广泛的中文NLP任务中的几率性能的影响。实验结果表明,PanGu-α在少数次或零次的情况下执行各种任务的能力很强。