MT-NLG

MT-NLG 预训练模型详情

模型全称

Megatron-Turing Natural Language Generation model

发布组织

Microsoft

模型大小

类型

自然语言处理

发布论文

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

模型简介

经过预训练的通用语言模型可以在各种自然语言处理领域达到最先进的准确度,通过零枪、几枪和微调技术来适应下游任务。由于它们的成功,这些模型的规模迅速增加,需要高性能的硬件、软件和算法技术来训练这样的大型模型。作为微软和英伟达共同努力的结果,我们介绍了最大的基于单片机的语言模型--Megatron-Turing NLG 530B(MT-NLG)的训练细节,它有5300亿个参数。在本文中,我们首先关注的是基础设施以及使用DeepSpeed和Megatron来训练这个模型的三维并行方法。接下来,我们详细介绍了训练过程、训练语料库的设计以及我们的数据整理技术,我们认为这是该模型成功的关键因素。最后,我们讨论了各种评估结果,以及MT-NLG所表现出的其他有趣的观察和新特性。我们证明了MT-NLG在几个NLP基准上实现了卓越的零、一和少量的学习准确率,并建立了新的最先进的结果。我们相信,我们的贡献将有助于进一步发展大规模训练基础设施、大规模语言模型和自然语言代。