MT-NLG
Megatron-Turing Natural Language Generation model
模型参数
5400.0
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2022-01-28
模型文件大小
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Microsoft
查看发布机构详情 模型解读
MT-NLG是由NVIDIA和微软共同发表的一篇论文,介绍了他们使用DeepSpeed和Megatron来训练Megatron-Turing NLG 530B模型的过程和结果。
该论文中提到,他们通过对Megatron-Turing NLG模型进行调整和优化,以便在NVIDIA的GPU集群上进行分布式训练,使用了类似于数据并行的技术,从而能够将模型的规模扩大到530B个参数,成为当时世界上最大的生成式语言模型之一。
该论文还介绍了他们使用该模型来生成各种类型的文本,并展示了该模型在多项自然语言生成任务上的表现。这些结果表明,Megatron-Turing NLG 530B模型不仅能够生成高质量的文本,而且具有强大的可扩展性和性能,为未来自然语言处理技术的发展提供了重要的参考。