MT

MT-NLG

基础大模型

Megatron-Turing Natural Language Generation model

发布时间: 2022-01-28

模型参数(Parameters)
5400.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2022-01-28

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

MT-NLG模型在各大评测榜单的评分

发布机构

模型介绍

MT-NLG是由NVIDIA和微软共同发表的一篇论文,介绍了他们使用DeepSpeed和Megatron来训练Megatron-Turing NLG 530B模型的过程和结果。

该论文中提到,他们通过对Megatron-Turing NLG模型进行调整和优化,以便在NVIDIA的GPU集群上进行分布式训练,使用了类似于数据并行的技术,从而能够将模型的规模扩大到530B个参数,成为当时世界上最大的生成式语言模型之一。

该论文还介绍了他们使用该模型来生成各种类型的文本,并展示了该模型在多项自然语言生成任务上的表现。这些结果表明,Megatron-Turing NLG 530B模型不仅能够生成高质量的文本,而且具有强大的可扩展性和性能,为未来自然语言处理技术的发展提供了重要的参考。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat