OPT

OPT 预训练模型详情

模型全称

Open Pre-trained Transformer

发布组织

Meta

模型大小

类型

自然语言处理

发布论文

OPT: Open Pre-trained Transformer Language Models

模型简介

大型的语言模型,通常要经过几十万个计算日的训练,已经显示出显著的零和少量学习的能力。鉴于其计算成本,这些模型在没有大量资金的情况下很难被复制。对于少数可以通过API获得的模型,不允许访问完整的模型权重,使得它们难以研究。我们提出了开放的预训练变换器(OPT),这是一套仅有解码器的预训练变换器,参数范围从125M到175B,我们的目的是与感兴趣的研究人员充分和负责任地分享。我们表明,OPT-175B与GPT-3相当,而开发时只需要1/7的碳足迹。我们还发布了我们的日志,详细说明了我们所面临的基础设施挑战,以及对所有发布的模型进行实验的代码。