GPT-2

GPT-2 预训练模型详情

模型全称

Generative Pre-trained Transformer 2

发布组织

OpenAI

模型大小

类型

自然语言处理

发布论文

Language Models are Unsupervised Multitask Learners

模型简介

自然语言处理任务,如问题回答、机器翻译、阅读理解和总结,通常在特定任务的数据集上进行监督学习。我们证明,当在一个名为WebText的数百万网页的新数据集上训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档加问题为条件时,语言模型产生的答案在CoQA数据集上达到了55个F1--匹配或超过了4个基线系统中的3个,而没有使用127,000多个训练例子。语言模型的容量对零次任务转移的成功至关重要,增加语言模型可以在不同的任务中以对数线性的方式提高性能。我们最大的模型,GPT-2,是一个1.5B参数的转化器,在零点拍摄的情况下,在8个测试的语言建模数据集中的7个取得了最先进的结果,但仍然不适合WebText。该模型的样本反映了这些改进,并包含连贯的文本段落。这些发现为建立语言处理系统提供了一条有希望的道路,该系统可以从自然发生的演示中学习执行任务。