GPT-3
Generative Pre-trained Transformer 3
模型参数
1750.0
上下文长度
2K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2020-05-28
模型文件大小
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
OpenAI
查看发布机构详情 模型解读
GPT-3是OpenAI发布的迄今为止最强大的大语言预训练模型之一。GPT-3是OpenAI的第三代自回归语言模型。相比较GPT-2,GPT-3模型参数大了2个量级,达到了1750个参数。
由于GPT-3太过强大,OpenAI认为可能会出现利用这个模型实施各种“不好”的事情行为。因此他们并没有公开这个模型,这也与他们建立之初作为一个非盈利的开放AI研究机构相违背。起初,这种行为遭到了大量的批评。但是,现在发现这个模型的确可能会导致很多坏事情,而且各大企业也都不再开放这种模型,因此,批评声音逐渐减弱了。
GPT-3模型的训练来自大量的互联网无标注数据。根据维基百科的介绍,其权重占比如下:
| 数据集 | token数量 | 训练mix的权重 |
|---|---|---|
| Common Crawl | 4100亿 | 60% |
| WebText2 | 190亿 | 22% |
| Books1 | 120亿 | 8% |
| Books2 | 550亿 | 8% |
| Wikipedia | 30亿 | 3% |
由于GPT-3的训练数据包罗万象,它不需要进一步训练不同的语言任务。
GPT-3模型本身可以做很多事情,OpenAI也基于这个模型在不同领域做了微调,产生了很多领域内的应用,包括代码生成、图像生成等。
基础模型
GPT
查看详情