数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览
预训练模型
数据推荐
网址导航
我的网址导航
程序员必备网站
OpenAI发布了GPT-4!GPT-4能力和技术相关信息汇总!
标签:
#GPT#
#GPT-4#
#OpenAI#
时间:2023/03/15 10:17:13
作者:小木
2023年3月14日(咱们北京时间应该是3月15日凌晨了),OpenAI发布了GPT-4模型。 **
非常遗憾的是,OpenAI没有透露GPT-4的任何技术细节,OpenAI彻底告别“Open”!
** 关于GPT-4的模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/GPT-4 **关于GPT-4几个比较重要的highlight:** - GPT-4相比较而言更加具有创造性和协作性,它可以和人类一起共同生成、编辑并迭代生成结果; - GPT-4是个多模态模型,可以用图片输入,生成文本; - GPT-4一个非常重要的特性是支持长文本输入,最高可以达到25000个单词输入(官方宣传时32,768个上下文tokens),而之前的ChatGPT最多支持4096个tokens,这个长度非常有吸引力! - GPT-4比ChatGPT的推理能力更强; - GPT-4在专业标准考试中表现很好,甚至达到斯坦福入学标准; - GPT-4可以直接根据你画的草图生成网页。 本文目录如下: [TOC] #### 一、基本能力 与之前系列最大的不同,GPT-4是一个多模态模型,可以接受图像与文本的输入,输出文本内容。 GPT-4在很多专业和学术基准上表现与人类差不多,比如通过模拟的律师考试,得分在应试者前10%左右(GPT-3.5在后10%,也就是说提升了很多)!但是在现实世界中的很多场景表现还不如人类。 基于之前模型训练的经验,GPT-4的训练是基于重建的深度学习堆栈进行的,因此训练过程可以稳定预测! #### 二、GPT-4的测试结果 与GPT-3.5相比,他们的区别可能不是那么明显,但是当任务足够复杂时候,它们的区别就明显了,GPT-4更加可靠、稳定且有创造性! 下图是GPT4、GPT-4(不带vision)和GPT-3.5的各种考试结果对比

可以看到,GPT4效果更好。 传统的机器学习任务中,GPT-4表现更好。

这里可以看到,在专业学术问答(MMLU)、日常推理(HellaSwag)、多项选择考试(AI2 Reasoning Challenge)等方面,GPT-4比GPT-3.5高出了一大截。在AI不太擅长的Python编程、阅读理解方面也有较大提高。 #### 三、GPT-4的多语言特性 GPT-4的多语言能力也有较大提升,在MMLU的多选测试中,GPT-3.5的英文题目准确率70.1%,而GPT-4是85.5%。但是在其他语言上,GPT-4性能也很强(为啥没有中文???!!!)

即便在很多非英语的结果上,GPT-4的表现也比GPT-3.5好很多。 #### 四、GPT-4的训练过程 和以前的GPT模型一样,GPT-4基础模型的训练是为了预测文档中的下一个词,并使用公开的数据(如互联网数据)以及授权的数据进行训练。这些数据是一个网络规模的语料库,包括对数学问题的正确和错误的解决方案,薄弱和强大的推理,自相矛盾和一致的声明,并代表了大量的意识形态和想法。 因此,当被提示有问题时,基础模型可以做出各种各样的反应,可能与用户的意图相去甚远。为了使其与用户的意图保持一致,OpenAI使用人类反馈的强化学习(RLHF)对模型的行为进行了微调。 请注意,模型的能力似乎主要来自于预训练过程--RLHF并不能提高考试成绩(如果不主动努力,它实际上会降低考试成绩)。但是对模型的引导来自于训练后的过程--基础模型需要及时的工程,甚至知道它应该回答问题。 #### 五、GPT-4的训练过程可预测 GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,进行广泛的特定模型调整是不可行的。所以OpenAI开发了基础设施和优化,在多种规模下都有非常可预测的行为。为了验证这种可扩展性,他们提前准确地预测了GPT-4在我们内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量要少10000倍。 #### 六、GPT-4的开放及其他信息 OpenAI开源了一个OpenAI Evals的软件框架,它是用来创建评估GPT-4基准的框架,它可以用来引导GPT-4的一些回答,同时逐个样本检查其性能。他们使用Evals来指导模型的开发(包括识别缺点和防止倒退),我们可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。例如,Stripe已经使用Evals来补充他们的人工评估,以衡量他们的GPT驱动的文档工具的准确性。该框架即将开源! ChatGPT Plus用户将很快可以有权限使用GPT-4,不过OpenAI表示,可能会推出一个新的订阅级别,以满足更高的GPT-4使用量(估计得加钱了!)。 GPT-4的API现在就可以加入申请,一旦你有了访问权,你就可以向gpt-4模型提出纯文本请求(图像输入仍处于有限的alpha阶段),随着时间的推移,OpenAI会自动更新为我们推荐的稳定模型(你可以通过调用gpt-4-0314来锁定当前版本,它将支持到6月14日)。定价为每1k tokens币0.03美元,每1k补全 tokens约0.06美元。默认的速率限制是每分钟40k tokens和每分钟200个请求。 GPT-4的上下文长度为8,192个tokens。并且还提供对32,768个上下文(约50页文本)版本的有限访问,gpt-4-32k,它也将随着时间的推移自动更新(当前版本gpt-4-32k-0314,也支持到6月14日)。价格是每1K prompt的tokens0.06美元,每1K completion tokens是0.12美元。 官方GPT-4的论文:https://cdn.openai.com/papers/gpt-4.pdf 系统card:https://cdn.openai.com/papers/gpt-4-system-card.pdf
相关博客
最热博客