我们提出了一种神经网络结构,即ControlNet,以控制预训练的大型扩散模型,支持额外的输入条件。ControlNet以端到端的方式学习特定的任务条件,即使训练数据集很小(<50k),学习也很稳健。此外,训练ControlNet的速度和微调扩散模型一样快,而且该模型可以在个人设备上训练。另外,如果有强大的计算集群,该模型可以扩展到大量(数百万到数十亿)的数据。实验证明,像稳定扩散这样的大型扩散模型可以用ControlNet来增强,以实现像边缘图、分割图、关键点等的条件输入。这可能会丰富控制大型扩散模型的方法,并进一步促进相关应用。
语言模型(LMs)表现出非凡的能力,能够从几个例子或文本指令中解决新任务,尤其是在规模上。矛盾的是,它们还与基本功能(如算术或事实查询)作斗争,在这些功能中,更简单和更小的模型更为出色。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,并实现两者的最佳效果。我们引入了Toolformer,这是一个经过训练的模型,用于决定调用哪些API、何时调用它们、传递什么参数,以及如何将结果最好地结合到未来的令牌预测中。这是以自我监督的方式完成的,只需要对每个API进行少量演示。我们整合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer在不牺牲其核心语言建模能力的情况下,在各种下游任务中实现了显著提高的零炮性能,通常与更大的模型竞争。
尽管近年来深度学习取得了巨大的进展,但训练神经网络的爆炸性经济和环境成本正变得不可持续。为了解决这个问题,人们对*算法高效的深度学习*进行了大量的研究,其目的不是在硬件或实现层面降低训练成本,而是通过改变训练程序的语义来实现。在本文中,我们对这一领域的研究进行了结构化和全面的概述。首先,我们对*算法加速*问题进行了形式化,然后我们使用算法高效训练的基本构件来开发一个分类法。我们的分类法强调了看似不同的方法的共性,并揭示了当前的研究差距。接下来,我们提出了评估的最佳做法,以便对加速技术进行全面、公平和可靠的比较。为了进一步帮助研究和应用,我们讨论了训练管道中的常见瓶颈(通过实验来说明),并为它们提供了分类学的缓解策略。最后,我们强调了一些尚未解决的研究挑战,并提出了有希望的未来方向。
我们提出了KnowGL,这是一个可以将文本转换为结构化的关系数据的工具,该数据表示为一组符合给定知识图谱(KG)的TBox断言,如维基数据。我们通过利用预先训练好的序列到序列的语言模型,如BART,将这个问题作为一个序列生成任务来解决。给定一个句子,我们对这些模型进行微调,以检测成对的实体提及,并共同生成一组事实,其中包括KG的全套语义注释,如实体标签、实体类型及其关系。为了展示我们的工具的能力,我们建立了一个由一组用户界面部件组成的网络应用程序,帮助用户浏览从特定输入文本中提取的语义数据。我们在这个https URL上提供了KnowGL模型。
大型语言模型(LLMs)通过扩大模型和数据规模,显示出越来越强的语境学习能力。尽管取得了这一进展,LLMs仍然无法解决算法推理问题。虽然提供最终答案的理由使得多步骤推理问题有了进一步的改善,但Anil等人在2022年的研究中表明,即使是简单的算法推理任务,如奇偶性,也远远没有得到解决。在这项工作中,我们确定并研究了成功向LLM教授算法推理的四个关键阶段:(1)将算法制定为技能;(2)同时教授多种技能(技能积累);(3)教授如何组合技能(技能构成);(4)教授如何将技能作为工具使用。我们表明,有可能通过语境中的学习向LLMs教授算法推理,我们称之为算法提示。我们在各种算术和定量推理任务上评估了我们的方法,并证明了比现有的提示技术在性能上有明显的提升。特别是对于长奇偶性、加法、乘法和减法,与现有的最佳基线相比,我们分别实现了约10倍、9倍、5倍和2倍的错误减少。
在以指令为措辞的数据集上对语言模型进行微调已被证明可以提高模型的性能和对未见任务的概括性。在本文中,我们探索了指令微调,特别关注(1)任务数量的扩展,(2)模型规模的扩展,以及(3)思维链数据的微调。我们发现,上述方面的指令微调极大地提高了各种模型类别(PaLM、T5、U-PaLM)、提示设置(零-射击、少量射击、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成)的性能。例如,Flan-PaLM 540B在1.8K任务上的指令调整比PALM 540B要好很多(平均+9.4%)。Flan-PaLM 540B在一些基准测试上达到了最先进的性能,例如在五次拍摄的MMLU上达到了75.2%。我们还公开发布了Flan-T5检查点,即使与PaLM 62B等大得多的模型相比,也取得了强大的几发性能。总的来说,指令微调是一种提高预训练语言模型的性能和可用性的通用方法。
BIG-Bench(斯里瓦斯塔瓦等人,2022年)是一个多样化的评估套件,重点是被认为超出当前语言模型能力的任务。语言模型已经在这个基准上取得了良好的进展,在65%的大基准任务中,通过几次提示,大基准论文中最好的模型的表现超过了平均报告的人工评分结果。但是,语言模型在哪些任务上没有达到平均的人类评级性能,这些任务实际上是当前语言模型无法解决的吗? 在这项工作中,我们专注于一套23项具有挑战性的大板凳任务,我们称之为大板凳硬(BBH)。这些任务以前的语言模型评估并没有优于普通的人类评级者。我们发现,将思维链(CoT)提示应用于BBH任务,使PaLM在23个任务中的10个任务中超过了平均人工评分器性能,法典(code-davinci-002)在23个任务中的17个任务中超过了平均人工评分器性能。由于BBH中的许多任务需要多步骤推理,因此,没有CoT的少镜头提示,就像在BIG-Bench评估中所做的那样(Srivastava等人,2022年),大大低估了语言模型的最佳性能和功能,而这些性能和功能可以通过CoT提示更好地捕获。作为进一步的分析,我们探索了CoT和BBH上模型规模之间的相互作用,发现CoT在几个BBH任务上能够实现紧急任务性能,否则具有平坦的缩放曲线。
视频所包含的信息远远多于静止的图像,并具有学习视觉世界的丰富表征的潜力。然而,对图像数据集的预训练仍然是学习捕捉空间信息的表征的主流范式,以前在视频预训练方面的尝试在图像理解任务中是失败的。在这项工作中,我们重新审视了从视频帧的动态演变中对图像表征的自我监督学习。为此,我们提出了一个数据集策划程序,以解决视频和图像数据集之间的领域不匹配问题,并开发了一个对比性学习框架,以处理自然视频中存在的复杂转换。这种将知识从视频提炼成图像表征的简单范式,称为VITO,在各种基于图像的迁移学习任务中表现得出奇地好。在PASCAL和ADE20K的语义分割以及COCO和LVIS的物体检测上,我们的视频预训练模型首次缩小了与ImageNet预训练的差距,这表明视频预训练可以成为学习图像表征的新默认方法。
我们评估了大型语言模型在多语言环境中的推理能力。我们通过将GSM8K数据集(Cobbe等人,2021年)中的250个小学数学问题手动翻译成10种不同类型的语言,引入多语言小学数学(MGSM)基准。我们发现,通过思维链提示解决MGSM问题的能力随着模型规模的增加而出现,而且模型具有惊人的强大的多语言推理能力,甚至在孟加拉语和斯瓦希里语等代表不足的语言中也是如此。最后,我们表明,语言模型的多语言推理能力延伸到其他任务,如常识推理和上下文语义判断。MGSM基准可在此https网址上公开获取。
我们提出了Imagen Video,一个基于视频扩散模型级联的文本条件的视频生成系统。给定一个文本提示,Imagen Video使用一个基本的视频生成模型和一个交错的空间和时间视频超分辨率模型序列来生成高清视频。我们描述了我们如何将该系统扩展为一个高清文本到视频模型,包括设计决策,如在某些分辨率下选择完全卷积的时间和空间超分辨率模型,以及扩散模型的v参数化选择。此外,我们确认并将以前基于扩散的图像生成工作中的发现转移到视频生成环境中。最后,我们将渐进式蒸馏法应用于我们的视频模型,在无分类器指导下进行快速、高质量的采样。我们发现Imagen Video不仅能够生成高保真的视频,而且还具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画的能力,以及对三维物体的理解。见imagen.research.google/video的样本。
提高基本计算的算法效率可以产生广泛的影响,因为它可以影响大量计算的整体速度。矩阵乘法就是这样一项原始任务,它出现在许多系统中--从神经网络到科学计算程序。使用机器学习自动发现算法提供了超越人类直觉的前景,并超越了目前人类设计的最佳算法。然而,自动发现算法的程序是复杂的,因为可能的算法的空间是巨大的。在这里,我们报告了一种基于AlphaZero1的深度强化学习方法,用于发现高效且可证明正确的任意矩阵的乘法算法。我们的代理,AlphaTensor,被训练来玩一个单人游戏,目标是在一个有限的因子空间内找到张量分解。AlphaTensor发现了许多矩阵大小的算法,其复杂性超过了最先进的算法。特别是在有限域中的4×4矩阵的情况下,AlphaTensor的算法改进了Strassen的两级算法,据我们所知,这是自50年前发现该算法以来第一次2。我们通过不同的用例进一步展示了AlphaTensor的灵活性:结构化矩阵乘法的算法具有最先进的复杂性,通过优化矩阵乘法在特定硬件上的运行时间,提高了实际效率。我们的结果强调了AlphaTensor有能力加速一系列问题的算法发现过程,并针对不同的标准进行优化。
我们提出了3DiM(发音为 "three-dim"),这是一个用于从少量单张图像中合成三维新视图的扩散模型。3DiM的核心是一个图像到图像的扩散模型--3DiM将单一参考视图和相对姿势作为输入,并通过扩散生成一个新的视图。然后,3DiM可以按照我们新颖的随机调节采样器生成一个完整的三维一致性场景。场景的输出帧是以自回归方式生成的。在每个单独帧的反向扩散过程中,我们在每个去噪步骤中从以前的帧集合中选择一个随机调节帧。我们证明,与只对单个先前帧进行调节的天真采样过程相比,随机调节产生了更多的三维一致性结果。我们将3DiMs与先前在SRN ShapeNet数据集上的工作进行了比较,证明3DiM从单一视角生成的视频实现了更高的保真度,同时也是近似的三维一致性。我们还引入了一种新的评估方法--三维一致性评分,通过对模型的输出视图进行神经场训练,来衡量生成物体的三维一致性。3DiMs是无几何图形的,不依赖于超网络或测试时间优化的新型视图合成,并允许单个模型轻松扩展到大量的场景。
最近观察到的神经幂律扩展关系在深度学习领域产生了重大影响。因此,大量的注意力都放在了对缩放规律的描述上,尽管大部分都是针对监督学习的,而对强化学习框架的关注程度较低。在本文中,我们提出了一个关于基石强化学习算法AlphaZero的性能扩展的广泛研究。在Elo等级、游戏实力和幂律扩展之间的关系基础上,我们在 "四连胜 "和 "五连胜 "游戏中训练AlphaZero代理并分析其性能。我们发现,当不受可用计算的瓶颈限制时,玩家的实力以神经网络参数计数的幂律进行扩展,而当训练最佳规模的代理时,则以计算的幂律进行扩展。我们观察到两种游戏的缩放指数几乎相同。结合这两个观察到的缩放规律,我们得到了一个与语言模型观察到的类似的最佳规模与计算量相关的幂律。我们发现,预测的最佳神经网络规模的扩展符合我们在两个游戏中的数据。这个缩放规律意味着,考虑到各自的计算预算,以前发表的最先进的游戏模型明显小于其最佳规模。我们还表明,大型AlphaZero模型的样本效率更高,在相同数量的训练数据下,比小型模型表现更好。
科学文献是一个高质量的语料库,支持大量的自然语言处理(NLP)研究。然而,现有的数据集是以英语为中心的,这限制了中文科学NLP的发展。在这项工作中,我们提出了CSL,一个大规模的中文科学文献数据集,它包含了396k篇论文的标题、摘要、关键词和学术领域。就我们所知,CSL是第一个中文科学文献数据集。CSL可以作为一个中文语料库。同时,这种半结构化的数据是一种自然的注释,可以构成许多有监督的NLP任务。基于CSL,我们提出了一个基准来评估模型在科学领域任务中的表现,即总结、关键词生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中文科学NLP任务所面临的挑战,这为未来的研究提供了宝贵的参考。
准确检测多尺度小目标并使用遥感图像(RSI)实现实时检测仍然具有挑战性,特别是对于军事侦察和紧急救援等时间敏感任务。为了获得这些小目标的精确位置和分类,最适用的解决方案之一是融合多模态图像中的互补信息,以提高检测能力。现有的大多数解决方案主要设计一个复杂的深度神经网络来学习与背景分离的对象的强大特征表示,这通常会导致沉重的计算负担。 在本文中,我们提出了一种精确而快速的RSI小目标检测方法SuperYOLO,该方法融合多模式数据,通过利用辅助超分辨率(SR)学习并考虑检测精度和计算成本,对多尺度对象执行高分辨率(HR)目标检测。首先,我们通过删除Focus模块来构建一个紧凑的基线,以保留HR特征并显著克服小对象的丢失错误。其次,我们利用像素级多模式融合(MF)从各种数据中提取信息,以便为RSI中的小对象提供更合适和有效的特征。此外,我们设计了一个简单而灵活的SR分支来学习HR特征表示,该特征表示可以用低分辨率(LR)输入区分广阔背景中的小目标,从而进一步提高检测精度。此外,为了避免引入额外的计算,在推理阶段丢弃了SR分支,并且由于LR输入减少了网络模型的计算。实验结果表明,在广泛使用的VEDAI RS数据集上,SuperYOLO的准确率为73.61%(以mAP50计),比SOTA大型模型(如YOLOv5l、YOLOv 5x和RS设计的YOLOR)高出10%以上。同时,SuperYOLO的GFOLP和参数大小约为YOLOv5x的18.1倍和4.2倍。与最先进的模型相比,我们提出的模型显示出良好的精度-速度权衡。
随着多个行业正朝着建模大规模3D虚拟世界的方向发展,人们越来越需要能够根据3D内容的数量、质量和多样性进行扩展的内容创建工具。在我们的工作中,我们的目标是训练性能良好的3D生成模型,该模型可以合成可直接由3D渲染引擎使用的纹理网格,从而立即在下游应用程序中使用。之前关于3D生成建模的工作要么缺乏几何细节,要么只能生成有限的网格拓扑,通常不支持纹理,要么在合成过程中使用神经渲染器,这使得它们在通用3D软件中的使用非常重要。在这项工作中,我们介绍了GET3D,这是一种生成模型,可以直接生成具有复杂拓扑、丰富几何细节和高保真纹理的显式纹理3D网格。我们将最近在可微分曲面建模、可微分渲染以及2D生成对抗网络方面取得的成功联系起来,从2D图像集合中训练我们的模型。GET3D能够生成高质量的3D纹理网格,从汽车、椅子、动物、摩托车和人物到建筑物,与以前的方法相比有了显著的改进。
我们提出了Phenaki,一个能够给定一连串文字提示的现实视频合成的模型。由于计算成本、高质量文本-视频数据的数量有限以及视频长度的变化,从文本中生成视频特别具有挑战性。为了解决这些问题,我们引入了一个新的因果模型来学习视频表示,该模型将视频压缩为一个小的离散标记表示。这个标记器在时间上是自动回归的,这使它能够与不同长度的视频表示一起工作。 为了从文本中生成视频标记,我们使用了一个以预先计算的文本标记为条件的双向掩码变换器。生成的视频标记随后被去标记化,以创建实际的视频。为了解决数据问题,我们展示了在图像-文本对的大型语料库以及数量较少的视频-文本实例上的联合训练如何能够导致超越视频数据集所提供的泛化效果。与以前的视频生成方法相比,Phenaki可以在开放的领域中以一连串的提示(即时间可变的文本或故事)为条件生成任意的长视频。据我们所知,这是第一次有论文研究从时间变量提示中生成视频。
最近在文本-图像合成方面的突破是由在数十亿图像-文本对上训练的扩散模型推动的。将这种方法应用于三维合成需要大规模的标记三维数据集和高效的三维数据去噪架构,而这两者目前都不存在。在这项工作中,我们通过使用预先训练好的二维文本到图像的扩散模型来执行文本到三维的合成,从而规避了这些限制。我们引入了一种基于概率密度蒸馏的损失,使得二维扩散模型可以作为优化参数化图像生成器的先验。在一个类似DeepDream的程序中使用这种损失,我们通过梯度下降法优化一个随机初始化的三维模型(一个神经辐射场,或NeRF),使其从随机角度的二维渲染达到低损失。由此产生的给定文本的三维模型可以从任何角度观看,通过任意的照明重新点亮,或者合成到任何三维环境中。我们的方法不需要3D训练数据,也不需要修改图像扩散模型,这证明了预训练的图像扩散模型作为先验因素的有效性。
我们提出了Make-A-Video——一种直接将文本到图像(T2I)生成的最新巨大进展转换为文本到视频(T2V)的方法。我们的直觉很简单:从成对的文本图像数据中了解世界的样子和描述方式,并从无监督的视频片段中了解世界是如何移动的。Make-A-Video有三个优点:(1)它加快了T2V模型的训练(它不需要从头开始学习视觉和多模态表示),(2)它不需要成对的文本视频数据,以及(3)生成的视频继承了当今图像生成模型的广度(审美、幻想描述等方面的多样性)。我们设计了一种简单而有效的方法,用新颖有效的时空模块建立T2I模型。首先,我们分解全时间U-Net和注意张量,并在空间和时间上近似它们。其次,我们设计了一个时空流水线来生成高分辨率和帧速率视频,其中包括视频解码器、插值模型和两个超分辨率模型,这两个模型可以支持T2V以外的各种应用。Make-A-Video在空间和时间分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频生成的最新技术,这是由定性和定量两个指标决定的。
最近,GPT-3等模型的零次和少次提示的成功导致了NLP研究的范式转变。本文研究了它对文本摘要的影响,重点是新闻摘要的经典基准领域。首先,我们研究了零镜头GPT-3与在大型总结数据集上训练的微调模型的比较。我们表明,人类不仅压倒性地更喜欢GPT-3摘要,而且这些摘要也不会受到常见的数据集特定问题的影响,如事实性差。接下来,我们研究这对评估意味着什么,特别是金标准测试集的作用。我们的实验表明,基于参考和无参考的自动度量,例如最近提出的QA或基于包含的事实性方法,都不能可靠地评估零机会摘要。最后,我们讨论了泛型总结之外的未来研究挑战,特别是基于关键字和方面的总结,展示了占主导地位的微调方法与零镜头提示相比如何。 为了支持进一步的研究,我们发布了:(a)从4个标准总结基准的微调和零镜头模型生成的10K摘要语料库,(b) 1K人类偏好判断和理由,比较了基于通用和关键字的总结的不同系统。
最近的一些方法,如参数有效微调(PEFT)和模式利用训练(PET),在标签稀缺的情况下取得了令人印象深刻的结果。然而,它们很难被采用,因为它们受制于手工制作的提示语的高变异性,并且通常需要十亿个参数的语言模型来实现高精确度。为了解决这些缺陷,我们提出了SetFit(句子变换器微调),这是一个高效且无提示的框架,用于对句子变换器(ST)进行少量微调。SetFit的工作原理是,首先以对比连带的方式,在少量的文本对上对预训练的ST进行微调。然后,产生的模型被用来生成丰富的文本嵌入,这些嵌入被用来训练一个分类头。这个简单的框架不需要任何提示或口头语,并且以比现有技术少几个数量级的参数实现了高精确度。我们的实验表明,SetFit获得了与PEFT和PET技术相当的结果,同时其训练速度快了一个数量级。我们还表明,SetFit可以在多语言环境中应用,只需切换ST主体即可。我们的代码可以在这个https URL上找到,我们的数据集可以在这个https URL上找到。
我们研究了语音处理系统的能力,这些系统仅仅是为了预测互联网上的大量音频文本而训练的。当扩展到68万小时的多语言和多任务监控时,生成的模型可以很好地推广到标准基准测试,并且通常与以前的完全监控结果相竞争,但在零触发传输设置中不需要任何微调。与人类相比,模型接近其准确性和鲁棒性。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。
对于工业规模的广告系统,广告点击率(CTR)的预测是一个核心问题。广告点击率构成了用户参与的一个重要类别,并经常被用作广告对用户有用性的主要信号。此外,在按点击率收费的广告系统中,广告商按点击率收费,点击率预期直接反馈到价值评估中。因此,对于大多数互联网广告公司来说,点击率模型的开发是一项重大投资。针对此类问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,特别是关于效率、可重复性、校准、信用归属。我们提出了一个部署在谷歌搜索广告CTR模型中的实用技术的案例研究。本文提供了一个行业案例研究,强调了当前ML研究的重要领域,并说明了如何在大规模的工业环境中评估有影响力的新ML方法并使其发挥作用。
在过去的几年里,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量的工作表明它们有利于下游的单模态任务,避免从头开始训练新的模型。那么,这种预训练的模型能否应用于多模态任务?研究人员已经探索了这个问题并取得了重大进展。本文调查了视觉语言预训练(VLP)的最新进展和新领域,包括图像-文本和视频-文本预训练。为了让读者对VLP有一个更好的整体把握,我们首先从五个方面回顾了它的最新进展:特征提取、模型结构、预训练目标、预训练数据集和下游任务。然后,我们详细总结了具体的VLP模型。最后,我们讨论了VLP的新前沿。据我们所知,这是第一个专注于VLP的调查。我们希望这项调查能够为VLP领域的未来研究带来启示。
YOLOv7在5 FPS到160 FPS范围内的速度和准确度都超过了所有已知的物体检测器,并且在GPU V100上30 FPS或更高的所有已知实时物体检测器中具有最高的准确度56.8% AP。YOLOv7-E6物体检测器(56 FPS V100, 55.9% AP)比基于变压器的检测器SWIN-L Cascade-Mask R-CNN(9.2 FPS A100, 53. 9%)的速度和2%的准确率,以及基于卷积的检测器ConvNeXt-XL级联掩码R-CNN(8.6 FPS A100, 55.2% AP)的速度和0.7%的准确率,以及YOLOv7的表现。YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B和其他许多物体检测器在速度和准确度方面的表现。此外,我们只在MS COCO数据集上从头开始训练YOLOv7,不使用任何其他数据集或预训练的权重。
在消除全球范围内的语言障碍这一目标的驱动下,机器翻译已经巩固了自己作为当今人工智能研究的一个关键焦点。然而,这些努力都是围绕着一小部分语言进行的,而把绝大多数低资源的语言抛在了后面。要打破200种语言的障碍,同时确保安全、高质量的结果,并将道德因素牢记于心,这需要什么呢?在 "不落下任何一种语言 "中,我们接受了这一挑战,首先通过对母语人士的探索性访谈,将低资源语言翻译支持的需求情境化。然后,我们创建了数据集和模型,旨在缩小低资源语言和高资源语言之间的性能差距。更具体地说,我们开发了一个基于稀疏门控专家混合物的条件计算模型,该模型是在使用为低资源语言量身定做的新颖有效的数据挖掘技术获得的数据上进行训练的。我们提出了多种架构和训练方面的改进,以便在对数千项任务进行训练时抵制过度拟合。关键是,我们使用人类翻译的基准,Flores-200,评估了超过40,000个不同翻译方向的性能,并将人类评估与涵盖Flores-200中所有语言的新型毒性基准相结合,以评估翻译安全性。我们的模型相对于以前的最先进技术实现了44%的BLEU改进,为实现通用翻译系统奠定了重要基础。
受大规模语言建模进展的启发,我们采用了类似的方法来构建超出文本输出领域的单一通用代理。我们称之为Gato的代理作为一种多模态、多任务、多实施例的通才策略工作。具有相同权重的同一网络可以与真实的机器人手臂一起玩Atari、字幕图像、聊天、堆栈块等等,并根据其上下文决定是否输出文本、关节扭矩、按键或其他令牌。在本报告中,我们描述了模型和数据,并记录了Gato的当前能力。
在过去的几年里,基于Transformers的模型取得了成功,其规模和应用场景继续快速增长。目前变压器模型的格局越来越多样化:模型大小变化很大,最大的参数为数千亿个;由于 Mixture-of-Experts引入的稀疏性,模型特征不同;目标应用场景可以是延迟关键型的,也可以是面向吞吐量的;部署硬件可以是具有不同类型内存和存储等的单GPU或多GPU系统。随着Transformers模型的多样性不断增加和快速发展,设计高性能和高效的推理系统是极其具有挑战性的。在本文中,我们提出了一个综合的Transformers模型推理系统解决方案,以解决上述挑战。DeepSpeed推理包括(1)多GPU推理解决方案,在适合聚合GPU内存时,可最大限度地减少延迟,同时最大限度地提高密集和稀疏变压器模型的吞吐量;(2)异构推理解决方案,除GPU内存和计算外,还利用CPU和NVMe内存,以实现不适合聚合GPU内存的大型模型的高推理吞吐量。对于面向延迟的场景,深度速度推理将延迟降低了最多7.3倍,对于面向吞吐量的场景,吞吐量提高了1.5倍以上。此外,它通过利用数百个GPU,在实时延迟约束下实现万亿参数规模推理,这是前所未有的推理规模。它可以推断出比仅使用GPU解决方案大25倍的型号,同时提供84 TFLOPS的高吞吐量(超过A6000峰值的50%)。
由于对强大的云服务器的内存/计算要求令人望而却步,如何在实践中高效地服务训练有素的自然语言模型也变得异常具有挑战性。在本工作中,我们提出了一种高效且经济实惠的训练后量化方法来压缩基于变压器的大型模型,称为零量化。ZeroQuant是一个端到端量化和推理管道,有三个主要组件:(1)一个用于权重和激活的细粒度硬件友好量化方案;(2)一个新的负担得起的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3)高度优化的量化系统后端支持,以消除量化/反量化开销。因此,我们能够证明:(1) ZeroQuant可以以免费的方式将BERT和GPT3风格的模型的权重和激活精度降低到INT8,精度影响最小,这导致与FP16推理相比,这些模型的加速高达5.19x/4.16x;(2)ZeroQuant加上LKD将全连接模块中的权重量化为INT4,以及注意力模块中的INT8权重和INT8激活,与FP16型号相比,内存占用减少了3倍;(3) ZeroQuant可以直接应用于两个最大的开源语言模型,包括GPT-J6B和GPT-NeoX20,我们的INT8模型实现了与FP16模型相似的精度,但效率提高了5.2倍。
大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。我们使用Pathways在6144个TPU v4芯片上训练了PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上实现最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了经过微调的先进技术,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。此外,我们还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。