程序合成的目的是生成一个计算机程序作为给定问题规格的解决方案。我们提出了一种通过大型语言模型的对话式程序合成方法,该方法解决了之前的方法所面临的在巨大的程序空间和用户意图规范上进行搜索的挑战。我们的新方法将编写规范和程序的过程描述为用户和系统之间的多轮对话。它将程序合成视为一个序列预测问题,其中规范是用自然语言表达的,所需的程序是有条件采样的。我们在自然语言和编程语言数据上训练一个大型语言模型系列,称为CodeGen。随着数据中的弱监督以及数据规模和模型规模的扩大,对话能力从简单的自回归语言建模中出现。为了研究对话式程序合成的模型行为,我们开发了一个多轮编程基准(MTPB),其中解决每个问题需要通过用户和模型之间的多轮对话进行多步骤合成。我们的发现显示了对话能力的出现和所提出的对话式程序合成范式的有效性。此外,我们的模型CodeGen(在TPU-v4上训练了多达16B的参数)在HumanEval基准上超过了OpenAI的Codex。我们将包括检查点在内的训练库JaxFormer作为开放源码贡献出来:这个https URL。
异质表格数据是最常用的数据形式,对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上,深度神经网络已多次显示出优异的性能,因此被广泛采用。然而,它们适应表格数据的推理或数据生成任务仍然具有挑战性。为了促进该领域的进一步发展,这项工作对最先进的表格数据深度学习方法进行了概述。我们将这些方法分为三组:数据转换、专业架构和正则化模型。对于这三组中的每一组,我们的工作提供了主要方法的全面概述。此外,我们还讨论了生成表格数据的深度学习方法,并且我们还对解释表格数据上的深度模型的策略进行了概述。因此,我们的第一个贡献是解决上述领域的主要研究流和现有方法,同时强调相关的挑战和开放的研究问题。我们的第二个贡献是提供了一个传统机器学习方法与11种深度学习方法的实证比较,这些方法跨越了5个不同大小和不同学习目标的流行的真实世界表格数据集。我们将这些结果作为竞争基准公开发表,表明基于梯度增强树群的算法在监督学习任务上仍然大多优于深度学习模型,这表明针对表格数据的竞争性深度学习模型的研究进展正在停滞。据我们所知,这是对表格数据深度学习方法的第一次深入概述;因此,这项工作可以作为一个有价值的起点,指导对表格数据深度学习感兴趣的研究人员和从业人员。
随着深度学习的快速发展,为多个下游任务训练大模型(BMs)成为一种流行的模式。研究人员在BMs的构建和BMs在许多领域的应用方面取得了各种成果。目前,还缺乏对BMs整体进展的梳理和对后续研究的指导的研究工作。在本文中,我们不仅涉及BM技术本身,还包括BM培训和BM应用的前提条件,将BM的回顾分为四个部分。资源、模型、关键技术和应用。在这四个部分中,我们介绍了16个与BM相关的具体主题,它们是数据、知识、计算系统、并行训练系统、语言模型、视觉模型、多模式模型、理论与可解释性、常识性推理、可靠性与安全性、治理、评估、机器翻译、文本生成、对话和蛋白质研究。在每个主题中,我们都清楚地总结了当前的研究,并提出了一些未来的研究方向。在本文的最后,我们从更广阔的视角总结了BMs的进一步发展。
由于对象建模的困难和缺乏关于稳定和灵巧的操纵技能的知识,对可变形对象的长视距灵巧机器人操纵任务,如剥香蕉,是有问题的。本文提出了一个目标条件的双行动深度模仿学习(DIL),它可以利用人类的示范数据学习灵巧的操纵技能。以前的DIL方法映射了当前的感觉输入和反应动作,这很容易失败,因为模仿学习中由动作的反复计算引起的复合误差。所提出的方法在需要精确操纵目标物体时预测反应动作(局部动作),在不需要精确操纵时生成整个轨迹。这种双行动表述有效地防止了基于轨迹的全局行动的复合误差,同时用反应性的局部行动应对目标对象的意外变化。此外,在这种表述中,全局/局部行动都以目标状态为条件,该目标状态被定义为每个子任务的最后一步,以实现稳健的策略预测。所提出的方法在实际的双臂机器人中进行了测试,并成功地完成了剥香蕉的任务。
正则化是一种基本技术,通过限制模型的复杂性来防止过度拟合并提高泛化性能。目前的深度网络严重依赖正则化器,如数据增强(DA)或权重衰减,并采用结构风险最小化,即交叉验证,以选择最佳的正则化超参数。在这项研究中,我们证明了DA或权重衰减等技术产生了一个复杂度降低的模型,该模型在不同类别中是不公平的。从交叉验证中发现的最佳DA或权重衰减量在某些类别上会导致灾难性的模型表现,例如,在Imagenet的resnet50上,仅通过在训练期间引入随机作物DA,"谷仓蜘蛛 "的分类测试精度就从68%下降到46%。更令人惊讶的是,这种性能下降也出现在引入无信息的正则化技术,如权重衰减。这些结果表明,我们对不断提高泛化性能的追求--在所有类别和样本上的平均值--使我们的模型和正则化器在某些类别上默默地牺牲了性能。这种情况在将模型部署到下游任务时可能变得很危险,例如,在Imagenet预训练阶段引入随机作物DA时,部署在INaturalist上的Imagenet预训练resnet50在类#8889上的表现从70%下降到30%。这些结果表明,设计没有类别依赖性偏差的新型正则器仍然是一个开放的研究问题。 通过www.DeepL.com/Translator(免费版)翻译
现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。本文提出了一个统一的预训练模型框架,该框架在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,我们为NLP中的自我监督提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互投射的,以及不同目标之间的插值是如何有效的。然后,我们提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标,并发现我们的方法在多种不同的设置中超越了T5和/或GPT-like模型,从而推动了Pareto-frontier的发展。最后,通过将我们的模型扩展到20B的参数,我们在50个公认的有监督的NLP任务上取得了SOTA的表现,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果,在零次的SuperGLUE上超过了175B GPT-3,在一次的总结上是T5-XXL性能的三倍。他们发布了开源了20B模型。
语言模型在需要自然语言理解的广泛任务上取得了显著的表现。然而,最先进的模型通常都在与需要量化推理的任务作斗争,比如在大学层面解决数学、科学和工程问题。为了帮助缩小这一差距,我们引入了Minerva,这是一个在一般自然语言数据上预先训练并在技术内容上进一步训练的大型语言模型。该模型在不使用外部工具的情况下,在技术基准上实现了最先进的性能。我们还对物理、生物学、化学、经济学和其他需要量化推理的200多个本科问题进行了评估,发现该模型可以正确回答其中近三分之一的问题。
概率分层时间序列预测是时间序列预测的一个重要变体,其目标是对具有潜在分层关系的多变量时间序列进行建模和预测。大多数方法集中在点预测上,没有提供良好的校准概率预测分布。最近先进的概率预测方法也将层次关系强加于点预测和分布样本上,这并没有考虑到预测分布的一致性。以前的工作也默默地假设数据集总是与给定的层次关系一致,并且不适应现实世界的数据集,这些数据集显示出与这个假设的偏差。我们弥补了这两方面的不足,并提出了PROPHIT,这是一个完全概率化的层次预测模型,对整个层次的预测分布进行联合建模。PROFHIT使用灵活的概率贝叶斯方法,并引入了一种新的分布一致性正则化,从整个预测分布的层次关系中学习,从而实现稳健和校准的预测,并适应不同层次一致性的数据集。在对广泛的数据集进行评估时,我们观察到PROFHIT在准确性和校准方面的性能提高了41-88%。由于对整个分布的一致性进行建模,我们观察到,即使有高达10%的输入时间序列数据丢失,PROFHIT也能稳健地提供可靠的预测,而其他方法的性能严重下降了70%以上。
对网络规模的数据进行训练可能需要几个月。但是大部分的计算和时间都浪费在了已经学习过或无法学习的冗余和噪音点上。为了加速训练,我们引入了Reducible Holdout Loss Selection (RHO-LOSS),这是一种简单但有原则的技术,它可以选择那些最能减少模型泛化损失的点进行训练。因此,RHO-LOSS减轻了现有数据选择方法的弱点:来自优化文献的技术通常选择 "硬"(如高损失)的点,但这些点往往是嘈杂的(不可学习)或与任务不太相关。相反,课程学习优先考虑 "容易 "的点,但这些点一旦学会就不需要训练。相反,RHO-LOSS选择的是可学习的、值得学习的和尚未学习的点。RHO-LOSS的训练步骤比现有技术少得多,提高了准确性,并在广泛的数据集、超参数和架构(MLPs、CNNs和BERT)上加快了训练速度。在大型网络刮削图像数据集Clothing-1M上,RHO-LOSS的训练步骤减少了18倍,最终准确率比统一数据洗牌高2%。 通过www.DeepL.com/Translator(免费版)翻译
扩大语言模型的规模已被证明可以预测地提高广泛的下游任务的性能和采样效率。本文反而讨论了一种不可预测的现象,我们将其称为大型语言模型的突发能力。如果一种能力在较小的模型中不存在,但在较大的模型中存在,我们认为这种能力是突现的。因此,出现的能力不能简单地通过推断较小模型的性能来预测。这种涌现的存在意味着额外的缩放可以进一步扩大语言模型的能力范围
我们提出了Imagen,一个文本到图像的扩散模型,具有空前的逼真度和深层次的语言理解。Imagen建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。我们的关键发现是,通用的大型语言模型(如T5),在纯文本语料库上进行了预训练,在为图像合成编码文本方面有惊人的效果:在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保真度和图像-文本的一致性。Imagen在COCO数据集上实现了新的最先进的FID得分,即7.27分,而不需要在COCO上进行训练,人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身相当。为了更深入地评估文本-图像模型,我们介绍了DrawBench,一个全面的、具有挑战性的文本-图像模型的基准。通过DrawBench,我们将Imagen与最近的方法,包括VQ-GAN+CLIP,Latent Diffusion Models和DALL-E 2进行了比较,发现人类评分员在侧面比较中更喜欢Imagen而不是其他模型,无论是在样本质量和图像-文本对齐方面。有关结果的概述,请参见https://imagen.research.google/。
从先前的实验中元学习超参数优化(HPO)算法是一种很有前途的方法,可以提高对来自类似分布的目标函数的优化效率。然而,现有的方法仅限于从共享同一组超参数的实验中学习。在本文中,我们介绍了OptFormer,这是第一个基于文本的Transformer HPO框架,它提供了一个通用的端到端接口,用于在来自野外的大量调谐数据上训练时联合学习策略和函数预测。我们广泛的实验证明,OptFormer可以模仿至少7种不同的HPO算法,通过其函数的不确定性估计可以进一步提高。与高斯过程相比,OptFormer还为超参数响应函数学习了一个稳健的先验分布,因此可以提供更准确和更好的校准预测。这项工作为未来扩展训练基于Transformer的模型作为一般HPO优化器铺平了道路。
在这项工作中,我们通过引入一种有效的深度聚类方法来弥补这一差距,该方法不需要知道K的值,因为它在学习过程中会推断出K的值。通过使用分裂/合并框架、适应变化的K的动态结构和新的损失,我们提出的方法优于现有的非参数方法(包括经典的和深度的)
本周,谷歌的研究人员在arXiv上提交了一个非常有意思的论文,其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。这篇论文最大的亮点是总结了谷歌在建立机器翻译系统上的一些工程实践:包括从网络爬取数据集,对于噪音的处理以及建立语料库的一些经验和技巧。