人工智能(AI)领域论文快讯

YOLO V7来临!刚刚台湾省中央研究院资讯科学研究所研究人员发布最新版本YOLO

YOLOv7在5 FPS到160 FPS范围内的速度和准确度都超过了所有已知的物体检测器,并且在GPU V100上30 FPS或更高的所有已知实时物体检测器中具有最高的准确度56.8% AP。YOLOv7-E6物体检测器(56 FPS V100, 55.9% AP)比基于变压器的检测器SWIN-L Cascade-Mask R-CNN(9.2 FPS A100, 53. 9%)的速度和2%的准确率,以及基于卷积的检测器ConvNeXt-XL级联掩码R-CNN(8.6 FPS A100, 55.2% AP)的速度和0.7%的准确率,以及YOLOv7的表现。YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B和其他许多物体检测器在速度和准确度方面的表现。此外,我们只在MS COCO数据集上从头开始训练YOLOv7,不使用任何其他数据集或预训练的权重。

YOLO系列/计算机视觉 2022-07-07 11:28:34.399 93
Meta(原FaceBook)人工智能研究院最新论文——新一代机器翻译系统

在消除全球范围内的语言障碍这一目标的驱动下,机器翻译已经巩固了自己作为当今人工智能研究的一个关键焦点。然而,这些努力都是围绕着一小部分语言进行的,而把绝大多数低资源的语言抛在了后面。要打破200种语言的障碍,同时确保安全、高质量的结果,并将道德因素牢记于心,这需要什么呢?在 "不落下任何一种语言 "中,我们接受了这一挑战,首先通过对母语人士的探索性访谈,将低资源语言翻译支持的需求情境化。然后,我们创建了数据集和模型,旨在缩小低资源语言和高资源语言之间的性能差距。更具体地说,我们开发了一个基于稀疏门控专家混合物的条件计算模型,该模型是在使用为低资源语言量身定做的新颖有效的数据挖掘技术获得的数据上进行训练的。我们提出了多种架构和训练方面的改进,以便在对数千项任务进行训练时抵制过度拟合。关键是,我们使用人类翻译的基准,Flores-200,评估了超过40,000个不同翻译方向的性能,并将人类评估与涵盖Flores-200中所有语言的新型毒性基准相结合,以评估翻译安全性。我们的模型相对于以前的最先进技术实现了44%的BLEU改进,为实现通用翻译系统奠定了重要基础。

机器翻译/预训练模型 2022-07-06 23:52:51.379 125
多模态预训练模型来临——DeepMind最新的可以完成多种任务的单一预训练模型发布

受大规模语言建模进展的启发,我们采用了类似的方法来构建超出文本输出领域的单一通用代理。我们称之为Gato的代理作为一种多模态、多任务、多实施例的通才策略工作。具有相同权重的同一网络可以与真实的机器人手臂一起玩Atari、字幕图像、聊天、堆栈块等等,并根据其上下文决定是否输出文本、关节扭矩、按键或其他令牌。在本报告中,我们描述了模型和数据,并记录了Gato的当前能力。

多任务模型/多模态/预训练 2022-07-05 11:35:24.631 49
微软新的异构分布式推理技术,让transformers的性能提升数倍!

在过去的几年里,基于Transformers的模型取得了成功,其规模和应用场景继续快速增长。目前变压器模型的格局越来越多样化:模型大小变化很大,最大的参数为数千亿个;由于 Mixture-of-Experts引入的稀疏性,模型特征不同;目标应用场景可以是延迟关键型的,也可以是面向吞吐量的;部署硬件可以是具有不同类型内存和存储等的单GPU或多GPU系统。随着Transformers模型的多样性不断增加和快速发展,设计高性能和高效的推理系统是极其具有挑战性的。在本文中,我们提出了一个综合的Transformers模型推理系统解决方案,以解决上述挑战。DeepSpeed推理包括(1)多GPU推理解决方案,在适合聚合GPU内存时,可最大限度地减少延迟,同时最大限度地提高密集和稀疏变压器模型的吞吐量;(2)异构推理解决方案,除GPU内存和计算外,还利用CPU和NVMe内存,以实现不适合聚合GPU内存的大型模型的高推理吞吐量。对于面向延迟的场景,深度速度推理将延迟降低了最多7.3倍,对于面向吞吐量的场景,吞吐量提高了1.5倍以上。此外,它通过利用数百个GPU,在实时延迟约束下实现万亿参数规模推理,这是前所未有的推理规模。它可以推断出比仅使用GPU解决方案大25倍的型号,同时提供84 TFLOPS的高吞吐量(超过A6000峰值的50%)。

性能提升/推理/分布式训练 2022-07-04 17:00:55.437 50
模型压缩新选择——ZeroQuant提升模型压缩效率5.2倍

由于对强大的云服务器的内存/计算要求令人望而却步,如何在实践中高效地服务训练有素的自然语言模型也变得异常具有挑战性。在本工作中,我们提出了一种高效且经济实惠的训练后量化方法来压缩基于变压器的大型模型,称为零量化。ZeroQuant是一个端到端量化和推理管道,有三个主要组件:(1)一个用于权重和激活的细粒度硬件友好量化方案;(2)一个新的负担得起的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3)高度优化的量化系统后端支持,以消除量化/反量化开销。因此,我们能够证明:(1) ZeroQuant可以以免费的方式将BERT和GPT3风格的模型的权重和激活精度降低到INT8,精度影响最小,这导致与FP16推理相比,这些模型的加速高达5.19x/4.16x;(2)ZeroQuant加上LKD将全连接模块中的权重量化为INT4,以及注意力模块中的INT8权重和INT8激活,与FP16型号相比,内存占用减少了3倍;(3) ZeroQuant可以直接应用于两个最大的开源语言模型,包括GPT-J6B和GPT-NeoX20,我们的INT8模型实现了与FP16模型相似的精度,但效率提高了5.2倍。

大模型/训练优化/分布式训练 2022-07-04 11:27:21.197 5
Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型

大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。我们使用Pathways在6144个TPU v4芯片上训练了PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上实现最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了经过微调的先进技术,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。此外,我们还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。

预训练模型/大模型/语言模型 2022-07-01 21:57:33.172 3
新的对话式语言模型CodeGen可以将自然语言转换成可执行代码!

程序合成的目的是生成一个计算机程序作为给定问题规格的解决方案。我们提出了一种通过大型语言模型的对话式程序合成方法,该方法解决了之前的方法所面临的在巨大的程序空间和用户意图规范上进行搜索的挑战。我们的新方法将编写规范和程序的过程描述为用户和系统之间的多轮对话。它将程序合成视为一个序列预测问题,其中规范是用自然语言表达的,所需的程序是有条件采样的。我们在自然语言和编程语言数据上训练一个大型语言模型系列,称为CodeGen。随着数据中的弱监督以及数据规模和模型规模的扩大,对话能力从简单的自回归语言建模中出现。为了研究对话式程序合成的模型行为,我们开发了一个多轮编程基准(MTPB),其中解决每个问题需要通过用户和模型之间的多轮对话进行多步骤合成。我们的发现显示了对话能力的出现和所提出的对话式程序合成范式的有效性。此外,我们的模型CodeGen(在TPU-v4上训练了多达16B的参数)在HumanEval基准上超过了OpenAI的Codex。我们将包括检查点在内的训练库JaxFormer作为开放源码贡献出来:这个https URL。

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

异质表格数据是最常用的数据形式,对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上,深度神经网络已多次显示出优异的性能,因此被广泛采用。然而,它们适应表格数据的推理或数据生成任务仍然具有挑战性。为了促进该领域的进一步发展,这项工作对最先进的表格数据深度学习方法进行了概述。我们将这些方法分为三组:数据转换、专业架构和正则化模型。对于这三组中的每一组,我们的工作提供了主要方法的全面概述。此外,我们还讨论了生成表格数据的深度学习方法,并且我们还对解释表格数据上的深度模型的策略进行了概述。因此,我们的第一个贡献是解决上述领域的主要研究流和现有方法,同时强调相关的挑战和开放的研究问题。我们的第二个贡献是提供了一个传统机器学习方法与11种深度学习方法的实证比较,这些方法跨越了5个不同大小和不同学习目标的流行的真实世界表格数据集。我们将这些结果作为竞争基准公开发表,表明基于梯度增强树群的算法在监督学习任务上仍然大多优于深度学习模型,这表明针对表格数据的竞争性深度学习模型的研究进展正在停滞。据我们所知,这是对表格数据深度学习方法的第一次深入概述;因此,这项工作可以作为一个有价值的起点,指导对表格数据深度学习感兴趣的研究人员和从业人员。

XGBoost/综述 2022-07-01 21:33:37.478 0
重磅!大规模预训练模型路线图

随着深度学习的快速发展,为多个下游任务训练大模型(BMs)成为一种流行的模式。研究人员在BMs的构建和BMs在许多领域的应用方面取得了各种成果。目前,还缺乏对BMs整体进展的梳理和对后续研究的指导的研究工作。在本文中,我们不仅涉及BM技术本身,还包括BM培训和BM应用的前提条件,将BM的回顾分为四个部分。资源、模型、关键技术和应用。在这四个部分中,我们介绍了16个与BM相关的具体主题,它们是数据、知识、计算系统、并行训练系统、语言模型、视觉模型、多模式模型、理论与可解释性、常识性推理、可靠性与安全性、治理、评估、机器翻译、文本生成、对话和蛋白质研究。在每个主题中,我们都清楚地总结了当前的研究,并提出了一些未来的研究方向。在本文的最后,我们从更广阔的视角总结了BMs的进一步发展。

综述/大模型 2022-07-01 21:30:56.344 1
深度学习9个小时内教会机器人拿起和剥开香蕉

由于对象建模的困难和缺乏关于稳定和灵巧的操纵技能的知识,对可变形对象的长视距灵巧机器人操纵任务,如剥香蕉,是有问题的。本文提出了一个目标条件的双行动深度模仿学习(DIL),它可以利用人类的示范数据学习灵巧的操纵技能。以前的DIL方法映射了当前的感觉输入和反应动作,这很容易失败,因为模仿学习中由动作的反复计算引起的复合误差。所提出的方法在需要精确操纵目标物体时预测反应动作(局部动作),在不需要精确操纵时生成整个轨迹。这种双行动表述有效地防止了基于轨迹的全局行动的复合误差,同时用反应性的局部行动应对目标对象的意外变化。此外,在这种表述中,全局/局部行动都以目标状态为条件,该目标状态被定义为每个子任务的最后一步,以实现稳健的策略预测。所提出的方法在实际的双臂机器人中进行了测试,并成功地完成了剥香蕉的任务。

机器人/深度学习 2022-07-01 21:25:35.318 0
正则化和数据增强对模型的影响并不总是好的:The Effects of Regularization and Data Augmentation are Class Dependent

正则化是一种基本技术,通过限制模型的复杂性来防止过度拟合并提高泛化性能。目前的深度网络严重依赖正则化器,如数据增强(DA)或权重衰减,并采用结构风险最小化,即交叉验证,以选择最佳的正则化超参数。在这项研究中,我们证明了DA或权重衰减等技术产生了一个复杂度降低的模型,该模型在不同类别中是不公平的。从交叉验证中发现的最佳DA或权重衰减量在某些类别上会导致灾难性的模型表现,例如,在Imagenet的resnet50上,仅通过在训练期间引入随机作物DA,"谷仓蜘蛛 "的分类测试精度就从68%下降到46%。更令人惊讶的是,这种性能下降也出现在引入无信息的正则化技术,如权重衰减。这些结果表明,我们对不断提高泛化性能的追求--在所有类别和样本上的平均值--使我们的模型和正则化器在某些类别上默默地牺牲了性能。这种情况在将模型部署到下游任务时可能变得很危险,例如,在Imagenet预训练阶段引入随机作物DA时,部署在INaturalist上的Imagenet预训练resnet50在类#8889上的表现从70%下降到30%。这些结果表明,设计没有类别依赖性偏差的新型正则器仍然是一个开放的研究问题。 通过www.DeepL.com/Translator(免费版)翻译

过拟合/正则化 2022-07-01 21:22:49.489 1
Unifying Language Learning Paradigms——谷歌的一个模型打天下

现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。本文提出了一个统一的预训练模型框架,该框架在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,我们为NLP中的自我监督提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互投射的,以及不同目标之间的插值是如何有效的。然后,我们提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标,并发现我们的方法在多种不同的设置中超越了T5和/或GPT-like模型,从而推动了Pareto-frontier的发展。最后,通过将我们的模型扩展到20B的参数,我们在50个公认的有监督的NLP任务上取得了SOTA的表现,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果,在零次的SuperGLUE上超过了175B GPT-3,在一次的总结上是T5-XXL性能的三倍。他们发布了开源了20B模型。

预训练模型/语言模型 2022-07-01 21:20:32.027 0
大型语言模型的能力更进一步——谷歌发布可以做定量推理的语言模型!

语言模型在需要自然语言理解的广泛任务上取得了显著的表现。然而,最先进的模型通常都在与需要量化推理的任务作斗争,比如在大学层面解决数学、科学和工程问题。为了帮助缩小这一差距,我们引入了Minerva,这是一个在一般自然语言数据上预先训练并在技术内容上进一步训练的大型语言模型。该模型在不使用外部工具的情况下,在技术基准上实现了最先进的性能。我们还对物理、生物学、化学、经济学和其他需要量化推理的200多个本科问题进行了评估,发现该模型可以正确回答其中近三分之一的问题。

大模型/定量推理/数学 2022-07-01 15:04:48.504 5
时序预测工具Prophet继任者PROFHIT来了

概率分层时间序列预测是时间序列预测的一个重要变体,其目标是对具有潜在分层关系的多变量时间序列进行建模和预测。大多数方法集中在点预测上,没有提供良好的校准概率预测分布。最近先进的概率预测方法也将层次关系强加于点预测和分布样本上,这并没有考虑到预测分布的一致性。以前的工作也默默地假设数据集总是与给定的层次关系一致,并且不适应现实世界的数据集,这些数据集显示出与这个假设的偏差。我们弥补了这两方面的不足,并提出了PROPHIT,这是一个完全概率化的层次预测模型,对整个层次的预测分布进行联合建模。PROFHIT使用灵活的概率贝叶斯方法,并引入了一种新的分布一致性正则化,从整个预测分布的层次关系中学习,从而实现稳健和校准的预测,并适应不同层次一致性的数据集。在对广泛的数据集进行评估时,我们观察到PROFHIT在准确性和校准方面的性能提高了41-88%。由于对整个分布的一致性进行建模,我们观察到,即使有高达10%的输入时间序列数据丢失,PROFHIT也能稳健地提供可靠的预测,而其他方法的性能严重下降了70%以上。

时序预测/概率图模型 2022-06-21 22:31:21.402 0
最新的Reducible Holdout Loss Selection可以让你的模型训练步骤减少18倍!

对网络规模的数据进行训练可能需要几个月。但是大部分的计算和时间都浪费在了已经学习过或无法学习的冗余和噪音点上。为了加速训练,我们引入了Reducible Holdout Loss Selection (RHO-LOSS),这是一种简单但有原则的技术,它可以选择那些最能减少模型泛化损失的点进行训练。因此,RHO-LOSS减轻了现有数据选择方法的弱点:来自优化文献的技术通常选择 "硬"(如高损失)的点,但这些点往往是嘈杂的(不可学习)或与任务不太相关。相反,课程学习优先考虑 "容易 "的点,但这些点一旦学会就不需要训练。相反,RHO-LOSS选择的是可学习的、值得学习的和尚未学习的点。RHO-LOSS的训练步骤比现有技术少得多,提高了准确性,并在广泛的数据集、超参数和架构(MLPs、CNNs和BERT)上加快了训练速度。在大型网络刮削图像数据集Clothing-1M上,RHO-LOSS的训练步骤减少了18倍,最终准确率比统一数据洗牌高2%。 通过www.DeepL.com/Translator(免费版)翻译

模型训练/加速库 2022-06-17 21:53:45.841 7
大型语言模型(LLM)的独特能力探索——谷歌最新论文

扩大语言模型的规模已被证明可以预测地提高广泛的下游任务的性能和采样效率。本文反而讨论了一种不可预测的现象,我们将其称为大型语言模型的突发能力。如果一种能力在较小的模型中不存在,但在较大的模型中存在,我们认为这种能力是突现的。因此,出现的能力不能简单地通过推断较小模型的性能来预测。这种涌现的存在意味着额外的缩放可以进一步扩大语言模型的能力范围

语言模型/LLM/大型语言模型 2022-06-16 23:07:19.435 0
DALL·E2的对手来了,谷歌Text-to-Image模型(Imagen)来临!

我们提出了Imagen,一个文本到图像的扩散模型,具有空前的逼真度和深层次的语言理解。Imagen建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。我们的关键发现是,通用的大型语言模型(如T5),在纯文本语料库上进行了预训练,在为图像合成编码文本方面有惊人的效果:在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保真度和图像-文本的一致性。Imagen在COCO数据集上实现了新的最先进的FID得分,即7.27分,而不需要在COCO上进行训练,人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身相当。为了更深入地评估文本-图像模型,我们介绍了DrawBench,一个全面的、具有挑战性的文本-图像模型的基准。通过DrawBench,我们将Imagen与最近的方法,包括VQ-GAN+CLIP,Latent Diffusion Models和DALL-E 2进行了比较,发现人类评分员在侧面比较中更喜欢Imagen而不是其他模型,无论是在样本质量和图像-文本对齐方面。有关结果的概述,请参见https://imagen.research.google/。

图像生成/Text-to-Image 2022-05-28 20:40:38.397 1
全世界第一个基于text的超参数optimizer诞生!

从先前的实验中元学习超参数优化(HPO)算法是一种很有前途的方法,可以提高对来自类似分布的目标函数的优化效率。然而,现有的方法仅限于从共享同一组超参数的实验中学习。在本文中,我们介绍了OptFormer,这是第一个基于文本的Transformer HPO框架,它提供了一个通用的端到端接口,用于在来自野外的大量调谐数据上训练时联合学习策略和函数预测。我们广泛的实验证明,OptFormer可以模仿至少7种不同的HPO算法,通过其函数的不确定性估计可以进一步提高。与高斯过程相比,OptFormer还为超参数响应函数学习了一个稳健的先验分布,因此可以提供更准确和更好的校准预测。这项工作为未来扩展训练基于Transformer的模型作为一般HPO优化器铺平了道路。

超参数优化/Transformers 2022-05-28 20:18:56.239 0
基于深度学习的非参数聚类方法——DeepDPM

在这项工作中,我们通过引入一种有效的深度聚类方法来弥补这一差距,该方法不需要知道K的值,因为它在学习过程中会推断出K的值。通过使用分裂/合并框架、适应变化的K的动态结构和新的损失,我们提出的方法优于现有的非参数方法(包括经典的和深度的)

非参数聚类/深度学习/聚类 2022-05-15 22:42:14.807 0
如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周,谷歌的研究人员在arXiv上提交了一个非常有意思的论文,其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。这篇论文最大的亮点是总结了谷歌在建立机器翻译系统上的一些工程实践:包括从网络爬取数据集,对于噪音的处理以及建立语料库的一些经验和技巧。

机器翻译/自然语言处理 2022-05-15 22:30:55.963 0