微软新的异构分布式推理技术,让transformers的性能提升数倍!
时间:2022-07-04 17:00:55.437
论文名:DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale
发布时间:2022年6月
论文地址:https://arxiv.org/abs/2207.00032
代码地址:https://github.com/microsoft/DeepSpeed
原文摘要:在过去的几年里,基于Transformers的模型取得了成功,其规模和应用场景继续快速增长。目前变压器模型的格局越来越多样化:模型大小变化很大,最大的参数为数千亿个;由于 Mixture-of-Experts引入的稀疏性,模型特征不同;目标应用场景可以是延迟关键型的,也可以是面向吞吐量的;部署硬件可以是具有不同类型内存和存储等的单GPU或多GPU系统。随着Transformers模型的多样性不断增加和快速发展,设计高性能和高效的推理系统是极其具有挑战性的。在本文中,我们提出了一个综合的Transformers模型推理系统解决方案,以解决上述挑战。DeepSpeed推理包括(1)多GPU推理解决方案,在适合聚合GPU内存时,可最大限度地减少延迟,同时最大限度地提高密集和稀疏变压器模型的吞吐量;(2)异构推理解决方案,除GPU内存和计算外,还利用CPU和NVMe内存,以实现不适合聚合GPU内存的大型模型的高推理吞吐量。对于面向延迟的场景,深度速度推理将延迟降低了最多7.3倍,对于面向吞吐量的场景,吞吐量提高了1.5倍以上。此外,它通过利用数百个GPU,在实时延迟约束下实现万亿参数规模推理,这是前所未有的推理规模。它可以推断出比仅使用GPU解决方案大25倍的型号,同时提供84 TFLOPS的高吞吐量(超过A6000峰值的50%)。