标签:大型语言模型,DeepSpeed-FastGen,文本生成,计算机科学,人工智能,深度学习 时间:2023-11-04T18:29:32
大型语言模型(LLM)如GPT-4和LLaMA已经成为各种应用中的主要工作负载,从通用聊天模型到文档摘要,从自动驾驶到软件栈的每一层的协同程序,这些模型的部署和服务的需求正在飙升。然而,这些应用的交互性和开放式文本生成等任务的低算术强度成为了现有系统中推理吞吐量的瓶颈。
大型语言模型的工作负载主要由两个阶段组成:提示处理和令牌生成。提示处理是将用户提供的文本作为一批令牌高效地处理,以构建用于注意力的键值(KV)缓存;令牌生成则是向缓存中添加一个令牌,并生成一个新的令牌。在生成一段文本的过程中,模型会多次调用前向传播来生成完整的文本序列。
DeepSpeed-FastGen是一个利用动态分割融合技术,实现高效的大型语言模型文本生成服务系统。它通过优化提示处理和令牌生成的过程,提高了系统的吞吐量和响应性。
动态分割融合是一种新颖的令牌组合策略,用于提示处理和令牌生成。DeepSpeed-FastGen利用动态分割融合以一致的前向大小运行,利用了从提示中取部分令牌并将其与生成组合的能力。
具体来说,动态分割融合执行两个关键的行为:
这两种技术共同为所有用户指标提供了具体的好处:
总的来说,动态分割融合技术使得DeepSpeed-FastGen能够在保持高吞吐量的同时,提供一致的服务质量,特别是对于有较长提示的工作负载。
我们对DeepSpeed-FastGen进行了广泛的性能评估,结果显示,与vLLM等最先进的系统相比,DeepSpeed-FastGen在吞吐量和延迟方面都有显著的优势。具体来说,DeepSpeed-FastGen最高可达2.3倍的有效吞吐量提升。
DeepSpeed-FastGen提供了简单易用的API,支持多种模型架构和部署选项。要开始使用DeepSpeed-FastGen,您可以通过pip install deepspeed-mii安装最新版本。我们还提供了详细的文档和示例,帮助您快速上手。
DeepSpeed-FastGen是一个强大的工具,它通过动态分割融合技术,实现了高效的大型语言模型文本生成服务系统。它的出现,为我们提供了一个新的视角来看待大型语言模型的应用和优化,也为未来的研究和开发提供了新的可能。
2022年全球最大的10家数据处理相关的创业公司
斯坦福2022年度AI指数报告简介及下载链接
内容生成方向的人工智能企业
吴恩达的LandingAI究竟是一家什么样的创业公司
人工智能初创企业Hugging Face是什么样的企业——HuggingFace简介
构建人工智能应用的开发者指南
工业蒸汽量预测-特征工程
一张图看全深度学习中下层软硬件体系结构
亚马逊最新发布Feature Store简介
Scikit-Learn最新更新简介
Batch Normalization应该在激活函数之前使用还是激活函数之后使用?
Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS
深度学习模型训练将训练批次(batch)设置为2的指数是否有实际价值?
指标函数(Metrics Function)和损失函数(Loss Function)的区别是什么?
亚马逊近线性大规模模型训练加速库MiCS来了!
Hugging Face发布最新的深度学习模型评估库Evaluate!
XLNet基本思想简介以及为什么它优于BERT
开源版本的GPT-3来临!Meta发布OPT大语言模型!
超越Cross-Entropy Loss(交叉熵损失)的新损失函数——PolyLoss简介
强烈推荐斯坦福大学的深度学习示意图网站
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介