标签:大模型技术,无限文本处理,StreamingLLM,大语言模型 时间:2023-10-31T20:20:14
大语言模型(LLMs)在处理流式应用,如多轮对话等长交互期望的场景中,面临着两大挑战。首先,在解码阶段,缓存先前令牌的键值状态(KV)会消耗大量内存。其次,流行的LLM无法泛化到超过训练序列长度的更长文本。为了解决这些问题,Meta和MIT的研究人员提出了一种新的框架——StreamingLLM。
StreamingLLM是一种高效的框架,使得训练有限长度注意力窗口的LLM能够泛化到无限序列长度,而无需任何微调。它通过保留最近的令牌和注意力汇聚点,丢弃中间令牌,使模型能够从最近的令牌生成连贯的文本,而无需缓存重置。这是以前的方法所没有的能力。
StreamingLLM的工作原理是保留最近的令牌和注意力汇聚点,丢弃中间的令牌。这意味着模型只能处理最新的令牌,上下文窗口仍受其初始预训练的限制。例如,如果Llama-2是用4096个令牌的上下文窗口预训练的,那么StreamingLLM在Llama-2上的最大缓存大小仍然是4096。
StreamingLLM的优势在于,它可以使模型在不需要大量内存或依赖过去数据的情况下连续运行。这使得模型可以基于最近的对话生成流畅的文本,而无需刷新其缓存。早期的方法要么需要在对话长度超过训练长度时重置缓存(丢失最近的上下文),要么需要从最近的文本历史重新计算KV状态,这可能会耗费大量时间。在流式设置中,StreamingLLM的速度提升高达22.2倍。
StreamingLLM最适合于流式应用,如多轮对话。例如,基于LLM的日常助手,StreamingLLM可以让模型连续运行,基于最近的对话生成响应,而无需刷新其缓存。
StreamingLLM是一种新的大模型技术,它通过简单高效的方式,使大语言模型能够处理无限文本。虽然它并不能扩展LLM的上下文窗口或增强其长期记忆,但它的优势在于可以生成流畅的文本,无需缓存刷新,极大地提高了处理效率。对于需要长时间交互的应用场景,如多轮对话,StreamingLLM无疑提供了一种非常有价值的解决方案。
阿里巴巴开源第二代大语言模型Qwen2系列,最高参数规模700亿,评测结果位列开源模型第一,超过了Meta开源的Llama3-70B!
让大模型支持更长的上下文的方法哪个更好?训练支持更长上下文的模型还是基于检索增强?
大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!
文本理解与代码补全都很强!Salesforce开源支持8K上下文输入的大语言模型XGen-7B!
一张图总结大语言模型的技术分类、现状和开源情况
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布开源可商用大语言模型CPM-Bee
tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?
Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要
大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介