标签:大语言模型,推理能力,步骤回退问题,提示工程,错误分析 时间:2024-04-21T22:00:22
大语言模型在回答一些简单问题时表现出色,比如”阳光明媚时天空是什么颜色?”。但面对”一天中不同时段天空的颜色如何变化?”这样需要多步推理的复杂问题时,它们的表现还有待提高。人类在回答此类问题时,会将推理过程分解成多个步骤,运用物理原理分别解释各种影响因素,最后再总结出一个满意的答案。这种多步推理是目前大语言模型面临的最大挑战之一。
在最近的一篇论文中,谷歌DeepMind的研究者提出询问”步骤回退问题”(step-back question)来改善模型的推理能力。所谓步骤回退问题,就是从原问题出发,提出一个更高抽象层次的问题。
还是以上面天空颜色的问题为例。它的一个步骤回退问题可以是:”天空可能呈现哪些颜色?”。作者认为,步骤回退问题之所以有效,是因为先回答它们通常能获得有用的抽象,而基于这些抽象推理出最终答案,有助于避免中间步骤出现错误。
论文建议分两个不同的步骤实施:
抽象:提示模型提出一个关于原问题所涉及概念的通用步骤回退问题,比如”解决这个问题涉及哪些物理原理?”。
推理:第二步中,模型被要求回答原问题。同时,给它提供第一步的步骤回退提示输出。作者将这一步称为”基于抽象的推理”(Abstraction-grounded Reasoning),因为模型可以利用高层概念或原理的信息来推理解决方案。
将使用步骤回退提示的结果与使用PaLM-2L模型的基线进行比较,发现该方法修正了20.5%的错误,同时引入了11.9%的新错误,净减少了10%的错误。
为了进一步了解模型犯的错误类型,研究者对错误输出进行了标注,分为五类:
其中四类错误(占比超过90%)发生在推理步骤中,只有不到10%的错误是由于模型在步骤回退提示时生成了错误的抽象(原理错误)导致的。可见推理仍然是瓶颈所在。
遗憾的是,论文没有比较使用和不使用步骤回退提示时的错误分布。不过,对于这样一个简单的方法来说,能够净减少10%的错误已经很了不起了。
通过在复杂问题的推理过程中引入步骤回退问题,让语言模型先回答一个更高抽象层次的问题,可以一定程度上改善其推理表现,减少错误的发生。这种提示方式简单易用,值得在实际应用中加以尝试。
未来还需要更多研究来进一步提高语言模型的推理能力,尤其是在推理步骤这个关键环节上下功夫。只有不断突破瓶颈,语言模型才能真正胜任需要复杂推理的任务,发挥其应有的智能水平。让我们拭目以待。
阿里巴巴开源第二代大语言模型Qwen2系列,最高参数规模700亿,评测结果位列开源模型第一,超过了Meta开源的Llama3-70B!
让大模型支持更长的上下文的方法哪个更好?训练支持更长上下文的模型还是基于检索增强?
大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!
文本理解与代码补全都很强!Salesforce开源支持8K上下文输入的大语言模型XGen-7B!
一张图总结大语言模型的技术分类、现状和开源情况
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布开源可商用大语言模型CPM-Bee
tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?
Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要
大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介