大语言模型最大的挑战在哪里?——比answer-only prompting更强的chain-of-thought prompting来了
时间:2022-10-20 19:53:19.870
论文名:Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
发布时间:2022年10月
论文地址:https://arxiv.org/abs/2210.09261
代码地址:https://github.com/suzgunmirac/BIG-Bench-Hard
原文摘要:BIG-Bench(斯里瓦斯塔瓦等人,2022年)是一个多样化的评估套件,重点是被认为超出当前语言模型能力的任务。语言模型已经在这个基准上取得了良好的进展,在65%的大基准任务中,通过几次提示,大基准论文中最好的模型的表现超过了平均报告的人工评分结果。但是,语言模型在哪些任务上没有达到平均的人类评级性能,这些任务实际上是当前语言模型无法解决的吗? 在这项工作中,我们专注于一套23项具有挑战性的大板凳任务,我们称之为大板凳硬(BBH)。这些任务以前的语言模型评估并没有优于普通的人类评级者。我们发现,将思维链(CoT)提示应用于BBH任务,使PaLM在23个任务中的10个任务中超过了平均人工评分器性能,法典(code-davinci-002)在23个任务中的17个任务中超过了平均人工评分器性能。由于BBH中的许多任务需要多步骤推理,因此,没有CoT的少镜头提示,就像在BIG-Bench评估中所做的那样(Srivastava等人,2022年),大大低估了语言模型的最佳性能和功能,而这些性能和功能可以通过CoT提示更好地捕获。作为进一步的分析,我们探索了CoT和BBH上模型规模之间的相互作用,发现CoT在几个BBH任务上能够实现紧急任务性能,否则具有平坦的缩放曲线。