大语言模型最大的挑战在哪里？——比answer-only prompting更强的chain-of-thought prompting来了

原文摘要：BIG-Bench（斯里瓦斯塔瓦等人，2022年）是一个多样化的评估套件，重点是被认为超出当前语言模型能力的任务。语言模型已经在这个基准上取得了良好的进展，在65%的大基准任务中，通过几次提示，大基准论文中最好的模型的表现超过了平均报告的人工评分结果。但是，语言模型在哪些任务上没有达到平均的人类评级性能，这些任务实际上是当前语言模型无法解决的吗？在这项工作中，我们专注于一套23项具有挑战性的大板凳任务，我们称之为大板凳硬(BBH)。这些任务以前的语言模型评估并没有优于普通的人类评级者。我们发现，将思维链（CoT）提示应用于BBH任务，使PaLM在23个任务中的10个任务中超过了平均人工评分器性能，法典(code-davinci-002)在23个任务中的17个任务中超过了平均人工评分器性能。由于BBH中的许多任务需要多步骤推理，因此，没有CoT的少镜头提示，就像在BIG-Bench评估中所做的那样（Srivastava等人，2022年），大大低估了语言模型的最佳性能和功能，而这些性能和功能可以通过CoT提示更好地捕获。作为进一步的分析，我们探索了CoT和BBH上模型规模之间的相互作用，发现CoT在几个BBH任务上能够实现紧急任务性能，否则具有平坦的缩放曲线。

大语言模型最大的挑战在哪里？——比answer-only prompting更强的chain-of-thought prompting来了

论文名：Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

发布时间：2022年10月

论文地址：https://arxiv.org/abs/2210.09261

代码地址：https://github.com/suzgunmirac/BIG-Bench-Hard