大型语言模型（LLM）的独特能力探索——谷歌最新论文

原文摘要：扩大语言模型的规模已被证明可以预测地提高广泛的下游任务的性能和采样效率。本文反而讨论了一种不可预测的现象，我们将其称为大型语言模型的突发能力。如果一种能力在较小的模型中不存在，但在较大的模型中存在，我们认为这种能力是突现的。因此，出现的能力不能简单地通过推断较小模型的性能来预测。这种涌现的存在意味着额外的缩放可以进一步扩大语言模型的能力范围

这是谷歌研究院最新的一篇论文，它主要探讨的是当前流行的大型语言模型的能力。它的出发点来自于诺贝尔奖获得者Philip Anderson经典的名言：量变引起质变。即在物理学、生物学或者是计算机科学中，当某些东西的规模超过一定限制的时候，会出现一些新的现象。就语言模型来说，当语言模型的规模超过一定临界值的时候，语言模型可能会出现新的能力。这种能力在小模型上根本无法被预测出来，它是大型模型独有的能力。

这篇论文就是尝试探索大型模型独有的，无法从小模型中被观察到或者被预测到的能力。他们将这个能力称为Emergent abilities。

首先，Emergent abilities经常出现在few-short prompted任务中（prompted任务就是指让下游任务适应预训练模型的NLP模型范式，参考Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing）。他们观察了很多大模型的性能曲线，发现当模型训练的FLOPs超过一定临界值的时候，效果突然变好，而在此之前，它的结果和随机猜差不多。

<center>![](https://www.datalearner.com/resources/blog_images/949a6587-e866-480f-b064-4570ad951505.png)</center>
<center></center>

除了小样本的prompted任务，增强prompt策略也是大模型的Emergent abilities，从chain of thought prompting, instructions-based finetuning, scratchpad等任务看，模型的规模也会在超过临界值之后有了很好的提升。

<center>![](https://www.datalearner.com/resources/blog_images/866709f6-0a89-4601-8417-7a46942ff2b6.png)</center>
<center></center>

研究者总结了他们发现的Emergent abilities
<center>![](https://www.datalearner.com/resources/blog_images/2567eb2a-082b-4dbd-8bc5-6607a8be95e7.png)</center>
<center></center>

这篇论文的角度很有意思，推荐大家看看。

大型语言模型（LLM）的独特能力探索——谷歌最新论文

论文名：Emergent Abilities of Large Language Model

发布时间：2022-6

论文地址：https://arxiv.org/abs/2206.07682

代码地址：