大型语言模型(LLM)的独特能力探索——谷歌最新论文
时间:2022-06-16 23:07:19.435
论文名:Emergent Abilities of Large Language Model
发布时间:2022-6
论文地址:https://arxiv.org/abs/2206.07682
代码地址:
原文摘要:扩大语言模型的规模已被证明可以预测地提高广泛的下游任务的性能和采样效率。本文反而讨论了一种不可预测的现象,我们将其称为大型语言模型的突发能力。如果一种能力在较小的模型中不存在,但在较大的模型中存在,我们认为这种能力是突现的。因此,出现的能力不能简单地通过推断较小模型的性能来预测。这种涌现的存在意味着额外的缩放可以进一步扩大语言模型的能力范围