大型语言模型的能力更进一步——谷歌发布可以做定量推理的语言模型！

原文摘要：语言模型在需要自然语言理解的广泛任务上取得了显著的表现。然而，最先进的模型通常都在与需要量化推理的任务作斗争，比如在大学层面解决数学、科学和工程问题。为了帮助缩小这一差距，我们引入了Minerva，这是一个在一般自然语言数据上预先训练并在技术内容上进一步训练的大型语言模型。该模型在不使用外部工具的情况下，在技术基准上实现了最先进的性能。我们还对物理、生物学、化学、经济学和其他需要量化推理的200多个本科问题进行了评估，发现该模型可以正确回答其中近三分之一的问题。

语言模型在各种自然语言任务上表现出了非凡的性能--事实上，从包括BERT、GPT-3、Gopher和PaLM在内的许多作品中得到的一个一般教训是，以无监督的方式大规模训练各种数据的神经网络可以在各种任务上表现良好。

定量推理是语言模型仍然远远低于人类水平的表现的一个领域。解决数学和科学问题需要结合技能，包括用自然语言和数学符号正确解析问题，回忆相关公式和常数，以及生成涉及数值计算和符号操作的逐步解决方案。由于这些挑战，人们通常认为，使用机器学习解决量化推理问题需要模型体系结构和训练技术的显著进步，允许模型访问Python解释器等外部工具，或者可能进行更深刻的范式转变。

在前几天，谷歌发布了Minerva，一个能够使用逐步推理解决数学和科学问题的语言模型。其表明，通过专注于收集与定量推理问题相关的训练数据，大规模训练模型，并采用一流的推理技术，可以在各种困难的定量推理任务上获得了显著的性能提升。Minerva通过生成包括数值计算和符号操作的解决方案来解决这些问题，而不依赖计算器等外部工具。该模型使用自然语言和数学符号的混合来解析和回答数学问题。Minerva结合了几种技术，包括少镜头提示、思维链或暂存板提示和多数投票，以实现在科学和技术推理任务上的最先进性能。您可以使用我们的交互式示例资源管理器探索Minerva的输出！

<center>![](https://www.datalearner.com/resources/blog_images/03787d67-31c0-461b-b773-54ca60979923.png)</center>
<center></center>

为了促进定量推理，Minerva建立在Pathway语言模型（PaLM）的基础上，对arXiv服务器和包含使用LaTeX、MathJax或其他数学排版格式的数学表达式的118GB科学论文数据集进行进一步训练。标准的文本清理过程通常会删除对数学表达式语义意义至关重要的符号和格式。通过在训练数据中维护此信息，模型学习使用标准数学符号进行转换。

Minerva还结合了最近的提示和评估技术，以更好地解决数学问题。这些措施包括思维链或暂存板提示--在提出新问题之前，Minerva会被提示为现有问题提供几个逐步的解决方案--以及多数票。像大多数语言模型一样，Minerva将概率分配给不同的可能输出。在回答问题时，而不是将单一解Minerva分数视为最可能的，而是通过从所有可能的输出中随机采样来生成多个解。这些解决方案是不同的（例如，步骤不相同），但往往得出相同的最终答案。Minerva对这些抽样解决方案使用多数票，将最常见的结果作为最终答案。

<center>![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjg2pZKEx3fN6YWcrhM2dxOYE6wZNm6ytbSTOl7SmDS0sXAwhBY10MiHa3NQ8JymJwJwwyVLcz5Kh96g9l2UgzBv_OaD-2PLGDMp8oWYcPI6q1d-pTp65ad2QFzK8fMp_l7bNe68qCOmNmwJD-U-_XlJOtjPheooUOv3nDvFMn9VLrO0HrL4WUzFXLsDQ/s16000/image7.gif)</center>
<center></center>

#### 模型测试结果
为了测试Minerva的量化推理能力，谷歌根据从小学水平的问题到研究生水平的课程作业的困难程度的科学和技术基准评估了该模型。

- **数学**：高中数学竞赛水平问题
- **MMLU-STEM**：大规模多任务语言理解基准的一个子集，重点是科学和技术，涵盖了高中和大学阶段的工程、化学、数学和物理等主题。
- **GSM8k**：涉及基本算术运算的小学数学问题，所有这些问题都应该由一个有才华的中学生解决。

此外，谷歌还在OCWCourse上评估了Minerva，这是一个大学和研究生水平的问题集合，涵盖了从麻省理工学院OpenCourseWare收集的各种科学和技术主题，如固态化学、天文学、微分方程和狭义相对论。

在所有情况下，Minerva都获得了最先进的结果，有时比现有模型取得了很大的优势。

<center>![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgTupKiVyR5dIslWNgdzXAVJcGJXFmQCPD2Md23ceVdLwcIYtGODTrEE0Jj_cM7NLt-4pR9Yk47WjvbWWJJBroqYxRvWKciUTk-1AWJZXGdnUuXQzMq41nDJFFdhwXq73Gi2T880waPoqTxX6N9B444DM4u6Hwo6Ygt2NPT2nOMr8chsx1q2YhSl3NmyQ/s16000/image2.png)</center>
<center></center>

大型语言模型的能力更进一步——谷歌发布可以做定量推理的语言模型！

论文名：Solving Quantitative Reasoning Problems with Language Models

发布时间：2022年6月

论文地址：https://arxiv.org/abs/2206.14858

代码地址：