最新的文本摘要基准评价数据集来了——GPT3时代的文本摘要数据集

原文摘要：最近，GPT-3等模型的零次和少次提示的成功导致了NLP研究的范式转变。本文研究了它对文本摘要的影响，重点是新闻摘要的经典基准领域。首先，我们研究了零镜头GPT-3与在大型总结数据集上训练的微调模型的比较。我们表明，人类不仅压倒性地更喜欢GPT-3摘要，而且这些摘要也不会受到常见的数据集特定问题的影响，如事实性差。接下来，我们研究这对评估意味着什么，特别是金标准测试集的作用。我们的实验表明，基于参考和无参考的自动度量，例如最近提出的QA或基于包含的事实性方法，都不能可靠地评估零机会摘要。最后，我们讨论了泛型总结之外的未来研究挑战，特别是基于关键字和方面的总结，展示了占主导地位的微调方法与零镜头提示相比如何。为了支持进一步的研究，我们发布了：(a)从4个标准总结基准的微调和零镜头模型生成的10K摘要语料库，(b) 1K人类偏好判断和理由，比较了基于通用和关键字的总结的不同系统。

近年来，在特定领域数据集上微调预训练模型一直是文本摘要研究的领先范式。这些模型在标准基准上生成高质量的摘要，但仍需要大量的训练数据集来适应新的设置，例如，总结来自新源域的数据或以不同风格生成摘要。基于模板（prompt-based）的模型（GPT-3、T0、PaLM等)的成功提供了一种替代方法，即在不更新模型参数的情况下，从自然语言任务指令和/或上下文中的一些演示示例中学习。虽然最近的工作在许多任务中分析和评估了这一范式，但它只被研究为具有不可靠自动度量的文本总结或在非标准环境中。

在本文中，我们首次系统研究了基于prompt的模型对文本摘要研究空间的影响，使用指令调谐的175B GPT-3模型(text-davinci002)作为案例研究。

从结果看，GPT-3摘要的质量极高，可以适应不同的摘要设置。

<center>![](https://www.datalearner.com/resources/blog_images/cb38c46f-b322-47aa-b5f8-41de2441d159.jpg)</center>
<center></center>

这篇论文的主要发现包括：

基于zero-shot的GPT-3之类的模型比fine-tuned的文本摘要更加被人工喜欢，且zeros-shot模型不受低质量训练数据的限制。

在zero-shot的模型时代，传统的文本摘要评估方法不合适，作者基于人工打分的结果看到，虽然zero-shot模型在传统得分低于微调模型，但是人们却更喜欢zero-shot的结果。

最重要的是，这篇论文还发布了2个公开的全新的文本摘要数据集。

##### 1、人类对文本摘要结果的判断数据集
对不同系统产生的文本摘要的人工标注结果，共1K条人类的偏好判断结果和判断理由：https://tagoyal.github.io/zero-shot-explorer/human_annotations.zip

这包含了在2022年3月1日至2022年6月31日期间爬取的CNN和BBC各100篇文章，对于每篇文章，使用三个系统生成摘要：
（1）OpenAI的text-davinci-002
（2）基于微调的BRIO
（3) T0模型

对于每篇文章，我们从三个独立的人类注释者那里获得最佳/最差的文本摘要的判断结果。

##### 2、不同系统生成的摘要结果
10K语料库，从4个标准的文本摘要基准中产生的，基于微调和zero-shot模型中生成摘要结果：https://tagoyal.github.io/zero-shot-explorer/test-500.zip

对于四个基准文本摘要数据集（CNN、每日邮报、XSum、新闻编辑室），我们从标准测试集中随机抽取500个文本摘要。我们提供来自4个不同文本摘要系统的生成摘要，以支持未来的工作和标准化测试集。

最新的文本摘要基准评价数据集来了——GPT3时代的文本摘要数据集

论文名：News Summarization and Evaluation in the Era of GPT-3

发布时间：2022-09

论文地址：https://arxiv.org/abs/2209.12356

代码地址：