最新的文本摘要基准评价数据集来了——GPT3时代的文本摘要数据集

标签:textsummarization,数据集,文本摘要 时间:2022-09-28 11:22:33.295 发布者:小木

论文名:News Summarization and Evaluation in the Era of GPT-3
发布时间:2022-09
论文地址:https://arxiv.org/abs/2209.12356
代码地址:

原文摘要:最近,GPT-3等模型的零次和少次提示的成功导致了NLP研究的范式转变。本文研究了它对文本摘要的影响,重点是新闻摘要的经典基准领域。首先,我们研究了零镜头GPT-3与在大型总结数据集上训练的微调模型的比较。我们表明,人类不仅压倒性地更喜欢GPT-3摘要,而且这些摘要也不会受到常见的数据集特定问题的影响,如事实性差。接下来,我们研究这对评估意味着什么,特别是金标准测试集的作用。我们的实验表明,基于参考和无参考的自动度量,例如最近提出的QA或基于包含的事实性方法,都不能可靠地评估零机会摘要。最后,我们讨论了泛型总结之外的未来研究挑战,特别是基于关键字和方面的总结,展示了占主导地位的微调方法与零镜头提示相比如何。 为了支持进一步的研究,我们发布了:(a)从4个标准总结基准的微调和零镜头模型生成的10K摘要语料库,(b) 1K人类偏好判断和理由,比较了基于通用和关键字的总结的不同系统。