LAMBADA通过词语预测任务评估了计算模型对文本理解的能力。LAMBADA是一组叙事性文章,共享人类可以猜测它们的最后一个单词的特征,如果他们暴露于整个文章,而不是只看到目标单词之前的最后一句话。为了在LAMBADA上取得成功,计算模型不能仅仅依赖于局部上下文,而必须能够跟踪更广泛的语篇信息。
LAMBADA数据集是从BookCorpus中提取的,包括10,022个文章,分为4,869个开发文章和5,153个测试文章。用于在LAMBADA上测试的语言模型的训练数据包括2,662本小说的全文(与dev+test中的小说不重叠),总计203百万个单词。
LAMBADA的独特之处在于,提示中提供的上下文不足以预测结束语。相反,模型必须依赖于整个文章中包含的信息。这使得任务更具挑战性,更接近真实世界的语言理解。
EleutherAI创建LAMBADA是为了回应现有语言建模基准对最先进模型来说变得过于简单的担忧。通过创建一个更具挑战性的数据集,他们希望鼓励更强大、更全面的语言模型的发展。
LAMBADA已被用作语言建模研究的基准,并在许多学术论文中被引用。它可以在EleutherAI网站上免费下载。
发布者:EleutherAI
发布时间:2021-03-16
官方网址:https://huggingface.co/datasets/lambada
数据记录总数:10022
数据集大小: