Pile

Pile是一个开源语言建模数据集,由22个较小的高质量数据集组合而成,总大小为825 GiB。它由Eye托管,格式为使用zstandard压缩的jsonlines数据。最近的研究表明,对于大型模型来说,数据源的多样性能够提高模型在不同领域的通用知识和下游泛化能力。在我们的评估中,不仅在传统语言建模基准测试中,在Pile BPB上也表现出显著改善。要在Pile BPB(每字节位数)上取得好成绩,模型必须能够理解许多不同领域,包括书籍、github存储库、网页、聊天记录以及医学、物理学、数学、计算机科学和哲学论文。Pile BPB是衡量这些领域世界知识和推理能力的标准,使其成为大型语言模型通用跨领域文本建模能力的强有力基准。

最近的研究表明,增加训练数据集的多样性能够提高大型语言模型的通用跨领域知识和下游泛化能力。基于这一点,我们推出了Pile:一个面向大型语言模型训练的825 GiB英文文本语料库。Pile由22个不同的高质量子集构成——包括现有和新建子集——其中许多来自学术或专业来源。我们对GPT-2和GPT-3在Pile上未调整过的性能进行评估,发现这些模型在许多组件上都表现不佳,如学术写作。相反,在Pile上训练的模型在所有组件上都比Raw CC和CC-100有显著改进,同时也提高了下游评估的性能。通过深入探索分析,我们记录了潜在用户可能关注的数据方面。我们公开发布了用于构建该数据集的代码。


为什么Pile是一个很好的训练数据集?


最近的研究表明,特别是对于大型模型,数据来源的多样性可以提高模型的跨领域通用知识和下游泛化能力。在我们的评估中,不仅在传统的语言建模基准测试中,使用Pile训练的模型表现出适度的改进,而且它们在Pile BPB上也显示出了显著的改进。


为什么Pile是一个好的测试基准


最近的研究表明,特别是对于大型模型,数据来源的多样性可以提高模型的跨领域通用知识和下游泛化能力。在我们的评估中,不仅在传统的语言建模基准测试中,使用Pile训练的模型表现出适度的改进,而且它们在Pile BPB上也显示出了显著的改进。

发布者:EleutherAI

发布时间:2020-12-31

官方网址:https://pile.eleuther.ai/

数据记录总数:0

数据集大小:825GB

Pile
Pile所属的领域
Pile相关的任务