BookCorpus数据集及其基准测试结果

BookCorpus

BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下：

统计项	统计项（英文）	统计结果
书籍数量	# of books	11038
语句数量	# of sentences	74004228
单词数量	# of words	984846357
独立单词数（词汇）	# of unique words	1316420
平均每个语句的单词数量	mean # of words per sentence	13
每个语句的单词中位数	median # of words per sentence	11

作者收集的书籍中的每一本书都至少包含2万个单词，防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。

该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出（arXiv地址： https://arxiv.org/abs/1506.06724 ）

发布者：多伦多大学

发布时间：

官方网址：https://huggingface.co/datasets/bookcorpus

数据记录总数：11038

数据集大小：5.8GB

BookCorpus

BookCorpus所属的领域

BookCorpus相关的任务