BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下:
统计项 | 统计项(英文) | 统计结果 |
---|---|---|
书籍数量 | # of books | 11038 |
语句数量 | # of sentences | 74004228 |
单词数量 | # of words | 984846357 |
独立单词数(词汇) | # of unique words | 1316420 |
平均每个语句的单词数量 | mean # of words per sentence | 13 |
每个语句的单词中位数 | median # of words per sentence | 11 |
作者收集的书籍中的每一本书都至少包含2万个单词,防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。
该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出(arXiv地址: https://arxiv.org/abs/1506.06724 )
发布者:多伦多大学
发布时间:
官方网址:https://huggingface.co/datasets/bookcorpus
数据记录总数:11038
数据集大小:5.8GB
35个资源