书生·万卷 1.0数据集及其基准测试结果

书生·万卷 1.0

书生·万卷 1.0是由上海人工智能实验室发布的一个开源大规模数据集，包含三个部分：纯文本格式数据集、文本-图像对数据集和视频数据集。

大模型训练所需要的中文数据集很匮乏

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

为此，上海人工智能实验室近日开源发布了大规模多语言多模态数据集书生·万卷 1.0。

书生·万卷 1.0数据集详细介绍

该数据集包含三个部分：纯文本数据集、文本图像对数据集和纯视频数据集。分别介绍如下：

书生·万卷 1.0文本数据集介绍

书生·万卷 1.0文本数据集包含6亿份文档，来源于网络和书籍等。具体来说，所包含的数据集领域如下：

来源	具体内容	数据集规模
英文互联网数据	来源于Common Crawl的网页数据	3.83亿个文件,542.51GB
中文互联网数据	来源于网络上的各种网页、文档等	2.2亿个文件,466.54GB
中文法律数据	来源于法律法规、判决文书等法律领域数据	800万个文件,37.89GB
中文新闻数据	来源于各大新闻媒体的新闻报道	700万个文件,21.53GB
中文考试数据	来源于各类考试的题目、试卷等	400万个文件,18.46GB
中文专利数据	来源于专利文献数据库	100万个文件,4.62GB
中文教材数据	来源于各学科教材	45.4万个文件,2.38GB
中文维基百科	来源于中文维基百科	9.2万个文件,0.11GB

可以看到，数据集十分丰富。根据介绍，书生·万卷 1.0文本数据集中中文数据占比35.1%，约2.2亿个文件，466.54GB。英文数据集占比61.4%，共3.83亿个文件，542.51GB。可以说应该是目前开源领域包含最多的中文数据集了！

书生·万卷 1.0文本-图像对数据集介绍

书生·万卷 1.0文本-图像对数据集包含2200多万个文本-图像对数据，数据量超过200GB（不含图像文件）。其中主要来源如下：

来源	占比	数据量
英文维基百科	37.7%	900万对
中文权威媒体新闻	5.3%	200万对
中文自媒体新闻	53.4%	1000万对
中文维基百科	3.6%	88.2万对

可以看到，这里的中文数据占比达到了62.3%！十分丰富！

书生·万卷 1.0视频数据集介绍

书生·万卷 1.0视频数据集式包含1000多个视频文件，来源中国媒体集团(CMG)和上海媒体集团(SMG)的节目。

书生·万卷 1.0数据集总结

文本数据包括超过6亿个文档，数据量超过1TB。图像文本数据经处理形成超过2200万个文档,数据量超过200GB。视频数据包含超过1000个视频,数据量超过900GB。
数据收集和处理过程中，采用了算法和人工验证相结合的方式，确保数据安全、高质量以及价值取向。
提供了统一的JSON格式处理，数据集下载工具及支持文档，方便用户快速应用大模型训练。
该数据集中的预训练数据显著提升了训练模型的知识内涵、逻辑推理和泛化能力。
数据集的开放发布有助于自然语言处理和计算机视觉等领域的模型训练和算法研究,尤其是需要多模态理解和生成的任务。
本数据集填补了公开源大规模多模态预训练数据集的空白，有助于推动相关领域技术的进一步发展。

最后，书生·万卷 1.0数据集的开源协议是 CC BY 4.0 ，是知识共享组织制定的一个开源协议，它允许用户可以自由地共享、修改和商业使用受该协议保护的内容，只要遵守署名要求即可。

下载地址： https://opendatalab.org.cn/WanJuan1.0

发布者：上海人工智能实验室

发布时间：2023-08-21

官方网址：https://opendatalab.org.cn/WanJuan1.0

数据记录总数：600000000

数据集大小：2TB