书生·万卷 1.0是由上海人工智能实验室发布的一个开源大规模数据集,包含三个部分:纯文本格式数据集、文本-图像对数据集和视频数据集。
随着近年来GPT-3、ChatGPT等大模型的兴起,高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开,开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏,对中文大模型以及业界模型的中文支持都有很大的影响。此次,上海人工智能实验室发布的这个数据集包含了丰富的中文,对于大模型的中文能力提升十分有价值。
为此,上海人工智能实验室近日开源发布了大规模多语言多模态数据集书生·万卷 1.0。
该数据集包含三个部分:纯文本数据集、文本图像对数据集和纯视频数据集。分别介绍如下:
书生·万卷 1.0文本数据集包含6亿份文档,来源于网络和书籍等。具体来说,所包含的数据集领域如下:
来源 | 具体内容 | 数据集规模 |
---|---|---|
英文互联网数据 | 来源于Common Crawl的网页数据 | 3.83亿个文件,542.51GB |
中文互联网数据 | 来源于网络上的各种网页、文档等 | 2.2亿个文件,466.54GB |
中文法律数据 | 来源于法律法规、判决文书等法律领域数据 | 800万个文件,37.89GB |
中文新闻数据 | 来源于各大新闻媒体的新闻报道 | 700万个文件,21.53GB |
中文考试数据 | 来源于各类考试的题目、试卷等 | 400万个文件,18.46GB |
中文专利数据 | 来源于专利文献数据库 | 100万个文件,4.62GB |
中文教材数据 | 来源于各学科教材 | 45.4万个文件,2.38GB |
中文维基百科 | 来源于中文维基百科 | 9.2万个文件,0.11GB |
可以看到,数据集十分丰富。根据介绍,书生·万卷 1.0文本数据集中中文数据占比35.1%,约2.2亿个文件,466.54GB。英文数据集占比61.4%,共3.83亿个文件,542.51GB。可以说应该是目前开源领域包含最多的中文数据集了!
书生·万卷 1.0文本-图像对数据集包含2200多万个文本-图像对数据,数据量超过200GB(不含图像文件)。其中主要来源如下:
来源 | 占比 | 数据量 |
---|---|---|
英文维基百科 | 37.7% | 900万对 |
中文权威媒体新闻 | 5.3% | 200万对 |
中文自媒体新闻 | 53.4% | 1000万对 |
中文维基百科 | 3.6% | 88.2万对 |
可以看到,这里的中文数据占比达到了62.3%!十分丰富!
书生·万卷 1.0视频数据集式包含1000多个视频文件,来源中国媒体集团(CMG)和上海媒体集团(SMG)的节目。
最后,书生·万卷 1.0数据集的开源协议是 CC BY 4.0 ,是知识共享组织制定的一个开源协议,它允许用户可以自由地共享、修改和商业使用受该协议保护的内容,只要遵守署名要求即可。
发布者:上海人工智能实验室
发布时间:2023-08-21
官方网址:https://opendatalab.org.cn/WanJuan1.0
数据记录总数:600000000
数据集大小:2TB
35个资源