WuDaoCorpora 2.0

WuDaoCorpora 2.0是由北京智源人工智能研究院发布的多模态数据集。根据官网的介绍,WuDaoCorpora 2.0由全球最大的纯文本数据集、全球最大的多模态数据集和全球最大的中文对话数据集三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。

WuDaoCorpora 2.0数据集包含文本数据集、图文数据集和对话数据集三个。不过可惜的是,WuDaoCorpora 2.0数据集只开源文本数据集中的200GB,其它数据均不对外开放!

WuDaoCorpora 2.0文本数据集

采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。WuDaoCorpora 2.0的文本数据集原始大小为3TB,但是开源给业界使用的仅200GB。数据格式为json,其包含的字段如下:

字段名含义
id数据在该json文件中的id
uniqueKey这条数据的唯一识别码
titleUkey该标题的唯一识别码
dataType数据类型
title数据标题
content正文

WuDaoCorpora 2.0图文数据集

数据集精选高质量6.5亿图文对,数据总量达到93TB。 数据标签包括科技、人物、艺术等60+种类别。采用全面的数据清洗规则,去除涉恐涉暴等隐私敏感信息,保证数据集质量;融合中西方数据源,帮助模型解决文化壁垒带来的数据偏置问题。

WuDaoCorpora 2.0对话数据集

是目前体量最大的中文对话数据集。采用严格的逻辑清洗规则,对敏感数据进行过滤,从9TB原始数据筛选得到181GB高质量数据。可支撑智能助手、虚拟亲友等方面的下游应用,同时为开放型对话领域研究提供基础数据支撑。

发布者:北京智源人工智能研究院

发布时间:2021年6月

官方网址:https://resource.wudaoai.cn/home?ind&name=WuDaoCorpora%202.0&id=1394901288847716352

数据记录总数:650000000

数据集大小:3TB

WuDaoCorpora 2.0
WuDaoCorpora 2.0所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

WuDaoCorpora 2.0相关的任务
-1

-1

35个资源