重磅数据集公布！LAION-400-Million Open Dataset免费的4亿条图像-文本对数据（ LAION-400M：English (image, text) pairs）

LAION全称Large-scale Artificial Intelligence Open Network，是一家非营利组织，成员来自世界各地，旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI，100%非盈利且100%Free。在九月份，他们公布了一个全新的图像-文本对（image-text pair）数据集，叫LAION-400M。该数据集包含4亿条数据。

LAION-400M数据集完全公开、自由访问。

需要注意的是，此大规模数据集是非精心策划的。它是为了研究目的而构建的，目的是为广泛的研究人员和其他感兴趣的社区提供更大规模的测试模型的训练，而不是用于任何现实世界的生产或应用。

他们使用OpenAI的CLIP过滤了LAION-400M数据集中的所有图像和文本，方法是计算文本和图像embedding之间的余弦相似性，并删除相似性低于0.3的图像和文本。0.3的阈值是通过人类评估确定的，似乎是估计语义图像-文本-内容匹配的一个很好的启发式方法。

图像-文本对是从Common Crawl（https://commoncrawl.org/ ）数据转储中提取的，来自2014年至2021年期间爬网的随机网页。

数据集下载地址：https://deploy.laion.ai/8f83b608504d46bb81708ec86e912220/

关于数据集的介绍可以参考如下：

LAION-400M数据集统计

LAION-400M以及未来更大规模的数据集，事实上，是数据集的数据集。例如，我们可以按图像大小将其过滤到较小的数据集中，如下所示：

样本选择条件	包含的样本数
不重复样本数	4.13亿
高度或宽度>= 1024的样本数	2600万
高宽>= 1024的样本数	960万
高度或宽度>= 512的样本数	1.12亿
高宽>= 512的样本数	6700万
高度或宽度>= 256的样本数	2.68亿
高宽>= 256的样本数	2.11亿

通过使用KNN索引，我们可以按感兴趣的领域提取专门的数据集。它们的规模足以（或将）训练技术领域模型。

此外，也可以使用https://rom1504.github.io/clip-retrieval/ 来简单地可视化数据集。在那里，我们可以使用CLIP和knn索引在数据集之间搜索。

其它需要注意的事项

LAION-400M剔除了一部分非法的NSFW（Not safe for work，就是色情图像之类）图片，但是依然还是有部分NSFW的图片存在。

存在一定程度的重复，因为作者使用URL+文本作为重复数据删除标准。具有相同标题的同一图像可能位于不同的URL上，导致重复。但是，与其他标题相同的图像不被视为重复。

LAION-400M开放数据集结构

我们以几种格式生成了数据集，以解决各种使用情形：

50GB url+caption元数据集的parquet文件。我们可以使用元数据来计算统计信息，并重新下载部分数据集
一个10TB的网络数据集，包含256×256图像、字幕和元数据。它是数据集的完整版本，可直接用于训练（此版本供内部使用，由于许可问题，您需要自己重新下载图像）
一套1TB的400M文本和图像clip embeddings，用于重建新的knn索引
16G、32G、64G和128G knn索引对（在Web演示中运行）

具体的数据包括：

URL和标题元数据集。

我们提供32个大小约为1GB（总计50GB）的拼花文件，其中包含图像URL、相关文本和其他元数据，格式如下：

样本ID|URL|文本|许可证| NSFW |相似性|宽度|高度

其中

样本ID：唯一标识符许可证：如果我们在图像数据中找到了知识共享许可证，我们在这里将其命名为，例如“创意共享.org/licenses/by-nc-sa/3.0/”–否则您会在这里找到它的“？” NSFW：我们使用CLIP来估计图像是否包含NSFW内容。这个估计是相当保守的，以更多的误报为代价减少了误报。可能的值为“不太可能”、“不确定”和“NSFW”。相似性：文本和图像嵌入的余弦相似性值宽度和高度：嵌入图像时的图像大小。我们将大于4K的原稿缩小到4K。此元数据集的目的是通过将其提供给非常高效的img2dataset工具，下载整个数据集或其子集的图像。

10 TB网络数据集，带图像和字幕

通过运行img2dataset工具，我们可以下载一个10TB的Web数据集。它将以256×256分辨率调整所有图像的大小，将附加相应的标题，并将生成包含图像、标题和元数据的tar文件集合（该数据集格式称为webdataset）以及包含相同元数据的相关拼花文件

大小为270MB的00000.tar最多包含10k个样本 0.jpg 包含字幕的0.txt 0.json包含URL、原始宽度、EXIF数据、图像是否为NSFW等元数据大小为1.6MB的00000.parque包含与JSON文件相同的元数据。用于计算统计信息，而无需读取所有tar文件因此，400M数据集将具有41455 tar和41455 parquet文件。此数据集的目的是训练多模态模型，如CLIP或DALL-E。

1TB clip embeddings

剪辑嵌入以相同的顺序存储在拼花文件旁边的NPY文件中。由于此数据集比图像1小得多，每个NPY文件存储1M样本。每个NPY文件为1GB，每个拼花文件为150MB。这样的文件总共有400个。嵌入的目的是计算数据集的统计信息，例如，使用聚类或knn索引。

两个小型6GB knn索引

我们提供了两个使用autofaiss构建的6GB knn索引。我们可以使用它们来计算数据集的子集，更广泛地说，在数据集之间有效地搜索。请参见它的搜索Web演示。我们可以使用CLIP筛选器工具和此索引来有效地使用搜索词生成子集。我们还提供两个质量更高的16GB knn索引。

我们可以如何使用LAION-400M数据集？

视觉和语言建模在2021年开始起飞。以下是一些关于这种图像+文本数据集解锁的内容以及为什么它看起来有趣的指针：

六个月前，OpenAI发布了两篇博客帖子和论文，CLIP和DALL-E。这两种模型都依赖于大量的（文本、图像）对。他们使用了一个未发布的400M对数据集。 CLIP是一个计算文本和图像之间相关性的模型。它使构建大文本到图像搜索成为可能，也使创建那种疯狂的文本到图像艺术剪贴画成为可能。他们发布了模型的中小型版本，但没有训练代码。 DALL-E是一个直接从文本生成图像的模型。从博客中可以看出，它取得了令人敬畏的结果，可以直接影响世界的任何需要绘画和插图的东西。OpenAI没有发布任何模型，即使是通过API 自那以后，各种研究人员组织了几次复制DALL-E的努力。人们最初聚集在这个优秀的DALLE复制存储库DALLE-PyTorch周围，在自述文件中可以看到一些奇妙的结果。最近，作为拥抱脸活动的一部分，新的发展已经实现（见戴尔迷你报告），在线演示现在可在戴尔迷你演示中使用。

复制工作还远远没有达到与原始DALLE相同的性能，而且似乎有可能更进一步。有些人也想制作一个更好的CLIP，以生产出更好的艺术。

我们用这些模型所能取得的结果很大一部分是由于大量的数据。在LAION-400M之前，（图像、文本）对的最大开放数据集约为10M（参见DALE-datasets），这足以训练令人兴奋的模型，但不足以达到最佳性能。拥有一个拥有数亿对的公共数据集将有助于构建这些图像+文本模型。

LAION-400M数据分析我们注释了数据集的3456个样本，得到了以下结果：

正确阳性NSFW: 4
正确负NSFW: 3371
假阳性NSFW: 73
假阴性NSFW: 8
错误字幕：3 (0.09 %)

匹配非常好，多亏了CLIP。我们可以在未来改进NSFW自动标记；但是，NSFW总速率足够低（不到1%），使这不是一个问题。

该数据集具体信息可以参考：https://laion.ai/blog/laion-400-open-dataset/