重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)
LAION全称Large-scale Artificial Intelligence Open Network,是一家非营利组织,成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%Free。在九月份,他们公布了一个全新的图像-文本对(image-text pair)数据集,叫LAION-400M。该数据集包含4亿条数据。

LAION-400M数据集完全公开、自由访问。
需要注意的是,此大规模数据集是非精心策划的。它是为了研究目的而构建的,目的是为广泛的研究人员和其他感兴趣的社区提供更大规模的测试模型的训练,而不是用于任何现实世界的生产或应用。
他们使用OpenAI的CLIP过滤了LAION-400M数据集中的所有图像和文本,方法是计算文本和图像embedding之间的余弦相似性,并删除相似性低于0.3的图像和文本。0.3的阈值是通过人类评估确定的,似乎是估计语义图像-文本-内容匹配的一个很好的启发式方法。
图像-文本对是从Common Crawl( )数据转储中提取的,来自2014年至2021年期间爬网的随机网页。
