CLIP（Contrastive Language–Image Pre-training）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

CLIP - Contrastive Language–Image Pre-training

模型详细情况和参数

CLIP

模型全称: Contrastive Language–Image Pre-training
模型简称: CLIP
模型类型: 基础大模型
发布日期: 2021-01-05
预训练文件大小: 244MB
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 0.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: 暂无
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: Learning Transferable Visual Models From Natural Language Supervision
基础模型: 无基础模型
发布机构: OpenAI

Contrastive Language–Image Pre-training 简介

CLIP全称是Contrastive Language–Image Pre-training，是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer（Vision Transformer）与文本处理相结合，采用text encoder + image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下：

CLIP是一个神经网络模型。
它是在400,000,000个（图像，文本）对上训练的。一个（图像，文本）对可能是一张图片和它的标题。因此，这意味着有400,000,000张图片和它们的标题被匹配起来，而这就是用于训练CLIP模型的数据。
"给定一张图片，它可以预测最相关的文本片段" ：你可以将一张图片输入CLIP模型，它将为你返回最可能的标题或该图片的摘要。
"而不直接对任务进行优化，类似于GPT-2和3的zero-shot能力。" 大多数机器学习模型都学习一个特定的任务。例如，一个在分类狗和猫方面训练有素的图像分类器只能可以分类狗和猫。一般来说，我们不会期望一个在猫狗方面训练的机器学习模型在检测浣熊方面表现得非常好。然而，一些模型--包括CLIP、GPT-2和GPT-3--倾向于在它们没有被直接训练的任务中表现良好，这被称为 "zero-shot learning"。

CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。

在OpenAI的官方开源代码中，官方开源了9个预训练模型，其中5个是与ResNet结合的预训练模型，另外4个是与ViT结合的模型。预训练模型大小只有200-300MB，十分小巧，但是从对比结果看，效果好于之前的模型。

官方GitHub地址： https://github.com/openai/CLIP

Hugging Face实现地址： https://huggingface.co/docs/transformers/main/en/model_doc/clip

官方介绍博客： https://openai.com/blog/clip/

CLIP - Contrastive Language–Image Pre-training

CLIP

Contrastive Language–Image Pre-training 简介

欢迎大家关注DataLearner官方微信，接受最新的AI模型和技术推送