Name: Contrastive Language–Image Pre-training
Rating: 5

CLIP全称是Contrastive Language–Image Pre-training，是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer（Vision Transformer）与文本处理相结合，采用text encoder + image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下：

CLIP是一个神经网络模型。
它是在400,000,000个（图像，文本）对上训练的。一个（图像，文本）对可能是一张图片和它的标题。因此，这意味着有400,000,000张图片和它们的标题被匹配起来，而这就是用于训练CLIP模型的数据。
"给定一张图片，它可以预测最相关的文本片段" ：你可以将一张图片输入CLIP模型，它将为你返回最可能的标题或该图片的摘要。
"而不直接对任务进行优化，类似于GPT-2和3的zero-shot能力。" 大多数机器学习模型都学习一个特定的任务。例如，一个在分类狗和猫方面训练有素的图像分类器只能可以分类狗和猫。一般来说，我们不会期望一个在猫狗方面训练的机器学习模型在检测浣熊方面表现得非常好。然而，一些模型--包括CLIP、GPT-2和GPT-3--倾向于在它们没有被直接训练的任务中表现良好，这被称为 "zero-shot learning"。

CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。

在OpenAI的官方开源代码中，官方开源了9个预训练模型，其中5个是与ResNet结合的预训练模型，另外4个是与ViT结合的模型。预训练模型大小只有200-300MB，十分小巧，但是从对比结果看，效果好于之前的模型。

官方GitHub地址： https://github.com/openai/CLIP

Hugging Face实现地址： https://huggingface.co/docs/transformers/main/en/model_doc/clip

官方介绍博客： https://openai.com/blog/clip/

CLIP

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

CLIP模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号