模型详细情况和参数
CLIP全称是Contrastive Language–Image Pre-training,是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer(Vision Transformer)与文本处理相结合,采用text encoder + image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下:
CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。
在OpenAI的官方开源代码中,官方开源了9个预训练模型,其中5个是与ResNet结合的预训练模型,另外4个是与ViT结合的模型。预训练模型大小只有200-300MB,十分小巧,但是从对比结果看,效果好于之前的模型。
官方GitHub地址: https://github.com/openai/CLIP
Hugging Face实现地址: https://huggingface.co/docs/transformers/main/en/model_doc/clip
官方介绍博客: https://openai.com/blog/clip/