CL

CLIP

基础大模型

Contrastive Language–Image Pre-training

发布时间: 2021-01-05

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2021-01-05

模型预文件大小

244MB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

CLIP模型在各大评测榜单的评分

发布机构

模型介绍

CLIP全称是Contrastive Language–Image Pre-training,是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer(Vision Transformer)与文本处理相结合,采用text encoder +  image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下:

  • CLIP是一个神经网络模型。
  • 它是在400,000,000个(图像,文本)对上训练的。一个(图像,文本)对可能是一张图片和它的标题。因此,这意味着有400,000,000张图片和它们的标题被匹配起来,而这就是用于训练CLIP模型的数据。
  • "给定一张图片,它可以预测最相关的文本片段" :你可以将一张图片输入CLIP模型,它将为你返回最可能的标题或该图片的摘要。
  • "而不直接对任务进行优化,类似于GPT-2和3的zero-shot能力。" 大多数机器学习模型都学习一个特定的任务。例如,一个在分类狗和猫方面训练有素的图像分类器只能可以分类狗和猫。一般来说,我们不会期望一个在猫狗方面训练的机器学习模型在检测浣熊方面表现得非常好。然而,一些模型--包括CLIP、GPT-2和GPT-3--倾向于在它们没有被直接训练的任务中表现良好,这被称为 "zero-shot learning"。

CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。

在OpenAI的官方开源代码中,官方开源了9个预训练模型,其中5个是与ResNet结合的预训练模型,另外4个是与ViT结合的模型。预训练模型大小只有200-300MB,十分小巧,但是从对比结果看,效果好于之前的模型。


官方GitHub地址: https://github.com/openai/CLIP 

Hugging Face实现地址: https://huggingface.co/docs/transformers/main/en/model_doc/clip 

官方介绍博客: https://openai.com/blog/clip/ 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat