IN

InstructBLIP

InstructBLIP

发布时间: 2023-05-11182
模型参数
130.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-11
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
130.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

InstructBLIP是由Saleforce发布的一个视觉领域的预训练大模型。它是针对预训练的BLIP-2模型进行了一项系统和全面的视觉-语言指令调整研究。


构建通用的视觉-语言模型是具有挑战性的,因为视觉输入会增加任务差异。尽管视觉-语言预训练已经得到广泛研究,但视觉-语言指令调整相对较少被探索。


Saleforce收集了26个公开数据集,将其转换为Instruction-Finetuned格式,并将其分类为两个cluster以进行指令调整和零-shot评估。此外,InstructBLIP引入了指令感知的视觉特征提取,这是一种关键的方法,使模型能够提取与给定指令相适应的信息特征。最终的InstructBLIP模型在所有13个零-shot数据集上实现了最新的表现,显着优于BLIP-2和更大的Flamingo。InstructBLIP模型在单独的下游任务(例如,ScienceQA IMG的90.7%的准确性)上也达到了最新的表现水平。


InstructBLIP支持Instruction-following Image-to-Text,即基于指令的图像生成文本。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码