InstructBLIP - InstructBLIP

模型详细情况和参数

InstructBLIP

模型全称
InstructBLIP
模型简称
InstructBLIP
模型类型
发布日期
2023-05-11
预训练文件大小
未知
模型参数数量(亿)
130
代码是否开源
预训练结果是否开源
预训练结果商用授权情况
模型HuggingFace链接
暂无
发布论文名(官方博客名)
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
论文地址(官方博客地址)
https://arxiv.org/abs/2305.06500
基础模型
无基础模型
发布机构

InstructBLIP 简介

InstructBLIP是由Saleforce发布的一个视觉领域的预训练大模型。它是针对预训练的BLIP-2模型进行了一项系统和全面的视觉-语言指令调整研究。


构建通用的视觉-语言模型是具有挑战性的,因为视觉输入会增加任务差异。尽管视觉-语言预训练已经得到广泛研究,但视觉-语言指令调整相对较少被探索。


Saleforce收集了26个公开数据集,将其转换为Instruction-Finetuned格式,并将其分类为两个cluster以进行指令调整和零-shot评估。此外,InstructBLIP引入了指令感知的视觉特征提取,这是一种关键的方法,使模型能够提取与给定指令相适应的信息特征。最终的InstructBLIP模型在所有13个零-shot数据集上实现了最新的表现,显着优于BLIP-2和更大的Flamingo。InstructBLIP模型在单独的下游任务(例如,ScienceQA IMG的90.7%的准确性)上也达到了最新的表现水平。


InstructBLIP支持Instruction-following Image-to-Text,即基于指令的图像生成文本。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

InstructBLIP所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

InstructBLIP相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源