InstructBLIP - InstructBLIP

模型详细情况和参数

InstructBLIP

模型全称
InstructBLIP
模型简称
InstructBLIP
模型类型
基础大模型
发布日期
2023-05-11
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
130.0
模型代码开源协议
预训练结果开源商用情况
-
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

InstructBLIP 简介

InstructBLIP是由Saleforce发布的一个视觉领域的预训练大模型。它是针对预训练的BLIP-2模型进行了一项系统和全面的视觉-语言指令调整研究。


构建通用的视觉-语言模型是具有挑战性的,因为视觉输入会增加任务差异。尽管视觉-语言预训练已经得到广泛研究,但视觉-语言指令调整相对较少被探索。


Saleforce收集了26个公开数据集,将其转换为Instruction-Finetuned格式,并将其分类为两个cluster以进行指令调整和零-shot评估。此外,InstructBLIP引入了指令感知的视觉特征提取,这是一种关键的方法,使模型能够提取与给定指令相适应的信息特征。最终的InstructBLIP模型在所有13个零-shot数据集上实现了最新的表现,显着优于BLIP-2和更大的Flamingo。InstructBLIP模型在单独的下游任务(例如,ScienceQA IMG的90.7%的准确性)上也达到了最新的表现水平。


InstructBLIP支持Instruction-following Image-to-Text,即基于指令的图像生成文本。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

InstructBLIP所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

InstructBLIP相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源