InstructBLIP（InstructBLIP）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

InstructBLIP - InstructBLIP

模型详细情况和参数

InstructBLIP

模型全称: InstructBLIP
模型简称: InstructBLIP
模型类型: 基础大模型
发布日期: 2023-05-11
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 130.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
基础模型: 无基础模型
发布机构: Salesforce

InstructBLIP 简介

InstructBLIP是由Saleforce发布的一个视觉领域的预训练大模型。它是针对预训练的BLIP-2模型进行了一项系统和全面的视觉-语言指令调整研究。

构建通用的视觉-语言模型是具有挑战性的，因为视觉输入会增加任务差异。尽管视觉-语言预训练已经得到广泛研究，但视觉-语言指令调整相对较少被探索。

Saleforce收集了26个公开数据集，将其转换为Instruction-Finetuned格式，并将其分类为两个cluster以进行指令调整和零-shot评估。此外，InstructBLIP引入了指令感知的视觉特征提取，这是一种关键的方法，使模型能够提取与给定指令相适应的信息特征。最终的InstructBLIP模型在所有13个零-shot数据集上实现了最新的表现，显着优于BLIP-2和更大的Flamingo。InstructBLIP模型在单独的下游任务（例如，ScienceQA IMG的90.7%的准确性）上也达到了最新的表现水平。

InstructBLIP支持Instruction-following Image-to-Text，即基于指令的图像生成文本。

欢迎大家关注DataLearner官方微信，接受最新的AI模型和技术推送

InstructBLIP所属的领域

多模态学习

Multimodal Learning

35个资源

InstructBLIP相关的任务

文本生成图片

Text to Image

35个资源