InstructBLIP
InstructBLIP
模型参数
130.0亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-11
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
130.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Salesforce
查看发布机构详情 模型解读
InstructBLIP是由Saleforce发布的一个视觉领域的预训练大模型。它是针对预训练的BLIP-2模型进行了一项系统和全面的视觉-语言指令调整研究。
构建通用的视觉-语言模型是具有挑战性的,因为视觉输入会增加任务差异。尽管视觉-语言预训练已经得到广泛研究,但视觉-语言指令调整相对较少被探索。
Saleforce收集了26个公开数据集,将其转换为Instruction-Finetuned格式,并将其分类为两个cluster以进行指令调整和零-shot评估。此外,InstructBLIP引入了指令感知的视觉特征提取,这是一种关键的方法,使模型能够提取与给定指令相适应的信息特征。最终的InstructBLIP模型在所有13个零-shot数据集上实现了最新的表现,显着优于BLIP-2和更大的Flamingo。InstructBLIP模型在单独的下游任务(例如,ScienceQA IMG的90.7%的准确性)上也达到了最新的表现水平。
InstructBLIP支持Instruction-following Image-to-Text,即基于指令的图像生成文本。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
