Qwen-VL - Qwen Large Vision Language Model

模型详细情况和参数

Qwen-VL

模型全称
Qwen Large Vision Language Model
模型简称
Qwen-VL
模型类型
多模态大模型
发布日期
2023-08-24
预训练文件大小
19GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
96.0
模型代码开源协议
Tongyi Qianwen LICENSE AGREEMENT
预训练结果开源商用情况
Tongyi Qianwen LICENSE AGREEMENT - 免费商用授权
模型HuggingFace链接
https://huggingface.co/Qwen/Qwen-VL
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Qwen Large Vision Language Model 简介

模型特点

Qwen-VL 的整体架构包含三个组件:

  • 语言模型基础:采用 Qwen-7B 预训练语言模型作为基础,获得强大的语言表达和理解能力。
  • 视觉编码器:使用 ViT 作为视觉 backbone,从 ImageNet 预训练权重初始化,输入图像大小为 448x448。
  • 位置感知适配器:使用自注意力层将图像特征序列压缩为固定长度,加入绝对位置编码保留细粒度位置信息。

此外,Qwen-VL 还设计了特殊的图像输入接口、检测框表示方法,支持多图像并列输入,增强了模型的细粒度视觉理解能力。

训练方案

Qwen-VL 的训练分为三个阶段:

  • 阶段一:仅优化视觉编码器和适配器,图像输入大小为 224x224。使用 5 亿张弱标注图像-文本数据进行预训练。
  • 阶段二:解冻语言模型,增加输入分辨率到 448x448。使用高质量强标注数据进行 7 项视觉语言任务的多任务训练。
  • 阶段三:指令调优,使用人工构建的指令-式对话数据进行调优,获得交互式对话模型 Qwen-VL-Chat。

评价结果

Qwen-VL 在各类视觉语言理解基准测试上取得显著的效果提升,包括:

  • 图像字幕、VQA:在 Flickr30K、VQAv2 上分别达到 85.8、79.5 的指标。
  • 文本VQA:在 TextVQA 上达到 63.8 的准确率。
  • 提述理解:在 RefCOCO 等数据集上精确定位的准确率最高可达 89%。
  • 指令遵循:在 Touchstone 英文基准上评分达到 645.2。

综上所述,Qwen-VL 系列模型作为开源的视觉语言基础模型,其多语言支持、细粒度视觉理解的能力值得关注。模型强大的零样本和 few-shot 学习能力也为各类下游任务提供了有力的预训练基础。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Qwen-VL所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

Qwen-VL相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源