Qw

Qwen2.5-VL-32B-Instruct

多模态大模型

Qwen2.5-VL-32B-Instruct

发布时间: 2025-03-24

模型参数(Parameters)
320.0
最高上下文长度(Context Length)
32K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果

2048 tokens

模型类型

多模态大模型

发布时间

2025-03-24

模型预文件大小

64GB

开源和体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Qwen2.5-VL-32B-Instruct模型在各大评测榜单的评分

发布机构

模型介绍

Qwen2.5-VL-32B-Instruct是通义千问团队于2025年3月24日开源的多模态大模型,基于Apache 2.0协议发布。该模型在Qwen2.5-VL系列基础上,通过强化学习技术优化,以32B参数规模实现多模态能力突破。

核心特性升级

输出风格优化
模型输出内容在格式规范与信息详实度上更贴近人类表达习惯,特别是在复杂场景中能生成结构清晰、逻辑严密的解决方案。

数学推理突破
针对包含多变量方程、几何证明等复杂数学问题,模型通过算法优化将解题准确率提升至行业领先水平。

细粒度视觉分析
在医疗影像解析、工程图纸识别等专业领域,模型展现出像素级内容捕捉能力,并支持多图关联推理与时空维度分析。


性能表现

MMMU(多模态理解)、MathVista(视觉数学推理)等权威测试集上,该模型以32B参数规模超越Mistral-Small-3.1-24B、Gemma-3-27B-IT等同级竞品,其表现较前代72B模型Qwen2-VL-72B-Instruct提升达12.7%。

在用户体验导向的MM-MT-Bench评估中,模型在开放式问答、指令跟随等场景的响应质量获得显著优化,主观评分较前代提升19.4%。文本处理能力保持同参数规模顶尖水准,在MT-Bench文本基准测试中位列前三。


应用实例

以用户提供的卡车限速场景为例,模型展现多模态协同能力:

  1. 视觉解析:准确识别道路限速标志(100 km/h)
  2. 时空建模:建立时间(12:00-13:00)、距离(110 km)、速度的三维关系
  3. 数学推导:运用运动学公式计算得出1小时6分钟的精确行程时间
  4. 逻辑决策:综合时空约束给出"无法准时到达"的结论,并完整展示推导链条

该案例印证了模型在跨模态信息整合、专业领域知识应用以及可解释性输出方面的技术优势。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat