随着多模态AI模型的兴起，能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术，为开源权重模型树立了新的标杆。

Aya Vision 32B概述

Aya Vision 32B是Aya Vision家族的一部分，家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言，在需要视觉和文本理解的任务中表现出色，例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse，通过引入先进的视觉语言技术进一步提升。

Aya Vision 32B主要特点

多语言支持：Aya Vision 32B经过23种语言的训练，使其成为可用的最全面的多语言视觉语言模型之一。
视觉语言对齐：该模型采用两阶段训练过程。第一阶段对齐视觉和语言表示，第二阶段在多样的多模态数据集上进行监督微调。
合成注释和数据扩展：Cohere For AI通过生成英文的合成注释，将其翻译成目标语言，并重新措辞以提高质量，从而增强多语言覆盖范围。
动态图像处理：Aya Vision 32B可以通过动态调整和拼接图像大小来处理任意分辨率的图像，提取详细的视觉特征。
像素混洗下采样：为了提高效率，该模型在不牺牲性能的情况下将图像令牌压缩了4倍。
多模态模型融合：通过将微调后的视觉语言模型与预训练的语言模型融合，Aya Vision 32B在文本和图像任务中均达到了最新的性能水平。

Aya Vision 32B性能表现

Aya Vision 32B的性能超过了许多更大的模型，如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B，在AyaVisionBench上胜率为50%到64%，在mWildVision上胜率为52%到72%，覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。

Aya Vision 32B的应用

Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景，包括：

多语言视觉问答
跨语言图像描述
多语言光学字符识别（OCR）
图表和图形理解
从截图生成代码
该模型还被集成到WhatsApp等平台中，为全球用户带来先进的视觉语言功能。

开放访问和社区合作

C4AI Aya Vision 32B以开源权重发布，促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架，鼓励社区推动视觉语言理解的界限。

不过需要注意的是，该模型的开源协议是非商用授权，只能用于研究。

C4AI Aya Vision 32B

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）