C4AI Aya Vision 32B - C4AI Aya Vision 32B模型详细情况和参数

C4AI Aya Vision 32B

模型全称
C4AI Aya Vision 32B
模型简称
C4AI Aya Vision 32B
模型类型
多模态大模型
发布日期
2025-03-04
预训练文件大小
64GB
是否支持中文(中文优化)
最高支持的上下文长度
16K
模型参数数量(亿)
320.0
模型代码开源协议
CC-BY-NC 4.0
预训练结果开源商用情况
CC-BY-NC 4.0 - 不可以商用
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构
评测结果
评测名称 评测能力方向 评测结果

C4AI Aya Vision 32B 简介

随着多模态AI模型的兴起,能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术,为开源权重模型树立了新的标杆。


Aya Vision 32B概述

Aya Vision 32B是Aya Vision家族的一部分,家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言,在需要视觉和文本理解的任务中表现出色,例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse,通过引入先进的视觉语言技术进一步提升。


Aya Vision 32B主要特点

  • 多语言支持:Aya Vision 32B经过23种语言的训练,使其成为可用的最全面的多语言视觉语言模型之一。
  • 视觉语言对齐:该模型采用两阶段训练过程。第一阶段对齐视觉和语言表示,第二阶段在多样的多模态数据集上进行监督微调。
  • 合成注释和数据扩展:Cohere For AI通过生成英文的合成注释,将其翻译成目标语言,并重新措辞以提高质量,从而增强多语言覆盖范围。
  • 动态图像处理:Aya Vision 32B可以通过动态调整和拼接图像大小来处理任意分辨率的图像,提取详细的视觉特征。
  • 像素混洗下采样:为了提高效率,该模型在不牺牲性能的情况下将图像令牌压缩了4倍。
  • 多模态模型融合:通过将微调后的视觉语言模型与预训练的语言模型融合,Aya Vision 32B在文本和图像任务中均达到了最新的性能水平。


Aya Vision 32B性能表现

Aya Vision 32B的性能超过了许多更大的模型,如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B,在AyaVisionBench上胜率为50%到64%,在mWildVision上胜率为52%到72%,覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。


Aya Vision 32B的应用

Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景,包括:

  • 多语言视觉问答
  • 跨语言图像描述
  • 多语言光学字符识别(OCR)
  • 图表和图形理解
  • 从截图生成代码
  • 该模型还被集成到WhatsApp等平台中,为全球用户带来先进的视觉语言功能。


开放访问和社区合作

C4AI Aya Vision 32B以开源权重发布,促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架,鼓励社区推动视觉语言理解的界限。


不过需要注意的是,该模型的开源协议是非商用授权,只能用于研究。



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DataLearnerAI大模型微信公众号