评测名称 | 评测能力方向 | 评测结果 |
---|
随着多模态AI模型的兴起,能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术,为开源权重模型树立了新的标杆。
Aya Vision 32B是Aya Vision家族的一部分,家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言,在需要视觉和文本理解的任务中表现出色,例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse,通过引入先进的视觉语言技术进一步提升。
Aya Vision 32B的性能超过了许多更大的模型,如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B,在AyaVisionBench上胜率为50%到64%,在mWildVision上胜率为52%到72%,覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。
Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景,包括:
C4AI Aya Vision 32B以开源权重发布,促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架,鼓励社区推动视觉语言理解的界限。
不过需要注意的是,该模型的开源协议是非商用授权,只能用于研究。