模型详细情况和参数
Yi-VL-6B全称是Yi Visual Language - 6B的简称,是一个多模态大模型,该模型是基于LLaVA架构完成的。该模型可以接受文本和图片的输入,但是可以返回文本结果。
Yi-VL-6B支持中英文两种语言,可以做图片的理解和文本的识别。根据官方的描述,这个模型可以用来抽取、组织并总结图片中的信息。最高支持448×448像素的图片输入。
该模型实测:
除了60亿参数模型外,还有340亿参数的Yi-VL-34B,这个模型取得了目前多模态评测榜单第一。
多模态学习
Multimodal Learning
35个资源
文本生成图片
Text to Image