模型详细情况和参数
Deepseek Vision-Language-1.3B-Base简称Deepseek VL-1.3B-Base,是DeepSeekAI开源的一个多模态大模型,可以理解图片。是一个可以在移动端运行的图片理解的多模态大模型。最高支持384*384分辨率图像的输入,是目前已知的支持最高图像解析度的多模态大模型之一。
Deepseek VL-1.3B-Base是基于DeepSeek-LLM-1.3B-Base版本进行训练的,语言模型部分是在5000亿tokens数据集上训练得到,而整个Deepseek VL-1.3B-Base模型则是在4000亿图像-语言tokens数据集上训练得到的。这个版本是基础语言版本拓展而来,此外还有基于指令优化的模型进行训练得到的: https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-1_3b-chat