开源多模态大模型新选择:DeepSeekAI(深度求索科技)开源全新多模态大模型DeepSeek-VL模型,包含可在手机端运行的13亿规模tiny多模态模型。

标签:#DeepSeek-VL##DeepSeekAI##多模态大模型# 时间:2024/03/11 14:11:26 作者:小木

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业,成立与2023年7月份。他们开源了很多大模型,其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天,DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列,包含70亿和13亿两种不同规模的4个版本的模型。

DeepSeek-VL模型测试结果截图

DeepSeek-VL系列模型简介

DeepSeek-VL系列模型的目标是用来理解真实世界图像的多模态大模型。是基于他们自己训练的语言模型DeepSeek-LLM和SigLIP-L视觉encoder结合而来。这个系列模型目前包含2个不同参数规模以及2个不同版本语言模型共4个版本:

DeepSeek-VL版本 DeepSeek-VL模型简介 DeepSeek-VL模型信息卡地址
DeepSeek-VL-7B-Base 基于70亿参数的基础语言模型训练得到,最高支持1024分辨率图像输入 https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-7b-base
DeepSeek-VL-7B-Chat 基于70亿参数的指令优化语言模型训练得到,最高支持1024分辨率图像输入 https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-7b-chat
DeepSeek-VL-1.3B-Base 基于13亿参数模型训练得到,最高支持384图像分辨率输入 https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-1_3b-base
DeepSeek-VL-1.3B-Chat 基于13亿参数模型指令优化训练得到,最高支持384图像分辨率输入 https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-1_3b-chat

从上表可以看出,DeepSeek-VL模型的2个不同规模版本支持的图像输入是不同的。其中70亿参数规模的模型支持1024×1024分辨率图像的输入,而13亿参数规模的模型支持384×384分辨率图像输入。二者的语言模型也有差异,前者是基于2万亿tokens数据集训练的DeepSeek-LLM-7B模型,而后者则是基于5000亿tokens数据集训练的DeepSeek-LLM-1.3B模型训练的。但是它们都是基于4000亿图像-文本对数据集训练得到的结果。

这两个不同规模的模型都已经开源,其效果都取得了同等规模模型中非常优秀的评测结果。

DeepSeek-VL模型的训练数据集

DeepSeek-VL模型的训练包含2个阶段,第一个阶段是预训练阶段,第二个阶段是微调阶段。第一个阶段的文本数据与DeepSeek-LLM模型一致,图像文本数据集则是来自它们私有数据集外加开源数据集。结果如下:


在微调阶段,DeepSeek-VL模型使用的数据集如下:


DeepSeek-VL模型的评测结果

为了对比DeepSeek-VL模型和其它多模态模型的能力,DeepSeekAI在多个评测数据集上比较了DeepSeek-VL模型的能力,结果如下:


上表的第一个部分是70亿参数的DeepSeek-VL-7B与其它开源和非开源模型的评测对比。其中MMMLU是多模态理解能力评测数据集。可以看到,除了李开复零一万物的Yi-VL-6B(详情参考:https://www.datalearner.com/ai-models/pretrained-models/Yi-VL-6B )外,DeepSeek-VL-7B的MMMLU评测结果最好。而在其它的多模态评测结果上,除了MMVet外,DeepSeek-VL-7B是最强的。

在上图下半部分的Tiny多模态结果对比上,DeepSeek-VL-1.3B是目前表现最好的。其中一个比较重要的原因是当前业界开源的30亿以及一下的多模态大模型很少。而DeepSeek-VL-1.3B作为补充,不仅效果很赞,也是为大家提供了新的选择。

DeepSeek-VL实测截图

目前,我们暂未测试,但是DeepSeekAI在论文中公布了DeepSeek-VL的测试截图:


从这些截图中可以看到,DeepSeek-VL模型的理解能力很强,不仅是简单的图片理解,还可以基于流程图识别算法、基于流程图实现代码、识别户型图、基于厨房空间进行路径规划等,非常强悍!

DeepSeek-VL的开源情况

DeepSeek-VL的四个模型均为开源模型,其中代码是MIT开源协议,无限制商用。而DeepSeek-VL模型预训练结果则是基于DeepSeek自家的模型开源协议开源的。虽然有一些安全和合规的使用要求,但总体上也是免费商用授权。

总的来说,DeepSeek-VL模型不仅是非常优秀的多模态模型,模型识别能力很强,更重要的是它开源商用授权。而此前DeepSeek还开源过国内的第一个混合专家(MoE)模型(DeepSeek-MoE)、编程大模型等,对大模型生态贡献很大。

关于所有DeepSeekAI开源的模型,大家可以从DataLearnerAI的DeepSeek简介中获得:
https://www.datalearner.com/ai-organizations/DeepSeek-AI

DeepSeekAI开源的所有模型

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
Back to Top