开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

<center>![DeepSeek-VL模型测试结果截图](https://www.datalearner.com/resources/blog_images/16e237e2-6d18-40b4-af01-5b69f9257af7.png "DeepSeek-VL模型测试结果截图")</center>
<center></center>

[TOC]

#### DeepSeek-VL系列模型简介
DeepSeek-VL系列模型的目标是用来理解真实世界图像的多模态大模型。是基于他们自己训练的语言模型DeepSeek-LLM和SigLIP-L视觉encoder结合而来。这个系列模型目前包含2个不同参数规模以及2个不同版本语言模型共4个版本：

| DeepSeek-VL版本  | DeepSeek-VL模型简介  | DeepSeek-VL模型信息卡地址  |
| ------------ | ------------ | ------------ |
| DeepSeek-VL-7B-Base  | 基于70亿参数的<font color=red>基础语言模型</font>训练得到，最高支持1024分辨率图像输入  | https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-7b-base  |
| DeepSeek-VL-7B-Chat  |  基于70亿参数的<font color=red>指令优化</font>语言模型训练得到，最高支持1024分辨率图像输入 | https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-7b-chat  |
| DeepSeek-VL-1.3B-Base  | 基于13亿参数模型训练得到，最高支持384图像分辨率输入  | https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-1_3b-base  |
| DeepSeek-VL-1.3B-Chat  | 基于13亿参数模型指令优化训练得到，最高支持384图像分辨率输入  | https://www.datalearner.com/ai-models/pretrained-models/deepseek-vl-1_3b-chat  |

从上表可以看出，DeepSeek-VL模型的2个不同规模版本支持的图像输入是不同的。其中70亿参数规模的模型支持1024×1024分辨率图像的输入，而13亿参数规模的模型支持384×384分辨率图像输入。二者的语言模型也有差异，前者是基于2万亿tokens数据集训练的DeepSeek-LLM-7B模型，而后者则是基于5000亿tokens数据集训练的DeepSeek-LLM-1.3B模型训练的。但是它们都是基于4000亿图像-文本对数据集训练得到的结果。

这两个不同规模的模型都已经开源，其效果都取得了同等规模模型中非常优秀的评测结果。

#### DeepSeek-VL模型的训练数据集
DeepSeek-VL模型的训练包含2个阶段，第一个阶段是预训练阶段，第二个阶段是微调阶段。第一个阶段的文本数据与DeepSeek-LLM模型一致，图像文本数据集则是来自它们私有数据集外加开源数据集。结果如下：

<center>![](https://www.datalearner.com/resources/blog_images/50ab09e5-37bf-4ae9-89b5-a885cec432a7.png)</center>
<center></center>

在微调阶段，DeepSeek-VL模型使用的数据集如下：

<center>![](https://www.datalearner.com/resources/blog_images/7f74b2f5-2fbe-40df-879d-3b244aa32a41.png)</center>
<center></center>

#### DeepSeek-VL模型的评测结果
为了对比DeepSeek-VL模型和其它多模态模型的能力，DeepSeekAI在多个评测数据集上比较了DeepSeek-VL模型的能力，结果如下：

<center>![](https://www.datalearner.com/resources/blog_images/5825e4b1-deed-4013-9a49-07854c5c41c7.png)</center>
<center></center>

上表的第一个部分是70亿参数的DeepSeek-VL-7B与其它开源和非开源模型的评测对比。其中MMMLU是多模态理解能力评测数据集。可以看到，除了李开复零一万物的Yi-VL-6B（详情参考：https://www.datalearner.com/ai-models/pretrained-models/Yi-VL-6B ）外，DeepSeek-VL-7B的MMMLU评测结果最好。而在其它的多模态评测结果上，除了MMVet外，DeepSeek-VL-7B是最强的。

在上图下半部分的Tiny多模态结果对比上，DeepSeek-VL-1.3B是目前表现最好的。其中一个比较重要的原因是当前业界开源的30亿以及一下的多模态大模型很少。而DeepSeek-VL-1.3B作为补充，不仅效果很赞，也是为大家提供了新的选择。

#### DeepSeek-VL实测截图
目前，我们暂未测试，但是DeepSeekAI在论文中公布了DeepSeek-VL的测试截图：

<center>![](https://www.datalearner.com/resources/blog_images/4858c906-3925-47b8-9ace-fc0d7e9cf634.png)</center>
<center></center>

从这些截图中可以看到，DeepSeek-VL模型的理解能力很强，不仅是简单的图片理解，还可以基于流程图识别算法、基于流程图实现代码、识别户型图、基于厨房空间进行路径规划等，非常强悍！

#### DeepSeek-VL的开源情况
DeepSeek-VL的四个模型均为开源模型，其中代码是MIT开源协议，无限制商用。而DeepSeek-VL模型预训练结果则是基于DeepSeek自家的模型开源协议开源的。虽然有一些安全和合规的使用要求，但总体上也是免费商用授权。

总的来说，DeepSeek-VL模型不仅是非常优秀的多模态模型，模型识别能力很强，更重要的是它开源商用授权。而此前DeepSeek还开源过国内的第一个混合专家（MoE）模型（DeepSeek-MoE）、编程大模型等，对大模型生态贡献很大。

关于所有DeepSeekAI开源的模型，大家可以从DataLearnerAI的DeepSeek简介中获得：
https://www.datalearner.com/ai-organizations/DeepSeek-AI

<center>![DeepSeekAI开源的所有模型](https://www.datalearner.com/resources/blog_images/6a840c17-3b31-456f-94b3-c0e1a9e68bd1.png "DeepSeekAI开源的所有模型")</center>
<center></center>

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客