Vi

VisCPM-Chat

聊天大模型

VisCPM-Chat

发布时间: 2023-06-30

模型参数(Parameters)
100.0
最高上下文长度(Context Length)
2K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

聊天大模型

发布时间

2023-06-30

模型预文件大小

20.6GB

开源和体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

VisCPM-Chat模型在各大评测榜单的评分

发布机构

模型介绍

VisCPM-Chat是基于清华大学NLP小组发布的CPM-Bee模型(CPM Bee - 10B模型信息卡: https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee )进行多模态训练得到的一个多模态对话模型。该系列模型包含2种,分别是VisCPM-Chat-balanceVisCPM-Chat-zhplus,前者是中英文能力平衡,后者则是中文能力更强。


关于VisCPM-模型的整体介绍参考: https://www.datalearner.com/blog/1051688132077366 


VisCPM-Chat模型在中文多模对话、复杂推理方面都具有很好的效果。模型本身是基于基础语言模型外接视觉编解码得到的。如下图所示:

VisCPM-Chat模型训练细节

VisCPM-Chat模型是针对多模态对话进行优化的多模态大模型,是基座语言模型外接Q-Former视觉编码器Diffusion-UNet视觉解码器其训练分为2个阶段:


预训练阶段:使用1亿条高质量英文图文对数据对VisCPM-Chat进行预训练,其中基座语言模型的参数保持固定,仅更新视觉编码器Q-Former部分的参数,用来做语言与视觉的对齐。


指令精调阶段:在预训练结束之后,需要让模型理解视觉相关的指令。因此,官方采用了LLaVA-150K英文指令精调数据集(LLaVA是微软官方发布的多模态大模型: https://www.datalearner.com/ai-models/pretrained-models/LLaVA )对模型进行精调。该阶段模型所有的参数都会更新


官方在指令精调阶段发现一个有意思的现象:

有趣的是,我们发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。这表明模型的多语言多模态能力已经得到良好的泛化。

从这里也可以发现生成模型的优点,应该是其基础语言模型有中英文多语言的能力,基于中文问题,自然地可以生成英文回答,并生成了图像信息。


为了更好地支持中文的多模态对话能力,官方也收集了额外的2000万原生中文图文对数据以及1.2亿翻译后的中文图文数据对,然后在预训练阶段训练了另一个模型称为VisCPM-Chat-zhplus,也就是对中文理解的版本。原始版本则成为VisCPM-Chat-balance。


VisCPM-Chat模型开源和使用

不过可惜的是,该模型是收费商用授权(其语言模型的基座模型为CPM-Bee 10B,可免费商用授权),但是对个人和研究完全免费开源。


官方也放出了预训练结果的下载链接:

VisCPM-Chat模型版本版本说明预训练下载地址
VisCPM-Chat-balance中英文均衡 huggingface/viscpm_chat_balance_checkpoint.pt 
VisCPM-Chat-zhplus中文优化 huggingface/viscpm_chat_zhplus_checkpoint.pt 


需要注意的是,VisCPM-Chat模型的载入需要40G的显存,开启CUDA_MEM_SAVE=True之后也需要22G显存,但是推理时间更长。

Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat