模型详细情况和参数
VisualGLM-6B是清华大学知识工程与数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University,THUDM)开源的最新的多模态大模型。于2023年5月17日发布v1版本。
VisualGLM-6B是由语言模型ChatGLM-6B( https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B )与图像模型BLP2-Qformer结合而得到的一个多模态大模型,二者结合后的参数为78亿(62亿+16亿)。
ChatGLM-6B是优秀的国产大语言模型,做了chat微调,在国内和业界都有很好的反响。此次发布的VisualGLM-6B则是在其基础上增加了多模态的能力。模型代码与预训练结果都是开源的,不过预训练结果的权重依然是不可以商用!
关于VisualGM-6B的具体信息如下:
VisualGLM-6B信息项 | VisualGLM-6B信息结果 | 参考链接 |
---|---|---|
模型名称 | VisualGLM-6B | https://github.com/THUDM/VisualGLM-6B |
模型类型 | 多模态对话模型 | |
支持的语言 | 中文/英文 | |
NLP基础模型 | ChatGLM-6B | |
NLP部分模型参数量 | 62亿 | |
图像部分基础模型 | BLIP2-Qformer | https://arxiv.org/abs/2301.12597 |
图像部分模型参数量 | 16亿 | |
模型参数总数 | 78亿 | |
训练数据集 | CogView | https://arxiv.org/abs/2105.13290 |
训练工具/软件 | SwissArmyTransformer | https://github.com/THUDM/SwissArmyTransformer |
FP16精度推理硬件要求 | 显存大于15GB | |
INT4量化推理硬件要求 | 显存大于8.7GB |
VisualGLM-6B是基于CogView数据集训练的,数据集包含3000万高质量的中文图文对和3亿英文图文对。
VisualGLM-6B的运行硬件要求也还可以,FP16精度的模型需要15GB显存运行,而INT4量化版本需要8.7GB显存,比纯对话的ChatGLM-6B要求稍高。具体对比如下:
模型名称 | 量化等级 | 最低 GPU 显存(推理) | 最低 GPU 显存(高效参数微调) |
---|---|---|---|
ChatGLM-6B | FP16(无量化) | 13 GB | 14 GB |
ChatGLM-6B | INT8 | 8 GB | 9 GB |
ChatGLM-6B | INT4 | 6 GB | 7 GB |
VisualGLM-6B | FP16(无量化) | 15GB | / |
VisualGLM-6B | INT4 | 8.7GB | / |
VisualGLM-6B目前已经在HuggingFace上上线了演示版本,大家可以去测试使用: https://huggingface.co/spaces/THUDM/visualglm-6b