VisualGLM-6B - VisualGLM-6B

模型详细情况和参数

VisualGLM-6B

模型全称
VisualGLM-6B
模型简称
VisualGLM-6B
模型类型
多模态大模型
发布日期
2023-05-17
预训练文件大小
18GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
78.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
The VisualGLM-6B License - 收费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
VisualGLM-6B
基础模型
发布机构

VisualGLM-6B 简介

VisualGLM-6B是清华大学知识工程与数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University,THUDM)开源的最新的多模态大模型。于2023年5月17日发布v1版本。


VisualGLM-6B是由语言模型ChatGLM-6B( https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B )与图像模型BLP2-Qformer结合而得到的一个多模态大模型,二者结合后的参数为78亿(62亿+16亿)。


ChatGLM-6B是优秀的国产大语言模型,做了chat微调,在国内和业界都有很好的反响。此次发布的VisualGLM-6B则是在其基础上增加了多模态的能力。模型代码与预训练结果都是开源的,不过预训练结果的权重依然是不可以商用


关于VisualGM-6B的具体信息如下:


VisualGLM-6B信息项VisualGLM-6B信息结果参考链接
模型名称VisualGLM-6B https://github.com/THUDM/VisualGLM-6B 
模型类型多模态对话模型
支持的语言中文/英文
NLP基础模型ChatGLM-6B
NLP部分模型参数量62亿
图像部分基础模型BLIP2-Qformer https://arxiv.org/abs/2301.12597 
图像部分模型参数量16亿
模型参数总数78亿
训练数据集CogView https://arxiv.org/abs/2105.13290 
训练工具/软件SwissArmyTransformer https://github.com/THUDM/SwissArmyTransformer 
FP16精度推理硬件要求显存大于15GB
INT4量化推理硬件要求显存大于8.7GB


VisualGLM-6B是基于CogView数据集训练的,数据集包含3000万高质量的中文图文对和3亿英文图文对。


VisualGLM-6B的运行硬件要求也还可以,FP16精度的模型需要15GB显存运行,而INT4量化版本需要8.7GB显存,比纯对话的ChatGLM-6B要求稍高。具体对比如下:

模型名称量化等级最低 GPU 显存(推理)最低 GPU 显存(高效参数微调)
ChatGLM-6BFP16(无量化)13 GB14 GB
ChatGLM-6BINT88 GB9 GB
ChatGLM-6BINT46 GB7 GB
VisualGLM-6BFP16(无量化)15GB/
VisualGLM-6BINT48.7GB/


VisualGLM-6B目前已经在HuggingFace上上线了演示版本,大家可以去测试使用: https://huggingface.co/spaces/THUDM/visualglm-6b 



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

VisualGLM-6B所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

VisualGLM-6B相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源