模型详细情况和参数
GLM-130B是清华大学基于GLM模型(模型卡: https://www.datalearner.com/ai-models/base-models/GLM )训练的一个1300亿超大参数规模的预训练大模型,这是一个开放的双语(英文和中文)双向密集模型,有1300亿个参数,使用通用语言模型(GLM)的算法进行预训练。它被设计用来支持在一台A100(40G*8)或V100(32G*8)服务器上的130B参数的推理任务。通过INT4量化,硬件要求可以进一步降低到4*RTX 3090(24G)的单台服务器,而且几乎没有性能下降。截至2022年7月3日,GLM-130B已经对超过4000亿个文本标记(中文和英文各2000B)进行了训练,它有以下独特的功能。
需要注意的是,这个模型虽然开源,但是需要发邮件申请才能使用。不过这么大规模一般个人也很少申请。
硬件要求
显卡要求 | GPU显存 | 量化放十四 | 权重Offload |
---|---|---|---|
8 * A100 | 40 GB | No | No |
8 * V100 | 32 GB | No | Yes (BMInf) |
8 * V100 | 32 GB | INT8 | No |
8 * RTX 3090 | 24 GB | INT8 | No |
4 * RTX 3090 | 24 GB | INT4 | No |
8 * RTX 2080 Ti | 11 GB | INT4 | No |
可以看到,这个配置真心不低啊!