模型详细情况和参数
ChatGLM2-6B是清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University)发布的ChatGLM-6B模型的第二代。于2023年6月25日发布。
相比较第一代的ChatGLM-6B,ChatGLM2-6B模型的性能更加强大,并支持更长的上下文。
ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 个字符的平均速度对比如下
Model | 推理速度 (字符/秒) |
---|---|
ChatGLM-6B | 31.49 |
ChatGLM2-6B | 44.62 |
ChatGLM2-6B的推理显存需求:
量化等级 | 编码 2048 长度的最小显存 | 生成 8192 长度的最小显存 |
---|---|---|
FP16 / BF16 | 13.1 GB | 12.8 GB |
INT8 | 8.2 GB | 8.1 GB |
INT4 | 5.5 GB | 5.1 GB |
HuggingFace地址: https://huggingface.co/THUDM/chatglm2-6b/tree/main
清华大学云盘地址: https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/
注意,所有的bin文件都要下载,而且config.json也要下载,这个文件只能在HuggingFace上下载,缺少这个文件会报配置错误。