GLM-130B

Name: GLM-130B
Author: 智谱AI

基础大模型GLMGLM-130B

GLM-130B

发布时间: 2022-03-17更新于: 2023-08-16 22:05:50.098794

在线体验GitHub Hugging Face Compare

模型参数

1300亿

上下文长度

中文支持

支持

推理能力

GLM-130B 是由智谱AI 发布的 AI 模型，发布时间为 2022-03-17，定位为基础大模型，参数规模约为 1300亿，上下文长度为 2K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-130B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

暂无数据

发布时间

2022-03-17

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

1300亿 / 不涉及

知识截止

暂无数据

GLM-130B

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

https://github.com/THUDM/GLM-130B

Hugging Face

https://huggingface.co/spaces/THUDM/GLM-130B

在线体验

暂无在线体验地址

GLM-130B

官方介绍与博客

官方论文

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

DataLearnerAI博客

暂无介绍博客

GLM-130B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

GLM-130B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GLM-130B

发布机构

智谱AI

查看发布机构详情

GLM-130B

模型解读

GLM-130B是清华大学基于GLM模型（模型卡： https://www.datalearner.com/ai-models/base-models/GLM ）训练的一个1300亿超大参数规模的预训练大模型，这是一个开放的双语（英文和中文）双向密集模型，有1300亿个参数，使用通用语言模型（GLM）的算法进行预训练。它被设计用来支持在一台A100（40G*8）或V100（32G*8）服务器上的130B参数的推理任务。通过INT4量化，硬件要求可以进一步降低到4*RTX 3090（24G）的单台服务器，而且几乎没有性能下降。截至2022年7月3日，GLM-130B已经对超过4000亿个文本标记（中文和英文各2000B）进行了训练，它有以下独特的功能。

双语：同时支持英文和中文。
性能（EN）：在LAMBADA上优于GPT-3 175B（+4.0%）、OPT-175B（+5.5%）和BLOOM-176B（+13.0%），在MMLU上略优于GPT-3 175B（+0.9%）。
性能（CN）：在7个零次CLUE数据集（+24.26%）和5个零次FewCLUE数据集（+12.75%）上明显优于ERNIE TITAN 3.0 260B。
快速推理：支持用一台A100服务器对SAT和FasterTransformer进行快速推理（速度最高可达2.5倍）。
可复制性：所有结果（30多个任务）都可以通过开源代码和模型检查点轻松复制。
跨平台：支持在NVIDIA、Hygon DCU、Ascend 910和Sunway（将很快发布）上进行训练和推理。

需要注意的是，这个模型虽然开源，但是需要发邮件申请才能使用。不过这么大规模一般个人也很少申请。

硬件要求

显卡要求	GPU显存	量化放十四	权重Offload
8 * A100	40 GB	No	No
8 * V100	32 GB	No	Yes (BMInf)
8 * V100	32 GB	INT8	No
8 * RTX 3090	24 GB	INT8	No
4 * RTX 3090	24 GB	INT4	No
8 * RTX 2080 Ti	11 GB	INT4	No

可以看到，这个配置真心不低啊！

基础模型

GLM

查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送