StableLM（Stable Language Model）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

StableLM - Stable Language Model

模型详细情况和参数

模型全称: Stable Language Model
模型简称: StableLM
模型类型: 基础大模型
发布日期: 2023-04-20
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 1750.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: https://github.com/Stability-AI/StableLM
模型HuggingFace链接: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: Stability AI Launches the First of its StableLM Suite of Language Models
基础模型: 无基础模型
发布机构: Stability AI

StableLM是StabilityAI开源的一个大语言模型。于2023年4月20日公布，目前属于开发中，只公布了部分版本模型训练结果。

StabilityAI是著名的开源软件Stable Diffusion的开发者，该系列模型完全开源，但是做的是文本生成图像方向。而本次发布的StableLM是StabilityAI的第一个开源的大语言模型。

该模型基于Pile数据训练，但是是一个新的Pile数据集，比原始的Pile数据集大3倍，包含约1.5万亿tokens，数据集目前没有公开，但是官方说后续在适当的时机会公布。模型训练的context长度是4096个。下图是官方提供的实际测试例子：

截止4月20日，StableLM的技术细节尚未公布！

StableLM系列包含2种模型，一个是基础模型，名字中包含base。另一种是使用斯坦福Alpaca的微调流程在5个对话数据集上的联合微调得到的结果，名字中包含tuned。上述五个对话数据集为：

目前，StabilityAI确定在训练的模型由5个版本，分别是30亿参数、70亿参数、150亿参数、300亿参数、650亿参数。而1750亿参数规模的模型处于规划阶段：

规模	StableLM-Base-Alpha	StableLM-Tuned-Alpha	训练的tokens数量	具体参数大小	演示地址
3B	checkpoint	checkpoint	8000亿	3,638,525,952
7B	checkpoint	checkpoint	8000亿	7,869,358,080	Hugging Face
15B	训练中	(pending)
30B	训练中	(pending)
65B	训练中	(pending)
175B	规划中

截止2023年4月20日，已经开放30亿参数和70亿参数规模的预训练结果（下载地址见上表）中base和tuned共4种模型。并在HuggingFace上提供了70亿参数规模的演示环境。

目前StableLM的能力包括：

StableLM遵守CC BY-SA-4.0协议，开发人员可以自由使用基础模型（包括商业目的）。