模型详细情况和参数
StableLM是StabilityAI开源的一个大语言模型。于2023年4月20日公布,目前属于开发中,只公布了部分版本模型训练结果。
StabilityAI是著名的开源软件Stable Diffusion的开发者,该系列模型完全开源,但是做的是文本生成图像方向。而本次发布的StableLM是StabilityAI的第一个开源的大语言模型。
该模型基于Pile数据训练,但是是一个新的Pile数据集,比原始的Pile数据集大3倍,包含约1.5万亿tokens,数据集目前没有公开,但是官方说后续在适当的时机会公布。模型训练的context长度是4096个。下图是官方提供的实际测试例子:
截止4月20日,StableLM的技术细节尚未公布!
StableLM系列包含2种模型,一个是基础模型,名字中包含base。另一种是使用斯坦福Alpaca的微调流程在5个对话数据集上的联合微调得到的结果,名字中包含tuned。上述五个对话数据集为:
目前,StabilityAI确定在训练的模型由5个版本,分别是30亿参数、70亿参数、150亿参数、300亿参数、650亿参数。而1750亿参数规模的模型处于规划阶段:
规模 | StableLM-Base-Alpha | StableLM-Tuned-Alpha | 训练的tokens数量 | 具体参数大小 | 演示地址 |
---|---|---|---|---|---|
3B | checkpoint | checkpoint | 8000亿 | 3,638,525,952 | |
7B | checkpoint | checkpoint | 8000亿 | 7,869,358,080 | Hugging Face |
15B | 训练中 | (pending) | |||
30B | 训练中 | (pending) | |||
65B | 训练中 | (pending) | |||
175B | 规划中 |
截止2023年4月20日,已经开放30亿参数和70亿参数规模的预训练结果(下载地址见上表)中base和tuned共4种模型。并在HuggingFace上提供了70亿参数规模的演示环境。
目前StableLM的能力包括:
StableLM遵守CC BY-SA-4.0协议,开发人员可以自由使用基础模型(包括商业目的)。
StableLM官方博客介绍: https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models
StableLM的GitHub地址: https://github.com/Stability-AI/StableLM
StableLM的HuggingFace演示地址: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat