模型详细情况和参数
Stable LM 2 - 1.6B是由StabilityAI发布的一个16亿参数规模的大语言模型。相比较常规的大语言模型,这个模型参数仅16亿,可以在移动端运行。但是它的性能效果与几个月前70亿参数规模差不多。
该模型的主要特点如下:
官方公布了StableLM2-1.6B在不同评测任务上的评测结果。StableLM2-.1.6B与常见的小规模参数的评测结果对比如下表所示:
模型名称 | 参数规模 | 平均 | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8k |
---|---|---|---|---|---|---|---|---|
phi-2 | 27.8 | 61.32% | 61.09% | 75.11% | 58.11% | 44.47% | 74.35% | 54.81% |
StableLM-2-zephyr-1.6b | 16 | 49.89% | 43.69% | 69.34% | 41.85% | 45.21% | 64.09% | 35.18% |
Phi-1.5 | 13 | 47.69% | 52.90% | 63.79% | 43.89% | 40.89% | 72.22% | 12.43% |
StableLM2-1.6B | 16 | 45.54% | 43.43% | 70.49% | 38.93% | 36.65% | 65.90% | 17.82% |
MPT-7b | 70 | 44.28% | 47.70% | 77.57% | 30.80% | 33.40% | 72.14% | 4.02% |
Qwen-1.8B | 18 | 44.75% | 37.71% | 58.87% | 46.37% | 39.41% | 61.72% | 24.41% |
open_llama_3b_v2 | 30 | 40.28% | 40.27% | 71.60% | 27.12% | 34.78% | 67.01% | 0.91% |
Falcon-rw-1b | 10 | 37.07% | 35.07% | 63.56% | 25.28% | 35.96% | 62.04% | 0.53% |
TinyLlama-1.1B-3T | 11 | 36.40% | 33.79% | 60.31% | 26.04% | 37.32% | 59.51% | 1.44% |
可以看到,在不超过30亿参数规模的大语言模型上,StableLM2-1.6B几乎与Phi-1.5差不多。但是,StableLM2-1.6B还有个对齐微调版本,即StableLM-2-zephyr-1.6b,其效果更好。
而StableLM2-1.6B和其它模型在MT-Bench的评测结果更有优势:
模型 | 参数规模 | MT-Bench |
---|---|---|
Mistral-7B-Instruct-v0.2 | 70亿 | 7.61 |
Llama2-Chat | 700亿 | 6.86 |
MPT-30B-Chat | 300亿 | 6.39 |
stablelm-zephyr-3b | 30亿 | 6.64 |
stablelm-2-zephyr-1_6b | 16亿 | 5.42 |
Falcon-40B-Instruct | 400亿 | 5.17 |
Qwen-1.8B-Chat | 18亿 | 4.95 |
dolphin-2.6-phi-2 | 27亿 | 4.93 |
phi-2 | 27亿 | 4.29 |
TinyLlama-1.1B-Chat-v1.0 | 11亿 | 3.46 |
不过这个模型非常有意思的是如果个人可以非商用使用,用于科研和个人目的。但是如果你要商用,但是年收入低于100万美元或者月活低于100万用户,即便是0,只要商用也要加入StabilityAI的会员计划,每个月20美元。超过这个规模的商用就需要与官方联系签合同。也就是说,这不是一个免费商用授权的大模型。