模型详细情况和参数
TinyLlama是由新加坡科技与设计大学研究人员推出的一个小规模参数的大语言模型。参数规模只有11亿。但是,它是在3万亿tokens数据集上训练得到的。因此,参数规模虽然小,但是性能很好。
TinyLlama是从头开始训练的模型,其训练数据集主要包含2类,分别是文本数据集和代码数据集:
TinyLlama的架构与Llama2完全一样,但是只有11亿参数,具体模型的参数如下:
隐藏层大小 | 中间隐藏层大小 | 上下文长度 | 头数 | 层数 | 词汇表大小 |
---|---|---|---|---|---|
2048 | 5632 | 2048 | 16 | 22 | 32000 |
TinyLlama在训练过程中使用了以下加速训练技术:
它与同等规模参数的模型训练相比,速度明显更快:
训练使用了16个A100-40G的GPU,并且每训练5000亿tokens的数据集就会公布一个预训练结果。目前,已经训练了3万亿tokens。随着训练数据的增加,模型的效果也在变强,结果如下图所示:
不过有意思的是2.5万亿tokens的训练结果甚至比3万亿tokens结果更好,很奇怪。他们的训练还在继续,期待后续结果。
虽然TinyLlama是2023年9月份就开源宣布的项目,但是直到2023年年底才训练到3万亿tokens。2024年1月4日才发布论文。在论文中TinyLlama的评测结果也一同公布:
从这个对比中可以看到,TinyLlama-1.1B模型的效果并不是每一个任务都很强,但是综合成绩还是略胜一筹的。