模型详细情况和参数
MiniCPM-2B-128k是面壁智能开源的小规模参数语言模型MiniCPM的超长上下文优化版本。在此前的30亿参数及以下的大语言模型中,一般来说上下文长度都在4K及以内。而MiniCPM-2B-128k作为首个30亿以内参数的模型,上下文长度拓展到了128K,不过官方说,在4K以内,这个模型的性能有所下降。
MiniCPM-2B拓展到128K上下文经过了多个阶段,官方解释了这个过程:
多阶段衰减(decay)训练
SFT(Supervised Fine-tuning)训练
相比较原始的MiniCPM-2B模型,该版本的模型架构有如下变化: