模型详细情况和参数
MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。
MPT全称是MosaicML Pretrained Transformer,是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是:
从这些特点看,MPT真的是一个很优秀的开源大模型,且官方宣称它的评测结果与LLaMA-7B差不多。
目前,MPT-7B包含四个版本:分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下:
上述四个模型总结如下:
模型名称 | 特点 | 是否可商用 | 模型链接 |
---|---|---|---|
MPT-7B Base | MPT基础模型,基于1万亿tokens数据集训练 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b |
MPT-7B-StoryWriter-65k+ | 基于MPT-7B进一步微调得到,针对长输入场景,最多可以生成65k+的长内容 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-storywriter |
MPT-7B-Instruct | 指令跟踪模型,基于MPT-7B Base在指令数据集微调得到 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-instruct |
MPT-7B-Chat | 一个用于生成对话的聊天机器人模型 | 不可以商用 | https://huggingface.co/mosaicml/mpt-7b-chat |
官方放出了不同模型在不同任务上的对比结果
非常清楚。