MPT 7B
MosaicML Pretrained Transformer-7B
模型参数
70.0亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-05
模型文件大小
13.3GB
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
MosaicML
查看发布机构详情 模型解读
2023年6月22日,MPT已经发布330亿参数规模模型,关于MPT的更多信息参考: https://www.datalearner.com/ai-models/foundation-models/MPT
MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。
MPT-7B简介
MPT全称是MosaicML Pretrained Transformer,是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是:
- 有商用许可
- 基于大量的数据训练
- 目标是解决长输入(最高支持65K的输入,84K的处理)
- 训练与推理速度的优化
- 高效的开源训练代码
从这些特点看,MPT真的是一个很优秀的开源大模型,且官方宣称它的评测结果与LLaMA-7B差不多。
MPT-7B的版本
目前,MPT-7B包含四个版本:分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下:
- MPT-7B Base:67亿参数的decoder-style模型。基于1万亿tokens的文本和代码数据训练,数据集由MosaicML小组收集。该模型授权商用。
- MPT-7B-StoryWriter-65k+:这个模型的目的是用来读取和生成超长内容的,它是基于MPT-7B微调的,从books3数据集中的一个虚构子集训练的。在推断时,由于ALiBi的存在,MPT-7B-StoryWriter-65k+可以对超出65k个标记进行推断。官方已经在单个A100-80GB GPU节点上演示了长达84k标记的生成。该模型授权商用。
- MPT-7B-Instruct:MPT-7B-Instruct是一个短格式指令跟踪模型,通过在MosaicML发布的数据集上微调MPT-7B而构建,该数据集源自于Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集。该模型授权商用。
- MPT-7B-Chat:MPT-7B-Chat是一个用于生成对话的聊天机器人模型。通过在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct数据集上微调MPT-7B构建而成。不授权商用。
上述四个模型总结如下:
| 模型名称 | 特点 | 是否可商用 | 模型链接 |
|---|---|---|---|
| MPT-7B Base | MPT基础模型,基于1万亿tokens数据集训练 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b |
| MPT-7B-StoryWriter-65k+ | 基于MPT-7B进一步微调得到,针对长输入场景,最多可以生成65k+的长内容 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-storywriter |
| MPT-7B-Instruct | 指令跟踪模型,基于MPT-7B Base在指令数据集微调得到 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-instruct |
| MPT-7B-Chat | 一个用于生成对话的聊天机器人模型 | 不可以商用 | https://huggingface.co/mosaicml/mpt-7b-chat |
MPT-7B模型和其它开源模型的对比
官方放出了不同模型在不同任务上的对比结果

非常清楚。
基础模型
MPT
查看详情DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
