MPT 7B（MosaicML Pretrained Transformer-7B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

MP

MPT 7B

MosaicML Pretrained Transformer-7B

发布时间: 2023-05-05更新于: 2023-06-23 20:28:17.880276

在线体验GitHub Hugging Face Compare

模型参数

70.0亿

上下文长度

2K

中文支持

不支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

MPT 7B

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2023-05-05

模型文件大小

MPT 7B

开源和体验地址

代码开源状态

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/mosaicml/llm-foundry

Hugging Face

https://huggingface.co/mosaicml/mpt-7b

在线体验

MPT 7B

官方介绍与博客

官方论文

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

DataLearnerAI博客

暂无介绍博客

MPT 7B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

MPT 7B

评测结果

当前尚无可展示的评测数据。

MPT 7B

发布机构

MosaicML

查看发布机构详情

MosaicML Pretrained Transformer-7B

模型解读

2023年6月22日，MPT已经发布330亿参数规模模型，关于MPT的更多信息参考： https://www.datalearner.com/ai-models/foundation-models/MPT

MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。

MPT-7B简介

MPT全称是MosaicML Pretrained Transformer，是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型，但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制，提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是：

有商用许可
基于大量的数据训练
目标是解决长输入（最高支持65K的输入，84K的处理）
训练与推理速度的优化
高效的开源训练代码

从这些特点看，MPT真的是一个很优秀的开源大模型，且官方宣称它的评测结果与LLaMA-7B差不多。

MPT-7B的版本

目前，MPT-7B包含四个版本：分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下：

MPT-7B Base：67亿参数的decoder-style模型。基于1万亿tokens的文本和代码数据训练，数据集由MosaicML小组收集。该模型授权商用。
MPT-7B-StoryWriter-65k+：这个模型的目的是用来读取和生成超长内容的，它是基于MPT-7B微调的，从books3数据集中的一个虚构子集训练的。在推断时，由于ALiBi的存在，MPT-7B-StoryWriter-65k+可以对超出65k个标记进行推断。官方已经在单个A100-80GB GPU节点上演示了长达84k标记的生成。该模型授权商用。
MPT-7B-Instruct：MPT-7B-Instruct是一个短格式指令跟踪模型，通过在MosaicML发布的数据集上微调MPT-7B而构建，该数据集源自于Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集。该模型授权商用。
MPT-7B-Chat：MPT-7B-Chat是一个用于生成对话的聊天机器人模型。通过在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct数据集上微调MPT-7B构建而成。不授权商用。

上述四个模型总结如下：

模型名称	特点	是否可商用	模型链接
MPT-7B Base	MPT基础模型，基于1万亿tokens数据集训练	授权商用	https://huggingface.co/mosaicml/mpt-7b
MPT-7B-StoryWriter-65k+	基于MPT-7B进一步微调得到，针对长输入场景，最多可以生成65k+的长内容	授权商用	https://huggingface.co/mosaicml/mpt-7b-storywriter
MPT-7B-Instruct	指令跟踪模型，基于MPT-7B Base在指令数据集微调得到	授权商用	https://huggingface.co/mosaicml/mpt-7b-instruct
MPT-7B-Chat	一个用于生成对话的聊天机器人模型	不可以商用	https://huggingface.co/mosaicml/mpt-7b-chat

MPT-7B模型和其它开源模型的对比

官方放出了不同模型在不同任务上的对比结果

非常清楚。

基础模型

MPT

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码