MP

MPT 7B

MosaicML Pretrained Transformer-7B

发布时间: 2023-05-05183
模型参数
70.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-05
模型文件大小
13.3GB
推理模式
暂无模式数据

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

2023年6月22日,MPT已经发布330亿参数规模模型,关于MPT的更多信息参考: https://www.datalearner.com/ai-models/foundation-models/MPT 


MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。


MPT-7B简介

MPT全称是MosaicML Pretrained Transformer,是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是:

  • 有商用许可
  • 基于大量的数据训练
  • 目标是解决长输入(最高支持65K的输入,84K的处理)
  • 训练与推理速度的优化
  • 高效的开源训练代码

从这些特点看,MPT真的是一个很优秀的开源大模型,且官方宣称它的评测结果与LLaMA-7B差不多。


MPT-7B的版本

目前,MPT-7B包含四个版本:分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下:

  1. MPT-7B Base:67亿参数的decoder-style模型。基于1万亿tokens的文本和代码数据训练,数据集由MosaicML小组收集。该模型授权商用。
  2. MPT-7B-StoryWriter-65k+:这个模型的目的是用来读取和生成超长内容的,它是基于MPT-7B微调的,从books3数据集中的一个虚构子集训练的。在推断时,由于ALiBi的存在,MPT-7B-StoryWriter-65k+可以对超出65k个标记进行推断。官方已经在单个A100-80GB GPU节点上演示了长达84k标记的生成。该模型授权商用。
  3. MPT-7B-Instruct:MPT-7B-Instruct是一个短格式指令跟踪模型,通过在MosaicML发布的数据集上微调MPT-7B而构建,该数据集源自于Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集。该模型授权商用。
  4. MPT-7B-Chat:MPT-7B-Chat是一个用于生成对话的聊天机器人模型。通过在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct数据集上微调MPT-7B构建而成。不授权商用

上述四个模型总结如下:

模型名称特点是否可商用模型链接
MPT-7B BaseMPT基础模型,基于1万亿tokens数据集训练授权商用https://huggingface.co/mosaicml/mpt-7b
MPT-7B-StoryWriter-65k+基于MPT-7B进一步微调得到,针对长输入场景,最多可以生成65k+的长内容授权商用https://huggingface.co/mosaicml/mpt-7b-storywriter
MPT-7B-Instruct指令跟踪模型,基于MPT-7B Base在指令数据集微调得到授权商用https://huggingface.co/mosaicml/mpt-7b-instruct
MPT-7B-Chat一个用于生成对话的聊天机器人模型不可以商用https://huggingface.co/mosaicml/mpt-7b-chat



MPT-7B模型和其它开源模型的对比

官方放出了不同模型在不同任务上的对比结果




非常清楚。

基础模型

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码