MPT 7B - MosaicML Pretrained Transformer-7B

模型详细情况和参数

MPT 7B

模型全称
MosaicML Pretrained Transformer-7B
模型简称
MPT 7B
模型类型
基础大模型
发布日期
2023-05-05
预训练文件大小
13.3GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
模型HuggingFace链接
https://huggingface.co/mosaicml/mpt-7b
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
发布机构

MosaicML Pretrained Transformer-7B 简介

2023年6月22日,MPT已经发布330亿参数规模模型,关于MPT的更多信息参考: https://www.datalearner.com/ai-models/foundation-models/MPT 


MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。


MPT-7B简介

MPT全称是MosaicML Pretrained Transformer,是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是:

  • 有商用许可
  • 基于大量的数据训练
  • 目标是解决长输入(最高支持65K的输入,84K的处理)
  • 训练与推理速度的优化
  • 高效的开源训练代码

从这些特点看,MPT真的是一个很优秀的开源大模型,且官方宣称它的评测结果与LLaMA-7B差不多。


MPT-7B的版本

目前,MPT-7B包含四个版本:分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下:

  1. MPT-7B Base:67亿参数的decoder-style模型。基于1万亿tokens的文本和代码数据训练,数据集由MosaicML小组收集。该模型授权商用。
  2. MPT-7B-StoryWriter-65k+:这个模型的目的是用来读取和生成超长内容的,它是基于MPT-7B微调的,从books3数据集中的一个虚构子集训练的。在推断时,由于ALiBi的存在,MPT-7B-StoryWriter-65k+可以对超出65k个标记进行推断。官方已经在单个A100-80GB GPU节点上演示了长达84k标记的生成。该模型授权商用。
  3. MPT-7B-Instruct:MPT-7B-Instruct是一个短格式指令跟踪模型,通过在MosaicML发布的数据集上微调MPT-7B而构建,该数据集源自于Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集。该模型授权商用。
  4. MPT-7B-Chat:MPT-7B-Chat是一个用于生成对话的聊天机器人模型。通过在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct数据集上微调MPT-7B构建而成。不授权商用

上述四个模型总结如下:

模型名称特点是否可商用模型链接
MPT-7B BaseMPT基础模型,基于1万亿tokens数据集训练授权商用https://huggingface.co/mosaicml/mpt-7b
MPT-7B-StoryWriter-65k+基于MPT-7B进一步微调得到,针对长输入场景,最多可以生成65k+的长内容授权商用https://huggingface.co/mosaicml/mpt-7b-storywriter
MPT-7B-Instruct指令跟踪模型,基于MPT-7B Base在指令数据集微调得到授权商用https://huggingface.co/mosaicml/mpt-7b-instruct
MPT-7B-Chat一个用于生成对话的聊天机器人模型不可以商用https://huggingface.co/mosaicml/mpt-7b-chat



MPT-7B模型和其它开源模型的对比

官方放出了不同模型在不同任务上的对比结果




非常清楚。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

MPT 7B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

MPT 7B相关的任务
问答系统

问答系统

Question Answering

35个资源