Mi

Mixtral-8×22B-MoE

基础大模型

Mixtral-8×22B-MoE

发布时间: 2024-04-17

模型参数(Parameters)
1410.0
最高上下文长度(Context Length)
64K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

64K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2024-04-17

模型预文件大小

262GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Mixtral-8×22B-MoE模型在各大评测榜单的评分

发布机构

模型介绍

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型,因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才,Mixtral-8×7B-MoE的继任者出现,MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

目前该模型依然是以磁力链接让大家下载,没有提供任何新的消息,不过根据磁链文件信息,有几个简单的信息:

  1. Mixtral-8×22B-MoE依然是8个专家组成的混合专家大模型;
  2. 每个专家参数规模220亿,是原来70亿参数的3倍,因此总的参数量达到了1760亿!
  3. 如果依然是每次激活2个专家,这意味着每次推理的参数规模是440亿,比此前120亿参数规模大幅增加,有理由相信模型能力更强!
  4. Mixtral-8×7B-MoE模型的输入是32K,而这个模型的配置文件显示,上下文输入达到了64K!上下文长度翻倍!
  5. 根据这个参数估计,Mixtral-8×22B-MoE模型推理半精度的显存需要350GB!成本非常高!但是按照下载链接的物理文件达到262GB的话,应该是不到300G显存即可!

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat