MiniMax-Text-01
发布时间: 2025-01-15 13
不支持
1000K tokens
8192 tokens
聊天大模型
2025-01-15
912GB
输入支持
输入不支持
输入不支持
输入不支持
输入不支持
输出支持
输出不支持
输出不支持
输出不支持
输出不支持
2025年1月15日,上海基础大模型企业MiniMax(上海稀宇科技有限公司)正式发布并开源了其全新的MiniMax-01系列模型,其中基础语言大模型MiniMax-Text-01的亮相,引发了人工智能领域的广泛关注。 这款模型的发布代表了MiniMax在AI技术上的重要进展,特别是其宣称的高达400万token的上下文处理能力和对线性注意力机制的规模化实现,为AI的未来发展提供了新的可能性。
模型特点:超长上下文与创新架构的探索性能表现:与顶尖模型对比,长文处理受关注评测对比 (基于目前公开信息)实测截图/使用情况 (信息有限)总结
MiniMax-Text-01最受关注的特点之一是其宣称的高达4560亿的参数总量,以及每次激活459亿参数的机制。 更为突出的是,该模型据称能够高效处理长达400万token的上下文。 这一上下文长度远超当前业界主流模型,例如数倍于GPT-4o和Claude-3.5-Sonnet。 如果得以广泛验证和应用,如此大规模的上下文处理能力将为处理复杂任务、理解长篇文档以及构建具有持续记忆能力的AI Agent提供重要基础。
MiniMax-Text-01在模型架构上也进行了探索。据称,它较大规模地实现了线性注意力(Lightning Attention)机制,并结合了传统的SoftMax注意力和混合专家系统(MoE)技术。 具体而言,模型采用了混合注意力结构,例如在其80层网络架构中,大部分层采用线性注意力,少数层采用SoftMax注意力。 MiniMax表示,这种设计旨在优化长文本处理时的计算复杂度,从传统Transformer的平方级别向线性级别靠近,从而提升推理效率和处理长序列的能力。
根据MiniMax官方发布的信息,MiniMax-Text-01的综合性能据称可与一些海外顶尖模型(如GPT-4o和Claude-3.5-Sonnet)相媲美。 在多项主流的文本和多模态理解测评任务上,MiniMax-Text-01据称表现出与这些先进模型相当的水平。
特别是在长文本处理任务上,MiniMax-Text-01据称展现出一定优势。 官方资料显示,随着输入文本长度的增加,MiniMax-Text-01的性能衰减速度据称慢于部分其他模型。 这主要归功于其宣称的线性注意力机制和针对长序列处理的优化。
MiniMax表示,为实现这一目标,公司对训练和推理系统进行了深度重构,包括优化MoE的All-to-all通讯机制、提升长序列处理能力,以及在线性注意力的推理层面实现高效Kernel等。
关于MiniMax-Text-01的详尽、独立的第三方评测数据仍在积累中。根据MiniMax官方已发布的信息以及部分早期报道:
图1: MiniMax-Text-01 与其他顶尖模型在部分基准测试上的性能对比 (示意图,具体数据请参考官方发布)。
特性 | MiniMax-Text-01 (官方宣称) | GPT-4o (参考) | Claude-3.5-Sonnet (参考) | Google Gemini (参考) |
---|---|---|---|---|
上下文长度 | 高达400万 tokens | 约12.8万 tokens | 约20万 tokens | (不同版本有所差异) |
注意力机制 | 以线性注意力为主 | Transformer | Transformer | Transformer |
长文本性能 | 据称衰减较慢 | 良好 | 良好 | 良好 |
开源情况 | 已开源 | 闭源 | 闭源 | 部分开源/闭源 |
数据解读: MiniMax-Text-01在上下文长度方面的宣称参数非常引人注目,如果实际表现符合预期,将对其处理大规模信息场景的能力产生重要影响。 同时,线性注意力机制的规模化应用,若能有效平衡性能与效率,则可能为长文本处理带来成本效益。
由于模型发布时间不长,广泛的第三方实测截图和深入的用例分析尚待充实。MiniMax官方提及,其旗下AI产品(如海螺AI)已开始应用MiniMax-01系列模型。开发者可以通过MiniMax开放平台体验其API服务。
预计随着模型的开源和API的广泛应用,未来一段时间内将出现更多基于MiniMax-Text-01的实际应用反馈和用户评测。业界期待观察其在AI Agent、长文本摘要、知识问答、代码生成等领域的具体表现。
图2: MiniMax 开放平台API接入示意 (图片来源:MiniMax官方或相关报道截图)
MiniMax-Text-01的发布是2025年初AI领域值得关注的事件之一。其在超长上下文处理能力方面的宣称以及对线性注意力机制的规模化尝试,显示了其技术追求。 如果这些特性在实际应用中得到充分验证,可能为AI Agent等需要处理复杂、长程信息的应用场景提供新的解决方案。
模型的开源策略以及其宣称的API定价策略(例如,输入Token人民币1元/百万Token,输出Token 8元/百万Token),有望促进AI技术的进一步交流和创新应用的探索。
如何获取或使用:
MiniMax-Text-01的推出展现了其在AI领域的努力和技术方向。作为一款较新的大模型,其长期的实际性能、应用生态的构建以及市场竞争力仍有待时间的检验和业界的进一步评估。但其在超长上下文和线性注意力等方面的探索,为行业发展提供了一个观察点。
关注DataLearnerAI微信公众号,接受最新大模型资讯