MiniMax M3 要来了：为什么这次值得认真看

最近，中国AI圈有个不太起眼的动作，但认真看的话，挺有意思的。

5月27日，MiniMax在推特上发了条预告：
"M2系列到头了，M3要来了。"

配了三个标签：#MSA #OpenSource #M3。工程负责人补了一句："Tech blog coming soon. And M3 :)"
就这么简短的一条，37万阅读，2000多赞。

圈子里的反应是：嗅到了味道。

一、这次不一样在哪

先说数据。

MiniMax流出来的基准测试显示，M3对比M2的提升幅度：

Prefill速度	提升9.7倍
Decoding速度（100万token上下文）	提升15.6倍
100万token任务延迟	从1秒降到0.06秒

什么概念？

以前处理一篇超长文档，可能要等好几秒才能出结果。现在几乎是瞬间。

这不是调调参数能搞出来的。这是架构级的变化。

二、他们做了什么

M3的核心创新叫MSA（MiniMax Sparse Attention），翻译过来就是"稀疏注意力"。

大白话解释：传统大模型处理长文本，是把所有内容一起算，越长越慢。就像读书的时候老师让你把整本书从头到尾每个字都精读。

MSA的思路是：先快速扫一遍，找出最重要的段落，然后重点读这些地方。 其他的略过。速度快了，但该抓的重点没丢。

社区技术博主eliebakouch有句话传得很广，12万阅读、696赞：

"They didn't optimize attention,
they rebuilt it from scratch."

"他们没有优化注意力，他们重建了注意力。"

区别很大。行业里大多数做稀疏注意力的，是在现有架构上打补丁——加个掩码、压缩个维度、搞个滑动窗口。MiniMax是从零重新设计。

具体来说，MSA分两步：第一步用轻量级的索引机制快速扫描全文，选出最重要的块；第二步只对选出的块做精确的注意力计算。关键区别——它在真实数据上做注意力，不是在压缩后的近似值上做，信息没有损失。

三、跟DeepSeek的路线对比

说到稀疏注意力，不能不提DeepSeek。目前国内做这块最出名的就是这两家，但走的是完全不同的路线。

	DeepSeek V4	MiniMax M3
基础架构	MLA（多潜在注意力）	GQA（分组查询注意力）
选择粒度	block级	block级
注意力对象	压缩后的近似值	真实KV数据

关键差异在最后一行：DeepSeek在压缩过的数据上做选择，MiniMax在原始数据上选。就像在一张模糊的照片上找重点，不如直接看原图。

社区评价说得很直接："比DeepSeek的方案更干净。" 另一条高赞评论说："真实KV注意力保留了质量——这才是正确的取舍。"

四、为什么"先慢后快"是对的

有个细节很多人没注意到。

M2系列用的是全注意力——不是稀疏的，是把所有内容都算一遍。M2的229.9亿参数里每次推理只激活98亿，采用MoE架构，但注意力部分偏偏选了效率最低的全量计算。

MiniMax在M2技术论文里解释了原因：

"We found no variant that reliably matches
full attention quality in production settings."

"在生产环境中，我们没有找到任何稀疏注意力变体能可靠地匹配全注意力的质量。"

翻译过来就是：他们知道稀疏注意力效率高，但当时做出来质量会下降。所以M2阶段，故意选了慢的方式先把质量稳住。

现在MSA被认为可以上线了，说明质量关过了，才放出来拼效率。这种"先质量后效率"的工程哲学，跟很多公司"先堆参数再调优"的思路完全不同。

MiniMax这次是反过来的：先告诉你能跑，再告诉你跑得快。

五、M3的参数规模：可能是万亿级

关于M3的具体参数，官方还没公布。但市场上有个传闻：

"听说M3可能有1万亿参数。"

如果是真的，从M2的229.9亿到1万亿，翻了4倍多。但关键不是这个数字，而是：配合MSA的15.6倍加速，万亿参数模型的推理成本，可能跟200B参数模型差不多。

大模型的经济学可能要被改写了。

六、商业化跑得怎么样

技术说完了，看看商业化。

MiniMax今年1月在港交所上市，发行价165港元，首日涨了109%。到5月底，市值2625亿港元，超过快手。
上市才4个月，又启动了A股上市辅导，速度极快。
财务数据：
• 2025年营收7900万美元，同比+159%
• 毛利率从12%提升到25%
• 全球用户约3亿，企业客户突破100万
• ARR最近半年翻倍，最新超过3亿美元

创始人闫俊杰，37岁，中科院博士，2022年创立。团队平均年龄29岁，研发占比超70%。

5月28日，他出现在国新办记者见面会上。一个AI公司创始人站上那个平台，信号很清楚：MiniMax已被列入"国家队"视野。

M3不是孤立发布，MiniMax正在搭一个完整的AI平台：一个订阅解锁全部模型（文本、音乐、视频、语音），还有Agent Teams、Mavis个人AI助手。M3将随模型一起开源。

七、竞争格局：六月是硬仗

M3的发布时间窗口，正好赶上全球AI密集发布期。

GPT-6在安全对齐、Gemini 3.5在路上、DeepSeek V4.1下月发、Kimi K3也在排队。M3有几个独特的卡位：

第一，开源。 在闭源为主的市场里，一个万亿参数级别的开源模型冲击力不小。
第二，长上下文。 百万Token处理+15.6倍加速，在长文档分析、代码库理解、多轮Agent对话等场景是实打实的优势。
第三，价格。 M2.7的API价格已经做到每百万Token 0.22美元，全球性价比最高的之一。如果M3延续这个策略，行业价格战会更激烈。

八、我的判断

MSA是认真的技术突破。 不是噱头，有具体的数据和架构支撑。9.7倍和15.6倍的提升，不是调参能搞出来的，是从底层重建的东西。

"先质量后效率"这套哲学值得认可。 M2阶段愿意慢下来守质量，再在M3阶段把效率追上，这种纪律性在行业里不多见。很多公司为了抢首发，质量没到位就上新技术，用户用起来一堆问题。

万亿参数+稀疏注意力，如果真成了，会改变大模型的成本曲线。 推理成本下降，AI能用到更多场景，对整个行业是好事。

开源是最大的变量。 如果M3真的以宽松协议开源，对开源生态的冲击巨大。对开发者也是利好——不用非得付钱才能用顶级模型。

风险也有。多模态能力是社区反复提到的痛点。 如果M3在这方面没有显著提升，在需要视觉、音频理解的应用场景里，还是会被Claude和Gemini压着打。

这两年AI圈有个趋势：技术进步越来越快，但真正落地到普通人能用的产品，其实还不够多。

M3这次瞄的方向挺实在的——长上下文、高效率、开源、性价比。 这几个关键词加在一起，意思就是：让更多人用得上、用得起、用得爽。

5月底到6月初，M3就会正式发布。

值不值得认真看？

什么是LLM、Workflow、Function Call、MCP、Skill、Agent、OpenClaw

MiniMax M3 要来了：为什么这次值得认真看

QWEN 3.6 35B 越狱版本地部署教程：6G显存就能跑的无审查最强开源模型

相关文章：