
5月27日,MiniMax在推特上发了条预告:
"M2系列到头了,M3要来了。"
配了三个标签:#MSA #OpenSource #M3。工程负责人补了一句:"Tech blog coming soon. And M3 :)"
就这么简短的一条,37万阅读,2000多赞。
圈子里的反应是:嗅到了味道。
MiniMax流出来的基准测试显示,M3对比M2的提升幅度:
什么概念?
以前处理一篇超长文档,可能要等好几秒才能出结果。现在几乎是瞬间。
这不是调调参数能搞出来的。这是架构级的变化。

大白话解释:传统大模型处理长文本,是把所有内容一起算,越长越慢。就像读书的时候老师让你把整本书从头到尾每个字都精读。
MSA的思路是:先快速扫一遍,找出最重要的段落,然后重点读这些地方。 其他的略过。速度快了,但该抓的重点没丢。
社区技术博主eliebakouch有句话传得很广,12万阅读、696赞:
they rebuilt it from scratch."
具体来说,MSA分两步:第一步用轻量级的索引机制快速扫描全文,选出最重要的块;第二步只对选出的块做精确的注意力计算。关键区别——它在真实数据上做注意力,不是在压缩后的近似值上做,信息没有损失。
| 真实KV数据 |
社区评价说得很直接:"比DeepSeek的方案更干净。" 另一条高赞评论说:"真实KV注意力保留了质量——这才是正确的取舍。"
M2系列用的是全注意力——不是稀疏的,是把所有内容都算一遍。M2的229.9亿参数里每次推理只激活98亿,采用MoE架构,但注意力部分偏偏选了效率最低的全量计算。
MiniMax在M2技术论文里解释了原因:
full attention quality in production settings."
现在MSA被认为可以上线了,说明质量关过了,才放出来拼效率。这种"先质量后效率"的工程哲学,跟很多公司"先堆参数再调优"的思路完全不同。
MiniMax这次是反过来的:先告诉你能跑,再告诉你跑得快。
大模型的经济学可能要被改写了。

MiniMax今年1月在港交所上市,发行价165港元,首日涨了109%。到5月底,市值2625亿港元,超过快手。
上市才4个月,又启动了A股上市辅导,速度极快。
财务数据:
• 2025年营收7900万美元,同比+159%
• 毛利率从12%提升到25%
• 全球用户约3亿,企业客户突破100万
• ARR最近半年翻倍,最新超过3亿美元


5月28日,他出现在国新办记者见面会上。一个AI公司创始人站上那个平台,信号很清楚:MiniMax已被列入"国家队"视野。
M3不是孤立发布,MiniMax正在搭一个完整的AI平台:一个订阅解锁全部模型(文本、音乐、视频、语音),还有Agent Teams、Mavis个人AI助手。M3将随模型一起开源。
GPT-6在安全对齐、Gemini 3.5在路上、DeepSeek V4.1下月发、Kimi K3也在排队。M3有几个独特的卡位:
第一,开源。 在闭源为主的市场里,一个万亿参数级别的开源模型冲击力不小。
第二,长上下文。 百万Token处理+15.6倍加速,在长文档分析、代码库理解、多轮Agent对话等场景是实打实的优势。
第三,价格。 M2.7的API价格已经做到每百万Token 0.22美元,全球性价比最高的之一。如果M3延续这个策略,行业价格战会更激烈。
"先质量后效率"这套哲学值得认可。 M2阶段愿意慢下来守质量,再在M3阶段把效率追上,这种纪律性在行业里不多见。很多公司为了抢首发,质量没到位就上新技术,用户用起来一堆问题。
万亿参数+稀疏注意力,如果真成了,会改变大模型的成本曲线。 推理成本下降,AI能用到更多场景,对整个行业是好事。
开源是最大的变量。 如果M3真的以宽松协议开源,对开源生态的冲击巨大。对开发者也是利好——不用非得付钱才能用顶级模型。
风险也有。多模态能力是社区反复提到的痛点。 如果M3在这方面没有显著提升,在需要视觉、音频理解的应用场景里,还是会被Claude和Gemini压着打。
M3这次瞄的方向挺实在的——长上下文、高效率、开源、性价比。 这几个关键词加在一起,意思就是:让更多人用得上、用得起、用得爽。
5月底到6月初,M3就会正式发布。
值不值得认真看?