当前位置:首页 > 人工智能 > 正文

MiniMax M3 要来了:为什么这次值得认真看

 最近,中国AI圈有个不太起眼的动作,但认真看的话,挺有意思的。

MiniMax M3 要来了:为什么这次值得认真看  第1张

  5月27日,MiniMax在推特上发了条预告:
"M2系列到头了,M3要来了。"

  配了三个标签:#MSA #OpenSource #M3。工程负责人补了一句:"Tech blog coming soon. And M3 :)"
  就这么简短的一条,37万阅读,2000多赞。

  圈子里的反应是:嗅到了味道。 

一、这次不一样在哪
 先说数据。

  MiniMax流出来的基准测试显示,M3对比M2的提升幅度:

Prefill速度
提升9.7倍
Decoding速度(100万token上下文)
提升15.6倍
100万token任务延迟
从1秒降到0.06秒

  什么概念?

  以前处理一篇超长文档,可能要等好几秒才能出结果。现在几乎是瞬间。

这不是调调参数能搞出来的。这是架构级的变化。
二、他们做了什么


M3的核心创新叫MSA(MiniMax Sparse Attention),翻译过来就是"稀疏注意力"。


MiniMax M3 要来了:为什么这次值得认真看  第2张

  大白话解释:传统大模型处理长文本,是把所有内容一起算,越长越慢。就像读书的时候老师让你把整本书从头到尾每个字都精读。

  MSA的思路是:先快速扫一遍,找出最重要的段落,然后重点读这些地方。 其他的略过。速度快了,但该抓的重点没丢。

  社区技术博主eliebakouch有句话传得很广,12万阅读、696赞: 
 "They didn't optimize attention,
they rebuilt it from scratch." 
"他们没有优化注意力,他们重建了注意力。"
 区别很大。行业里大多数做稀疏注意力的,是在现有架构上打补丁——加个掩码、压缩个维度、搞个滑动窗口。MiniMax是从零重新设计。

  具体来说,MSA分两步:第一步用轻量级的索引机制快速扫描全文,选出最重要的块;第二步只对选出的块做精确的注意力计算。关键区别——它在真实数据上做注意力,不是在压缩后的近似值上做,信息没有损失。 
三、跟DeepSeek的路线对比
 说到稀疏注意力,不能不提DeepSeek。目前国内做这块最出名的就是这两家,但走的是完全不同的路线。 

DeepSeek V4
MiniMax M3
基础架构
MLA(多潜在注意力)
GQA(分组查询注意力)
选择粒度
block级
block级
注意力对象
压缩后的近似值
真实KV数据
 关键差异在最后一行:DeepSeek在压缩过的数据上做选择,MiniMax在原始数据上选。就像在一张模糊的照片上找重点,不如直接看原图。

  社区评价说得很直接:"比DeepSeek的方案更干净。" 另一条高赞评论说:"真实KV注意力保留了质量——这才是正确的取舍。"
四、为什么"先慢后快"是对的
 有个细节很多人没注意到。

M2系列用的是全注意力——不是稀疏的,是把所有内容都算一遍。M2的229.9亿参数里每次推理只激活98亿,采用MoE架构,但注意力部分偏偏选了效率最低的全量计算。

  MiniMax在M2技术论文里解释了原因: 
 "We found no variant that reliably matches
full attention quality in production settings." 
"在生产环境中,我们没有找到任何稀疏注意力变体能可靠地匹配全注意力的质量。"
 翻译过来就是:他们知道稀疏注意力效率高,但当时做出来质量会下降。所以M2阶段,故意选了慢的方式先把质量稳住

  现在MSA被认为可以上线了,说明质量关过了,才放出来拼效率。这种"先质量后效率"的工程哲学,跟很多公司"先堆参数再调优"的思路完全不同。

MiniMax这次是反过来的:先告诉你能跑,再告诉你跑得快。
五、M3的参数规模:可能是万亿级
 关于M3的具体参数,官方还没公布。但市场上有个传闻:
"听说M3可能有1万亿参数。"
 如果是真的,从M2的229.9亿到1万亿,翻了4倍多。但关键不是这个数字,而是:配合MSA的15.6倍加速,万亿参数模型的推理成本,可能跟200B参数模型差不多。

  大模型的经济学可能要被改写了。 
六、商业化跑得怎么样
 技术说完了,看看商业化。

MiniMax M3 要来了:为什么这次值得认真看  第3张

  MiniMax今年1月在港交所上市,发行价165港元,首日涨了109%。到5月底,市值2625亿港元,超过快手。
  上市才4个月,又启动了A股上市辅导,速度极快。
  财务数据:
 • 2025年营收7900万美元,同比+159%
 • 毛利率从12%提升到25%
 • 全球用户约3亿,企业客户突破100万
 • ARR最近半年翻倍,最新超过3亿美元
MiniMax M3 要来了:为什么这次值得认真看  第4张
  
创始人闫俊杰,37岁,中科院博士,2022年创立。团队平均年龄29岁,研发占比超70%。

MiniMax M3 要来了:为什么这次值得认真看  第5张

  5月28日,他出现在国新办记者见面会上。一个AI公司创始人站上那个平台,信号很清楚:MiniMax已被列入"国家队"视野。

  M3不是孤立发布,MiniMax正在搭一个完整的AI平台:一个订阅解锁全部模型(文本、音乐、视频、语音),还有Agent Teams、Mavis个人AI助手。M3将随模型一起开源。 
七、竞争格局:六月是硬仗
 M3的发布时间窗口,正好赶上全球AI密集发布期。

  GPT-6在安全对齐、Gemini 3.5在路上、DeepSeek V4.1下月发、Kimi K3也在排队。M3有几个独特的卡位:

第一,开源。 在闭源为主的市场里,一个万亿参数级别的开源模型冲击力不小。
第二,长上下文。 百万Token处理+15.6倍加速,在长文档分析、代码库理解、多轮Agent对话等场景是实打实的优势。
第三,价格。 M2.7的API价格已经做到每百万Token 0.22美元,全球性价比最高的之一。如果M3延续这个策略,行业价格战会更激烈。 
八、我的判断
MSA是认真的技术突破。 不是噱头,有具体的数据和架构支撑。9.7倍和15.6倍的提升,不是调参能搞出来的,是从底层重建的东西。

"先质量后效率"这套哲学值得认可。 M2阶段愿意慢下来守质量,再在M3阶段把效率追上,这种纪律性在行业里不多见。很多公司为了抢首发,质量没到位就上新技术,用户用起来一堆问题。

万亿参数+稀疏注意力,如果真成了,会改变大模型的成本曲线。 推理成本下降,AI能用到更多场景,对整个行业是好事。

开源是最大的变量。 如果M3真的以宽松协议开源,对开源生态的冲击巨大。对开发者也是利好——不用非得付钱才能用顶级模型。

  风险也有。多模态能力是社区反复提到的痛点。 如果M3在这方面没有显著提升,在需要视觉、音频理解的应用场景里,还是会被Claude和Gemini压着打。 
 这两年AI圈有个趋势:技术进步越来越快,但真正落地到普通人能用的产品,其实还不够多。

  M3这次瞄的方向挺实在的——长上下文、高效率、开源、性价比。 这几个关键词加在一起,意思就是:让更多人用得上、用得起、用得爽。

  5月底到6月初,M3就会正式发布。

  值不值得认真看?


相关文章:

文章已关闭评论!