• 最近访问:
发表于 2026-05-31 19:20:20 股吧网页版
降价99%依然收支平衡,小米披露全链路推理技术优化细节
来源:新京报 作者:陈维城

  新京报贝壳财经讯5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降价,最高降幅达99%,引发业界广泛关注。讨论焦点集中在一个问题上:降幅最高达99%,技术上如何实现?

  5月30日,小米MiMo大模型团队在官方技术博客首次完整公开降价背后的技术路径。MiMo-V2.5-Pro是一个万亿参数MoE模型,采用Hybrid SWA架构:70层中60层仅计算局部窗口注意力,10层保留全局视野。理论上,这种设计能将KVCache存储和计算量压至Full Attention的1/7。

  “理论上的架构优势,并不会天然转化为真实线上系统的效率优势。”MiMo团队在技术博客中指出,在生产环境中,分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战,会将理论收益大幅削减。

  五项突破分别作用于推理链路的不同环节,存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间,被GCache用于扩大缓存容量;更大的缓存容量提高了命中率;更高的命中率减少了Prefill重算量;Prefill加速又为Decode腾出了更多调度余量。

  MiMo团队介绍,整条推理链路的成本结构被系统性地改变,这也是降价99%依然能维持收支平衡的技术底气。

  MiMo-V2.5系列模型降价消息发布后,全球开发者社区迅速被点燃。在海外技术论坛和社交平台上,围绕“降价99%为什么还不亏”的讨论热度持续攀升,大量开发者自发分析 MiMo的推理架构和成本结构。

  不少开发者惊叹“优质模型的成本正在以惊人的速度下降,智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快,“中国AI模型比美国AI泡沫模型便宜90%到95%,不仅价格低廉、速度快,并且对于大多数现实世界用例来说足够实用,AI泡沫未来可能被成本曲线崩塌所扼杀。”

  在全球知名API调用平台OpenRouter上,Xiaomi MiMo-V2.5系列大模型调用量在迅速攀升,截至5月30日,MiMo-V2.5跻身日榜第三、周榜第十,MiMo-V2.5-Pro跻身日榜第七、周榜第八。

  此次技术博客的发布,也是小米MiMo对近期外界质疑的一次正面回应,不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户,同时已将这次优化的技术细节以 PR 形式回馈 SGLang 开源社区,希望尽早让工程优化不再成为门槛,使这类兼具强度与效率的复合架构得到更广泛的探索与应用。

  除了降价和开源,MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官:总申请人数超过54万人,覆盖科研学术、制造工业等行业,累计发放100万亿免费Token,折合人民币超6500万元。

  同期启动的“Agent生态共建计划”面向Agent框架团队提供Token扶持,首批13家合作伙伴名单已公布,小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开,更在于生态共建。”小米MiMo团队表示。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500