实时更新

登录

40 海外事件 2026-05-30 19:19

小米MiMo首次公开模型推理系统全链路优化技术细节

人工智能人工智能大模型

【小米MiMo首次公开模型推理系统全链路优化技术细节】小米5月30日正式公开 MiMo-V2.5 系列模型的推理系统全链路优化方案。团队围绕 Hybrid SWA + MoE + 多模态的复合架构，系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略与 Prefill/Decode 链路的完整推理栈，KVCache 存储压缩至同级方案的约 1/7，在长序列场景下推理成本大幅下降——这是本次降价的核心技术基础。5月27日，MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%，不区分输入长度。

相关股票

15 只 · 按关联度排序

海

海光信息 688041 国产替代

92%

加载行情

国产CPU/GPU龙头，已与365款主流大模型完成全面适配，覆盖从十亿级端侧推理到千亿级模型训练的全场景需求（2025年报）。MiMo推理成本下降99%遵循杰文斯悖论将驱动推理需求爆发，海光作为国产推理芯片核心供应商直接受益。

沐

沐曦股份-U 688802 国产替代

88%

加载行情

国产全栈GPU领军，已成功支持MoE大模型、类脑大模型训练推理（2025年报）；曦思N系列面向云端推理场景，训推一体GPU板卡收入占比97.5%。MiMo的Hybrid SWA+MoE架构印证推理侧效率革命，沐曦推理GPU产品直接受益。

澜

澜起科技 688008 供应链

87%

加载行情

全球内存接口芯片龙头，CXL技术支持GPU高效协作提升AI推理速度（2025年报）；推理需求增长直接拉动PCIe/CXL互连芯片需求。5日主力净流入2.55亿元，资金已提前布局推理基础设施扩容逻辑。

佰

佰维存储 688525 供应链

85%

加载行情

半导体存储器龙头，CXL 2.0 DRAM模组及HBM产品直指AI推理核心需求；年报明确指出AI推理核心矛盾正从单点算力转向系统级带宽与能效。KVCache优化叠加推理总需求爆发，高端存储用量结构性增长。

中

中科曙光 603019 供应链

85%

加载行情

核心信息基础设施龙头，高性能AI训推一体机通过芯片+算法+整机全栈方案降低AI部署门槛与运营成本（2026年2月再融资公告）。推理成本大幅下降将推动大模型一站式部署需求，曙光训推平台直接受益。

景

景嘉微 300474 国产替代

83%

加载行情

国内首家国产化GPU产业化企业；子公司AI SoC芯片CH37系列提供64TOPS@INT8算力，支持混合精度计算与多模态感知推理（2025年12月公告）。MiMo技术路线验证了端侧推理优化的可行性，景嘉微端侧推理芯片直接受益。

萤

萤石网络 688475 相关概念

82%

加载行情

年报明确采用MoE（混合专家模型）架构的蓝海大模型2.0（2025年报），与MiMo-V2.5的Hybrid SWA+MoE+多模态架构直接技术对标。多模态AI应用随推理成本下降99%加速落地，萤石云+AI双核驱动的产品生态将受益。

摩

摩尔线程-U 688795 国产替代

82%

加载行情

国产全功能GPU领军，自研分布式推理引擎支持超大规模大语言模型推理，已成功支持MoE大模型（招股说明书）。AI智算集群产品收入占比79%直接服务于推理需求，MiMo推理效率革命将催化国产推理芯片需求。

全

全志科技 300458 生态系统

78%

加载行情

智能应用处理器SoC龙头，具备小米概念股标签；端侧AI深度融合轻量化大模型部署，推动实时多模态交互在低功耗场景落地（2025年报）。MiMo推动推理成本下降将加速端侧AI芯片渗透率提升。

芯

芯原股份 688521 生态系统

78%

加载行情

国内半导体IP授权龙头，GPGPU-AI IP高效支持大语言模型推理、多模态感知及实时决策（2025年报）；IP已被全球多家AI高性能计算客户采用。推理成本下降将推动更多AI芯片设计需求，利好其IP授权商业模式。

视

视源股份 002841 相关概念

76%

加载行情

具备小米概念股标签；自研端侧大模型推理引擎在存储占用与时延优于行业方案（2025年报），已实现希沃教学大模型和MAXHUB领效智会大模型在端侧高效部署。MiMo技术路径验证了端侧推理降本的可行性。

优

优刻得-W 688158 生态系统

76%

加载行情

中立云计算服务商，联合国产芯片构建智算集群，提供覆盖模型训练到推理部署的全场景服务（2025年报）。推理成本下降99%将催化更多企业部署AI应用，直接拉动其GPU算力云服务需求。

星

星环科技-U 688031 生态系统

75%

加载行情

AI基础设施核心服务商，年报明确致力于有效降低用户模型推理成本、提升推理效率。提供从语料处理到知识库建设的全链路工具链。推理成本下降将加速企业级大模型落地，直接利好其AI平台业务。

龙

龙迅股份 688486 供应链

73%

加载行情

高速信号传输芯片设计公司，AI服务器互连芯片支撑大模型推理中的高速数据传输（2025年报）。推理需求增长带动服务器集群规模扩张，其高速互连芯片作为推理基础设施的关键元件直接受益。

首

首都在线 300846 生态系统

73%

加载行情

GPU算力云服务商，大模型及AIGC收入占比21.1%（2025年报）；GPU算力升级降低推理延迟，构建算力供给-模型优化-场景落地链条。推理成本下降将直接扩大其下游客户对推理算力的采购规模。

本产品所有分析内容均由 AI 与数据系统自动生成，仅供信息参考，不构成任何投资建议。

分享图片

二维码已放在图片底部，复制后可直接发送给好友。

NR 新闻雷达 · 事件分享

40 海外事件 2026-05-30 19:19