40 海外事件

小米MiMo首次公开模型推理系统全链路优化技术细节

人工智能 人工智能大模型
【小米MiMo首次公开模型推理系统全链路优化技术细节】小米5月30日正式公开 MiMo-V2.5 系列模型的推理系统全链路优化方案。团队围绕 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略与 Prefill/Decode 链路的完整推理栈,KVCache 存储压缩至同级方案的约 1/7,在长序列场景下推理成本大幅下降——这是本次降价的核心技术基础。5月27日,MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%,不区分输入长度。

相关股票

15 只 · 按关联度排序
92%
加载行情
国产CPU/GPU龙头,已与365款主流大模型完成全面适配,覆盖从十亿级端侧推理到千亿级模型训练的全场景需求(2025年报)。MiMo推理成本下降99%遵循杰文斯悖论将驱动推理需求爆发,海光作为国产推理芯片核心供应商直接受益。
88%
加载行情
国产全栈GPU领军,已成功支持MoE大模型、类脑大模型训练推理(2025年报);曦思N系列面向云端推理场景,训推一体GPU板卡收入占比97.5%。MiMo的Hybrid SWA+MoE架构印证推理侧效率革命,沐曦推理GPU产品直接受益。
87%
加载行情
全球内存接口芯片龙头,CXL技术支持GPU高效协作提升AI推理速度(2025年报);推理需求增长直接拉动PCIe/CXL互连芯片需求。5日主力净流入2.55亿元,资金已提前布局推理基础设施扩容逻辑。
85%
加载行情
半导体存储器龙头,CXL 2.0 DRAM模组及HBM产品直指AI推理核心需求;年报明确指出AI推理核心矛盾正从单点算力转向系统级带宽与能效。KVCache优化叠加推理总需求爆发,高端存储用量结构性增长。
85%
加载行情
核心信息基础设施龙头,高性能AI训推一体机通过芯片+算法+整机全栈方案降低AI部署门槛与运营成本(2026年2月再融资公告)。推理成本大幅下降将推动大模型一站式部署需求,曙光训推平台直接受益。
83%
加载行情
国内首家国产化GPU产业化企业;子公司AI SoC芯片CH37系列提供64TOPS@INT8算力,支持混合精度计算与多模态感知推理(2025年12月公告)。MiMo技术路线验证了端侧推理优化的可行性,景嘉微端侧推理芯片直接受益。
82%
加载行情
年报明确采用MoE(混合专家模型)架构的蓝海大模型2.0(2025年报),与MiMo-V2.5的Hybrid SWA+MoE+多模态架构直接技术对标。多模态AI应用随推理成本下降99%加速落地,萤石云+AI双核驱动的产品生态将受益。
82%
加载行情
国产全功能GPU领军,自研分布式推理引擎支持超大规模大语言模型推理,已成功支持MoE大模型(招股说明书)。AI智算集群产品收入占比79%直接服务于推理需求,MiMo推理效率革命将催化国产推理芯片需求。
78%
加载行情
智能应用处理器SoC龙头,具备小米概念股标签;端侧AI深度融合轻量化大模型部署,推动实时多模态交互在低功耗场景落地(2025年报)。MiMo推动推理成本下降将加速端侧AI芯片渗透率提升。
78%
加载行情
国内半导体IP授权龙头,GPGPU-AI IP高效支持大语言模型推理、多模态感知及实时决策(2025年报);IP已被全球多家AI高性能计算客户采用。推理成本下降将推动更多AI芯片设计需求,利好其IP授权商业模式。
76%
加载行情
具备小米概念股标签;自研端侧大模型推理引擎在存储占用与时延优于行业方案(2025年报),已实现希沃教学大模型和MAXHUB领效智会大模型在端侧高效部署。MiMo技术路径验证了端侧推理降本的可行性。
76%
加载行情
中立云计算服务商,联合国产芯片构建智算集群,提供覆盖模型训练到推理部署的全场景服务(2025年报)。推理成本下降99%将催化更多企业部署AI应用,直接拉动其GPU算力云服务需求。
75%
加载行情
AI基础设施核心服务商,年报明确致力于有效降低用户模型推理成本、提升推理效率。提供从语料处理到知识库建设的全链路工具链。推理成本下降将加速企业级大模型落地,直接利好其AI平台业务。
73%
加载行情
高速信号传输芯片设计公司,AI服务器互连芯片支撑大模型推理中的高速数据传输(2025年报)。推理需求增长带动服务器集群规模扩张,其高速互连芯片作为推理基础设施的关键元件直接受益。
73%
加载行情
GPU算力云服务商,大模型及AIGC收入占比21.1%(2025年报);GPU算力升级降低推理延迟,构建算力供给-模型优化-场景落地链条。推理成本下降将直接扩大其下游客户对推理算力的采购规模。