
一、洞察:当算力告别“野蛮生长”
近期,华为正式开源 AI 容器技术 Flex:ai。
而就在一年前,英伟达以 7 亿美元收购 Run:ai,大举进军算力精细化管理领域。
当全球算力的两大巨头 - 英伟达与华为,不约而同地开始在“算力切分”与“统一调度”上重金押注,一个积极且明确的 AI 行业分水岭已经出现:
单纯靠“囤卡”堆性能的草莽阶段已经过去。
当下的竞争,不再是“谁有更多卡”,而是谁能把每张卡“用得更细”、“调得更准”和“管得更清”。
但对中国的企业而言,现实远比技术蓝图复杂。

真实的智算中心,是一场“多芯混战”
走进一家头部券商、大型央企或国家级超算中心,更为常见的是:
存量主力:依然是大量尚未淘汰、承载核心业务的 NVIDIA P100/T4/V100/A800;
国产新贵:近年来大规模部署的 华为昇腾 910B2/B3/B4;
百花齐放:更新的机架上,寒武纪、海光 DCU、昆仑芯、天数智芯等更多国产卡正在快速上线。
这种 “多代际、多厂商、多架构”并存的极度异构环境,才是中国 AI 基础设施的真实底色。
Flex:ai 的开放,是纵向生态的必然
Flex:ai 宣称兼容 NVIDIA GPU,这无疑是积极信号,它试图通过软件层的兼容,降低客户从 CUDA 生态迁移到昇腾生态的门槛。
但从产业规律看,任何由硬件厂商主导的调度平台,其重心天然向自家芯片倾斜。这并非缺陷,而是生态定位的必然结果:厂商平台的核心使命,是最大化自有硬件的护城河。
而那些非巨头系的国产芯片(如 寒武纪、天数、沐曦、燧原、摩尔线程等),在巨头生态中往往只能获得“有限”的支持。
然而,在众多算力厂商共存的当下,企业真正需要的,不是一个又一个“生态内的优化器”,而是一个不造芯片、不站队、只做算力管理的第三方平台:
它不关心底层是昇腾还是 NVIDIA,只关心资源是否被高效利用;
它不绑定任何厂商的驱动栈,而是通过抽象层让异构硬件协同工作;
它的核心 KPI 不是“卖了多少卡”,而是“企业的算力 ROI 提升了多少”。
这不仅是技术选择,更是供应链安全与运营效率的战略平衡。当硬件还在“战国七雄”时代,软件必须先行统一。
二、K8s是底座,调度器是“大脑”
Flex:ai 的发布,再次印证了 Kubernetes(K8s)作为 AI 基础设施底座 的不可动摇地位。
但这并不意味着原生 K8s 就能直接胜任 AI 算力管理。恰恰相反,原生 K8s 与 AI 负载之间存在天然“错配”:它生来为通用计算设计,而非为昂贵、稀缺、高吞吐的 GPU/NPU 优化。
这种“错配”,导致原生 K8s 在管理 AI 算力时存在两大核心瓶颈。
瓶颈一:K8s 的“整卡魔咒”
在标准 K8s 调度逻辑中,GPU 被视为“扩展资源”,只能按整卡分配。这意味着:
一个仅需 2GB 显存的 Jupyter Notebook 调试任务,会独占一张 80GB 的 A800;
一张昇腾 910B 无法同时服务多个小模型推理请求;
一旦任务启动,整张卡就被锁定,即使实际利用率不足 10%。
这种“一刀切”机制,是当前智算中心 分配率高(>90%)但是使用率低(<30%) 的根本原因。
瓶颈二:调度器“不懂 AI”
原生 K8s 调度器只关心“节点是否有空闲资源”,而 AI 任务对调度的要求远不止于此。一个真正“AI 原生”的调度器,必须具备:
拓扑感知:理解 NVLink/HCCS/XPULink 等互联拓扑,让多卡通信效率翻倍;
优先级感知:保障在线推理、实时 Agent 的 SLA,让离线训练自动让路;
资源感知:对低利用率资源进行超分复用,压榨闲置算力;
业务感知:将企业的组织架构、配额管理融入调度逻辑。
这些能力,原生 K8s 均无法提供,无法满足 AI 算力“像管理水电一样管理算力”的需求。
三、HAMi:异构调度的“中立”插件
在 Flex:ai 与 Run:ai 背后,另一条技术路径早已在开源社区悄然生长:HAMi(Heterogeneous AI Computing Virtualization Middleware)。
HAMi 起源于 2019 年第四范式的内部 GPU 虚拟化项目(k8s-vgpu-scheduler),2024 年正式捐赠给云原生计算基金会(CNCF),进入 Sandbox 孵化阶段。HAMi 自创建之初,目标就非常明确:在 Kubernetes 之上,构建一个不隶属于任何硬件厂商的异构设备管理中间件。
当智算中心同时运行 NVIDIA、昇腾、寒武纪、海光、昆仑芯等十余种芯片,企业面临一个现实困境:“硬件越多元,调度越分裂”。
自研调度系统成本高、周期长;采用某家大厂方案,又可能牺牲其他厂商硬件的调度潜力。
HAMi 给出了第三个选择:
开源中立:Apache 2.0 协议,由社区驱动,不为任何硬件厂商站台;
广泛兼容:目前已覆盖 NVIDIA、昇腾、寒武纪、海光、昆仑芯、天数智芯、沐曦、摩尔线程等主流芯片。
四、睿思智联:从开源社区到企业级 AI 应用平台

HAMi 证明了“中立调度”的技术可行性,但企业真正需要的,远不止于“能切分、能调度”。在 AI 应用日益复杂的今天,从大模型推理、RAG 系统,到 Autonomous Agent 编排,企业亟需一个 "让AI应用平稳运行的底座”。
作为 HAMi 的核心贡献者之一,睿思智联基于社区实践,已经打造了Rise 企业级平台:Rise VAST(底层虚拟化引擎)、Rise CAMP(中层算力调度平台)和 Rise ModelX(上层模型服务平台):
Rise VAST
底层算力虚拟化引擎,让异构 GPU/NPU实现任意比例切分、动态调度与故障自愈,将集群利用率从 30–50% 提升至 80% 以上,真正释放国产硬件潜力。
Rise CAMP
中层算力管理与运营平台,统一调度多厂商算力,提供智能策略、分钟级计量计费与全链路可观测性,让企业像管理云资源一样管理 AI 算力。
Rise ModelX
上层大模型服务平台,构建于 CAMP 之上,支持多推理引擎自动适配、Agent 运行时支撑与 Token 级计费,让大模型从“一次性产出”变为可计量、可服务、可运营的企业资产。
中立,是企业级平台的基石
这一切能力得以成立的前提,是睿思智联 坚定的厂商中立立场:
不绑定单一大厂生态,而是协同合作;
目标是“客户算力利用率提升了多少”、“AI 应用交付是否稳定”等业务价值的提升。
在硬件碎片化不可逆的今天,这种中立性,已从技术选择升维为企业 AI 基础设施的战略必需品。
睿思智联的定位从创立之初就很清晰,这一选择不是技术路线的权宜之计,而是对行业本质的深刻洞察:
开放协作:我们持续与各大芯片厂商深度合作,共同完善异构调度标准,确保底层技术的开放性与兼容性,并积极回馈给开源社区;
精细运营:将社区最佳实践转化为企业级产品,通过分钟级计量计费、多维度成本分摊、自动化资源回收,帮助企业建立算力使用运营体系;
业务赋能:我们的成功标准与客户业务成果直接挂钩,客户成功团队的KPI与客户算力利用率提升、AI应用交付效率、业务创新速度紧密关联,确保技术投入转化为真实业务价值。
价值不是口号,而是可量化的业务成果。在AI投入持续增长的今天,企业需要的不仅是技术工具,更是能带来明确投资回报的合作伙伴。睿思智联致力于成为这样的伙伴:
“让算力真正驱动业务创新,而非成为成本负担“。
五、结语:协同是多芯时代的最优解
当 Flex:ai 与 Run:ai 相继登场,行业共识已然清晰:AI 算力的下半场,属于精细化调度与高效运营。
但在中国“多芯混战”的现实下,单靠某一家厂商的调度方案,难以真正释放异构算力的全部潜力。无论是 NVIDIA、昇腾,还是寒武纪、海光、昆仑芯,每一块国产芯片都值得被平等调度、被精细使用、被高效协同。
这需要一个 “开放、中立、可扩展”的 AI 算力协同平台“,它不替代任何硬件,而是让所有硬件更好地协同工作;它不绑定任何生态,而是为所有生态提供统一接口。
睿思智联始终相信:开源是实现协同的最佳路径。我们呼吁更多芯片厂商、软件伙伴拥抱开源技术,共同完善异构调度标准,让国产芯片在统一平台上发挥更大价值。
未来,睿思智联将继续深耕 Rise 企业级平台,同时坚定回馈 HAMi 社区,推动“开源为基、商业为用”的双轮驱动模式。睿思智联的目标不是成为又一个调度插件,而是构建一个真正中立、自主可控、可扩展、可运营的 AI 算力协同底座 - 让每一份算力投入都能转化为业务创新,让AI应用稳定运行而不过度消耗资源,让技术团队专注创造而非运维救火。