-
友情链接:

在大模子推理限制抓续膨胀、长崎岖文与智能体任务成为主流的行业布景下,收集架构已成为制约AI算力遵循的中枢瓶颈。
2026年5月21日,智谱AI 谐和 驭驯收集、清华大学 追究告示,新一代 ZCube组网架构 已在 GLM‑5.1 coding 坐褥环境完成限制化落地——在 不更换GPU、不更动软件栈与应用逻辑 的前提下,终了:
🔼 推理浑沌陶冶 15% 💰 收集硬件成本削减 33% ⚡首Token时延申斥 40.6%
该本事效果最早于2025年9月在收集边界外洋顶会 ACM SIGCOMM 2025 公缔造表,被评价为"权臣改变行业对大模子收集架构的领略款式"。这次落地是ZCube架构初度从学术商议走向产业级部署,记号着智算基础范例追究进入 模子流量驱动、收集拓扑深度协同 的全新发展阶段。

📌 一、行业痛点:传统收集架组成为大模子推理的性能瓶颈
跟着大模子从对话交互向代码生成、长文本惩办、智能体本质等复杂场景演进,KV Cache跨节点传输不合称、长崎岖文高频通讯、Prefill‑Decode折柳部署 成为常态。传统以 ROFT(Rail‑Optimized Fat‑Tree)为代表的多层Clos架构,选拔 Spine‑Leaf 层级化堆叠缠绵,在万卡级集群中暴炫耀难以回避的结构性劣势。
❌传统ROFT架构三大中枢短板:
① 静态拓扑导致局部拥塞 固定链路分派易造成热门,出现"总带宽充裕、局部常常防止"的矛盾表象,激勉 PFC 反压与流量冲突,胜利拉低举座推理遵循。
② 硬件成本居高不下 多层交换机与光模块冗余树立,大幅陶冶数据中心本钱支拨,限制越大成本浮滥越昭着。
③ 扩展能力受限 层级化缠绵在超大限制集群中链路复杂度指数级飞腾,难以高效支抓数万张GPU的线性扩展。
这些问题胜利导致 GPU算力无法充分开释、推理时延波动大、硬件插足产出比偏低,成为制约大模子生意化落地的关键断绝。
📌 二、ZCube架构中枢创新:扁平化拓扑从根源排斥拥塞
ZCube架构透顶冲突传统Clos架构的层级化想维,以 十足扁平化二部图互联 为中枢,重构大模子推理集群的收集通讯体系,终了 流量无防止、硬件极简、扩展无上限 三大本事突破。
🧱 1. 中枢缠绵旨趣
🔸取消Spine层交换机 摈弃多层堆叠,选拔两组Leaf交换机胜利构建扁平收集,大幅减少转发层级与硬件数目。
🔸二部图最优旅途 确保恣意GPU之间存在 独享最短旅途,从拓扑结构上阻绝流量冲突,2026美加墨世界杯中国认证平台终了全局负载平衡。
乐鱼体育官方网站🔸双端口网卡搀杂接入 诱骗单轨/多轨搀杂接入机制,适配大模子推理的非对称流量特征,陶冶链路期骗率。
🔸智能路由战略 基于模子通讯模式动态调理,保险长崎岖文、KV Cache同步等关键任务的低时延传输。
📊 2. ZCube vs 传统ROFT架构关键对比
对比维度传统ROFT架构ZCube架构中枢上风收集拓扑Spine‑Leaf多层堆叠十足扁平化二部图无层级转发,申斥时延流量调理静态分派,易拥塞动态最优旅途,无冲突全局负载平衡,排斥热门硬件组成需多层交换机+光模块取消Spine层,硬件减半成本申斥33%扩展能力千卡级瓶颈昭着支抓数十万GPU线性扩展适配超大限制集群推感性能易受反压影响,浑沌波动领路高浑沌,低时延浑沌+15%,时延‑40.6%

📌 三、坐褥环境实测数据:性能与成本双丰充
ZCube架构已在智谱 GLM‑5.1 coding 线上 千卡坐褥集群 领路启动超两周,Z6尊龙凯时世界杯推荐官网系数方针均通过严苛业务考证:
🔼推理浑沌 GPU平均推理浑沌陶冶 15%,同等硬件条目下每秒可多反馈15%的API恳求,权臣陶冶并发承载能力。
⚡反馈时延 首Token时延(TTFT P99)申斥 40.6%,大幅减少用户恭候时代,岑岭时段作事领路性权臣增强。
💰硬件成本 交换机与光模块本钱支拨减少 33%,硬件插足胜利削减三分之一,大限制部署经济效益隆起。
🔄兼容性 GPU、软件栈、应用 十足不变,无需代码纠正即可平滑升级,保护现存算力金钱,申斥移动风险。
实测终端解释,ZCube架构通过 收集拓扑与大模子通讯特征深度耦合,终泄漏 不增硬件、不降性能、大幅降本 的产业级方针,为MaaS作事商提供了可复制的优化决议。
📌 四、工程落地突破:自动化部署保险闲散升级
超大限制收集架构纠正濒临 布线复杂、路由战略重构、业务零中断 等多重挑战。驭驯收集团队依托自主研发的 自动化截止与校验器用链,完成三大关键工程突破:
🔧自动化布线策划 快速生成最优物理相连决议,申斥部署周期,申斥东谈主工特别。
🔀路由战略一键切换 平滑替换原有收集规则,业务无感知升级,幸免作事中断。
📡全链路及时监控 对流量、带宽、时延等方针抓续校验,确保集群领路启动。
这次落地考证了ZCube架构的 工程可行性与大限制兼容性,可快速推论至千般智算中心与大模子推理集群。
📌 五、行业价值:引颈智算基础范例新范式
ZCube架构的得胜落地,不仅是智谱AI在AI基础范例边界的病笃突破,更对巨匠大模子产业产生深切影响:
算力遵循翻新 通过收集架构创新开释存量硬件潜能,同等算力产出陶冶15%,激动AI算力从拼硬件向拼架构转型。
成本结构优化收集硬件成本直降三分之一,大幅申斥大模子推理与MaaS作事的准初学槛,加快普惠AI落地。
本事门道引颈 解释 收集拓扑、通讯库、调理战略深度协同 是下一代智算中心的中枢场地,为行业提供全新本事旅途。
外洋竞争力陶冶 中国团队原创收集架构当先终了产业落地,在超大限制AI基础范例边界达到外洋逾越水平。
📌 六、转头
ZCube架构以 扁平化无拥塞拓扑 为中枢,在 GLM‑5.1 coding 坐褥环境中考证了 推理浑沌+15%、硬件成本‑33%、首Token时延‑40.6% 的超卓性能,破解了传统收集架构制约大模子遵循的行业清贫。
动作首个从顶会商议走向限制化落地的大模子专用收集架构,ZCube从头界说了智算基础范例的缠绵理念,激动行业从 通用互联 迈向 模子流量驱动的系统协同。
已往,跟着ZCube在更多大模子场景与智算中心的普及,将抓续陶冶AI算力遵循、申斥产业成本Z6尊龙凯时世界杯推荐官网,为大模子本事的深度生意化提供坚实底层相沿。