-
友情链接:

新浪科技讯 5月21日上昼音信,智谱当天晓喻落地部署了一项胜仗影响大模子推理服从的架构窜改ZCube:线上Infra实测数据标明,在同等GPU成就下,将收集带宽从200Gbps擢升至400Gbps,推理总朦拢擢升约10%,首响时延着落19%,这一限定跟着推理畛域扩大会越来越显赫。
豪门国际官网娱乐网通过将ZCube干与在千卡级GLM-5.1的一个线上推理集群中,在GPU型号、软件栈、业务代码一谈不变的前提下,仅升级收集架构,其与传统ROFT架构的对比GPU平均推理朦拢擢升15%以上,TTFT P99尾时延着落40.6%。
这意味着,相同的硬件干与下,Z6尊龙凯时2026世界杯推荐官网智谱GLM大模子当今每秒能多反映15%的API申请。关于职业上百万诞生者的大模子API平台而言,这胜仗对应更高的并发上限、更低的列队延长,以及在流量峰值下更清醒的用户体验。
老本端的变化相同清醒,ZCube 架构所需的交换机和光模块比原有有缱绻少三分之一。畛域越大,这个差值越可不雅。
更关节的是,这项升级的旯旮老本接近于零:GPU 不换,职业器不换,软件代码不改,隧谈是组网架构的替换。这意味着智谱已有的算力钞票在同等干与下开释了更高的产出,绝顶于存量钞票的服从重估。
据悉,ZCube时代被海外顶会ACM SIGCOMM 2025评价为“显赫改变通盘这个词行业对收集的明白时势”,这次在智谱的落地施行是ZCube架构初度在真的大畛域推理集群中完成坐褥考证。(文猛)
海量资讯、精确解读,尽在新浪财经APP
背负裁剪:江钰涵 Z6尊龙凯时2026世界杯推荐官网