当前位置: 首页 » 行业资讯 » 算力/大数据»中国算力告别“木桶效应”:高端计算关键一环贯通,全链能力成型

中国算力告别“木桶效应”:高端计算关键一环贯通,全链能力成型

  46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2026-03-14   浏览次数:423
核心提示:在超大规模智算中心,网络不再是简单的连接管道,而是决定集群整体效能的“神经系统”。随着大模型训练迈入万卡时代,补齐高端网
在超大规模智算中心,网络不再是简单的连接管道,而是决定集群整体效能的“神经系统”。随着大模型训练迈入万卡时代,补齐高端网络互联短板,成为构建国产算力体系的重要一环。



AI大模型与大算力集群协同演进中,智算产业发展主线迎来一场深刻质变随着单卡算力堆叠成效边际递减计算系统中的木桶效应快速显现——任何一环短板都将导致整体计算效能断崖式下跌。面向全球化竞争舞台,构筑“金瓯无缺”的国产高端计算版图势在必行。

近日,中科曙光正式发布首款国产原生无损RDMA高速网络scaleFabric不仅一举补全国内高端网络互联短板,进一步完成“存--网”全链条布局,成为国内少数具备全栈技术自主能力的高端计算厂商,在体系完整度上构建起对标国际科技巨头的能力框架。 

补齐关键拼图:激活大规模计算集群效能

在超大规模智算中心,网络不再是简单的连接管道,而是决定集群整体效能的神经系统中科曙光高端计算总工程师解西国在发布会现场指出,当集群规模扩大时,通信开销呈指数级上升,如果网络存在丢包或时延太高,再强大的算力芯片也只能空转等待。

然而,长期以来,中国高端计算产业面临结构性矛盾虽然国产AI芯片进展迅速,高性能互联网络长期依赖进口,不仅成本高昂,更面临供应链断裂风险。而基于以太网的RoCE方案虽生态兼容性好,但在万卡规模下常受限于拥塞控制机制,难以实现真正的无损传输。

此次发布的曙光scaleFabric,正是为解决这一痛点而打造的关键拼图。据曙光工业计算方案总监姚浪介绍,scaleFabric并非对现有技术的修补,而是从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自主研发,真正填补了国内高速网络领域的空白

在工业仿真等典型应用场景中,计算规模、网络规模和数值规模巨大,且通信异常频繁,算力节点建需要进行高频的数据交换网络的性能直接决定仿真计算效能。

我们实现了端到端通信时延低0.9微秒,交换机转发时延仅260纳秒,单子网支持规模突破11.4万卡。姚浪强调,这一指标不仅对标国际顶尖水平,更在扩展性上实现了超越,使得构建超大规模集群无需复杂的跨子网拼接,不仅大幅降低系统复杂度,更进一步激活了大集群极致算力

存算网协同:释放1+1+1>3”的系统红利

在整个计算系统中,单一产品的强大固然重要,真正的护城河在于系统级的协同优化。这正是曙光区别于其他厂商的优势所在。

很多人理解中,智算/超算系统只要算力足够强,系统性能就一定高。大规模并行计算却并非如此通常一个计算任务的涉及三个关键环节计算、存储、网络。其中任何一个环节成为瓶颈,整个系统的效能都会下降。

算力的有效性,取决于存、算、网三者的深度耦合。姚浪在阐述曙光存算传一体化方案时表示,在传统架构中,存储、计算和网络往往由不同厂商提供,接口标准不一,调优难度极大。而曙光通过全栈自研,实现了三者之间的原生适配

数据显示,在并行计算中,采用scaleFabric的国产IB方案效率可达85%,而传统RoCE方案仅为65%并且,通过存算传耦合架构,曙光实现了IO性能最高20倍提升,GPU算力利用率提升30%,网络带宽提升2倍,延迟降低3倍,真正释放了“1+1+1>3”的系统红利。

这种协同效应在实际应用中得到了验证。中国科学院计算技术研究所研究员王展作为首批用户,分享了scaleFabric在科学智能领域的实践。

他指出,在分子动力学模拟等对通信极度敏感的场景中,scaleFabric在跨NUMA域延迟等关键指标上表现优异,部分数据甚至优于英伟达CX7曙光是国内基因与英伟达最像的企业,都是从科学计算起家,并且正在产品层全线对标国际巨头。王展评价道。

在大模型训练场景中,科大讯飞AI工程院智算基础设施架构师鲍中帅证实了这一点。他提到,面对高密度scaleX万卡超集群,scaleFabric提供了稳定的高速互联,解决了以太网在无损传输上的巨大挑战。

并且,曙光一直保持着开放的心态。科大讯飞不仅和曙光IB上合作,也在以太网上共同攻克流量控制难题这种全栈的协同创新能力是国产智算生态急需的。鲍中帅表示。

体系化突围:构建中国高端计算新底座

纵观全球,能够同时掌握高端计算、存储与网络核心技术,并实现规模化商用的厂商屈指可数。英伟达凭借“GPU+InfiniBand+CUDA生态构建了强大的壁垒,而曙光的存算网全链自主,则为中国高端计算产业提供了另一条可行的路径。

业内认为,scaleFabric的发布不仅仅填补了国内原生无损网络的空白,更意味着中国算力基础设施的建设模式正在从组装集成体系创新转型。在十五五规划即将开启之际,国家算力布局需要的不再是零散的硬件堆砌,而是具备自主可控、高效协同的系统级解决方案。

解西国在发布会上进一步展示了曙光在大规模计算集群智能运维方面的布局。面对十万卡级集群的运维挑战,曙光基于scaleFabric构建了包含自动化配置、主动压测、故障自愈、数字孪生等在内的六大核心能力,实现了从被动响应到主动感知的转变。我们提供的不是零散的网卡或交换机,而是一套一体化的高速网络服务体系。

值得注意的是,这一体系已经在国家超算互联网郑州核心节点部署验证,成功支撑起三套万卡级scaleX智算集群上线运行。其中,曙光依托在高性能计算、存储与网络领域的长期技术积累,构建出高效协同的完整算力底座能力,为大规模AI基础设施提供了系统级支撑。

这种体系化的能力,正契合了科学计算与人工智能融合的大趋势。根据王展提出科学智能第五范式愿景他认为AI正在成为继实验、理论、计算、数据密集型科学之后的第五种科研范式,而这一范式的落地,极度依赖底层算力设施无缝协同。

在这一点上,曙光正展现出类英伟达的战略对标能力。两者都不局限于单点硬件的售卖,而是致力于构建从芯片、互联到系统的全栈能力框架——不仅要有最快的“车”(算力),更要修好最宽的“路”(网络)和最大的“库”(存储)。

从单点突破到全链自主,曙光的高端计算棋局已然落定。在算力下半场的角逐中,这张由存、算、网共同编织的大网,正成为中国数字经济迈向高质量发展的关键支撑,也为全球科学智能新范式提供了坚实的中国底座。

 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]
 
展会更多+
视频更多+
点击排行
 
网站首页 | 网站地图 | 排名推广 | 广告服务 | 网站留言 | RSS订阅