当前位置: 首页 » 行业资讯 » 算力/大数据»推动“超智融合” 突破大模型“算力围城”

推动“超智融合” 突破大模型“算力围城”

  46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2026-04-12   浏览次数:85
核心提示:随着人工智能大模型发展,算力需求呈指数级增长,形成“算力围城”困境。近日,《中国网信》刊发全国政协委员、中国科学院计算技

随着人工智能大模型发展,算力需求呈指数级增长,形成“算力围城”困境。近日,《中国网信》刊发全国政协委员、中国科学院计算技术研究所研究员张云泉,九三学社中央科技专门委员会青年小组成员刘东屏联合署名文章,提出“超智融合”路径,即通过推动超级计算与人工智能计算深度融合,构建绿色高效算力基础设施,完善算力共享机制,建立跨区域协同创新生态,有效突破“算力围城”,为发展新质生产力提供支撑。

在新一轮科技革命和产业变革深入发展的背景下,人工智能正加快从技术突破迈向规模化应用新阶段。党的二十届四中全会通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出“突破基础理论和核心技术,强化算力、算法、数据等高效供给”。立足“十五五”开局,我国在数字经济、智能制造、新型工业化等领域对高效、稳定、可持续算力的需求持续增长,算力基础设施正成为支撑高质量发展的关键底座。

在此背景下,算力已成为与土地、资本、数据并列的关键生产要素,也催生了“算力围城”困境——高端算力供给不足制约创新发展,应用不够影响投入积极性。中国信息通信研究院发布的《2025综合算力指数》显示,截至2025年6月底,我国智能算力规模达788EFLOPS(每秒百亿亿次浮点运算)。然而,我国人工智能发展仍面临高端智算供给严重不足、基础工具链不完善、能源消耗高、核心技术受制于人等挑战。特别是在高端AI训练算力领域,供需矛盾尤为突出,预约周期长达数月。

“超智融合”为解决上述困境提供了新的思路与方法,通过构建更高效、更灵活、更普惠的新型算力体系,优化算力资源配置,实现降本增效,加速大模型与实体经济深度融合,为推动新型工业化进程和构建新质生产力提供强大支撑。

“超智融合”的概念内涵与理论框架

超智融合是指超级计算(高性能计算,HPC)与人工智能计算(AI Computing)的深度融合,通过整合两者的技术架构、计算范式、应用模式和服务体系,旨在形成一种算力供给更充沛、资源调度更智能、应用门槛更低的新型计算能力。核心特征包括计算架构、资源调度、生态体系和应用场景的全面融合。它不是简单的技术叠加,而是一种系统性创新,旨在打破传统超级计算和人工智能计算的边界,实现资源共享、技术互补和应用协同。

超智融合理论框架包含基础设施层资源调度层应用支撑层服务层四个层级

基础设施层涵盖计算、存储、网络和能源等物理资源;

资源调度层实现对异构计算资源的统一管理和智能调度;

应用支撑层提供面向不同计算场景的中间件、框架和库;

服务层面向终端用户提供算力服务和应用服务。


超智融合从三个维度突破算力围城困境:


一是供给侧融合超级计算和人工智能计算资源,扩大可用于大模型训练的高端算力总量。中国现有超级计算中心理论峰值算力超过1000PFLOPS(每秒千万亿次浮点运算),如能通过架构优化将其中20%~30%用于AI训练,相当于新增200~300PFLOPS智能算力,可支持百亿参数级模型的训练。


二是技术侧,促进超级计算和人工智能计算两个领域技术互通和创新溢出。超级计算领域的高效并行计算、大规模数据处理技术可提升AI训练效率,人工智能计算领域的新型芯片架构、自适应计算框架等创新也能反哺超级计算应用。例如,某研究机构CAE-AI融合平台,将传统有限元分析与神经网络预测结合,在汽车碰撞分析中使计算时间缩短80%,同时保持95%以上的精度。


三是应用侧,降低大模型开发和应用的技术门槛和成本,使更多企业和机构参与其中,推动大模型应用普及和深化。根据行业经验,中小企业使用共享智算平台的成本仅为自建的30%~40%,显著降低创新门槛。


国际上,美国超级计算机极光(Aurora)同时具备传统高性能计算和深度学习能力,采用中央处理器与AI加速器的异构架构,在设计阶段就考虑了超级计算与人工智能计算的双重需求。美国国家人工智能研究资源(NAIRR)计划采用中央协调、分步实施的治理模式,联邦政府出资与私营部门1:1配套,整合全美多个超级计算中心和云服务提供商的算力资源。欧盟通过欧洲高性能计算联合执行体(EuroHPC JU)整合区域算力资源,采取分层访问模式(智能化动态调整),例如,35%计算时间分配给欧盟科研项目、45%分配给参与国家、17%用于工业创新、3%用于紧急响应,这种模式确保了资源的高效利用和公平分配。


国内超智融合实践也取得积极进展。国家超级计算中心将部分计算资源转向AI训练和推理,探索面向大模型的专用计算集群。多地开始建设综合性算力中心,探索多元化资源共享和服务模式。这些实践为我国推进超智融合提供了宝贵经验。


 “超智融合”的关键技术路径与框架

推动超智融合需系统谋划技术路径,科学评估各路径的成熟度与战略价值以明确优先序列,推进计算架构融合与国产芯片适配以夯实算力底座,同时以绿色低碳与资源共享实现可持续发展。


(一)技术路径评估与优先序列


为科学推进超智融合建设,需对各技术路径的成熟度、战略价值及实施时间框架进行系统评估。异构计算架构、资源调度系统和液冷技术等路径具有较高技术成熟度和投资回报率,适合优先实施;而国产人工智能芯片适配和自主并行计算框架等路径虽面临较高技术风险,但战略价值突出,值得持续投入。


(二)计算架构融合与国产芯片适配


计算架构融合是超智融合的核心技术基础寒武纪MLUMachine Learning Unit,机器学习单元)架构在人工智能计算方面具有独特优势,海光CPU在通用计算性能方面表现出色,飞腾在ARM架构(精简指令集处理器架构)上构建了成熟的服务器级计算能力。通过构建寒武纪AI加速卡+海光CPU”等异构计算集群,可实现超级计算与人工智能计算的有机结合。


国产人工智能芯片适配优化需要从算子库(深度学习框架中实现基础运算的最小功能单元)优化编译优化框架适配工具链生态建设四个维度同步推进。国产芯片企业推出的加速库可显著提升性能,且在规模化部署方面已取得突破性进展,例如,百度昆仑芯第三代芯片可实现万卡级集群部署。虽然国产人工智能芯片适配已取得初步成效,但距离形成完整生态仍需持续努力。


(三)绿色低碳技术与资源共享机制创新


绿色低碳是超智融合的重要发展方向。研究显示,浸没式液冷技术可将电能使用效率(PUE)降至1.1~1.2,比传统风冷方式节能30%~40%。同时,通过算法优化、参数量化、模型剪枝等技术,可显著提高训练能效比。知识蒸馏(一种从大模型提取知识来训练小模型的方法)、增量学习(又称持续学习,允许模型通过对新数据进行持续学习而不是重头训练整个模型)等低资源消耗的训练方法也为大模型绿色发展提供了新思路。


在资源共享方面,建立跨中心、跨区域的统一算力资源管理系统是关键。通过构建算力资源可视化、标准化和流通化机制,开发能够预测工作负载、自适应调整资源分配的智能调度系统,可显著提高算力资源利用率。创新按需付费、资源租赁、能力交易等多元化服务模式,也将有效降低算力使用门槛,促进算力资源高效流通。



 “超智融合”的实践探索与创新模式

超智融合正推动算力基础设施从单一计算范式向多元智能范式演进,其创新实践已在区域算力枢纽与企业级平台两个层面展现出显著的效率提升与赋能价值。

(一)区域超级计算中心的转型实践


中国未来网络试验设施(FNTF)是区域算力融合的标志性实践。该设施于202512月正式启用,是我国首个信息通信领域国家重大科技基础设施。FNTF通过5.5万公里光纤连接40个城市的算力节点,构建了全球最大的分布式人工智能计算网络,实现了分布式算力池效率达单一数据中心的98%。在大模型训练场景中,百亿级参数模型的50万次迭代训练,每次迭代仅需约16秒,较普通网络环境每次迭代节省20秒以上,累计可缩短训练周期约115天。FNTF的实践表明,通过确定性光网络和智能调度技术,分散在不同区域的超算与智算资源可以被整合为高效协同的统一算力池,为东数西算工程提供关键技术支撑。


然而,区域算力融合仍面临显著挑战。2023年至2024年,我国宣布建设超过500个智算中心项目,但部分新建设施的算力利用率低至20%,大量资源处于闲置状态。国家发展改革委已设定2025年底全国数据中心利用率达到60%的目标。这一现实凸显了超智融合的紧迫性——单纯的算力堆叠无法转化为有效产出,唯有通过统一资源池管理、多维度负载调度和跨域协同机制,才能将分散的超算与智算资源转化为高效、可用的融合算力服务,真正释放算力基础设施的赋能价值。


(二)企业级算力融合的创新模式


企业级算力融合呈现多元化创新模式。在国内,上汽集团早在2018年就联合阿里云构建了我国首个生产级CAE仿真混合云平台(SSCC),日均承载500余项多学科仿真任务,仿真计算效率提升25%。在国际上,这一趋势同样显著:多家跨国车企将碰撞、流体等CAE仿真迁移至云端弹性架构后,仿真效率普遍提升10%~30%,计算成本降低20%~55%,部分企业碳排放最高降低达95%


华为云通过鲲鹏、昇腾等自研芯片,构建支持科学计算和AI训练的融合计算平台。其盘古大模型训练采用异构计算架构,不仅提高训练效率,还降低能耗,为企业级算力建设提供参考方案。阿里云通过飞天智算平台PAI灵骏智算服务,构建面向多场景的智能计算服务,在城市大脑等复杂应用中显著提升了系统整体性能和响应速度。


这些实践表明,超智融合不仅适用于大型超级计算中心,也为企业级算力升级提供了可行路径。通过资源整合、架构优化和服务创新,企业可以在有限投入下实现算力效能的最大化,支撑业务创新和数字化转型。


推动“超智融合”的政策建议

为推动超智融合健康有序发展,需构建涵盖顶层设计、投融资与共享机制、技术生态的协同政策体系,引导算力基础设施向高效、普惠、自主的创新方向演进。


(一)完善国家算力战略规划与标准体系


构建系统性的政策框架对推动超智融合至关重要。建议制定智能算力基础设施建设相关管理办法建立智算中心分级准入标准,按三高一快高功率密度、高训练效率、高算力性能、快速响应)要求,明确高端智算中心>10EFLOPS须具备万卡级分布式训练能力大型智算中心1~10EFLOPS须具备千卡级训练能力的技术指标。


同时,构建涵盖技术规范服务标准评估认证三个层次的超智融合标准体系在技术规范层面,制定异构计算架构接口标准、算力资源描述标准等;在服务标准层面,建立算力服务质量评价标准、服务等级协议标准等;在评估认证层面,建立智算中心绿色评级标准、安全合规认证标准等。制定国家级超智融合技术路线图,明确阶段性目标,为产业发展提供清晰指引。


(二)创新投融资机制与资源共享模式


针对超智融合基础设施建设投入大、回报周期长的特点,建议采取差异化支持政策,对高端智算中心以及大型智算中心给予不同程度的补贴。设立国家算力基础设施建设专项基金,鼓励采用政府和社会资本合作(PPP)模式建设算力基础设施,发展算力基础设施领域不动产投资信托基金等金融工具,拓宽融资渠道。


在资源共享方面,建立国家智算中心开发者公共服务平台,提供标准化生成式人工智能工具链和框架支持。建立全国算力资源目录和交易平台,实现闲置算力高效流通。探索算力银行模式,通过贡献算力获取积分用于兑换所需算力资源。面向中小企业和创新创业团队,提供低成本、易使用的算力服务套餐和技术支持,降低创新门槛。


(三)加强核心技术攻关与生态建设


组织智算工具链产业基础再造专项经费,重点突破支持万卡级并行训练的自主工具链、智能化运维体系和PB1PB1024TB)级训练数据高效处理技术。支持国产人工智能芯片、异构计算芯片研发和产业化,加大对基础软件研发投入,打造自主可控软件生态。


成立国家超智融合产业联盟,由政府部门指导,联合科研机构、企业等多方主体共建产业生态。支持建设超智融合创新中心,围绕关键共性技术开展协同攻关。鼓励企业、高校、科研院所和用户单位共建联合实验室和技术转化平台,促进产学研深度融合。设立超智融合专项人才计划,培养跨领域复合型人才,为超智融合发展提供人才保障。


“超智融合”作为系统性创新将呈现三大发展趋势:算力基础设施向高性能低能耗方向演进;算力服务更加普惠化和智能化,实现按需分配;生态体系更加开放多元,促进多方参与。

推动“超智融合”是应对全球科技革命的战略选择,对加快推进网络强国建设具有重大意义。通过推动“超智融合”,构建绿色高效算力基础设施,完善算力共享机制,建立跨区域协同创新生态,有助于突破算力瓶颈,实现从“算力围城”到算力共享的转变。

 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]
 
展会更多+
视频更多+
点击排行
 
网站首页 | 网站地图 | 排名推广 | 广告服务 | 网站留言 | RSS订阅