“超节点+集群”: 华为撞出来的算力之路

2005年,时任英特尔CEO的保罗·欧德宁提出了名为“Tick-Tock”的战略计划。这一计划以两年为周期,快速升级半导体制程工艺与微架构,最大化激活摩尔定律。后来,这项被人称作“钟摆革命”的战略行动成了计算产业的创新标杆,一举奠定了英特尔在PC与服务器市场的长期主导地位。

可能很多人都不记得,中国科技的发展轨迹中也有过这样一个雄心勃勃的计划。2018年,华为公布了全栈全场景AI战略;作为战略的关键载体,华为随后在2019年发布了昇腾910芯片。我清晰记得,当时华为宣布昇腾将持续高速演进。面对AI算力的海量需求与巨大缺口,构筑新时代算力底座的机会史无前例地摆在了一家中国企业的面前。

但几乎就在同一时间,科技铁幕轰然落下。2019年,美国将华为列入实体清单,随后在2020年全面制裁华为海思。华为的芯片能力被封禁,芯片供应链被切断。中国科技在AI算力领域发动的钟摆革命,在一场噩梦中戛然而止。

那么,一切就此画上句号了吗?AI算力会变成中国智能化头上的紧箍咒吗?

时隔多年,我们等来了答案。9月18日,在华为全联接大会2025的第一天,华为副董事长、轮值董事长徐直军发表了“以开创的超节点互联技术,引领AI基础设施新范式”的主题演讲,期间正式公布了昇腾演进路标,发布全球最强的算力超节点与算力集群。在众人的一片惊呼当中,我们发现那个暌违了六年的计划,居然回来了。

徐直军指出,“算力过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键”,并再次强调:“基于中国可获得的芯片制造工艺,华为努力打造‘超节点+集群’算力解决方案,来满足持续增长的算力需求。”

这背后到底发生了什么?困扰中国AI那形如无解的算力难题,究竟是如何解开的?

或许有必要重读一遍华为走过的路。看看他是如何用“‘超节点+集群’”将算力变成一局围棋;又如何将它迎风展开,变成中国科技的一面旌旗。

那看似走不通的地方,把墙撞破,路就有了。

这是一条撞出来的算力之路。

把时间倒回2019年。或许很多人已经不记得,当时发布的昇腾910在多种规格与能力上都已处在全球领先水平,丝毫不逊色于英伟达的同期产品。但随后突降的制裁,让昇腾在诸多方面都受到了打击与限制。从某种意义上来说,刚刚兴起的“昇腾速度”突然消失了。没有挑战者的英伟达,在这段时间高歌猛进,从2018年发布的Turing架构一直升级到了2025年的Blackwell Ultra及Rubin架构,牢牢把控住了全球AI算力的统治地位。

而同样在这段日子里,AI大模型经历了井喷式发展。2018年谷歌推出的BERT-large约为3.4亿参数。而到2025年OpenAI的GPT-5参数规模已经高达1.8万亿,相差了数千倍之多。这意味着全球AI算力的使用需求经历了指数级的膨胀。昇腾可以说是被迫放弃了绝佳的发展契机,在地缘压力下为美国企业让路。

与此同时,现实也证明了制裁华为仅仅是科技铁幕政策的开端。由于英伟达成了全球AI算力近乎唯一的供应源,过去几年间美国持续升级面向中国大陆的AI算力封锁。这迫使英伟达不断推出性能缩水、价格更高,同时被曝出诸多问题的“中国特供版”GPU。而这种政策的本质,就是要用AI算力的供应限制,锁死中国AI的发展上限。

从AI技术的发展路径中可以看出,智能化的可持续发展,来源于算力的可持续获取。每一轮AI模型的发展,都必然以AI算力的充裕供给作为创新前提。虽然几年间昇腾为代表的中国AI算力依旧持续成长,但半导体工艺的长期落后,决定了中国AI算力在单卡性能与供货量上势必处在长期落后的局面。严重的算力困境,客观上导致中国AI本身长期扮演学习者,而非引领者的角色。

在外部供应受限,内部成长不足的情况下,中国AI产业只能通过囤积算力、优化模型等方式缓解算力焦虑。但这些方案都是暂时的,长期来看算力困局依旧无解。

今天我们囤了卡,优化了模型,但如果AI模型进一步膨胀了呢?如果虚拟现实、机器人、自动驾驶汽车等硬件爆发,带来了巨大的算力需求提升呢?如果最终我们期待的AGI有可能加速到来呢?

中国AI算力的发展,需要的不是暂时缓解局面,而是能够支持中国AI的指数级成长,甚至是实现“无尽算力”。

有没有能从根源上彻底解决AI算力困厄的机会?

消失的六年中,华为在沉默中埋头狂奔,就是希望找到这个巨型问题的解法。

在战略层面,中国向来讲求众志成城,以多胜少。既然单颗芯片必将长期落后,那么能不能依靠多芯片的组合来弥补单点劣势?幸运的是,以机器学习为基础原理的AI任务,本身就有着高并发的计算机制。在原理上看这个假设是可行的。

但如果这件事这么简单,半导体封锁就不会屡次在全球科技博弈中变成杀手锏。想要在AI算力上实现“集群化作战”,需要解决数量庞大的具体问题。有些必须冲上高地,破解人有我无的困境;有些则需要竭尽所能发挥优势,实现人无我有的利好。总而言之,那条看似最简单直接的路,其实必须撞破无数面的墙。

在这次全联接大会上,华为发布了诸多AI算力方面的新技术。我们可以选择其中一些,来看看这条多芯片叠加的路是怎么被撞出来的。

HBM(High Bandwidth Memory),即高带宽内存。它通过堆叠多个DRAM实现更高的内存带宽和更低的计算功耗,是高性能计算与图形处理等计算任务的必备技术。但要实现高水平的HBM,除了需要先进的封装技术、复杂的系统级设计能力外,还要涉及材料学、热管理等问题,是计算产业公认的顶级技术。为了解开昇腾的枷锁,华为自研了HiBL 1.0和HiZQ 2.0两种HBM,前者相比高性能、高价格的HBM3e/4e,能够大大降低推理Prefill阶段和推荐业务的投资,后者则可以充分满足推理Decode阶段和训练对互联带宽和访存带宽的高要求。无数个类似的关键技术自研突围,让“人有我无”的劣势逐渐消失,AI算力的限制逐步瓦解。

再比如,大规模AI算力集群化难以实现,很大程度在于算力节点之间的联接能力不足,会导致严重的算力损耗与过强的联接时延。这也是为什么英伟达迄今为止也只能推出NVL72机架系统。而网络联接恰好就是华为的看家本领。基于联接领域超过三十年的技术积累,华为通过系统级创新,突破了大规模算力集群互联技术的巨大挑战。通过多端口聚合与高密封装技术,以及平等架构和统一协议,华为实现了TB级的超大带宽以及2.1微秒的超低时延。这就是华为面向超节点的互联协议灵衢(UnifiedBus)。在全联接大会2025期间,华为宣布将开放灵衢2.0技术规范,与产业伙伴共建灵衢开放生态。灵衢代表的这条路,是华为通过自身技术积累,撞出了一条“人无我有”的未来之路。

别人有的要自研,别人没有的要开创。就这样,华为最终把AI算力从单颗芯片拱卒过河的象棋游戏,变成了集群化算力纵横捭阖的围棋棋局。

规则变了,一切就都变了。

回到2025年,这时华为正不断破解着算力集群化的挑战。与此同时,外部环境也出现了巨大的变化。如前文所述,现阶段AI大模型的参数规模已经发展到了难以置信的地步。这种情况下,大规模集群化的AI算力底座已经成为必然需求。曾经我们认为万卡集群已经非常惊人,但现在十万卡的训练集群成了主流。这意味着集群化AI算力的比拼将站在舞台中央。与之相对,单芯片能力强弱的价值在不断弱化。在宏观产业趋势的驱动下,华为看到了彻底解决AI算力困境的契机。

其实早在全联接大会2024期间,华为就已经提到了“打造‘超节点+集群’算力解决方案,持续满足算力需求”的设想。在一年之后,华为给这个设想写出了答卷。“超节点+集群”战略的核心逻辑,就是要把算力竞赛变成围棋。在围棋规则中,每一枚棋子能够发挥的作用很小,但它们联接在一起的价值却是巨大的。围棋中有所谓以“势”压“地”的说法。“地”是局部,是单点;而“势”则是全局,是整体,是联接。意思是棋手哪怕局部单点失利,也能靠整体局势战胜对方,所谓“先谋全局再谋一域”。

华为要的“势”,就是“超节点+集群”。

超节点,是将物理意义上的多个机柜、多个计算单元联接成一个超级计算单元,让它们像一台计算机一样运行。集群则是将多个超节点以网络联接在一起,让他们像云服务一样以软件进行调用。

在全球AI产业的趋势中看,超节点已经成为满足AI算力需求的主导性产品形态,甚至是AI基础设施建设的新常态。而华为能以昇腾为基础打造的“超节点+集群”,恰好可以在满足主流AI需求的同时,规避单芯片所受到的限制。这样就在顺应AI大势的最大化昇腾价值,规避掉昇腾短板。

今年3月,华为正式推出了Atlas 900超节点,其采用384颗昇腾计算单元联接成统一的计算节点,最大算力可达300 PFLOPS。到目前为止,这依然是全球算力规模最大的超节点。由此开始,华为正式踏入了AI超节点的征程。

但就像我们说的,华为要的不是“目前最大”、“暂时领先”,他要的是彻底解决AI算力困境,一举打破所有禁锢。于是在全联接大会2025期间,华为发布了最新超节点产品 Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,它们分别支持8192及15488个昇腾计算单元的联接。在计算单元规模、总算力、内存容量、互联带宽等关键指标上实现全面领先,并且必将在漫长的未来中始终保持全球最强算力。

基于超节点,华为发布了全球最强的超节点集群Atlas 950 SuperCluster和 Atlas 960 SuperCluster,算力规模分别超过五十万卡和达到百万卡,这也是当之无愧的全世界最强算力集群。

如此规模的“超节点+集群”,已经必然能够覆盖住所有单芯片劣势。因为相比英伟达将在明年下半年上市的NVL144,Atlas 950超节点算卡规模是其56.8倍,总算力为其6.7倍,内存容量是其15倍,互联带宽是其62倍。即使与英伟达计划2027年上市的 NVL576相比,Atlas 950超节点在各方面依然领先。这意味着,无论AI大模型如何发展,实现怎样的跨越式创新,华为都可以为其提供绝对充裕的算力,在长时间中实现AI算力供给恒定大于模型创新的算力需求。AI算力这局围棋中的“势”,就是“超节点+集群”构成的基础设施海纳之势。

与此同时,华为还率先将超节点技术引入通用计算领域,发布了全球首个通用计算超节点TaiShan 950 SuperPoD,其结合GaussDB分布式数据库,能够彻底取代各种应用场景的大型机、小型机以及Exadata数据库一体机。通算+智算的混合超节点,可以为一代生成式推荐系统打开全新架构方向。

“超节点+集群”的产业逻辑,在于从根本上改变AI算力的游戏规则。AI算力并不等同于单颗芯片性能。原本AI算力体系暴露了华为芯片工艺受限的劣势,经此一役,却可以将AI算力变成华为独有的战略优势,甚至实现对英伟达的领先。

“原本大家共同遵守着一个游戏规则,但一方突然宣布游戏禁止参与。那不如就不玩你的国际象棋,直接把规则变成我的围棋”——只有改变底层规则,华为才有机会,中国的AI算力困境才有根本解法。

“有时候,创新是被逼出来的”。

这几年我们愈发清晰认识到这句话的意义与分量。一旦科技铁幕落下,原本依靠的创新根基、全球化基础设施都可能荡然无存。这时候别无他法。只能在绝境里创新,在无路可走时撞出路来。撞开一个角,闯出一个缝,我们也就有了自己的路。向后推演,当中国AI产业开始习惯在“超节点+集群”的算力包裹下完成创新,当整个产业链形成了正向联动。这条路就越走越宽广,最终或许会成为四海同来的阳关大道。

算力是中国AI发展的基座。华为所打造的“超节点+集群”,一个核心意义在于它可以完全在中国大陆制造,并能满足未来很长时间内中国AI的任意算力需求。国家再不需要担心算力,产业各界再不需要为算力焦虑。这条路上不需再看任何人的脸色行事,它的根基与安全属于我们,它的未来与无尽可能性也属于我们。

“超节点+集群”的算力获取方式,有没有问题?其实是有的。问题无非两点,一是算力集群化可能带来软件管理等层面问题,但华为已经有了充沛的解决方案。另一个算力集群化会带来更大的功耗。但得益于中国完善的基础设施建设与新能源发展,电力价格恰好就是我们的优势。这种“恰好”,或许就是中国的棋局,就是中国给科技铁幕的回应。

向未来看,“超节点+集群”对于中国AI,乃至中国科技整体的意义在于,它将可能提供永远供大于求的算力资源。它实现的不是对某个模型的满足,对某个阶段的缓解,而是从战略本质上破解中国的算力困局,甚至满足未来中国通往AGI路上无尽的算力需求。

“确保中国AI要多少算力,就能提供多少算力”,这是华为给出的承诺。

在经历了漫长的制裁与封锁,讨论了不知道多少次“卡脖子”之后,东方算力巨兽发出咆哮。这次我们不是应对眼前的问题,而是要彻底解决这个问题。

向未来看,向四野看,中国AI,旌旗蔽日。

2019年开始,虽然芯片供应问题阻碍了昇腾生态的发展,但昇腾依旧在几年间支撑了中国AI的长足发展。我采访过许多迁移到昇腾生态的企业,他们有的是出于成本考虑,有的是希望与华为合作获得更多机会,也有人告诉我“就是相信昇腾能行,没考虑过原因”。在智能化的引力与逆全球化的催逼下,大家心向一处,力出一孔,昇腾在它的幽暗岁月里依旧茁壮生长。

而在今天,华为原本设计好的那条昇腾之路正式回归。放眼望去,全球AI算力需求依旧在极速增长,甚至较此前更甚。各行业的智能化渴望转化为算力饥渴,新形态的软硬件体系爆发必须以算力为前提。

在这个节点,AI算力领域对一场钟摆革命的期待较六年前更甚。但此时英伟达面临创新疲软与产业瓶颈的挑战,英特尔与AMD的AI算力布局方兴未艾。此时,华为却积累了各方能力,最有机会开启一场新的钟摆革命。在最新公布的昇腾路标中,华为宣布接下来将以几乎一年一代算力翻倍的效率对昇腾进行升级。六年前戛然而止的雄心,在“超节点+集群”的机会下将一切重新点燃。

一切仿佛都回来了,一切仿佛又都变得不同。所有因缘际会下,我们看到此刻的华为抖落灰烬,浴火而归。

“一颗芯片不行,就十颗一起上”,这就是华为的答案。这个答案的弦外之音是,千难万阻,我们总有办法。

“超节点+集群”, 会形成一个意味深长的象征。它提醒这个世界,用任何方式来围困中国科技的发展权利,都只有一个结果:此路不通。所有手段和算计,都挡不住算力的联接,产业生态的凝结,中国人的团结。

用AI牵引第四次工业革命,这是属于中国的机会。谁也拿不去,谁都抢不走。

这条通往智能世界的算力之路,终是被我们撞出来了。