AI摘要:据国家数据局数据,2026年3月中国日均AI Token使用量已突破140万亿,为2025年底的近四倍。 **
在此背景下,东方证券发布电子行业深度报告,以"超节点:国产算力进攻的'矛'"为题,系统梳理超节点的技术逻辑、产业格局与投资机会,认为**2026年将是国产超节点规模放量元年,交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。 华尔街见闻提及,4月24日,DeepSeek V4预览版发布,公司披露受限于高端算力供给,V4 Pro版本服务吞吐十分有限,预计下半年随华为昇腾950超节点批量上市后,Pro版本价格将大幅下调。
国产算力正从"能用"迈向"好用",超节点技术成为弥合差距的关键支点。
华尔街见闻提及,4月24日,DeepSeek V4预览版发布,公司披露受限于高端算力供给,V4 Pro版本服务吞吐十分有限,预计下半年随华为升腾950超节点批量上市后,Pro版本价格将大幅下调。
高盛研报指出,这一表态具有双重意涵:一是DeepSeek的成本竞争力将进一步强化;二是在芯片管制持续收紧的背景下,中国顶尖AI模型向国产算力迁移的趋势得到头部玩家的背书。
此前,国家发改委亦于2025年底的新闻发布会上罕见正面回应,称"超节点等集群互联技术发展,为国产算力赶上国际领先水平提供了良好机遇"。
在此背景下,东方证券发布电子行业深度报告,以"超节点:国产算力进攻的'矛'"为题,系统梳理超节点的技术逻辑、产业格局与投资机会,认为2026年将是国产超节点规模放量元年,交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。
AI算力需求跃升,超节点成必然选择
大模型参数规模的持续膨胀,正将算力基础设施推入超节点时代。
东方证券报告指出,随着MoE(混合专家)架构成为新趋势,模型参数以每年约10倍的速度增长,已迈入十万亿级阶段——Qwen3-Max模型总参数超过1T,文心5.0参数量达2.4T。
与此对应,算力集群规模不断提升,万卡集群已成训练大模型的最低标配,十万卡级集群成为主流趋势。
Scaling Law的适用范围亦从预训练扩展至后训练和推理全流程。
据OpenAI介绍,在开发o3时训练计算和推理时间均增加了一个数量级,验证了模型性能会随思考次数持续提升。
DeepSeek则表示,对模型后训练强化学习持续投入算力,V3.2在后训练投入超过预训练成本的10%,推理性能已与GPT-5-high相似。
在分布式训练架构中,张量并行(TP)和混合专家并行(EP)对带宽需求最为突出。
随着MoE模型中跨服务器的All-to-All通信量急剧增长,传统以太网已难以承受千亿级模型单次梯度同步产生的TB级数据量。
超节点通过内部高速总线互连,有效打破"通信墙"与"内存墙"瓶颈,成为大规模训练与推理的最优解。
在推理侧,AI Agent的兴起亦大幅拉升词元Token消耗。据国家数据局数据,2026年3月中国日均AI Token使用量已突破140万亿,为2025年底的近四倍。
报告援引数据指出,超节点Blackwell NVL72相比H200 8卡服务器,单瓦每秒生成Token数量更高,推理性价比显著领先。
超节点以量取胜,国产集群弯道超车
东方证券报告的核心论断之一,是超节点架构为国产芯片提供了绕过单卡性能短板的有效路径。
以华为CloudMatrix 384与英伟达GB200 NVL72为例:单颗升腾910C芯片的BF16性能仅为GB200模组的约三分之一,但通过超节点集群方式,单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍。
报告指出,通过Switch tray多芯片方案,国产交换芯片带宽代际相对落后的问题亦可得到有效弥补。
据玉渊谭天援引的数据,2025年国产AI芯片的国内市场份额已达到约41%。
模型端同样有新进展——DeepSeek-V4模型适配升腾芯片后,实现了高吞吐、低时延的推理部署;智谱GLM-5宣布完成与7家主流国产芯片平台的深度适配。
东方证券指出,在互联协议层面,国产生态布局亦在提速:
五大变化趋势,产业链受益路径清晰
东方证券报告梳理出超节点时代的五大产业变化趋势。
首先是,交换芯片需求量价齐升。
超节点机柜内新增Scale up域,驱动交换机及交换芯片用量大幅增加。
以Rubin NVL72为例,相比Blackwell,随着GPU带宽翻倍,单机柜交换芯片用量从18颗提升至36颗。
报告还指出,伴随集群规模扩展、引入二级HBD域,交换芯片需求或将进一步倍增。
其次,液冷成为刚需,全液冷时代渐进。当单机柜总功耗达到50KW以上时,液冷成为必选方案。
GB200 NVL72单机柜功耗已达120KW,华为CloudMatrix 384和阿里磐久2.0均采用风液混合方案。
更新一代的Vera Rubin NVL72机柜将正式采用100%全液冷,交换机芯片、DPU、光模块等全面搭配液冷散热模组,机柜外侧CDU散热量将迈入MW级。
第三则是服务器ODM价值重估。
超节点服务器使厂商从过去L10级别的服务器组装交付,提升至L11整机柜级甚至L12多机柜级制造交付,参与环节从Computer tray延伸至Switch tray、网络互联、供电与制冷系统集成,准入门槛大幅提高。
华勤技术预计2026年全年超节点项目收入将超过百亿元;浪潮信息发布元脑SD200超节点,实现64路国产AI芯片高速统一互连;百度旗下昆仑芯256/512超节点将分别于2026年上下半年上市。
第四,光互连与PCB背板需求新增。
计算节点与交换节点之间的高速互联,在64或128 XPU规模内以铜缆为首选,综合成本约为光互联方案的二分之一。
超出128 XPU后,正交背板方案信号损耗更低、结构稳固,适合高密架构;更大规模超节点集群则需引入OCS(光电路交换)设备,进一步支持Dragonfly+或3D Torus等拓扑扩展。
最后是供电架构重构,PSU及HVDC需求提升。
超节点采用"机房级高压直供→机柜级母线传输→节点级精准降压"的三级集中供电架构,PSU逐步从3.3KW向5.5KW、18.3KW升级,对应Powershelf提升至33KW乃至110KW。
随着机柜功率迈入MW级,数据中心供电架构有望加速向高压直流(HVDC)和固态变压器(SST)转型。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
暂无回复,快来抢沙发吧!
本次需消耗银元:
100
当前账户余额: 0 银元
在此背景下,东方证券发布电子行业深度报告,以"超节点:国产算力进攻的'矛'"为题,系统梳理超节点的技术逻辑、产业格局与投资机会,认为**2026年将是国产超节点规模放量元年,交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。 华尔街见闻提及,4月24日,DeepSeek V4预览版发布,公司披露受限于高端算力供给,V4 Pro版本服务吞吐十分有限,预计下半年随华为昇腾950超节点批量上市后,Pro版本价格将大幅下调。
国产算力正从"能用"迈向"好用",超节点技术成为弥合差距的关键支点。
华尔街见闻提及,4月24日,DeepSeek V4预览版发布,公司披露受限于高端算力供给,V4 Pro版本服务吞吐十分有限,预计下半年随华为升腾950超节点批量上市后,Pro版本价格将大幅下调。
高盛研报指出,这一表态具有双重意涵:一是DeepSeek的成本竞争力将进一步强化;二是在芯片管制持续收紧的背景下,中国顶尖AI模型向国产算力迁移的趋势得到头部玩家的背书。
此前,国家发改委亦于2025年底的新闻发布会上罕见正面回应,称"超节点等集群互联技术发展,为国产算力赶上国际领先水平提供了良好机遇"。
在此背景下,东方证券发布电子行业深度报告,以"超节点:国产算力进攻的'矛'"为题,系统梳理超节点的技术逻辑、产业格局与投资机会,认为2026年将是国产超节点规模放量元年,交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。
AI算力需求跃升,超节点成必然选择
大模型参数规模的持续膨胀,正将算力基础设施推入超节点时代。
东方证券报告指出,随着MoE(混合专家)架构成为新趋势,模型参数以每年约10倍的速度增长,已迈入十万亿级阶段——Qwen3-Max模型总参数超过1T,文心5.0参数量达2.4T。
与此对应,算力集群规模不断提升,万卡集群已成训练大模型的最低标配,十万卡级集群成为主流趋势。
Scaling Law的适用范围亦从预训练扩展至后训练和推理全流程。
据OpenAI介绍,在开发o3时训练计算和推理时间均增加了一个数量级,验证了模型性能会随思考次数持续提升。
DeepSeek则表示,对模型后训练强化学习持续投入算力,V3.2在后训练投入超过预训练成本的10%,推理性能已与GPT-5-high相似。
在分布式训练架构中,张量并行(TP)和混合专家并行(EP)对带宽需求最为突出。
随着MoE模型中跨服务器的All-to-All通信量急剧增长,传统以太网已难以承受千亿级模型单次梯度同步产生的TB级数据量。
超节点通过内部高速总线互连,有效打破"通信墙"与"内存墙"瓶颈,成为大规模训练与推理的最优解。
在推理侧,AI Agent的兴起亦大幅拉升词元Token消耗。据国家数据局数据,2026年3月中国日均AI Token使用量已突破140万亿,为2025年底的近四倍。
报告援引数据指出,超节点Blackwell NVL72相比H200 8卡服务器,单瓦每秒生成Token数量更高,推理性价比显著领先。
超节点以量取胜,国产集群弯道超车
东方证券报告的核心论断之一,是超节点架构为国产芯片提供了绕过单卡性能短板的有效路径。
以华为CloudMatrix 384与英伟达GB200 NVL72为例:单颗升腾910C芯片的BF16性能仅为GB200模组的约三分之一,但通过超节点集群方式,单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍。
报告指出,通过Switch tray多芯片方案,国产交换芯片带宽代际相对落后的问题亦可得到有效弥补。
据玉渊谭天援引的数据,2025年国产AI芯片的国内市场份额已达到约41%。
模型端同样有新进展——DeepSeek-V4模型适配升腾芯片后,实现了高吞吐、低时延的推理部署;智谱GLM-5宣布完成与7家主流国产芯片平台的深度适配。
东方证券指出,在互联协议层面,国产生态布局亦在提速:
五大变化趋势,产业链受益路径清晰
东方证券报告梳理出超节点时代的五大产业变化趋势。
首先是,交换芯片需求量价齐升。
超节点机柜内新增Scale up域,驱动交换机及交换芯片用量大幅增加。
以Rubin NVL72为例,相比Blackwell,随着GPU带宽翻倍,单机柜交换芯片用量从18颗提升至36颗。
报告还指出,伴随集群规模扩展、引入二级HBD域,交换芯片需求或将进一步倍增。
其次,液冷成为刚需,全液冷时代渐进。当单机柜总功耗达到50KW以上时,液冷成为必选方案。
GB200 NVL72单机柜功耗已达120KW,华为CloudMatrix 384和阿里磐久2.0均采用风液混合方案。
更新一代的Vera Rubin NVL72机柜将正式采用100%全液冷,交换机芯片、DPU、光模块等全面搭配液冷散热模组,机柜外侧CDU散热量将迈入MW级。
第三则是服务器ODM价值重估。
超节点服务器使厂商从过去L10级别的服务器组装交付,提升至L11整机柜级甚至L12多机柜级制造交付,参与环节从Computer tray延伸至Switch tray、网络互联、供电与制冷系统集成,准入门槛大幅提高。
华勤技术预计2026年全年超节点项目收入将超过百亿元;浪潮信息发布元脑SD200超节点,实现64路国产AI芯片高速统一互连;百度旗下昆仑芯256/512超节点将分别于2026年上下半年上市。
第四,光互连与PCB背板需求新增。
计算节点与交换节点之间的高速互联,在64或128 XPU规模内以铜缆为首选,综合成本约为光互联方案的二分之一。
超出128 XPU后,正交背板方案信号损耗更低、结构稳固,适合高密架构;更大规模超节点集群则需引入OCS(光电路交换)设备,进一步支持Dragonfly+或3D Torus等拓扑扩展。
最后是供电架构重构,PSU及HVDC需求提升。
超节点采用"机房级高压直供→机柜级母线传输→节点级精准降压"的三级集中供电架构,PSU逐步从3.3KW向5.5KW、18.3KW升级,对应Powershelf提升至33KW乃至110KW。
随着机柜功率迈入MW级,数据中心供电架构有望加速向高压直流(HVDC)和固态变压器(SST)转型。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.