“万卡集群”引爆光模块,云计算再迎黄金窗口
发布时间:2025-12-26 08:32 浏览量:13
【码农财经·12月26日特稿】
如果把今天的互联网比作一座城市,云计算就是地下的“超级管廊”——看不见,却决定了地上高楼能盖多高、车流能跑多快。过去48小时,这条“管廊”悄悄换了一截更粗的“钢管”:华为 CloudMatrix 384 超级集群完成新一轮压力测试,单集群 3 万 2 千张昇腾 910B 同时跑满 800G 端口,实测网络丢包率不到 0.0001%。一句话,国内第一次把“万卡级”AI 训练从 PPT 搬进现实,而最先被拉爆的,是那条连接算力与算力的“光纤跑道”。
一、热点复盘:两天里到底发生了什么?
1. 光模块“爆单”实锤
12 月 24 日晚,兆驰股份在机构电话会上透露:400G/800G 高速光模块已送样国内某“顶级云厂商”,预计 2026 年 Q2 小批量出货。几乎同一时间,市场传出华为 CloudMatrix 384 集群对 800G 模块的“千只起跳”订单正在招标。机构连夜测算:按 1.6 万只 800G 端口、单只 5000 元美金测算,仅这一单就是 5 亿元新增市场。
2. 边缘云再出“国家队”
25 日早间,中国电信在雄安发布“云边一体 3.0”白皮书,宣布 2026 年前在全国 280 个城市部署 1000 个“轻量级”边缘节点,单节点 GPU 算力≥20P FLOPS,时延≤10ms。这意味着,未来你点一份外卖,推荐算法可能就在 5 公里内的“小盒子”里跑完,而不再绕去北京张家口的数据中心。
3. 云原生安全被“盖章”
同日,深信服在深圳演示了“云原生蜜罐”——把安全探针直接插进 Kubernetes 的 Pod 里,像给每个容器配了一只“看门狗”。实测对 0Day 漏洞的平均发现时间从 12 小时缩短到 18 分钟。监管现场给出评价:“具备大规模复制条件”。安全,这把一直悬在云上的“达摩克利斯之剑”,终于有了一把国产盾。
二、技术拆解:为什么“万卡”能把云计算再推一个台阶?
1. 网络先行:800G 是门票
过去训练 1750 亿参数的 GPT-3 大约需要 1 万张 A100,卡与卡之间每秒钟要交换 600 GB 梯度数据。如果网络掉 1 个百分点,训练时间就多 10%。华为这次用 384 台交换机构成“胖树”拓扑,单端口 800G,总带宽 307.2 T,相当于 4 万部 4K 电影同时传输也不卡。带宽一上来,集群线性度从 87% 提升到 97%,训练一次千亿模型可节省 27 天电费——在内蒙古数据中心,这就是 1200 万元真金白银。
2. 算力平权:CPO 共封装光学
传统方案里,交换芯片与光模块是“异地恋”,中间要走 30 厘米 PCB,信号损耗大、功耗高。CPO(Co-packaged Optics)把光引擎和交换芯片“同居”在一个封装里,距离缩短到 5 毫米,单端口功耗下降 30%。A 股的光迅科技、中际旭创、新易盛都已量产 CPO 版本的 800G 模块。换句话说,谁掌握 CPO,谁就拿到下一代云数据中心的“入场券”。
3. 边缘反哺:AI 推理“下沉”
当训练侧把模型做得越来越大,推理侧反而要“瘦身”边缘运行。中国电信的“云边一体 3.0”把 20P FLOPS 的 GPU 算力塞进 800 毫米高的机柜,功耗不到 35kW,用液冷板就能把热量“悄悄”带走。对于自动驾驶、AR 眼镜这类“等不起”的场景,边缘云就是“家门口的 7-11”,比远在百公里外的“大卖场”更及时。
三、A 股映射:哪些公司站在“风口”最前端?
1. 光模块三剑客
中际旭创、新易盛、光迅科技——全球 Top10 榜单里少有的中国面孔,800G 已批量,1.6T 样机在路上。
2. 边缘云“国家队”
中兴通讯、中国电信、神州数码——手握运营商渠道,边缘节点落地速度最快。
3. 云原生安全
深信服——国内唯一能同时提供“超融合+安全+云管”一体机的厂商,OpenStack 社区贡献全球前六。
4. 液冷配套
网宿科技、佳力图——边缘节点密度翻倍,传统风冷扛不住,液冷板换、CDU 需求同步爆发。
四、未来三个月值得盯的三个指标
1. 800G 光模块出货均价:目前 5000 美元,若跌破 4000 美元,意味着规模上量,相关公司毛利率将迎二次跳升。
2. 边缘节点功耗密度:平均到每 P FLOPS 低于 1.2kW,液冷渗透率将快速提升至 60%,带动配套厂商业绩。
3. 国产大模型备案数:截至 12 月 25 日,已备案 188 个,每月新增 15 个为“荣枯线”,高于此值说明训练侧需求仍在加速。
五、研报之外的“码农视角”
在数据中心搬砖十年,我学会一个朴素道理:云计算的每一轮技术红利,都藏在“功耗÷带宽”的下降曲线里。
- 2010 年,Xen 虚拟化把服务器利用率从 15% 拉到 60%,第一次让“云”成为生意;
- 2015 年,KVM+SDN 把网络虚拟化开销降到 5%,公有云迎来“白菜价”;
- 2020 年,100G 光模块普及,让“东数西算”不再是笑话;
- 2025 年,800G+CPO+液冷,把“万卡集群”塞进 800 平方米,训练千亿模型像“交水电费”一样按表结账。
下一个拐点在哪?我的判断是——当 1.6T 光模块价格跌破 2000 美元,边缘云节点功耗低于 1kW/PFLOPS,我们就能看到“AI 算力”像今天的“4G 流量”一样,按 GB 卖、按月包、甚至按广告免费。届时,云计算不再是“IT 支出”,而是直接嵌入到房租、电费、甚至外卖配送费里,成为像自来水一样无感的“基础设施”。
六、风险提示
1. 高速光模块价格下滑过快,导致厂商增收不增利;
2. 边缘节点利用率不足,运营商资本开支回收期拉长;
3. 国产 GPU 产能爬坡不及预期,万卡集群交付延迟。
结语
有人说,云计算的故事已经讲了十五年,早就听腻了。但这一次,当 800G 的光脉冲穿过 CPO 封装,当液冷板悄悄带走 35kW 热量,当 3 万张国产 GPU 同时点亮,你会发现——
不是故事老了,而是翻篇的速度太快。
对于 A 股而言,光模块、边缘云、液冷、安全,四条赛道已在 48 小时内被“万卡集群”盖章认证。剩下的问题只有一个:下一张订单,会落在谁的产线上?