C114訊 4月21日專稿(蔣均牧)當大模型參數量突破萬億級、智算集群規模向百萬卡邁進,智算中心作為數字經濟的核心基礎設施,正面臨前所未有的挑戰與機遇。如何以更低的功耗承載更高的帶寬,如何以更靈活的架構支撐動態的算力需求,如何以更可靠的聯接保障持續的訓練?答案,或許就藏在光互聯技術的革新中。
就在4月17日下午舉辦的“超大規模智算中心:1.6T時代的全光互聯”上,華為光產品線專家劉曉妮系統闡述了智算中心光互聯的演進趨勢與華為創新成果。她指出,谷歌作為行業先行者,已在數據中心網絡(DCN)核心層和智算參數面規模化部署全光交叉(OCS),完成了90%的替代,并推動OCS從“單點突破”走向“全局重構”。而華為推出的數據中心全光交叉(DC-OXC)解決方案,通過光電混合架構與動態拓撲調度能力,為超萬卡集群的彈性擴展與高效協同提供了全新范式。
從谷歌實踐,看光互聯核心價值
LightCounting數據顯示,2024年以太網光模塊市場規模突破100億美元,同比增長近100%,未來五年仍將保持15%~18%的復合增速。增長背后,是超大規模集群對高速互聯的極致追求:英偉達Rubin架構下,288卡GPU集群需5184個1.6T光模塊,傳統電互聯在密度與功耗上漸漸變得難以為繼。
谷歌的探索為行業提供了重要參考,其Jupiter網絡通過OCS替代傳統電交換機核心層,實現了跨代際網絡的高效互通。劉曉妮援引谷歌公開數據指出,OCS的引入使DCN核心層不再受電芯片迭代周期束縛,網絡拓撲可按流量親和性動態調整,效率提升10倍,停機時間減少98%,同時降低40%功耗與30%設備投資。
劉曉妮強調,OCS不僅是聯接工具,更是算力資源動態調度的核心樞紐。谷歌將OCS下沉至智算參數面,基于3D-Torus架構構建TPU集群。以TPU v4為例,64個機柜通過OCS互聯,形成4096卡的超大規模算力單元,故障隔離效率提升50倍,集群可用性從8%躍升至75%。谷歌TPU v7延續了這一架構,并在6000卡集群中完成PaLM大模型訓練,驗證了光互聯在超大規模AI訓練中的可行性。
華為DC-OXC:破解智算中心三大困局
隨著智算集群規模的迅速膨脹,全球智算中心建設普遍面臨著“規模受限、可靠性衰減、效率瓶頸”三大挑戰。有鑒于此,華為推出了DC-OXC解決方案,以三層創新實現破局。
首先是架構之變,從“堆疊枷鎖”到“樂高式擴展”:傳統CLOS架構受限于電交換機端口密度,萬卡集群需多層堆疊,導致時延與擁塞點激增。華為DC-OXC在頂層構建全光交換平面,支持計算單元(POD)按需分批接入,理論可擴展至百萬卡規模。“光層一次規劃、電層分步擴容”的模式,既降低初期投資門檻,又避免重復布線帶來的資源浪費。
可靠性躍升,光模塊故障削減92%的“零妥協”:據統計,光模塊故障占智算網絡故障的92.3%,而華為DC-OXC采用免光模塊設計,通過MEMS微鏡陣列實現全光交換,端口可靠性提升20%以上。實測數據顯示,光電混合架構下,網絡平均無故障時間(MTBF)較全電方案優化超20%,年停機時間減少25%。
效率優化,跳數減1,性能增益3.5%:在時延敏感型場景中,華為DC-OXC通過扁平化架構將傳輸跳數從5跳降至4跳,單跳時延降低5~6μs。仿真和實測顯示,可助力GPT-MoE等模型訓練任務吞吐量提升1.5%~3.5%,小規模集群實測性能增益達2%。在推理場景下,一次All-to-All通信時延減少6.57μs,58層模型靜態時延累計降低762μs,10ms場景性能可提升7%。此外,光互聯的物理隔離特性還為多租戶場景提供了更高的安全性和靈活性。
從谷歌的OCS規模化實踐,到華為DC-OXC的多場景突破,光互聯正從“技術選項”升級為“戰略必選”。基于光電混合架構的“穩定光底座”將成為平衡規模、效率與成本的核心基礎設施,而華為通過端到端光技術創新,為全球智算中心提供了一條清晰、高效的演進路徑——以光為基,改寫全球AI競合的規則。