產業技術通訊|高功率液冷專題

邁向 120kW+ 超高功率液冷時代

引言:散熱產業的結構性轉型

隨著 NVIDIA Blackwell 及其後續架構的部署,AI 單機櫃功耗正式踏入 120kW 至 140kW 的區間。在這個維度下,傳統氣冷方案已達物理極限。液冷技術已從「選配」轉化為「標配」,成為維持算力持續輸出的核心生命線。

面對單顆晶片 TDP 破千瓦、單機櫃破百瓩的挑戰,散熱效率(Heat Transfer Coefficient)的提升已趕不上廢熱產出的速度。本期將深入探討 120kW+ 液冷技術如何打破物理天花板,實現能效與密度的雙重轉型。

一、 120kW+ 的挑戰:為什麼氣冷不再是選項?

在 2026 年的 AI 運算架構中,空氣作為熱交換介質的物理天花板已清晰可見。傳統氣冷方案因以下三個核心矛盾,正迅速淡出高階伺服器市場:

  • 空間密度的物理極限: 若要透過空氣移除 120kW 熱量,系統需配置龐大的鰭片組與極高轉速風扇,這會擠壓寶貴的晶片佈局空間。
  • 能源效率(PUE)的硬傷: 風扇功耗隨轉速呈立方比上升,導致系統 PUE 難以低於 1.3,無法滿足現代低碳資料中心標準。
  • 運維環境的聲學瓶頸: 支撐百瓩散熱所需的風量會產生超過 90dB 的噪音,對巡檢人員健康與設備壽命構成威脅。
核心觀點:當熱通量超過臨界點,氣冷技術的邊際成本將呈指數級增長,液冷成為唯一的經濟解方。

二、 120kW+ 關鍵基礎設施對比

指標項目 氣冷方案 (Air Cooling) 液冷方案 (Liquid Cooling) 營運價值
熱移轉係數 較低 (依賴氣流速度) 極高 (液體熱容量是空氣 4000 倍) 支援更高密度的算力核心
單櫃電力負載 上限約 30kW - 40kW 可達 120kW - 150kW+ 大幅減少機房佔地面積
PUE 能效比 平均 1.3 ~ 1.5 可優化至 1.02 ~ 1.1 顯著降低電費支出與碳足跡
性能穩定度 易受環境溫差影響導致降頻 精確控溫,消除 Thermal Throttling 確保 AI 訓練效能維持峰值

三、 實現百瓩散熱的三大技術關鍵

液冷系統在高功耗環境下的成功部署,取決於精密的控制與強健的基礎設施:

1. CDU 標準化與 N+1 冗餘

冷卻分配單元 (CDU) 必須具備毫秒級的壓力調節能力,並導入冗餘機制,確保即便在單元檢修時,冷卻液循環仍能維持恆壓穩定。

2. Manifold 流量動態分配

透過數位感應器,系統能根據不同伺服器節點的即時負載(Workload),精確導向冷卻液流量,避免無效能耗。

3. 智慧防漏與主動偵測

針對 120kW+ 系統的高流速特點,需配置全流程真空洩漏偵測與快速斷接頭 (UQD),確保即便發生異常也能瞬間止溢。

四、 可靠性與 ESG 的加持

系統層級的穩定性提升

  • 減少冷熱交替導致的材料熱疲勞。
  • 消除高速風扇震動對精密元件的物理影響。
  • 提升晶片在恆定中低溫環境下的電子遷移壽命。

營運端的數據洞察與 ESG

  • 支持廢熱回收再利用,提升二次能源價值。
  • 極低 PUE 助力企業達成淨零排放(Net Zero)承諾。
  • 透過數位雙生 (Digital Twin) 進行預測性維護。

五、 產業趨勢判斷:軟硬整合的下半場

未來的散熱競爭將從單純的「硬體散熱能力」轉向「智慧控制效率」。符合 OCP 標準的硬體提供了物理基礎,而主動管理軟體則是賦予這些硬體「靈魂」的關鍵。

最終結論: 120kW+ 的液冷時代不只是散熱媒介的更換,更是資料中心運維邏輯的正規化轉型。透過精確控溫,我們不僅壓制了極端熱量,更將營運風險從「不可控」轉變為「精確預判」,是次世代 AI 算力中心不可或缺的標準配置。

技術文獻與參考標準

  1. Intel, “Thermal Design Considerations for Next-Gen Data Centers.”
  2. Open Compute Project (OCP), “Liquid Cooling Standard 2.0.”
  3. NVIDIA, “Power and Thermal Management for Blackwell Architectures.”
  4. IEEE, “Thermal Challenges in High-Performance Computing 2026.”