從2023年底至今,一波大模型熱又引領了新的應用狂潮,短時間內就涌現了一批用戶規模迅速超過千萬乃至過億的超級App,諸多科技城市也期許著向“模都”的躍遷。 就像是此前不同時間段內技術拐點的突破,帶來了一個又一個我們在當下已經耳熟能詳的超級公司,處于拐點上的AI技術不僅會帶來一批新的明星企業,也會重塑萬億級的產業格局。 本質上,以上所有的變遷均得益于算力的革命,正是海量的基礎設施惠及到千行萬業,讓AI技術滲透到方方面面,讓我們共同生活在安全、健康、和諧,同時充滿希望與期待的數字世界。 2025年1月13日,華為數字能源舉辦了以“讓數字世界堅定運行”為主題的2025數據中心能源十大趨勢發布會。在會上,華為數字能源數據中心能源領域總裁堯權對之進行了深入解讀。 趨勢一:安全可靠成為智算DC的第一核心訴求 按照我的預想,以宏大和激情的敘事方式,進一步鼓勵企業推動數據中心的投資和建設,理應位居前列。孰料最終雄踞“數據中心基礎設施建設的十大趨勢”榜首的,居然是安全可靠。 仔細想來,既在意料之外,又在情理之中。正如華為堯權所說的那樣,“數據中心壞不起,安全故障的代價太大。”誠哉斯言! 以前,一臺傳統服務器不過0.5萬美元,而現在的AI服務器增加了40倍之多,動輒一臺就是數十萬美元起步,如果出現損壞,不僅是投資的極大浪費,更可能會造成包括競爭機會、信任和品牌等在內的多重損失。 更不要說,由于集群計算帶來了故障域的增加。過去可能就是單臺服務器的故障,不會影響其他機器,現在一個機柜服務器損壞,就有可能導致整個集群的機柜停止運行! 我們注意到,那些高價值客戶以及大型互聯網公司,往往會選擇更高等級的數據中心。理由很簡單,就是因為這種數據中心采用了更先進的設備,在提供更優性能的同時,它們也帶來了更高的穩定性,保證業務的安全可靠。 然而,仍有許多企業在數據中心的建設中,一味地追求低成本,結果是設備故障率高,動輒導致數據丟失、業務中斷,而且也缺乏完善的應急預案,于是不得不在后期的運營中追加更多的投資,最終與早先“低成本”的預期漸行漸遠,而且“窟窿”也會越來越大。 基于此,華為數據中心能源認為,“全生命周期的安全可靠,才是真正的低成本。”惟有如此,數據中心才能發揮更大的作用,owner的錢才會花得物超所值。 趨勢2:隔離式架構是保障智算設施安全的最優選擇 現在的數據中心與過去相比,功耗的增長幅度至少是10倍起:以前的一臺服務器整機可能只有幾百瓦,而現在一臺配置多GPU卡的服務器就得幾千瓦甚至幾十千瓦……近乎夸張的功率密度增加,自然也讓鋰電在智算中心登堂入室,逐漸替代傳統的鉛酸儲能。 說到這里,肯定就無法繞開熱失控——這也是鋰離子電池安全事故的共性特征,雖然幾率可能微乎其微,但是一旦出現必然會造成極其嚴重的后果。智算中心的運營周期長達十年以上,因此必須以防患于未然的態度,對此加以考慮和防范。 華為數據中心能源認為,規范化部署應用非常重要,而與之對應的方案就是隔離式架構。 我們知道,采取物理安全措施是保護IT資產的重要前提之一。智算設施的安全保障也是同樣,對強電與IT機房進行拉遠部署和隔離,無疑可以在最大程度上保障算力設施的安全性。 在這種情況下,即便出現故障也會被控制在最小的范圍內,而且業務受到波及的風險也會更小。與此同時,由于拉遠部署和物理隔離的緣故,哪怕是故障端出現極端情況,在另一端的操作和維護人員也不會有任何的人身風險,還是那句話:安全再怎么強調都不為過。Bingo! 趨勢3:連續式制冷是智算高密場景的必要能力 接下來,顯然就是制冷的showtime了。 一如前文所言,現在的智算中心功率密度會增長到高達50kW/柜,這也就意味著一旦制冷系統出現故障,我們可能只有區區30秒甚至10秒的響應時間,哪怕大羅神仙也遭不住這樣的運維需求啊! 華為數據中心能源的答案是:連續式制冷。 顧名思義,連續制冷就是正常制冷不中斷,這也是運維人員的必備常識之一。畢竟溫控的各種核心器件,比如壓縮機、風機都是高速或高壓的運動部件,一旦停機重啟都需要較長的時間,因此如何保證供電連續、無感切換、規避器件單點故障是實現連續制冷的關鍵。 其次就是極端和異常場景下的快速恢復,比如自然災害導致雙路供電同時閃斷,或者控制軟件被黑客攻擊導致批量失效(這種情況在海外已經不止一次真實上演),這個時候就需要能夠快速恢復制冷,最大化減少損失。 趨勢4:AI將顯著提升DC運維主動安全 當下,AI正以前所未有的速度、廣度和深度賦能千行萬業,深刻改變著大眾的生產、生活方式,以及社會經濟的運行模式。作為AI的發軔之源,數據中心當然不會“燈下黑”,它同樣可以運用到AI的強大能力。 華為數據中心能源認為,AI將會顯著提升數據中心運維的主動安全。繼續以鋰電為例,通過強大的AI預測能力,我們可以對實時的設備數據信息和云端數據進行分析,從中找尋可能會被人為忽略的蛛絲馬跡,防范阻抗、短路、過熱等問題,從而將風險消弭于無形。 相關統計顯示,數據中心的三大故障緣由分別是掉電、起火和高溫,而在這些方面AI均能發揮重要作用,顯著提升數據中心的穩健與韌性,幫助客戶實現高質量的增長。 中國有句古話,叫“防患于未然”。隨著數據中心運營的持續深化,隨著AI技術在運維上的創新應用,相信大家對于這句話也會有更加深入和切身的體會。 趨勢5:專業化服務是DC可靠運行的堅實保障 在數據中心的建設和運維中,軟硬件產品以及架構往往是各方最為關注的。作為數據中心最直觀的組成部分,它們往往更容易被人們感知和評估。 相形之下,專業化服務就很容易被人遺漏。 堯權指出,“數據中心的壽命在10-15年,3分靠設備,7分靠維護,專業化服務是確保數據中心長期安全可靠運行的關鍵因素。” 一如前文所言,智算時代帶來的挑戰之一,就是數據中心的應急響應時間,從以前的小時、分鐘,被進一步壓縮到秒級,因此原先被動解決問題的方式已經被證明此路不通,故障預防和預測才是出路。 正因為如此,專業服務的重要性就尤顯突出,強大的AI工具、定期的機器巡檢等服務,將會是數據中心的剛需。不止于此,數據中心還必須具備高度專業度的服務,包括專業的工程師、軟硬件平臺,以及專業的流程和標準等,保障數據中心的固若金湯。 趨勢6:模塊化架構是應對AI DC需求不確定性的關鍵 傳統的數據中心,就像是傳統的土建,一般都是項目型工程化交付,一張施工圖干到底,缺乏彈性不說,而且由于“非標”因素過多,經常造成交付周期漫長、交付質量低下等問題,而且后期必然會面臨難以滿足彈性演進、無法平滑擴容等“窘境”。 時代,終歸是變了。 作為人工智能的核心底座,智算中心需要滿足更多差異化、多元化的算力場景需求,需要同時兼容不同的計算和存儲資源,需要靈活匹配不同的算力部署,因此模塊化架構就成為應對需求不確定性的關鍵。 在我們眼前,就有再鮮活不過的例證:2024年6月正式“開服”的華為蕪湖數據中心,以“0天深化圖紙,71天機電安裝,18天調測驗收,3個月產品化交付”的進度,實現了快速落地。在此基礎上,還可以通過產品模塊化等能力,在不改變原有設計結構的基礎上,靈活地進行二期擴容。 趨勢7:子系統預制化是AI DC快速交付的有效手段 接著上面一段的話題。 智算中心的快速交付,預制化絕對是功不可沒。試想一下,假如各種工作都是在智算中心的施工現場才開始,工程的進度必然會被其間的相應狀況嚴重拖累,不要說快速交付,哪怕是如期交付也會成為一種難以企及的奢望。 顯然,預制化能夠帶來更高的生產效率,讓DC產品更快地完成現場交付。預制化不僅可以減少90%的現場工作,還能夠極大地簡化現場復雜環境帶來的影響,越來越多的業主都愿意為此買單。 作為預制化數據中心的倡導者和引領者,華為在這一領域的研發與創新已經持續了13年之久,這些年來“預制化數據中心”也得到了越來越多業者和客戶的高度認可。在本次的十大趨勢中,“預制化”依舊在列,不同的是前面加上了“子系統”。 華為數據中心能源指出,子系統預制不是全預制,也不是部件預制。子系統預制的前提是解決方案產品化,它不是簡單的拼裝。在總體邏輯上,子系統是一個系統,同樣需要經歷系統設計、系統仿真、系統測試等環節,而且在這個過程中必須以嚴苛的規范和嚴格的標準進行驗證。否則的話,現如今逐漸泛化的“預制化”,很有可能帶來質量的下降,進而為數據中心的建設和運營帶來難以控制的風險。 雖然是“趨勢”,不過華為數據中心能源已經帶來了落地的成功案例。比如馬來西亞某60MW的AI DC,通過子系統預制化的方案,實現了TTM11個月快速上線,部署時間比傳統方案降低了50%之多。 趨勢8:供電高效在AI DC的價值日益凸顯 雖然在當下,風冷與液冷并行不悖,但是隨著行業從通算轉向智算,尤其是最近一年多以來,大模型將AI的發展推入新的階段,則讓液冷成為更受各方關注的方案。 在過去,以風冷為主力的場景下,溫控效率是關鍵;未來,以液冷為趨勢的場景下,供電效率成為關鍵。在此背景下,華為數據中心能源認為,供電高效在AI DC的價值日益凸顯,業界對供電效率的關注也正在從模塊高效走向系統高效。 我們可以把供電模塊想象成“血管”,如果不能及時高效地將“血液”輸送到“器官”,即數據中心的相應設備,必然會造成資源乃至資本的極大浪費,也是各方難以容忍和甘于承受的。 現如今,在供電模塊的基礎上,行業越來越看中系統的整體效率,系統高效在AI DC中越來越受到關注。 在我看來,這也會紓解數據中心面臨的高能耗等“老大難”問題,盡管程度可能有限。當然,從模塊高效走向系統高效并非坦途,仍需華為數字能源等硬核廠商破解諸多難題。 趨勢9:AI將賦能DC綜合能效提升 堯權表示,AI能力既能賦能供電能效,也能賦能制冷能效,在整體上提升數據中心的綜合能效。 在供電方面,尤其是S-ECO模式下,AI可以對供電設備進行輪巡控制,根據電力模塊的負載情況靈活調控,在保障業務不中斷的情況下,同時兼顧到供電設施的壽命。 在制冷方面,尤其是當前主流風液共存的制冷方案下,調參的復雜度往往較大,但是AI能夠精細和精準地根據設備環境的實時狀況來調整制冷能效,做到智能化的能效調優。 以上兩項在部分數據中心已經成功實施,并且還在做更多的創新與優化。譬如,通過AI大模型,數據中心可以優化電力分配,減少峰值電力需求,降低電費支出…… AI就像是多面手,只要打開思路,數據中心的創新之路就會越走越寬。 趨勢10:算電協同將成為DC建設的新模式 在九個趨勢的“跋涉”之后,我們終于來到了壓軸環節。在我看來,“趨勢10”并不代表它的重要性低于此前的任何一項,而是因為它在一定程度上是對整體的陳述和總結,其角度與視野也更為整體和宏觀。 具體而言,就是在未來的數據中心基礎設施建設中,華為數據中心能源認為算電協同將成為新的建設模式。 由于數據中心的用電量大,因此很多電力短缺的地區無法建設新的數據中心。那么,數據中心完全可以通過建設光伏等方式,形成電力自給;或是在光伏豐富的區域周圍,規劃、設計和建設數據中心。 數據中心還可以更多與電網協同,參與電網的調頻調峰,既能解決電網穩定性問題,又能獲取相應收益,還可以根據自身訓練/推理的需求,按需調度負載,實現綜合效率最優。 “華為數據中心能源堅信,在與行業伙伴們的共同努力下,將共同推動數據中心的發展,讓數字世界的堅定運行!”堯權最后表示。 (個人觀點,僅供參考) |
|