人工智能正推動(dòng)著對(duì)更高計(jì)算密度的需求。但滿足這一需求并非是把更多服務(wù)器塞進(jìn)機(jī)架那么簡單。
- 1兆瓦(MW)機(jī)架即將到來,標(biāo)志著機(jī)架功率水平呈指數(shù)級(jí)躍升
- 這些新型機(jī)架將需要強(qiáng)大的液冷系統(tǒng)
- 它們還需要全新的物理設(shè)計(jì),以實(shí)現(xiàn)電力分配與計(jì)算模塊的分離
偉創(chuàng)力總裁Chris Butler在一次采訪中談及,1兆瓦(MW)機(jī)架即將成為現(xiàn)實(shí)。這一話題聽起來似曾相識(shí),因?yàn)榫驮趲滋烨?,液冷技術(shù)產(chǎn)品研發(fā)商LiquidStack的戰(zhàn)略主管Angela Taylor也提到了同樣的事情。
Butler表示:“我認(rèn)為在未來一年至一年半內(nèi),這將大規(guī)模成為現(xiàn)實(shí)。”盡管“大規(guī)模”是相對(duì)概念,且這些(1兆瓦機(jī)架)不會(huì)取代數(shù)據(jù)中心的所有機(jī)架,但他指出,目前已有大規(guī)模計(jì)劃將其應(yīng)用于所有GPU相關(guān)的應(yīng)用場(chǎng)景。
需要說明的是,1兆瓦(MW)等于1000千瓦(kW),與目前數(shù)據(jù)中心中普遍使用的15千瓦以下的機(jī)架功率相比,是一個(gè)巨大的飛躍。即便是與人們最初認(rèn)為AI所需的40-100千瓦高性能機(jī)架功率水平相比,這也是一個(gè)巨大的跨越。
但是在英偉達(dá)2027年路線圖中,GPU單機(jī)架功率需求將達(dá)600千瓦。因此,云服務(wù)提供商正著眼于大規(guī)模布局以迎接未來——真正意義上的“大規(guī)模”。
散熱挑戰(zhàn)
問題在于,這種功率躍升對(duì)電力和散熱系統(tǒng)具有重大影響。
正如Butler所言,1兆瓦機(jī)架的散熱靠風(fēng)冷根本行不通。因?yàn)檫@類系統(tǒng)散發(fā)出的熱量足以為多棟房屋供暖。這意味著必須引入液冷系統(tǒng),并相應(yīng)地設(shè)計(jì)數(shù)據(jù)中心基礎(chǔ)設(shè)施。
鑒于偉創(chuàng)力如今已收購數(shù)據(jù)中心液冷公司JetCool,Butler顯然有理由堅(jiān)持液冷是必需的。戴爾奧羅集團(tuán)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施研究總監(jiān)Alex Cordovil也認(rèn)同這一觀點(diǎn)。
“要支持如此高密度的IT負(fù)載,液冷將成為必不可少的配置。”他說道。
因此,全行業(yè)供應(yīng)商都在為這一必然趨勢(shì)做準(zhǔn)備。正如Taylor提到的,LiquidStack設(shè)計(jì)了一種新型模塊化冷卻液分配單元(CDU),該系統(tǒng)可根據(jù)機(jī)架需求動(dòng)態(tài)調(diào)整冷卻能力。新CDU以2.5兆瓦模塊為單位,整體系統(tǒng)可擴(kuò)展至10兆瓦。
“我們現(xiàn)在討論的不僅是600千瓦,而是1兆瓦機(jī)架。因此,你需要應(yīng)對(duì)這一挑戰(zhàn):如何設(shè)計(jì)冷卻系統(tǒng),既能滿足當(dāng)下需求,又能適應(yīng)未來發(fā)展。這正是我們選擇模塊化設(shè)計(jì)的原因。”Taylor說道。
Cordovil指出,單相直接芯片冷卻系統(tǒng)(目前最主流的技術(shù),也是LiquidStack新CDU支持的類型)有望持續(xù)進(jìn)化以滿足不斷攀升的功率需求。就目前來看,1兆瓦機(jī)架似乎仍在其技術(shù)范圍內(nèi)。
但他也提到,“單相系統(tǒng)將在何種機(jī)架密度下達(dá)到散熱上限”尚未明確。而當(dāng)這一上限到來時(shí),雙相直接液冷系統(tǒng)將迎來機(jī)會(huì),例如Zutacore和Accelsius所提供的解決方案。
電力升級(jí)
要實(shí)現(xiàn)1兆瓦機(jī)架,需變革的不止是散熱系統(tǒng),電源供應(yīng)系統(tǒng)也是另一關(guān)鍵組件。
偉創(chuàng)力目前正研發(fā)400伏(V)直流電(DC)系統(tǒng),而Butler透露,偉創(chuàng)力已在著眼未來的800VDC甚至1500VDC技術(shù)。
如前所述,從當(dāng)今的48V系統(tǒng)升級(jí)至400V直流電(DC)不僅需要大幅增強(qiáng)安全措施,還需對(duì)工作人員進(jìn)行重新培訓(xùn)。但Cordovil與Butler均指出,這一轉(zhuǎn)變也將重塑機(jī)架的物理設(shè)計(jì)。
目前,將配電架與計(jì)算服務(wù)器置于同一機(jī)架內(nèi)是常見做法。然而,功率水平的指數(shù)級(jí)提升意味著電力分配與計(jì)算模塊可能很快需要獨(dú)立部署。
“谷歌與微軟等企業(yè)正與開放計(jì)算項(xiàng)目(Open Compute Project Foundation)合作開發(fā)新設(shè)計(jì),代號(hào)‘迪亞布洛山’。”Cordovil解釋道,“該設(shè)計(jì)將整個(gè)電力架構(gòu)移至相鄰的機(jī)架側(cè)柜,從而讓同一機(jī)架內(nèi)能容納更多服務(wù)器。”
他還認(rèn)為釋放服務(wù)器機(jī)架的空間,對(duì)于實(shí)現(xiàn)機(jī)架內(nèi)更高效的南北向快速通信、承載更多IT負(fù)載至關(guān)重要,正是這一轉(zhuǎn)變將推動(dòng)行業(yè)邁向“傳說中的1兆瓦”機(jī)架。
當(dāng)然,數(shù)據(jù)中心內(nèi)部功率水平的提升也會(huì)對(duì)公用事業(yè)等外部領(lǐng)域產(chǎn)生影響。點(diǎn)擊此處了解更多關(guān)于發(fā)電與能源供應(yīng)層面的分析。
本文翻譯自FierceNetwork記者對(duì)偉創(chuàng)力嵌入式電源和關(guān)鍵電源業(yè)務(wù)總裁ChrisButler的采訪,于2025年6月6日發(fā)表。