關(guān)于我們 | English | 網(wǎng)站地圖

杜坤:Al對(duì)數(shù)據(jù)中心的影響

2024-09-19 14:05:30 中國(guó)能源網(wǎng)

華為數(shù)字能源中國(guó)區(qū)產(chǎn)品總監(jiān) 杜坤:AI的業(yè)務(wù)模式是變化的,與傳統(tǒng)數(shù)據(jù)中心的建設(shè)不一樣,單機(jī)柜功率密度提升,服務(wù)器在時(shí)刻變化,半年以后可能摩爾定律會(huì)極其迅速地帶來(lái)一個(gè)產(chǎn)品的迭代和更多的變化。

我們?nèi)绾卧谶@種變化的環(huán)境下去適配,或者響應(yīng)業(yè)務(wù)快速建設(shè)的特征,來(lái)靈活應(yīng)對(duì)一個(gè)多元算力。未來(lái)數(shù)據(jù)中心的建設(shè)一定包含AI、包含通算、包含存儲(chǔ)一系列綜合業(yè)務(wù)的集合。產(chǎn)品的模塊化從供電設(shè)施到智能設(shè)施基礎(chǔ)的模塊化的搭建,一個(gè)最小的單元化積木式的快速響應(yīng)是必需的。基于現(xiàn)在制冷形式的不確定,我們可能要在機(jī)房空間內(nèi)實(shí)現(xiàn)液冷和風(fēng)冷兼容的設(shè)計(jì)。對(duì)于我們來(lái)說(shuō),在沒(méi)有決定服務(wù)器具體用哪種模式,業(yè)務(wù)承載以什么形式去做的時(shí)候,我們可能會(huì)用一定空間上的犧牲,來(lái)滿足方案的靈活性。

如果按照端到端的概念去做一個(gè)數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè),我們從最開(kāi)始資源的獲取,現(xiàn)在AI對(duì)電力的消耗可能是通算消耗的5~10倍甚至更多,我們?nèi)绾稳ツ玫礁嗫焖俚哪茉u(píng)、更多的土地和更多其他的資源,這部分是我們?cè)谇爸靡?guī)劃建設(shè)時(shí)就需要考慮的問(wèn)題。

在我們拿到相關(guān)設(shè)備的基礎(chǔ)條件以及整體項(xiàng)目的報(bào)批報(bào)建完成之后,如何快速協(xié)同去做交付?全部完成只是做到了能源的底層,到第三層我們才會(huì)做到機(jī)柜交付和業(yè)務(wù)部署的上線。目前從整體策略來(lái)看我們還是建議在業(yè)務(wù)部署前期應(yīng)該有一個(gè)清晰的規(guī)劃,有彈性的方案架構(gòu)的匹配,以及在業(yè)務(wù)部署的中后期,我們能夠?qū)崿F(xiàn)業(yè)務(wù)整柜的快速交付以及業(yè)務(wù)的快速調(diào)試和上線,這部分都需要根據(jù)現(xiàn)有的經(jīng)驗(yàn)做合理的預(yù)估,控制相關(guān)的投資風(fēng)險(xiǎn)。因?yàn)锳I現(xiàn)在投資的風(fēng)險(xiǎn)相對(duì)通算來(lái)說(shuō)會(huì)更加龐大。

應(yīng)對(duì)快速建設(shè),我們通過(guò)標(biāo)準(zhǔn)化的架構(gòu),模塊化的設(shè)備,基線化的協(xié)同,這是我們目前交付的為數(shù)不多的幾十個(gè)項(xiàng)目中積累的一些經(jīng)驗(yàn)。比如最開(kāi)始我們要做到業(yè)主側(cè)的聯(lián)合規(guī)劃設(shè)計(jì)落地,并且在后期基于L1和L2層相關(guān)的協(xié)同的交付實(shí)施,作出明確的方案?;诤笃诘倪\(yùn)維,我們要綜合評(píng)估包括業(yè)主的能力以及相關(guān)運(yùn)營(yíng)公司的能力,最終在運(yùn)營(yíng)上做一定的協(xié)同優(yōu)化,這是我們四大階段要做的事情,具體細(xì)化上還有更多方式去解決。

對(duì)于我們來(lái)說(shuō),設(shè)備安裝層面也是基于這四大設(shè)施情況下做一個(gè)全流程的協(xié)同,能做到高質(zhì)量完全的交付。在我們的TTM(即時(shí)通訊軟件)上,通過(guò)有效的工具,我們能夠節(jié)省30%以上的上線時(shí)間,以解決現(xiàn)有業(yè)務(wù)爆發(fā)和相關(guān)業(yè)務(wù)快速部署的要求。

目前AI的電力消耗是巨大的,所以對(duì)我們來(lái)說(shuō),有可能出現(xiàn)一個(gè)問(wèn)題,原來(lái)輔助的配電用房的占地面積只有10%~15%,但是隨著單機(jī)柜功率密度顯著提高甚至部分液冷設(shè)備上線,輔助空間設(shè)施將極致壓縮。這時(shí)集成化、高密化的方案也逐步成為主流。在主業(yè)務(wù)還沒(méi)有明確之前,相對(duì)穩(wěn)定的市電申請(qǐng)下來(lái)之后就開(kāi)始提前部署,甚至提前做電力模塊交付的相關(guān)產(chǎn)品的采購(gòu)和整個(gè)設(shè)備的部署。這樣有兩大好處,第一個(gè)是通過(guò)智能化的管理,能夠?qū)┡潆姷目煽啃宰龅綐O大提升。第二個(gè)是由于高密化部署的產(chǎn)品特點(diǎn),能夠讓可部署機(jī)柜的出柜率得到顯著提升。

供電架構(gòu)的基礎(chǔ)設(shè)施,也是業(yè)界很多先行者會(huì)考慮的事情。既然AI這么耗電,我為什么還要做2N的架構(gòu)(一種數(shù)據(jù)中心供配電系統(tǒng)架構(gòu)),能不能做兩路市電,來(lái)避免甚至減緩這個(gè)特征帶來(lái)的影響。這里就有一個(gè)很明確的觀點(diǎn),第一,我們要考慮基于現(xiàn)在最新的AI服務(wù)器的定價(jià),如果按照訓(xùn)練服務(wù)器定價(jià),8點(diǎn)節(jié)2.5P的算力服務(wù)器采購(gòu)金額在150萬(wàn)甚至250萬(wàn)之間,相對(duì)于通算服務(wù)器,這是一個(gè)非常大的投資。L1這部分的占比,相對(duì)于總投資來(lái)說(shuō)有一個(gè)下降。第二個(gè)要素,對(duì)服務(wù)器來(lái)說(shuō),所有的設(shè)備我們?nèi)绾稳ビ绊懰目煽啃?,由于高溫,由于供電不穩(wěn)定,由于一系列其他的故障所帶來(lái)的問(wèn)題,因?yàn)楝F(xiàn)在的服務(wù)器很貴,服務(wù)器是一個(gè)很金貴的設(shè)備,所以對(duì)于我們來(lái)說(shuō)傳統(tǒng)的2N架構(gòu),供電質(zhì)量的可靠性以及相關(guān)特性的保障也變得更加重要。

后續(xù)的供電是長(zhǎng)時(shí)間的并行計(jì)算,出現(xiàn)了市電中斷的閃斷可能沒(méi)有數(shù)據(jù)丟失的風(fēng)險(xiǎn),但是對(duì)于算力或者電力的消耗指標(biāo)也是相當(dāng)恐怖的,所以對(duì)于我們來(lái)說(shuō),一旦能夠有效地保證能源供應(yīng),避免因?yàn)殡娏Φ闹袛鄮?lái)的服務(wù)器的并行重新計(jì)算,對(duì)我們來(lái)說(shuō)在能源包括成本上的控制也是相對(duì)有效的措施。所以2N架構(gòu)的UPS(不間斷電源)的供配電方案,我們后續(xù)依然認(rèn)為是AI供配電主流的配置。

負(fù)載的突增突減,基于算力的業(yè)務(wù)來(lái)說(shuō)無(wú)法避免,而且負(fù)載的長(zhǎng)期大算力不并行計(jì)算也是特點(diǎn),架構(gòu)上我們必須要關(guān)注一點(diǎn),就是高壓直流也好,UPS也好,具備短時(shí)間的過(guò)載特性,以滿足現(xiàn)有的業(yè)務(wù)特征?,F(xiàn)在有一個(gè)行之有效的辦法,比如在市電容量一定的情況,作為數(shù)據(jù)中心,有一部分儲(chǔ)能設(shè)備會(huì)用來(lái)作為數(shù)據(jù)中心能源供給的后備,在市電容量已經(jīng)滿負(fù)荷的情況下,可以通過(guò)儲(chǔ)能聯(lián)合供電來(lái)解決一部分負(fù)載突增突減的問(wèn)題。如果采用常規(guī)的鉛酸電池,由于它的放電次數(shù)和放電倍率的問(wèn)題,無(wú)法做到有效的、長(zhǎng)期的能源突增突減后備軍的力量,所以鋰電后續(xù)的常規(guī)化應(yīng)用,后期是動(dòng)力電池甚至中壓側(cè)儲(chǔ)能電池的應(yīng)用,也將逐步成為數(shù)據(jù)中心更換的主流,以解決我們提到的負(fù)載突增突減變化的特點(diǎn)。

冷卻。AI最大的特點(diǎn)就是在冷卻部分到底是風(fēng)冷還是液冷。到目前為止,風(fēng)冷的服務(wù)器依然是業(yè)界發(fā)貨的主流,液冷服務(wù)器有各種各樣的模式。所有服務(wù)器的廠商現(xiàn)在基于AI的場(chǎng)景都在不停地推出風(fēng)冷和液冷兼具的服務(wù)器的解決方案,我們目前明確在單機(jī)柜40千瓦左右,40千瓦以上我們推薦用液冷或者風(fēng)液融合的方案,40千瓦以下傳統(tǒng)的風(fēng)冷場(chǎng)景依然還是能夠解決現(xiàn)在建設(shè)的訴求。

液冷和風(fēng)冷這兩個(gè)方案,未來(lái)誰(shuí)都不會(huì)有絕對(duì)化的優(yōu)勢(shì)做完全的取代。風(fēng)冷相對(duì)PUE(電源使用效率)或者整體的占地面積會(huì)有一定的提升,液冷的PUE會(huì)比風(fēng)冷至少高0.1甚至0.15以上,相應(yīng)的出柜率及其功率密度能夠得到有效的提升,但從整體成本以及后期維護(hù)的簡(jiǎn)易度來(lái)看,它有一定的劣勢(shì)。未來(lái)隨著液冷服務(wù)器批量開(kāi)放使用,以及由于發(fā)貨量帶來(lái)的成本下降,液冷后續(xù)將逐步在整體的服務(wù)器占比中有一定量的提升,后續(xù)有可能做到1:1甚至更高的比例。

有一點(diǎn)必須要明確,未來(lái)液冷將占一定的比例,但目前我們做整個(gè)數(shù)據(jù)中心的部署,對(duì)我們的要求就是要做到可以風(fēng)也可以液,風(fēng)液可調(diào),風(fēng)液融合,以適配更多的場(chǎng)景。

冷卻問(wèn)題,在我們的訓(xùn)練模型做了一定沉淀之后,模型最終的可用性、成熟度達(dá)到上線,大家會(huì)聚焦到推理模式,冷電融合以及連續(xù)制冷的需求是未來(lái)的剛需。按照我們自己的測(cè)試來(lái)看,一個(gè)3千瓦的機(jī)柜如果出現(xiàn)溫度到40度的情況下只需要8分鐘,后續(xù)20千瓦到40千瓦非連續(xù)制冷模式,可能1分鐘之內(nèi)機(jī)柜就會(huì)因?yàn)檫^(guò)熱帶來(lái)業(yè)務(wù)宕機(jī)。無(wú)論是以后AI層面的大中型數(shù)據(jù)中心還是中小型數(shù)據(jù)中心,連續(xù)制冷都是未來(lái)的剛需。目前來(lái)看在通算這個(gè)領(lǐng)域,單機(jī)柜功率密度沒(méi)有提升,客戶訴求和痛點(diǎn)并不明顯。華為公司在相應(yīng)的架構(gòu)上也做了一定的優(yōu)化,以保證這個(gè)功能的提升。

基于我們目前AI的模式,在訓(xùn)練模式、百柜千柜的大型IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)的情況下,我們有融合化的解決方案,有電力模塊,有間接蒸發(fā)冷卻系統(tǒng),大型設(shè)備還是以部件為主,在中小型的模型場(chǎng)景,有預(yù)制模塊化和微模塊的解決方案,以適配業(yè)務(wù)的快速部署和快速上線。未來(lái)基于AI層面相關(guān)的應(yīng)用以及AI層面相關(guān)的業(yè)務(wù),華為公司將持續(xù)關(guān)注,與我們客戶、伙伴攜手打造更多的數(shù)據(jù)中心類的AI管理,將更新的管理技術(shù)以及更好的模塊化的輔助產(chǎn)品提供給客戶,創(chuàng)造更多的價(jià)值,滿足客戶的需求。




責(zé)任編輯: 張磊