人工智能對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施帶來了哪些挑戰(zhàn)

作者：Aditya Jian（安森美高級(jí)總監(jiān)）時(shí)間：2024-11-24 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://2s4d.com/article/202411/464896.htm

在加密貨幣和人工智能/ 機(jī)器學(xué)習(xí)（AI/ML）等新興應(yīng)用的驅(qū)動(dòng)下，數(shù)據(jù)中心的能耗巨大，并將快速增長(zhǎng)以滿足用戶需求。根據(jù)國(guó)際能源署（IEA）的最新報(bào)告，2022年數(shù)據(jù)中心的耗電量將達(dá)到460 TWh（太瓦時(shí)），約占全球總用電量的2%。在美國(guó)，擁有全球三分之一的數(shù)據(jù)中心，耗電量為260 TWh，占總用電量的6%。

預(yù)測(cè)未來具有挑戰(zhàn)性，這取決于部署了多少非常耗電的圖形處理單元（GPU）來應(yīng)對(duì)人工智能技術(shù)的需求，當(dāng)然還取決于進(jìn)一步增加空調(diào)來降低數(shù)據(jù)中心的溫度。國(guó)際能源署的報(bào)告顯示，到2026 年，數(shù)據(jù)中心的耗電量將至少增長(zhǎng)到650 TWh（40%），但也可能高達(dá)1,050 TWh（128%）。

1 數(shù)據(jù)中心支持人工智能趨勢(shì)

人工智能是一項(xiàng)極其耗電的技術(shù)，支持其運(yùn)行的數(shù)據(jù)中心需要具備足夠的算力和電力輸送能力。

瑞典RISE 研究機(jī)構(gòu)最近的一項(xiàng)研究清楚地展示了由于該技術(shù)迅速普及所帶來的巨大變化。例如，ChatGPT 在2022 年11 月推出后僅五天內(nèi)就達(dá)到了100 萬用戶。他們?cè)趦蓚€(gè)月內(nèi)就擁有了1 億用戶，而TikTok 達(dá)到同一用戶量級(jí)用了9 個(gè)月，Instagram 則用了兩年半的時(shí)間。

作為參考，在谷歌上進(jìn)行一次搜索僅需0.28 Wh，相當(dāng)于讓一個(gè)60 W 的燈泡亮17 秒。

相比之下，訓(xùn)練GPT-4 需要1.7 萬億個(gè)參數(shù)和13萬億個(gè)tokens（單詞片段），這是一個(gè)完全不同的命題。要做到這一點(diǎn)，需要包含25, 000 個(gè)英偉達(dá)A100 GPU的多臺(tái)服務(wù)器，每臺(tái)服務(wù)器的功耗約為6.5kW。OpenAI表示，訓(xùn)練耗時(shí)100 天，耗能約50 GWh，耗資1 億美元。顯然，人工智能將極大地改變數(shù)據(jù)中心的游戲規(guī)則，其所需的計(jì)算能力和能耗水平將遠(yuǎn)遠(yuǎn)超過我們迄今為止所看到的任何水平。

2 數(shù)據(jù)中心48V架構(gòu)

早期的數(shù)據(jù)中心采用集中式電源架構(gòu)(CPA)，將主電源（電網(wǎng)）電壓集中轉(zhuǎn)換為12 V（母線電壓），然后將其分配給各服務(wù)器，并使用相對(duì)簡(jiǎn)單的轉(zhuǎn)換器在本地將其轉(zhuǎn)換為5 V 或3.3 V 邏輯電平。

然而，隨著功率需求的增長(zhǎng)，12 V母線上的電流（以及相關(guān)損耗）變得高得令人無法接受，迫使系統(tǒng)工程師改用48 V 母線布置。根據(jù)歐姆定律，電流減少了4 倍，損耗則降低了4 倍的平方。這種配置被稱為分布式電源架構(gòu)(DPA)。

與此同時(shí)，處理器和其他一些元器件的電壓也在不斷降低，最終降至亞伏特級(jí)別，導(dǎo)致需要多個(gè)次級(jí)電壓軌。為解決這一問題，采用了二階轉(zhuǎn)換技術(shù)，通過DC-DC 轉(zhuǎn)換器（稱為中間母線轉(zhuǎn)換器 - IBC）將48 V電壓轉(zhuǎn)換為12V母線，再根據(jù)需要從12V母線輸出其他電壓。

圖1 服務(wù)器電源系統(tǒng)的結(jié)構(gòu)

3 對(duì)高能效MOSFET的需求

數(shù)據(jù)中心內(nèi)部的電力損耗給運(yùn)營(yíng)商帶來了挑戰(zhàn)。首先，也是最明顯的一點(diǎn)是，他們正在為那些無助于服務(wù)器運(yùn)行的電力付費(fèi)。其次，任何浪費(fèi)的能源都會(huì)轉(zhuǎn)化為熱量，這就必須設(shè)法處理。由于超大規(guī)模AI 服務(wù)器的功率需求高達(dá)120 kW（而且肯定會(huì)隨著時(shí)間推移而增加），即使在50％負(fù)載的情況下，以97.5％的峰值效率計(jì)算2.5％的損耗，每臺(tái)服務(wù)器也會(huì)浪費(fèi)1.5 kW 的電力，相當(dāng)于一臺(tái)全時(shí)運(yùn)行的電加熱器。

處理熱量可能需要在功率轉(zhuǎn)換系統(tǒng)中采取散熱措施，如散熱器或風(fēng)扇。這些措施會(huì)增大電源的體積，占用本可用于更多計(jì)算能力的空間，就風(fēng)扇而言，還會(huì)耗費(fèi)電能并增加成本。由于數(shù)據(jù)中心內(nèi)的溫度需要嚴(yán)格控制，過高的損耗也會(huì)使環(huán)境溫度升高，這意味著需要更多的空調(diào)來降溫。這既是資本支出，也是運(yùn)營(yíng)成本，同時(shí)還占用空間。

顯然，盡可能高效地將主（電網(wǎng)）電壓轉(zhuǎn)換為驅(qū)動(dòng)人工智能GPU 和其他設(shè)備供電所需的電壓，對(duì)數(shù)據(jù)中心運(yùn)營(yíng)商來說大有裨益。

因此，多年來人們?cè)陔娫赐負(fù)浣Y(jié)構(gòu)方面做了大量工作，在前端PFC階段引入了圖騰柱PFC（TPPFC）等技術(shù)，以提高其效率。此外，為了提高效率，二極管整流器已被MOSFET所取代，并引入了同步整流等技術(shù)。

優(yōu)化拓?fù)浣Y(jié)構(gòu)只是其中的一半，要優(yōu)化效率，所有元件也必須盡可能高效，尤其是對(duì)轉(zhuǎn)換過程至關(guān)重要的MOSFET。

當(dāng)MOSFET 用于開關(guān)電源轉(zhuǎn)換時(shí)，主要有兩種形式的損耗：導(dǎo)通損耗和開關(guān)損耗。導(dǎo)通損耗由漏極和源極之間的電阻（R_DS(ON)）造成，在電流流動(dòng)時(shí)一直存在。開關(guān)損耗是由柵極電荷(Qg)、輸出電荷（QOSS）和反向恢復(fù)電荷（Qrr）共同造成的，這些電荷在每個(gè)開關(guān)周期都會(huì)得到補(bǔ)充。由于目前的趨勢(shì)是提高開關(guān)頻率以減小磁性元件的尺寸，因此隨著補(bǔ)充頻率的增加，這種損耗也會(huì)變得相當(dāng)顯著。

顯然，特定MOSFET的導(dǎo)通損耗和開關(guān)損耗越低，電源系統(tǒng)的整體轉(zhuǎn)換效率就越高。

圖2 PowerTrench T10 MOSFET的優(yōu)勢(shì)

4 PowerTrench^? T10 MOSFET

同步整流現(xiàn)在已成為所有高性能、大電流、低壓電源轉(zhuǎn)換應(yīng)用中的關(guān)鍵技術(shù)，特別是在數(shù)據(jù)中心服務(wù)器的應(yīng)用中更是如此。在這種應(yīng)用中，包括R_DS(ON)、Qg、Q_OSS和Q_rr在內(nèi)的幾個(gè)MOSFET參數(shù)會(huì)直接影響轉(zhuǎn)換效率，器件制造商正努力尋求減小這些影響的方法。

安森美的PowerTrench T10 MOSFET采用新型屏蔽柵極溝道設(shè)計(jì)，實(shí)現(xiàn)了超低的Qg 值，且R_DS(ON)低于1 mOhm。最新的PowerTrench T10 技術(shù)不僅減少了振鈴、過沖和噪聲，其業(yè)界先進(jìn)的軟恢復(fù)體二極管還降低了Qrr。這在導(dǎo)通電阻性能和恢復(fù)特性之間實(shí)現(xiàn)了良好的折中平衡，同時(shí)還可實(shí)現(xiàn)具有良好反向恢復(fù)特性的低損耗快速開關(guān)。

總體而言，PowerTrench T10 器件在參數(shù)方面的改進(jìn)提高了中低壓、大電流開關(guān)電源解決方案的效率。通常情況下，開關(guān)損耗比上一代器件最多可降低50%，而導(dǎo)通損耗可降低30% ~ 40%。

安森美推出了PowerTrench T10 技術(shù)的40 V 系列和80 V 系列產(chǎn)品。NTMFWS1D5N08X（80 V、1.43 mΩ、5 mm×6 mm SO8-FL 封裝）和NTTFSSCH1D3N04XL（40 V、1.3 mΩ、3.3 mm×3.3 mm 源下雙冷卻封裝）為人工智能數(shù)據(jù)中心應(yīng)用中的電源單元（PSU）和中間母線轉(zhuǎn)換器（IBC）提供了同類極佳的效率（FOM）。它們達(dá)到了開放式機(jī)架（Open Rack）V3 規(guī)范要求的97.5% 的PSU 效率和98% 的IBC 效率。

5 結(jié)束語

人工智能革命已經(jīng)到來，沒有人能夠完全確定它對(duì)數(shù)據(jù)中心未來的電力輸送需求究竟意味著什么。不過，可以肯定的是，一系列新的挑戰(zhàn)已經(jīng)出現(xiàn)。房地產(chǎn)資源稀缺和電網(wǎng)的限制使得很難找到容量充足的新地點(diǎn)。關(guān)鍵IT 方面的總體電力需求激增，給電力成本帶來沉重負(fù)擔(dān)。為了滿足這些需求，數(shù)據(jù)中心業(yè)主不僅要建設(shè)新設(shè)施，還要將現(xiàn)有設(shè)施推向極限，力求實(shí)現(xiàn)每平方英尺兆瓦級(jí)的高密度配置。

隨著功率水平肯定會(huì)超過100 kW，功率轉(zhuǎn)換將成為關(guān)鍵重點(diǎn)，以實(shí)現(xiàn)高效運(yùn)行，確保散熱，可靠地提高功率密度，并在狹窄的現(xiàn)代數(shù)據(jù)中心中節(jié)省空間。安森美的PowerTrench T10 技術(shù)提供了業(yè)界先進(jìn)的R_DS(ON)、更高的功率密度、降低開關(guān)損耗，以及更好的熱性能，從而降低總系統(tǒng)成本。PowerTrench T10 等創(chuàng)新功率半導(dǎo)體技術(shù)將成為未來的關(guān)鍵組成部分。

（本文來源于《EEPW》202411）

新聞中心

人工智能對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施帶來了哪些挑戰(zhàn)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)