博客專欄

EEPW首頁(yè) > 博客 > 芯片,太耗電了

芯片,太耗電了

發(fā)布人:旺材芯片 時(shí)間:2024-08-11 來(lái)源:工程師 發(fā)布文章

圖片

處理器和數(shù)據(jù)中心架構(gòu)正在發(fā)生變化,以滿足運(yùn)行 AI 和大型語(yǔ)言模型 (LLM) 的服務(wù)器的更高電壓需求。


曾經(jīng),服務(wù)器運(yùn)行時(shí)耗電量只有幾百瓦。但在過去幾十年里,由于需要處理的數(shù)據(jù)量大幅增加,以及用戶要求更快處理數(shù)據(jù),情況發(fā)生了巨大變化。NVIDIA 的Grace Blackwell芯片消耗 5 到 6 千瓦,這大約是過去服務(wù)器功耗的 10 倍。


功率是電壓乘以電流。“如果我需要 5 千瓦,我可以在 120 伏的標(biāo)準(zhǔn)電壓下實(shí)現(xiàn),” Rambus的杰出發(fā)明家 Steven Woo 說道?!暗倚枰?40 安培的電流,這是很大的電流。”


這類似于你在五金店購(gòu)買的那種電線?!俺箅娏麟娋€有很多不同的直徑,而且非常粗,”Woo 說。“以前大家都認(rèn)為服務(wù)器的功率可能是 1 或 2 千瓦,對(duì)于 120 伏電壓,你只需提供 10 安培的電流。現(xiàn)在,由于功率需求高得多,如果我將電壓保持在 120 伏,我必須提供四倍甚至更高的電流,但電線無(wú)法承受這么大的電流。它們會(huì)熔化?!?/p>


如果不能提高電流,那么另一個(gè)選擇就是提高電壓?!半娏鞒艘噪妷罕仨毜扔?5 千瓦,”Woo 指出?!叭缃穹?wù)器的電壓為 48 伏,而以前是 12 伏?,F(xiàn)在 NVIDIA 正在討論 48 伏,他們將電壓提高了四倍,這使得他們能夠在保持電流不變的情況下將功率提高四倍?!?/p>


這種變化反映在電源上。西門子 EDA 嵌入式電路板系統(tǒng)部市場(chǎng)開發(fā)經(jīng)理 Rod Dudzinski 指出:“我們看到客戶在構(gòu)建大型數(shù)據(jù)中心時(shí),尋求不同的途徑來(lái)提供運(yùn)行機(jī)架式系統(tǒng)所需的電力。一些數(shù)據(jù)中心公司正在借鑒高性能電源模塊和相關(guān)電力電子產(chǎn)品的理念和概念來(lái)實(shí)現(xiàn)這一目標(biāo),例如高效的電源轉(zhuǎn)換為熱效率再到終身可靠性。到 2025 年,傳統(tǒng)數(shù)據(jù)中心的功耗預(yù)計(jì)將增加 50%,因此,電路板級(jí)電源轉(zhuǎn)換效率和功率密度對(duì)于系統(tǒng)架構(gòu)師來(lái)說是首要考慮因素,應(yīng)將其作為減少系統(tǒng)中每個(gè) PCB 配電網(wǎng)絡(luò) (PDN) 損耗的手段?!?/span>


類似的變化也反映在 EDA 中。Movellus 戰(zhàn)略營(yíng)銷副總裁 Lee Vick 表示,數(shù)據(jù)中心電源領(lǐng)域正在發(fā)生的事情與 EDA 領(lǐng)域正在發(fā)生的事情有相似之處?!霸谛酒O(shè)計(jì)領(lǐng)域,我們過去的情況是,通過 EDA 工具流程單獨(dú)制作晶體管,但這些工具是一系列不同的工具——布局工具、時(shí)序工具、布線工具。最終,我們不得不轉(zhuǎn)向一個(gè)集成這些工具、集成流程和集成數(shù)據(jù)的世界,以滿足現(xiàn)代世界的性能需求?,F(xiàn)在,即使是 EDA 公司也不會(huì)止步于設(shè)計(jì),因?yàn)槟惚仨毠芾硇酒纳芷?,從設(shè)計(jì)到測(cè)試和制造,一直到現(xiàn)場(chǎng),在那里他們會(huì)對(duì)設(shè)備進(jìn)行檢測(cè)并捕獲遙測(cè)數(shù)據(jù),以反饋到設(shè)計(jì)過程中并改進(jìn)測(cè)試。這是一個(gè)完整的生命周期。這是一個(gè)完全集成的垂直流程(即使它在時(shí)間框架上是水平的),這是至關(guān)重要的?!?/p>


類似的趨勢(shì)也適用于數(shù)據(jù)中心的電力?!耙郧?,當(dāng)你設(shè)計(jì)芯片時(shí),你會(huì)有一個(gè)電力預(yù)算,”維克說?!盎蛘撸绻闶且幻こ處?,你被賦予一個(gè)模塊來(lái)設(shè)計(jì),你會(huì)有一個(gè)針對(duì)該特定模塊的電力預(yù)算,你不敢超出這個(gè)預(yù)算。但這就是你需要關(guān)心的一切——輸入和輸出?,F(xiàn)在情況已經(jīng)不同了。在數(shù)據(jù)中心,我們看到需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了子集或芯片,擴(kuò)展到主板、機(jī)架、數(shù)據(jù)中心層面。當(dāng)你談?wù)搶?duì)全球范圍內(nèi)有意義的能源需求時(shí),是時(shí)候?qū)⑺羞@些都付諸實(shí)施了?!?/p>


這里的連鎖反應(yīng)很重要,而不僅僅是必須將功耗降至最低?!懊總€(gè)人都必須將功耗降至最低,”他說。“有限制,有需求,有變化正在發(fā)生,你必須能夠?qū)λ鼈冏龀龇磻?yīng)。另一個(gè)關(guān)鍵的事情是,我們已經(jīng)遠(yuǎn)遠(yuǎn)超越了假設(shè),超越了‘這是未來(lái)的事情’的夸張。在最近的 DAC 上,我們有一個(gè)小組,討論的是管理千瓦功率預(yù)算。我們有來(lái)自 IC 設(shè)計(jì)、EDA、IP 和系統(tǒng)設(shè)計(jì)的行業(yè)專家。所有這些部分都發(fā)揮了作用。這不是 IP 提供商、芯片設(shè)計(jì)師或 EDA 公司可以單獨(dú)解決的問題。這需要每個(gè)人共同努力。同樣,在數(shù)據(jù)中心,我們必須改善分配和冷卻,這只會(huì)在宏觀層面增加能耗。但現(xiàn)代數(shù)據(jù)中心的芯片和芯片內(nèi)部的大量芯片和計(jì)算元件的規(guī)模只會(huì)加劇這種情況?!?/p>


Ansys首席應(yīng)用工程師 Ashutosh Srivastava認(rèn)為,這種情況是雙向的,因?yàn)樾酒O(shè)計(jì)會(huì)導(dǎo)致功耗激增,因?yàn)樽钚碌?AI 芯片(包括 GPU)在進(jìn)行更大、更快的計(jì)算時(shí)會(huì)消耗更多能量。在某些情況下,每臺(tái)服務(wù)器的功耗超過 2 千瓦?!芭c此同時(shí),芯片架構(gòu)師也在尋求設(shè)計(jì)一種芯片來(lái)優(yōu)化功耗而不影響性能,因?yàn)樗鼈兊倪\(yùn)行成本會(huì)更高——不僅是電力成本,還有冷卻基礎(chǔ)設(shè)施?!?/p>


此外,數(shù)據(jù)中心的上游配電也正在發(fā)生變化,以適應(yīng)更大的電力需求,其中包括將機(jī)架中的分布式總線電壓從舊的 12V 更改為 48V。Srivastava 表示:“通過將電壓提高 4 倍,電流減少了 4 倍,傳導(dǎo)損耗減少了 16 倍。機(jī)架中的每個(gè)轉(zhuǎn)換器也經(jīng)過重新設(shè)計(jì),以提高效率。通過轉(zhuǎn)換器的放置,可以優(yōu)化與芯片直接供電相關(guān)的功率損耗。將芯片的電源直接堆疊在頂部有助于減少這種功率損耗?!?/p>




新數(shù)據(jù)中心考慮因素




數(shù)據(jù)中心設(shè)計(jì)的另一個(gè)重要考慮因素是其位置?!巴ǔ#@些數(shù)據(jù)中心位于城市地區(qū),因此數(shù)據(jù)中心的能源效率不高——與人口的電力需求競(jìng)爭(zhēng)可能會(huì)限制其容量,”Srivastava 說?!耙虼?,一些地區(qū)禁止建造新的數(shù)據(jù)中心,如果情況緊急,數(shù)據(jù)中心將需要減少其電力負(fù)荷,以便為社區(qū)的其他重要區(qū)域供電。這意味著要么制造節(jié)能的計(jì)算硬件,要么尋找替代電源。這導(dǎo)致了另一種趨勢(shì),大型數(shù)據(jù)中心現(xiàn)在正在考慮建造自己的發(fā)電廠來(lái)提供所需的電力,尤其是來(lái)自可持續(xù)和可靠來(lái)源的電力。這可能采用傳統(tǒng)的太陽(yáng)能或風(fēng)能與儲(chǔ)能相結(jié)合的形式,甚至正在開發(fā)中的小型模塊化核反應(yīng)堆 (SMR)。”


數(shù)據(jù)中心的電源管理是一項(xiàng)不斷發(fā)展的挑戰(zhàn)。Cadence 產(chǎn)品工程總監(jiān) Mark Fenton 表示: “IT 負(fù)載在一天中可能會(huì)發(fā)生很大波動(dòng),受到各種應(yīng)用程序需求的影響?!?nbsp;“機(jī)柜的功率是一組復(fù)雜的變化變量——其當(dāng)前用電量、未來(lái)項(xiàng)目的預(yù)算容量以及最大設(shè)計(jì)限制。反過來(lái),電力分配和容量可以在多個(gè)數(shù)據(jù)中心之間共享。”


例如,在共置環(huán)境中,用戶不斷調(diào)整對(duì)共享系統(tǒng)的需求,幾乎不了解 IT 已安裝或即將安裝的內(nèi)容?!靶碌?GPU 工作負(fù)載表現(xiàn)出不同的功率行為,通常會(huì)導(dǎo)致大量且?guī)缀跛矔r(shí)的功率峰值,”Fenton 說?!斑@些波動(dòng)對(duì)數(shù)據(jù)中心電力基礎(chǔ)設(shè)施構(gòu)成了重大的故障風(fēng)險(xiǎn),這是一個(gè)主要問題。為了優(yōu)化效率并最大限度地利用可用功率,利用三相電源是有益的。但平衡相位以防止效率低下至關(guān)重要?!?/span>




電壓轉(zhuǎn)換中的功率損耗




數(shù)據(jù)中心的電壓轉(zhuǎn)換涉及多個(gè)轉(zhuǎn)換和調(diào)節(jié)階段,這可能導(dǎo)致嚴(yán)重的功率損耗。“如果我的服務(wù)器現(xiàn)在有 48 伏電壓,那么問題在于芯片本身仍然需要在 12 伏或 5 伏,甚至 1 伏電壓下運(yùn)行,”Rambus 的 Woo 說道?!斑@意味著必須降低電壓。但每次降低電壓時(shí),都會(huì)損失一些功率,因此效率會(huì)開始下降。這是因?yàn)檗D(zhuǎn)換電壓水平需要功率,所以這是一個(gè)大問題。轉(zhuǎn)換不同的電壓會(huì)消耗大量功率。”


這意味著數(shù)據(jù)中心基礎(chǔ)設(shè)施必須將建筑公用設(shè)施電源轉(zhuǎn)換為機(jī)架級(jí)的單相或三相電源。“電壓可能會(huì)從 13.8 kV(中壓)降至 480 V 或 208 V(低壓),隨后降至 240 V 或 120 V,”Fenton 說?!安糠重?fù)載下的效率往往更高,而且由于大多數(shù)電源采用 2N 冗余供電,因此系統(tǒng)的很大一部分在這些部分負(fù)載條件下運(yùn)行?!?/p>


Ansys 高級(jí)應(yīng)用工程師 Steve Chwirka 指出,損耗始于將公用電源從 480V 交流電降壓的大型變壓器。“這種新的較低交流電壓通過多種類型的電纜和 PDU(配電單元)進(jìn)行分配,這些 PDU 基本上是非常大的母線。所有這些都會(huì)導(dǎo)致系統(tǒng)中的傳導(dǎo)損耗。有幾種電源轉(zhuǎn)換級(jí)別也與功率損耗有關(guān)。其中包括不間斷電源 (UPS),它在故障條件下為機(jī)架供電,時(shí)間剛好夠備用發(fā)電機(jī)啟動(dòng)。主要的轉(zhuǎn)換發(fā)生在機(jī)架上,交流電壓轉(zhuǎn)換為高壓直流,然后通過電源單元 (PSU) 轉(zhuǎn)換為較低的直流電壓。這個(gè)直流電壓現(xiàn)在要經(jīng)過幾個(gè)級(jí)別的轉(zhuǎn)換,才能到達(dá)實(shí)際的芯片?!?/span>


在每個(gè)級(jí)別,功率損耗量都不同。從公用設(shè)施輸入到芯片,Chwirka 對(duì)功率損耗進(jìn)行了一些估算?!半娏ψ儔浩魇欠浅8咝У臋C(jī)器,損耗僅為 1% 到 2%。UPS 系統(tǒng)的效率會(huì)根據(jù)其設(shè)計(jì)和負(fù)載條件而有所不同。提供最高級(jí)別保護(hù)的在線 UPS 系統(tǒng)的效率通常為 90% 到 95% 之間。因此,它們會(huì)損耗 5% 到 10% 的電力。PDU 也有一些固有損耗。這些損耗會(huì)導(dǎo)致大約 1% 到 2% 的額外損耗。現(xiàn)代 PSU 的效率通常為 80% 到 95% 之間。這意味著在從交流轉(zhuǎn)換為直流的過程中可能會(huì)損耗 5% 到 20% 的功率。額外的轉(zhuǎn)換器(有時(shí)稱為中間總線轉(zhuǎn)換器 (IBS))將機(jī)架的 48 V DC 轉(zhuǎn)換為 8 到 12 V DC,效率可高達(dá) 98% 左右。由于尺寸限制,芯片所需的低電壓的最終轉(zhuǎn)換效率比IBC略低。”




關(guān)于電力輸送你需要知道什么




在設(shè)計(jì)數(shù)據(jù)中心環(huán)境時(shí)需要考慮很多因素,其中最重要的事情之一就是高電壓周圍的基礎(chǔ)設(shè)施?!叭绻唠妷哼M(jìn)入系統(tǒng),你需要知道如何將電壓降低到你需要的水平,”Woo 指出?!翱赡苁且恍┩獠侩娐吩谶M(jìn)行降壓。有一些片上方法可以在小范圍的電壓上進(jìn)行電壓管理。最重要的是真正了解你的芯片將消耗多少電量,并了解這些電量來(lái)自哪里。這通常是一個(gè)系統(tǒng)級(jí)問題。還有關(guān)于老化的問題,因?yàn)橛袝r(shí)芯片升溫時(shí)會(huì)發(fā)生膨脹。制造芯片的不同材料的膨脹速率都不同,如果進(jìn)行熱循環(huán)(即在高溫和低溫之間頻繁切換),這可能會(huì)導(dǎo)致開裂和其他可靠性問題?!?/p>


架構(gòu)也有影響。Ansys 研究員 Norman Chang 解釋說,隨著 3D-IC 芯片組越來(lái)越大,芯片架構(gòu)師需要考慮將電源垂直分配到芯片組,例如 Tesla D1 Dojo 芯片中的電源系統(tǒng)設(shè)計(jì)?!凹軜?gòu)師還需要考慮熱分布,因?yàn)橥ㄟ^系統(tǒng)技術(shù)協(xié)同優(yōu)化,3D-IC 中放置了數(shù)十個(gè)芯片,”他說?!?D-IC 中的模擬/混合信號(hào)設(shè)計(jì)需要放置在對(duì)峰值計(jì)算工作負(fù)載產(chǎn)生的熱/應(yīng)力變化不太敏感的位置。


最終,數(shù)據(jù)中心電力輸送方面的挑戰(zhàn)將落入芯片和系統(tǒng)架構(gòu)師的視野。Movellus 的 Vick 表示:“作為一名計(jì)算機(jī)架構(gòu)師,我非常注重?cái)?shù)字化和處理器。后來(lái)我開始為硬 IP 公司工作,他們會(huì)問‘你們的供電有多少個(gè)脈沖?’我會(huì)說‘我不知道。電源就在那里。它總是干凈的,你不必?fù)?dān)心。’但實(shí)施和集成等因素很重要——你的電源有多干凈,以及你如何布線。我們?cè)诩軜?gòu)層面看到的一件事是,當(dāng)你集成電路的模擬部分時(shí),無(wú)論是電源調(diào)節(jié)、傳感器還是時(shí)鐘,你必須將模擬電壓運(yùn)行到傳統(tǒng)數(shù)字區(qū)域這一簡(jiǎn)單事實(shí)可能會(huì)嚴(yán)重破壞你的設(shè)計(jì)。假設(shè)我有一大塊消耗大量能源的數(shù)字邏輯。我想看看電網(wǎng)上發(fā)生了什么。我想看看是否出現(xiàn)了信號(hào)下降。但你卻想讓我把一個(gè)模擬傳感器塞進(jìn)所有這些數(shù)字門海的中間。這很難做到?!?/p>


將模擬設(shè)計(jì)遷移到數(shù)字設(shè)計(jì)可以讓你更自由地進(jìn)行更多儀表操作并了解正在發(fā)生的事情?!斑@是超出模塊功能范圍的一個(gè)例子,”維克說?!芭?,當(dāng)然,這與實(shí)施有很大關(guān)系,所以我們正在從深?yuàn)W的東西轉(zhuǎn)向現(xiàn)實(shí)世界,現(xiàn)實(shí)世界的實(shí)施很重要。這不是我是否可以設(shè)計(jì)這個(gè)東西,或者我是否可以獲得最佳的 TOPS/watt 數(shù)字。我可以在實(shí)際設(shè)計(jì)中實(shí)際實(shí)現(xiàn)它嗎?我能處理嘈雜的電源嗎?我能否處理不再設(shè)計(jì)得足夠堅(jiān)固以承受我扔給它的任何東西的電網(wǎng),因?yàn)槿绻阍O(shè)計(jì)那樣,你將失去競(jìng)爭(zhēng)力。所需的裕度和過度設(shè)計(jì)量表明我再也無(wú)法承受那樣的設(shè)計(jì),這意味著現(xiàn)在我的電網(wǎng)本身受到與我的邏輯相同的設(shè)計(jì)約束。它正行駛在那條崎嶇的邊緣,有時(shí)它會(huì)出現(xiàn)偏移,會(huì)出現(xiàn)掙扎,我必須從硬件和軟件的角度來(lái)考慮這個(gè)問題,而不是假設(shè)有無(wú)限的清潔能源?!?/p>

來(lái)源:半導(dǎo)體行業(yè)觀察

--End--


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉