高性能計算市場大漲,不起眼的元器件價值量提升8倍
隨著高性能計算(HPC)系統(tǒng),特別是 AI 服務器的市場規(guī)模不斷擴大,其核心處理器,包括 CPU、GPU、NPU、ASIC、FPGA 等,以及內存、網(wǎng)絡通信等芯片元器件的性能和功耗水平都在提升。隨著性能提升,功率管理水平的提升顯得更加重要,因為 HPC 系統(tǒng),特別是 AI 服務器的耗電量越來越大,對整個系統(tǒng),以及主要芯片的功率管理能力提出了更高要求。
本文引用地址:http://2s4d.com/article/202404/457060.htm在 AI 服務器中,CPU 需要供電,GPU 板卡需要供電,內存(DDR4、DDR5、HBM)需要供電,各種接口也需要供電。此時,電源管理系統(tǒng)就顯得非常重要了,除了 AC/DC 電源、DC/DC 轉換器等,電源管理系統(tǒng)當中用到的無源器件(以電感和電容為主)也發(fā)揮著關鍵作用,隨著系統(tǒng)性能和功耗的提升,對這些無源器件的性能和數(shù)量提出了更高、更多的要求。
性能優(yōu)異的無源器件可以提供更加穩(wěn)定的電壓和電流,以確保 AI 服務器等 HPC 系統(tǒng)正常運行,保證快速的瞬態(tài)響應和較低的紋波。低損耗的無源器件可以提高 AI 服務器的能效,提升關鍵零部件的效率,節(jié)能環(huán)保。要保證 AI 服務器的可靠性和穩(wěn)定性,對電感提出了更高的需求。
AI 系統(tǒng)的供電挑戰(zhàn)
與普通服務器相比,AI 服務器所需的配置和耗能更高。由于 AI 服務器的功率較普通服務器高 6~8 倍,對電源的要求也同步提升,目前,市面上的通用服務器一般需要 2 個 800W 電源,AI 服務器最多需要 4 個 1800W 電源。
隨著服務器性能的提升,配套的電感變壓器數(shù)量必定會隨之增加。以芯片電感為例,有機構報告指出,由于 GPU 數(shù)量的增加,AI 服務器一共需要 24~48 個電感,以每個 1 美元計算,與普通服務器相比,AI 服務器中的芯片電感價值量多出 60%-220%。
另外,在 AI 服務器中,多相或耦合電感等多合一形式逐步替代單電感應用;為了解決散熱、損耗問題,超薄應用和電源模塊類供電將更加廣泛。
數(shù)據(jù)中心需要越來越多的 AI 加速卡,要配置大量處理器(xPU),多采用大規(guī)模并行計算方案,與普通 CPU 相比,xPU 擁有大量小內核,有助于神經(jīng)網(wǎng)絡訓練和 AI 推理。然而,xPU 進行 AI 計算、傳輸數(shù)據(jù)時會產(chǎn)生較大功耗。也就是說,xPU 是非常耗電的芯片,其嚴格的功耗要求對 AI 加速卡提出了新的挑戰(zhàn),這也會影響系統(tǒng)性能。
AI 系統(tǒng)工作時,尤其是處理深度學習和推理等工作負載時,需要極高的計算功率。在系統(tǒng)層面,AI 加速器對提供近乎實時的結果發(fā)揮著關鍵作用。所有 xPU 都有多個高端內核,這些內核由數(shù)十億個晶體管構成,消耗數(shù)百安培電流。這些 xPU 的內核電壓已降至 1V 的水平。
AI 加速卡所需的峰值電流密度對任何主板來說都是非常沉重的負擔,難以處理。工作負載的高度動態(tài)特性和極高的電流瞬變會導致非常高的 di/dt 和持續(xù)數(shù)微秒的尖峰電壓瞬變,這些瞬變非常具有破壞性,可能會對 xPU 造成損害。AI 的平均工作負載會持續(xù)很長時間,解耦電容將無法始終提供滿足即時需求的能量,此時,需要消除 AI 加速器的瞬變,避免對整個配電網(wǎng)絡造成損害。
目前,xPU 穩(wěn)壓器(VR)的要求與標準 PoL 穩(wěn)壓器有很大不同。某些應用要求在小于 1V 的電壓下為 xPU 提供超過 1000A 的電流。此時,必須控制好功耗,不然,系統(tǒng)很難穩(wěn)定工作。
如何降低 AI 系統(tǒng)能耗,成為了產(chǎn)業(yè)難題。目前,降低 AI 系統(tǒng)能耗的思路主要有兩種:一、降低 AI 系統(tǒng)核心處理器的能耗;二、優(yōu)化電源管理系統(tǒng),提高 AI 核心處理器電源管理的效率。然而,隨著 AI 等新興應用的普及,傳統(tǒng)計算系統(tǒng)用到的 AC/DC、DC/DC、多相電源控制器和 DrMOS 功率級組合等方案,效率已經(jīng)達到天花板,需要更先進的電源管理方案。
服務器電源系統(tǒng)在演進
處理器的微型化導致了電源電壓降低,但消耗的電流不降反升,使得功耗持續(xù)增加。低電壓、大電流的發(fā)展趨勢帶來的問題之一是如何提升對負載波動的快速響應能力。
隨著電壓降低,電壓的容許公差變得非常小。比如,為了避免處理器的誤操作,若以±3%的精度提供磁芯電壓,則電壓為 1V 時的公差必須控制在±30mV。對于服務器專用電源,即使在超過 1000A 的大電流負載驟變的驅動條件下,輸出電壓也必須盡可能保持穩(wěn)定。
在實際應用中,低電壓、大電流發(fā)展趨勢一直在持續(xù),通常采用高頻化和多相位化來應對。以更高的頻率進行開關操作允許采用體積更小的組件(如電容器和電感器)來管理和平滑輸入和輸出電路中的能量流動。對于基于普通硅功率半導體器件的轉換器,其典型開關頻率為 30~80kHz,在這樣的頻率下,可以采用被廣泛認可的電容器,具有成本效益。然而,在這個頻率范圍之上,寄生效應就會導致過多的電阻損耗和自生熱。
雖然提高頻率對改善負載響應有很大作用,但也會極大地增加開關元件的損耗。此外,通過使用大容量外部電容器,可以在一定程度上抑制大電流應用的電壓波動,但這會增加安裝面積和電容器成本。
考慮到上述諸多情況,TLVR(Trans-Inductor Voltage Regulators) 是目前應對低電壓、大電流應用中快速負載波動的主流電路配置方案。該方案是讓每個相位開關連接到一個帶額外繞組的電感器上,然后將每個相位的繞組和補償電感器串聯(lián)成回路,以便同時為每個相位提供電流。TLVR 能使處理器獲得較高的瞬態(tài)響應性能,滿足負載要求,而且電源電壓幾乎不會降低,同時降低電源損耗,可保持較小的輸出電容值,從而減少安裝面積和系統(tǒng)成本。
更多電感方案
在高性能計算系統(tǒng),特別是 AI 服務器的電源管理系統(tǒng)中,電感方案越來越多,除了上述的 TLVR,還有一體成型電感、芯片電感、超薄一體成型電感等產(chǎn)品。
芯片電感起到為芯片前端供電的作用,主要用于電壓、電流轉換,常見于電源管理芯片(PMIC)、FPGA 供電電路中。在高性能計算系統(tǒng)中,芯片電感、電容、MOS 管與驅動芯片共同構成供電電路,滿足 GPU 和 CPU 的供電需求。
目前,主流的芯片電感采用鐵氧體材質,但鐵氧體飽和特性較差,隨著電源模塊的小型化和電流的增加,鐵氧體電感體積和飽和特性已經(jīng)難以滿足高性能 GPU 的要求,近些年,出現(xiàn)了一種金屬軟磁材料電感,它具有更高的效率、更小的體積,能夠更好地響應大電流變化。采用金屬軟磁材料的芯片電感,適用開關頻率可達 500kHz~10MHz。
還有一種芯片電感,它基于半導體薄膜工藝,采用光刻加工工藝,不同于傳統(tǒng)的繞線電感和一體成型電感工藝,半導體薄膜工藝的最大特色是可以實現(xiàn)芯片電感產(chǎn)品整版生產(chǎn),提高了生產(chǎn)效率。傳統(tǒng)電源模塊基于 SIP 工藝,將芯片與電感合封在一個封裝基座上,將功率電感與封裝基座一體加工,實現(xiàn)功率電感與封裝基座的二合一。相比傳統(tǒng)的 SIP 需要「芯片+電感+基座」,基于半導體薄膜工藝的方案只需將芯片與集成電感及其它器件合封,即可實現(xiàn)完整的電源模塊和周邊電路功能,進一步減小了電源模塊的體積,同時提升了功率密度,降低了成本。
這種芯片電感采用了新的磁性材料,磁導率和飽和電流都很好,在 6MHz 頻率下,電感的材料損耗占電感總損耗比例很低。
電容也很重要
在高性能計算的電源管理系統(tǒng)中,除了電感,電容和熱敏電阻的更新?lián)Q代也在進行中。
目前,AI 服務器在整體高性能計算市場的占比仍較低,因此,還沒有市調機構統(tǒng)計 AI 服務器對 MLCC(片式多層陶瓷電容器)的消耗量,但是,就發(fā)展形勢來看,無源器件分銷商普遍看好電容,特別是 MLCC 在 AI 服務器中的應用前景,2024 下半年將出現(xiàn)明顯增長態(tài)勢,MLCC 規(guī)格、單價都將大幅提升。
在技術層面,計算系統(tǒng)處理器都需要電容配合工作,傳統(tǒng)上,這些電容都采用鉭或聚合物電容器。以減少對去耦電容的依賴,可以將一小部分 II 類 MLCC(例如 X5R、X6S 或 X7R 器件)直接放置在處理器附近。目前,有些廠商正在努力將鋁聚合物去耦電容器嵌入到封裝內的芯片載體中,與片上硅電容器一起工作,這樣可以克服高性能處理器所面臨的去耦挑戰(zhàn),并支持更高的轉換器頻率,未來可能高達 10MHz。
無源器件廠商的機遇
前些天,在英偉達舉辦的 GTC 大會上,服務器代工大廠臺達電表示,在 AI 服務器電源轉換系統(tǒng)中,如何在電流快速飆升下,讓電壓保持在 GPU 工作的 0.8V,電感扮演著關鍵角色,它要能在高電流、低電壓狀態(tài)下保持穩(wěn)定工作才行。
搭載英偉達新款 Blackwell 架構加速芯片的 AI 服務器功耗高達 1000W~1200W,電感用量較一般服務器增加 2~3 倍,同時,由于功耗明顯增加,需要的電感規(guī)格更高,使得平均單價(ASP)與一般服務器相比,高出 5~8 倍。. 另外,由于 DDR5 滲透率逐步提升,必須搭配更多、更好的電感。
AI 服務器的功耗顯著提升,為了改善瞬時響應性能,需要新增 TLVR 電感,每臺 AI 服務器需新增 5~10 個,而 TLVR 電感的單價是一般電感的 3~5 倍。
不止最新的 AI 服務器,越來越多的高性能計算系統(tǒng)都需要更多、更好的電感。一般服務器僅升級 CPU,電感用量就會顯著增加,以 Eagle Stream 升級到 Birch Stream 為例,因為 CPU 功耗提升約 50%,電感用量要增加 50%~70%。
可見,對于各大無源器件廠商,特別是高品質電感企業(yè)來說,新商機就在眼前。目前,業(yè)界排名靠前的相關廠商包括 TDK、國巨、順絡電子、臺慶科、ITG 和 EATON 等。
如前文所述,在高性能計算的電源管理系統(tǒng)當中,芯片電感的用量正在增加,這不僅對國際大廠是好消息,對中國本土相關企業(yè)來說,也將迎來提升產(chǎn)品品質和市占率的機遇期。中國芯片電感業(yè)起步較晚,在發(fā)展初期,技術研發(fā)和生產(chǎn)管理水平都落后于國際大廠,特別是 TDK、村田、奇力新和太陽誘電這幾家知名企業(yè)。最近幾年,中國本土的順絡電子一直在發(fā)力,排進了全球前五位,此外,值得關注的本土芯片電感企業(yè)還包括鉑科新材、麥捷科技、屹通新材、天通股份、東睦股份、橫店東磁等。
結語
在高性能計算系統(tǒng),特別是 AI 服務器的市場規(guī)模不斷擴大的當下,對關鍵芯片元器件的要求越來越高,不止 GPU 和 CPU 這些高性能處理器,對電源管理系統(tǒng),及其相關芯片和元器件的用量和品質要求也有顯著提升。
作為電源管理系統(tǒng)當中不太顯眼,但又不能缺少,且用量較大的電感和電容來說,越來越高的計算系統(tǒng)功耗,正是它們充分發(fā)揮效能和作用的舞臺,相關新技術和新材料也有望不斷涌現(xiàn)出來。
對于無源器件廠商來說,具有高品質產(chǎn)品的國家大廠依然會獲得更好的商機,而對于中國本土相關企業(yè)來說,國內的巨大市場,給了它們足夠的施展空間,有更多機會搶奪國際大廠的市場份額。
評論