未來的芯片將比以往任何時(shí)候都更熱
5多年來,在摩爾定律似乎不可避免的推動(dòng)下,工程師們設(shè)法每兩年將他們可以封裝到同一區(qū)域中的晶體管數(shù)量增加一倍。但是,當(dāng)該行業(yè)追求邏輯密度時(shí),一個(gè)不需要的副作用變得更加突出:熱量。
本文引用地址:http://2s4d.com/article/202504/469840.htm在當(dāng)今的 CPU 和 GPU 等片上系統(tǒng) (SoC) 中,溫度會(huì)影響性能、功耗和能效。隨著時(shí)間的推移,過多的熱量會(huì)減慢關(guān)鍵信號(hào)在處理器中的傳播,并導(dǎo)致芯片性能的永久下降。它還會(huì)導(dǎo)致晶體管泄漏更多電流,從而浪費(fèi)功率。反過來,增加的功耗會(huì)削弱芯片的能源效率,因?yàn)閳?zhí)行完全相同的任務(wù)需要越來越多的能量。
問題的根源在于另一條定律的終結(jié):Dennard 縮放。該定律指出,隨著晶體管線性尺寸的縮小,電壓應(yīng)降低,以使給定區(qū)域的總功耗保持不變。Dennard 縮放在 2000 年代中期有效地結(jié)束了,當(dāng)時(shí)在不影響晶體管整體功能的情況下,任何進(jìn)一步降低電壓都是不可行的。因此,雖然邏輯電路的密度繼續(xù)增長,但功率密度也隨之增長,產(chǎn)生熱量作為副產(chǎn)品。
隨著芯片變得越來越緊湊和強(qiáng)大,高效的散熱對(duì)于保持其性能和使用壽命至關(guān)重要。為了確保這種效率,我們需要一種工具,可以預(yù)測新的半導(dǎo)體技術(shù)(制造晶體管、互連和邏輯單元的工藝)如何改變熱量的產(chǎn)生和去除方式。我和 Imec 的研究同事已經(jīng)開發(fā)出了這一點(diǎn)。我們的仿真框架使用行業(yè)標(biāo)準(zhǔn)和開源的電子設(shè)計(jì)自動(dòng)化 (EDA) 工具,并通過我們的內(nèi)部工具集進(jìn)行增強(qiáng),以快速探索半導(dǎo)體技術(shù)與使用它構(gòu)建的系統(tǒng)之間的交互。
到目前為止,結(jié)果是不可避免的:熱挑戰(zhàn)隨著每個(gè)新技術(shù)節(jié)點(diǎn)的增加而增加,我們需要新的解決方案,包括設(shè)計(jì)芯片和系統(tǒng)的新方法,如果它們有任何希望能夠處理熱量的話。
冷卻的極限
傳統(tǒng)上,SoC 是通過將空氣吹過連接到其封裝的散熱器來冷卻的。一些數(shù)據(jù)中心已經(jīng)開始使用液體代替,因?yàn)樗葰怏w吸收更多的熱量。液體冷卻劑(通常是水或水基混合物)可能適用于最新一代高性能芯片,例如 Nvidia 的新型 AI GPU,據(jù)報(bào)道,該芯片的功耗高達(dá) 1,000 瓦。但是,風(fēng)扇和液體冷卻器都無法與即將推出的較小節(jié)點(diǎn)技術(shù)相媲美。
熱量從芯片中去除時(shí),會(huì)遵循一條復(fù)雜的路徑,但其中 95% 通過散熱器排出。 IMEC 公司
以納米片晶體管和互補(bǔ)場效應(yīng)晶體管 (CFET) 為例。領(lǐng)先的芯片制造商已經(jīng)轉(zhuǎn)向納米片器件,將當(dāng)今鰭式場效應(yīng)晶體管中的鰭片換成一堆水平半導(dǎo)體片。CFET 將這種架構(gòu)發(fā)揮到了極致,垂直堆疊更多的片材并將它們分成兩個(gè)器件,從而將兩個(gè)晶體管置于與一個(gè)晶體管大致相同的封裝中。專家預(yù)計(jì)半導(dǎo)體行業(yè)將在 2030 年代引入 CFET。
在我們的工作中,我們研究了即將推出的納米片 A10 版本(指 10 ?;?1 納米的節(jié)點(diǎn))和名為 A5 的 CFET 版本,IMEC 預(yù)計(jì)該版本將在 A10 之后出現(xiàn)兩代。對(duì)我們測試設(shè)計(jì)的模擬表明,A5 節(jié)點(diǎn)的功率密度比 A10 節(jié)點(diǎn)高 12% 到 15%。這種增加的密度反過來將導(dǎo)致在相同工作電壓下預(yù)計(jì)溫升 9 °C。
互補(bǔ)場效應(yīng)晶體管將納米片晶體管相互堆疊,從而提高密度和溫度。為了在與納米片晶體管(A10 節(jié)點(diǎn))相同的溫度下工作,CFET(A5 節(jié)點(diǎn))必須在降低的電壓下運(yùn)行。 IMEC 公司
9 度可能看起來并不多。但是,在數(shù)十萬到數(shù)百萬個(gè)芯片封裝在一起的數(shù)據(jù)中心中,這可能意味著穩(wěn)定運(yùn)行和熱失控之間的區(qū)別 — 即可怕的反饋回路,其中溫度升高會(huì)增加漏電功率,溫度會(huì)增加漏電功率,依此類推,直到最終安全機(jī)制必須關(guān)閉硬件以避免永久性損壞。
研究人員正在尋找基本液體和空氣冷卻的先進(jìn)替代方案,以幫助緩解這種極端高溫。例如,微流體冷卻使用蝕刻在芯片中的微小通道來使液體冷卻劑在設(shè)備內(nèi)循環(huán)。其他方法包括射流撞擊,包括將氣體或液體高速噴射到芯片表面,以及浸入式冷卻,將整個(gè)印刷電路板浸入冷卻劑浴中。
但是,即使這些新技術(shù)開始發(fā)揮作用,僅依靠冷卻器來釋放額外的熱量也可能是不切實(shí)際的。對(duì)于移動(dòng)系統(tǒng)來說尤其如此,它們受到尺寸、重量、電池電量的限制,并且需要不烹飪用戶。與此同時(shí),數(shù)據(jù)中心面臨著不同的限制:由于冷卻是整個(gè)建筑的基礎(chǔ)設(shè)施費(fèi)用,因此每次新芯片到來時(shí)都更新冷卻設(shè)置的成本太高且破壞性太強(qiáng)。
性能與熱量
幸運(yùn)的是,冷卻技術(shù)并不是阻止薯?xiàng)l油炸的唯一方法。各種系統(tǒng)級(jí)解決方案可以通過動(dòng)態(tài)適應(yīng)不斷變化的熱條件來控制熱量。
一種方法是將熱傳感器放在芯片周圍。當(dāng)傳感器檢測到令人擔(dān)憂的溫度升高時(shí),它們會(huì)發(fā)出工作電壓和頻率降低的信號(hào),從而降低功耗,以抵消發(fā)熱。但是,雖然這樣的方案解決了散熱問題,但它可能會(huì)顯著影響芯片的性能。例如,芯片在炎熱的環(huán)境中可能總是工作不佳,任何曾經(jīng)將智能手機(jī)放在陽光下的人都可以證明這一點(diǎn)。
另一種稱為熱沖刺的方法對(duì)于多核數(shù)據(jù)中心 CPU 特別有用。它是通過運(yùn)行一個(gè)核心直到它過熱,然后在第一個(gè)核心冷卻時(shí)將作轉(zhuǎn)移到第二個(gè)核心來完成的。此過程可以最大程度地提高單個(gè)線程的性能,但當(dāng)工作必須在多個(gè)內(nèi)核之間遷移以執(zhí)行較長的任務(wù)時(shí),可能會(huì)導(dǎo)致延遲。熱疾跑還會(huì)降低芯片的整體吞吐量,因?yàn)樾酒哪承┎糠衷诶鋮s時(shí)總是會(huì)被禁用。
因此,系統(tǒng)級(jí)解決方案需要在熱量和性能之間取得謹(jǐn)慎的平衡。為了有效地應(yīng)用它們,SoC 設(shè)計(jì)人員必須全面了解功率在芯片上的分配方式和熱點(diǎn)出現(xiàn)的位置、傳感器的放置位置、何時(shí)觸發(fā)電壓或頻率降低,以及芯片的某些部分需要多長時(shí)間才能冷卻。然而,即使是最好的芯片設(shè)計(jì)師,很快也需要更多創(chuàng)造性的熱量管理方法。
利用芯片的背面
一個(gè)有前途的追求包括在晶圓的底面或背面添加新功能。該策略主要旨在提高功率傳輸和計(jì)算性能。但它也可能有助于解決一些熱量問題。
新技術(shù)可以降低需要輸送到多核處理器的電壓,以便芯片在以可接受的頻率運(yùn)行時(shí)保持最小電壓。背面供電網(wǎng)絡(luò)通過降低電阻來實(shí)現(xiàn)這一點(diǎn)。背面電容器可降低瞬態(tài)電壓損耗。背面集成穩(wěn)壓器允許不同的內(nèi)核根據(jù)需要在不同的最小電壓下工作。IMEC 公司
Imec 預(yù)見了幾種背面技術(shù),這些技術(shù)可能允許芯片在較低的電壓下工作,從而減少它們產(chǎn)生的熱量。路線圖上的第一項(xiàng)技術(shù)是所謂的后端供電網(wǎng)絡(luò) (BSPDN),它的作用正如其名:它將電力線從芯片的前端移動(dòng)到后端。所有先進(jìn)的 CMOS 代工廠都計(jì)劃在 2026 年底之前提供 BSPDN。早期的演示表明,它們通過使電源更靠近晶體管來降低電阻。電阻越小,電壓損失就越小,這意味著芯片可以在降低的輸入電壓下運(yùn)行。當(dāng)電壓降低時(shí),功率密度會(huì)下降,溫度也會(huì)下降。
通過改變散熱路徑中的材料,背面輸電技術(shù)可以使芯片上的熱點(diǎn)更加熱。 IMEC 公司
在 BSPDN 之后,制造商也可能會(huì)開始在背面添加具有高儲(chǔ)能容量的電容器。在高性能 SoC 中,由印刷電路板和芯片封裝中的電感引起的大電壓擺幅可能特別成問題。背面電容器應(yīng)該有助于解決這個(gè)問題,因?yàn)樗鼈兏拷w管,使其能夠更快地吸收電壓尖峰和波動(dòng)。因此,這種安排將使芯片能夠在比單獨(dú)使用 BSPDN 更低的電壓和溫度下運(yùn)行。
最后,芯片制造商將推出背面集成穩(wěn)壓器 (IVR) 電路。該技術(shù)旨在通過更精細(xì)的電壓調(diào)整進(jìn)一步降低芯片的電壓要求。例如,用于智能手機(jī)的 SoC 通常具有 8 個(gè)或更多計(jì)算內(nèi)核,但芯片上沒有空間讓每個(gè)內(nèi)核都有自己的分立式穩(wěn)壓器。相反,一個(gè)片外穩(wěn)壓器通常一起管理四個(gè)內(nèi)核的電壓,而不管所有四個(gè)內(nèi)核是否面臨相同的計(jì)算負(fù)載。另一方面,IVR 將通過專用電路單獨(dú)管理每個(gè)內(nèi)核,從而提高能源效率。將它們放在背面可以節(jié)省正面的寶貴空間。
目前尚不清楚背面技術(shù)將如何影響熱管理;需要演示和模擬來繪制效果圖。添加新技術(shù)通常會(huì)增加功率密度,芯片設(shè)計(jì)人員需要考慮熱后果。例如,在放置背面 IVR 時(shí),如果 IVR 均勻分布,或者如果它們集中在特定區(qū)域(例如每個(gè)內(nèi)核和內(nèi)存緩存的中心),熱問題是否會(huì)得到改善?
最近,我們表明,背面供電可能會(huì)引入新的熱問題,即使它解決了舊的熱問題。原因是創(chuàng)建 BSPDN 時(shí)留下的硅層越來越薄。在正面設(shè)計(jì)中,硅襯底的厚度可以達(dá)到 750 微米。由于硅導(dǎo)熱性好,因此這個(gè)相對(duì)笨重的層通過橫向分散晶體管的熱量來幫助控制熱點(diǎn)。然而,添加背面技術(shù)需要將襯底減薄至約 1 μm,以便從背面接觸晶體管。夾在兩層電線和絕緣體之間,這種細(xì)長的硅片無法再有效地將熱量轉(zhuǎn)移到兩側(cè)。因此,來自過度活躍晶體管的熱量可以被困在局部并被迫向上流向冷卻器,從而加劇熱點(diǎn)。
我們對(duì) 80 核服務(wù)器 SoC 的仿真發(fā)現(xiàn),BSPDN 可以將熱點(diǎn)溫度升高多達(dá) 14 °C。 設(shè)計(jì)和技術(shù)調(diào)整(例如增加背面金屬的密度)可以改善這種情況,但我們需要更多的緩解策略來完全避免這種情況。
為 “CMOS 2.0” 做準(zhǔn)備
BSPDN 是 Imec 稱之為 CMOS 2.0 的硅邏輯技術(shù)新范式的一部分。這個(gè)新興時(shí)代還將看到先進(jìn)的晶體管架構(gòu)和專用邏輯層。這些技術(shù)的主要目的是優(yōu)化芯片性能和電源效率,但它們也可能提供熱優(yōu)勢,包括改善散熱。
在當(dāng)今的 CMOS 芯片中,單個(gè)晶體管將信號(hào)驅(qū)動(dòng)到附近和遠(yuǎn)處的元件,從而導(dǎo)致效率低下。但是,如果有兩個(gè)驅(qū)動(dòng)器層呢?一層將處理長線并使用專用晶體管緩沖這些連接;另一個(gè)將僅處理 10 μm 以下的連接。因?yàn)榈诙又械木w管將針對(duì)短連接進(jìn)行優(yōu)化,所以它們可以在較低的電壓下工作,這又會(huì)降低功率密度。不過,具體多少仍不確定。
未來,芯片部件將在自己的硅片上制造,使用適合每個(gè)芯片的工藝技術(shù)。然后,它們將被 3D 堆疊以形成比僅使用一種工藝技術(shù)構(gòu)建的 SoC 功能更好的 SoC。但工程師們必須仔細(xì)考慮熱量如何流經(jīng)這些新的 3D 結(jié)構(gòu)。 IMEC 公司
顯而易見的是,解決該行業(yè)的熱量問題將是一項(xiàng)跨學(xué)科的努力。任何一項(xiàng)技術(shù)(無論是熱界面材料、晶體管、系統(tǒng)控制方案、封裝還是冷卻器)都不太可能單獨(dú)解決未來芯片的熱問題。我們將需要他們所有人。借助良好的仿真工具和分析,我們可以開始了解每種方法的應(yīng)用量以及應(yīng)用時(shí)間。盡管 CMOS 2.0 技術(shù)的熱優(yōu)勢(特別是背面功能化和專用邏輯)看起來很有希望,但我們需要確認(rèn)這些早期預(yù)測并仔細(xì)研究其影響。例如,對(duì)于背面技術(shù),我們需要準(zhǔn)確了解它們?nèi)绾胃淖儫崃康漠a(chǎn)生和消散,以及這是否會(huì)產(chǎn)生比解決的更多的新問題。
芯片設(shè)計(jì)人員可能會(huì)傾向于采用新的半導(dǎo)體技術(shù),因?yàn)橐院罂梢栽谲浖刑幚聿豢深A(yù)見的熱問題。這可能是真的,但只是在一定程度上。過于依賴軟件解決方案會(huì)對(duì)芯片的性能產(chǎn)生不利影響,因?yàn)檫@些解決方案本質(zhì)上是不精確的。例如,修復(fù)單個(gè)熱點(diǎn)可能需要降低較大區(qū)域的性能,否則該區(qū)域不會(huì)過熱。因此,SoC 和用于構(gòu)建它們的半導(dǎo)體技術(shù)必須齊頭并進(jìn)。
好消息是,越來越多的 EDA 產(chǎn)品正在為高級(jí)熱分析添加功能,包括在芯片設(shè)計(jì)的早期階段。專家們還呼吁采用一種新的芯片開發(fā)方法,稱為系統(tǒng)技術(shù)協(xié)同優(yōu)化。STCO 旨在通過全面考慮系統(tǒng)、物理設(shè)計(jì)和工藝技術(shù)來消除它們之間僵化的抽象界限。深度專家需要走出自己的舒適區(qū),與其他芯片工程領(lǐng)域的專家合作。我們可能還不知道如何解決該行業(yè)日益嚴(yán)峻的熱挑戰(zhàn),但我們樂觀地認(rèn)為,通過正確的工具和協(xié)作,可以做到這一點(diǎn)。
評(píng)論