蘋(píng)果UltraFusion連接技術(shù)是如何實(shí)現(xiàn)史上最強(qiáng)PC芯片的?
3月9日,蘋(píng)果發(fā)布了一款顛覆性的產(chǎn)品 —— M1 Ultra芯片,不管是宣傳上還是工藝上,都能夠看出蘋(píng)果對(duì)它寄予了厚望。
本文引用地址:http://2s4d.com/article/202203/432093.htmM1 Ultra采用了蘋(píng)果創(chuàng)新性的UltraFusion封裝架構(gòu),通過(guò)兩顆M1 Max晶粒的內(nèi)部互連,打造出一款性能與實(shí)力都達(dá)到空前水平的SoC芯片,可為全新的Mac Studio提供令人震撼的算力,同時(shí)依然保持著業(yè)內(nèi)領(lǐng)先的能耗比水平。
M1 Ultra性能如何?
M1 Ultra支持高達(dá)128GB的高帶寬、低延遲統(tǒng)一內(nèi)存,晶體管數(shù)量達(dá)到了驚人的1140億個(gè),每秒可運(yùn)行高達(dá)22萬(wàn)億次運(yùn)算,提供的GPU性能是蘋(píng)果M1芯片的8倍。使用它處理多線程任務(wù)的速度,相比市面上功耗范圍相近的16核臺(tái)式個(gè)人電腦芯片中速度最快的型號(hào)(英特爾 i9-12900k)還要高出90%之多。
相比市面上以10核心設(shè)計(jì)的桌機(jī)處理器,蘋(píng)果強(qiáng)調(diào)M1 Ultra可降低65%電功耗,相比16核心設(shè)計(jì)的處理器則可在相同瓦數(shù)提升最高90%,最高約可精簡(jiǎn)100W電力損耗,而相較市面最普遍使用的GPU更僅需三分之一電力運(yùn)作,相比最高階的GPU(英偉達(dá) RTX 3090)更可降低200W電力損耗,蘋(píng)果更強(qiáng)調(diào)M1 Ultra處理器提供市面目前最高的每瓦效能表現(xiàn)。
不同于M1 Pro、M1 Max的多種規(guī)格,簡(jiǎn)單芯片加倍的M1 Ultra共有兩種規(guī)格,與之對(duì)應(yīng)的就是砍半的M1 Max。
· 20核心CPU、48核心GPU、32核心神經(jīng)引擎、64GB統(tǒng)一內(nèi)存
· 20核心CPU、64核心GPU、32核心神經(jīng)引擎、128GB統(tǒng)一內(nèi)存
M1 Ultra的媒體引擎性能是M1 Max的兩倍,提供了前所未有的ProRes視頻編解碼吞吐量。事實(shí)上,搭載了M1 Ultra的Mac Studio最多可以播放18條8K ProRes 422視頻流,這是其他芯片無(wú)法做到的。
M1 Ultra還集成了一系列其他定制化蘋(píng)果技術(shù),例如能夠驅(qū)動(dòng)多個(gè)外部顯示器的顯示引擎、集成的Thunderbolt 4控制器和一流的安全性能,包括蘋(píng)果最新的Secure Enclave功能、硬件驗(yàn)證的安全啟動(dòng)和運(yùn)行時(shí)反漏洞利用技術(shù)。
M1 Ultra完善了M1系列芯片,并憑借強(qiáng)大的CPU、GPU、不可思議的神經(jīng)引擎、ProRes硬件加速和巨量統(tǒng)一內(nèi)存,成為了世界上最強(qiáng)大的個(gè)人計(jì)算機(jī)芯片。依照蘋(píng)果硬件部門(mén)資深副總裁Johny Srouji說(shuō)明,M1 Ultra將是M1系列最后一款產(chǎn)品,但蘋(píng)果并未說(shuō)明是否還有其他組合可能性。
開(kāi)創(chuàng)性的UltraFusion
眾所周知,要做更強(qiáng)大的芯片,就需要堆更多的電路,更多的晶體管,而工藝越先進(jìn),同樣的面積就能塞進(jìn)去更多晶體管,芯片性能上限就越高,這也是為何大家追求更先進(jìn)制程的原因之一。
在造芯之路上“狂奔”十余載的蘋(píng)果,面對(duì)物理工藝節(jié)點(diǎn)即將達(dá)到物理極限,此次的突破點(diǎn)是什么?蘋(píng)果芯片設(shè)計(jì)師用了「1+1」的方案暫時(shí)解決了目前芯片所面臨的設(shè)計(jì)難題 —— 1 Ultra = 2 Max,M1成了計(jì)量單位。
在如今新制程升級(jí)困難、良率降低,芯片速度增長(zhǎng)緩慢的情況下,“合二為一”的方法在大幅提高算力的同時(shí)提高了良率,使得大芯片價(jià)格不至于指數(shù)級(jí)增長(zhǎng),看起來(lái)是個(gè)有效的升級(jí)方式。
從成本上來(lái)說(shuō),業(yè)界分析稱蘋(píng)果M1 Ultra單顆造價(jià)約300 美元~350美元。顯著低于英特爾Xeon處理器,較英特爾最新Core-i9-10980XE 18核心處理器價(jià)格超過(guò)1000美元,蘋(píng)果M1 Ultra的性價(jià)比更高。
提升性能最常用的做法,是通過(guò)主板來(lái)連接兩枚芯片,但這通常伴隨著許多弊端,包括延遲增加、帶寬減少、功耗增加等。而M1 Ultra是將兩枚M1 Max芯片的晶粒直接連接在一起,背后的關(guān)鍵技術(shù)即是蘋(píng)果創(chuàng)新定制的封裝架構(gòu)UltraFusion。其實(shí),UltraFusion功能位置早已內(nèi)置于之前發(fā)布的蘋(píng)果M1 Max芯片中,但直到3月的蘋(píng)果Peek Performance活動(dòng)才被明確提出。
它可同時(shí)傳輸超過(guò)10000個(gè)信號(hào),從而實(shí)現(xiàn)高達(dá)2.5TB/s低延遲處理器互聯(lián)帶寬,相比業(yè)內(nèi)領(lǐng)先的高端多芯片,實(shí)現(xiàn)了4倍多的互聯(lián)帶寬。這種架構(gòu)能讓M1 Ultra在工作時(shí)依然表現(xiàn)出一枚芯片的整體性,也會(huì)被所有軟件識(shí)別為一枚完整芯片,開(kāi)發(fā)者無(wú)需重寫(xiě)代碼就能直接運(yùn)用它的強(qiáng)大性能。這在史上從無(wú)先例。
從M1 Ultra發(fā)布的UltraFusion圖示可以看到,蘋(píng)果M1 Ultra應(yīng)該是采用臺(tái)積電基于第五代CoWoS Chiplet技術(shù)的互連架構(gòu),透過(guò)硅中間層(Silicon Interposer)與微型凸塊(Micro-Bump),將兩組M1 Max彼此連接。
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一種基于TSV的多芯片集成技術(shù),廣泛應(yīng)用于高性能計(jì)算(HPC)和人工智能(AI)加速器領(lǐng)域。
隨著CoWoS的進(jìn)步,可制造的中介層(Interposer)面積穩(wěn)步增加,從一個(gè)全掩模版尺寸(大約830mm2)到兩個(gè)掩模版尺寸(大約1700mm2)。中介層的面積決定了最大的封裝后的芯片的面積。
第5代CoWoS-S(CoWoS-S5)達(dá)到了大至三個(gè)全光罩尺寸(~2500mm2)的水平。通過(guò)雙路光刻拼接方法,該技術(shù)的硅中介層可容納1200mm2的多個(gè)邏輯芯粒和八個(gè)HBM(高帶寬內(nèi)存)堆棧。芯粒與硅中介層的采用面對(duì)面(Face to Face,互連層與互連層對(duì)接)的連接方式。
在UltraFusion技術(shù)中,通過(guò)使用裸片縫合(Die Stitching)技術(shù),可將4個(gè)掩模版拼接來(lái)擴(kuò)大中介層的面積。在這種方法中,4個(gè)掩模被同時(shí)曝光,并在單個(gè)芯片中生成四個(gè)縫合的“邊緣”。
根據(jù)蘋(píng)果公司的專(zhuān)利顯示,在這一技術(shù)中,片間互連可以是單層金屬,也可以是多層金屬。
UltraFusion不僅僅是簡(jiǎn)單的物理連接結(jié)構(gòu)。在這一封裝架構(gòu)中,有幾項(xiàng)特別優(yōu)化過(guò)的技術(shù)。
· 低RC互連:在UltraFusion中,有新的低RC(電容x電阻=傳輸延遲)金屬層,以在毫米互連尺度上提供更好的片間信號(hào)完整性。與傳統(tǒng)的多芯片模塊(MCM)等其他封裝解決方案相比,UltraFusion的中介層在邏輯芯粒之間或邏輯芯粒和存儲(chǔ)器堆棧之間提供密集且短的金屬互連。片間完整性更好,且能耗更低,并能以更高的時(shí)鐘速率運(yùn)行。這種新的中介層互連方案將走線電阻和通孔電阻降低了50%以上。
· 互連功耗控制:蘋(píng)果的專(zhuān)利顯示,UltraFusion使用了可關(guān)閉的緩沖器(Buffuer),進(jìn)行互連緩沖器的功耗控制,有效降低暫停的互連線的能耗。
· 優(yōu)化TSV高縱橫比的硅通孔(TSV)是硅中介層技術(shù)另一個(gè)非常關(guān)鍵的部分。UltraFusion/CoWoS-S5重新設(shè)計(jì)了TSV,優(yōu)化了傳輸特性,以適合高速SerDes傳輸。
· 集成在中介層的電容(iCAP):UltraFusion在中介層集成了深溝槽電容器(iCap),幫助提升芯片的電源完整性。集成在中介層的電容密度超過(guò)300nF/mm2,幫助各芯粒和信號(hào)互連享有更穩(wěn)定的供電。
· 新的熱界面材料:UltraFusion通過(guò)集成在CoWoS-S5中的新型非凝膠型熱界面材料(TIM),熱導(dǎo)率>20W/K,覆蓋率達(dá)到100%,為各個(gè)高算力芯粒提供更好的散熱支持,從而增強(qiáng)整體散熱。
· 通過(guò)Die-Stitching技術(shù)有效提升封裝良率降低成本:UltraFusion中,僅將KGD(Known Good Die)進(jìn)行鍵合,這樣避免了傳統(tǒng)的WoW(Wafer on Wafer)或CoW(Chip on Wafer)中失效的芯粒被封裝的問(wèn)題,進(jìn)而提升封裝后的良率,降低了整體的平均成本。(壞的芯片越少,在固定的流片和研發(fā)費(fèi)用前提下,單芯片平均成本就越低)
UltraFusion充分結(jié)合了封裝互連技術(shù)、半導(dǎo)體制造和電路設(shè)計(jì)技術(shù),為整合面積更大、性能更高的算力芯片提供了巨大的想象空間,為計(jì)算架構(gòu)的發(fā)展提供了非常好的助力和參照。同時(shí),M1 Ultra的成功,會(huì)讓傳統(tǒng)的芯片制造商,感受到更大的壓力。
Chiplet設(shè)計(jì)將成為行業(yè)主流
在當(dāng)下的半導(dǎo)體行業(yè)中,Chiplet設(shè)計(jì)已經(jīng)成為行業(yè)主流,成為快速制造芯片同時(shí)降低制造成本的關(guān)鍵。目前,這項(xiàng)技術(shù)被用于數(shù)據(jù)中心服務(wù)器和高端臺(tái)式機(jī)的芯片,并在這些產(chǎn)品中提高了大型芯片的經(jīng)濟(jì)性。
Chiplet的優(yōu)勢(shì)便是降低成本,擺脫對(duì)先進(jìn)工藝節(jié)點(diǎn)的依賴,甚至可以彎道超車(chē)。不過(guò)Chiplet是將芯片2D、3D堆疊,對(duì)于熱管理設(shè)計(jì)和熱功耗的控制更為嚴(yán)格。M1 Ultra成型的理念有些類(lèi)似Chiplet技術(shù)。不同的是Chiplet更多是運(yùn)用舊工藝(如7nm芯片),小型化的芯片(CPU),利用先進(jìn)的封裝工藝進(jìn)行混裝,靈活度很高。
近日,臺(tái)積電、英特爾、高通、三星、Arm、AMD和日月光等十大廠商成立了UCIe(UniversalChiplet Interconnect Express,通用芯?;ミB技術(shù))標(biāo)準(zhǔn)聯(lián)盟,藉此擴(kuò)大推動(dòng)Chiplet技術(shù)應(yīng)用生態(tài)。而同時(shí),業(yè)界熱議,為何蘋(píng)果沒(méi)有加入該聯(lián)盟?
M1 Ultra芯片的問(wèn)世,使得蘋(píng)果芯片再次刷新了行業(yè)認(rèn)知。讓人們意識(shí)到,在先進(jìn)封裝方面,蘋(píng)果無(wú)意加入該聯(lián)盟,因?yàn)閁ltraFusion技術(shù)已經(jīng)達(dá)到業(yè)內(nèi)頂尖水平,遠(yuǎn)遠(yuǎn)超出了UCIe 1.0的標(biāo)準(zhǔn)。
M1 Ultra是蘋(píng)果野心的進(jìn)一步延續(xù),連最有錢(qián)的蘋(píng)果也轉(zhuǎn)向Chiplet了,這預(yù)示著也許未來(lái)在消費(fèi)級(jí)領(lǐng)域,高性能產(chǎn)品走Chiplet這條路可以走得通。
對(duì)于產(chǎn)業(yè)來(lái)說(shuō),Chiplet帶來(lái)了新的機(jī)會(huì),在標(biāo)準(zhǔn)與生態(tài)層次上,Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng);對(duì)于芯片制造與封裝來(lái)說(shuō),增設(shè)了多芯片模塊(Multi-Chip Module,MCM)業(yè)務(wù),Chiplet迭代周期遠(yuǎn)低于ASIC,可提升晶圓廠和封裝廠的產(chǎn)線利用率;對(duì)于半導(dǎo)體IP來(lái)說(shuō),升級(jí)為Chiplet供應(yīng)商,可提升IP的價(jià)值且有效降低芯片客戶的設(shè)計(jì)成本;最后對(duì)于芯片設(shè)計(jì)來(lái)說(shuō),降低了大規(guī)模芯片設(shè)計(jì)的門(mén)檻。
評(píng)論