Chiplet 技術(shù)取得進(jìn)展
在互聯(lián)技術(shù)、復(fù)雜分區(qū)技術(shù)以及行業(yè)經(jīng)驗的推動下,將 SoC 分解成各個組件,并將這些組件和其他組件組裝成某種類型的異構(gòu)組件已初具雛形。
本文引用地址:http://2s4d.com/article/202411/464358.htm雖然即插即用的愿景依然不變,但實現(xiàn)這一目標(biāo)遠(yuǎn)比最初想象的要復(fù)雜得多。它會因應(yīng)用和工作負(fù)載的不同而有很大差異,進(jìn)而會影響時序、延遲和成本。此外,它還會因封裝類型、是否包含人工智能、調(diào)度和優(yōu)先級排序所需軟件的數(shù)量以及所使用的互聯(lián)類型而有所不同。
Arm 系統(tǒng)架構(gòu)師兼研究員羅布·迪蒙德表示,互聯(lián)技術(shù)是粘合劑。它們包括片上網(wǎng)絡(luò),即位于 Chiplet 上的所有其他互聯(lián),以及 UCIe 芯片間連接,后者負(fù)責(zé)芯片間數(shù)據(jù)傳輸?;ヂ?lián)技術(shù)還與其他高速接口協(xié)同工作,將數(shù)據(jù)從一個邊界傳輸?shù)搅硪粋€邊界。
Cadence 高級產(chǎn)品營銷集團(tuán)總監(jiān)阿里夫·汗說:「芯片組互連的根本挑戰(zhàn)在于了解如何進(jìn)行分解。你正在分割你的計算和數(shù)據(jù)流問題。你的架構(gòu)是怎樣的?你是如何劃分的?你有芯片組內(nèi)的數(shù)據(jù)流,還有跨芯片組的數(shù)據(jù)流。這取決于數(shù)據(jù)的去向和背景。例如,你要解決的問題是什么?如果是 GPU 類型的應(yīng)用,那么單個 GPU 將無法容納如此龐大的語言模型。你需要的是一個由數(shù)百萬個 GPU 組成的人工智能工廠。然后,你會看到不同的一致性模型。事實上,即使是標(biāo)準(zhǔn)協(xié)議也無法滿足要求?!?/p>
目前,這些互聯(lián)通常是導(dǎo)線(盡管未來在封裝之間甚至封裝內(nèi)部可能會有光互聯(lián),或是二者的某種組合)。但并不是所有的導(dǎo)線都有相同的表現(xiàn)。它們可以有不同的直徑,以不同的密度排列,具有不同的絕緣層,甚至使用不同的材料。
Blue Cheetah 首席執(zhí)行官兼聯(lián)合創(chuàng)始人埃拉德·阿隆表示:「你能獲得的導(dǎo)線數(shù)量以及這些導(dǎo)線的特性都大不相同?!高@就是促使你必須以不同方式做事的原因。另一方面,人們通常希望隔離芯片組邊界的時序接口,這從根本上說并不是物理學(xué)驅(qū)動的,而更多是實際工程驅(qū)動的。當(dāng) Chiplet 采用 2.5D 或 3D 封裝時,會有一些操作空間,但通常的設(shè)計決定是將這些時序接口相互隔離。這主要是因為芯片在物理上被分隔在不同的芯片中。我不想做這種多重跨芯片時序閉合的工作。這并不是說不能做,只是出于現(xiàn)實的原因人們不愿意這么做。這也是芯片組互連與芯片上互連不同的地方。片上互連是在單個時鐘域內(nèi)進(jìn)行的,可以由更「標(biāo)準(zhǔn)」的「放置-路由」類型的流程驅(qū)動。但是,由于導(dǎo)線數(shù)量較少,因此需要更快地運(yùn)行這些導(dǎo)線。隔離式定時接口正是模擬人員實現(xiàn)這一目標(biāo)的關(guān)鍵所在。顯然,它需要盡可能低的面積和功耗。」
由于 Chiplet 互聯(lián)需要跨芯片傳輸數(shù)據(jù),因此這些物理接口通常速度非??斓鄬^窄。然而,與 SoC 互聯(lián)不同,Chiplet 互聯(lián)通常是像通信協(xié)議一樣進(jìn)行分組化的,而不太像片上總線。
Arteris 產(chǎn)品經(jīng)理阿什利·史蒂文斯解釋道:「Chiplet 互聯(lián)通常允許數(shù)據(jù)以分組化的格式通過芯片間鏈路在非常寬的接口上發(fā)送,數(shù)據(jù)可以序列化并通過鏈路發(fā)送。芯片間互聯(lián)需要支持各種旁帶信號,這在 SoC 中通常通過點對點信號(如中斷和電源管理)來處理。這些也需要通過與普通內(nèi)存和外設(shè)事務(wù)相同的鏈路以分組化的格式從芯片傳輸?shù)叫酒?,因此不?yīng)被忽略?!?/p>
這些互聯(lián)還需要與應(yīng)用相匹配?!窩hiplet 需要一種在關(guān)鍵參數(shù)上表現(xiàn)出色的高效芯片間(D2D)互聯(lián),」Alphawave Semi 產(chǎn)品營銷和管理副總裁萊蒂齊亞·朱利亞諾表示。「我們需要為芯片間互聯(lián)的 Chiplet 應(yīng)用進(jìn)行定制,以優(yōu)化給定封裝系統(tǒng)中該接口的總擁有成本。面積效率以帶寬海岸線密度來衡量,它能使每毫米岸線上的數(shù)據(jù)達(dá)到最高的 Tb/s。功率即能效,并且每比特焦耳需要盡可能低。當(dāng)我們在 Chiplet 中使用 D2D 互聯(lián)時,會造成 I/O 電路的重復(fù)。物理層和數(shù)字邏輯都會增加,它們需要減少對總體功耗預(yù)算的影響,并符合總體總擁有成本。」
延遲是一個關(guān)鍵的性能指標(biāo),發(fā)射器(TX)加接收器(RX)的傳輸時間需要最小化?!窪2D 互聯(lián)的設(shè)計必須在電路復(fù)雜性和 PPA(性能、功耗和面積)之間取得微妙的平衡,做到同類最佳,」朱利亞諾說。「這可以確保我們不會過度增大電路尺寸而忽略應(yīng)用空間。例如,具有單端架構(gòu)和良好電壓調(diào)節(jié)平衡的簡單接口有助于提高電源效率。同時,模擬 TX 和 RX 中的緊湊電路需要對失配和噪聲進(jìn)行仔細(xì)研究。」
要最大限度地發(fā)揮異構(gòu)集成的優(yōu)勢,就必須深入了解終端應(yīng)用和工作負(fù)載,以及如何最好地為特定領(lǐng)域設(shè)計解決方案?!肝覀儾荒芘c應(yīng)用空間脫節(jié),也不能將總體擁有成本降至最低,因此 D2D 架構(gòu)需要針對不同類型的封裝和凸點間距進(jìn)行設(shè)計?!怪炖麃喼Z指出:「在設(shè)計系統(tǒng)時,我們需要考慮所有的電路損傷,以實現(xiàn)現(xiàn)實可行的實施。我們正在從芯片轉(zhuǎn)向封裝。在封裝中的 Chiplet 系統(tǒng)中,將我們的 SoC 裸片自然分解的方式是將我們的 SoC 網(wǎng)絡(luò)傳輸?shù)椒庋b上的芯片上,因此我們正在向標(biāo)稱片上傳輸層添加物理層傳輸?!?/p>
Chiplet 中的數(shù)據(jù)移動
有多種競爭性的協(xié)議可用于數(shù)據(jù)移動。AMBA CHI、UCIe 和 BoW 是最為人所知的。哪一種或哪幾種組合最終勝出尚待觀察。但它們基本上都執(zhí)行相同的功能,即在 Chiplet 之間快速移動數(shù)據(jù)。
「AMBA CHI 是分組化的、廣泛使用的且開放授權(quán)的,它是 AMBA CHI C2C 的基礎(chǔ),使其能夠使用合適的芯粒物理和鏈路層在芯粒之間實現(xiàn)連接,」Arm 公司的迪蒙德介紹道。「對于將主板上的組件集成到一個封裝中,最好在新的針對芯粒優(yōu)化的物理層上使用已有的互聯(lián)標(biāo)準(zhǔn)。對于將 SoC 分解為多個芯粒來說,同樣合理的做法是使用已有的片上互連?!?/p>
Arm 認(rèn)為,Chiplet 互聯(lián)將從現(xiàn)有的板級或片上互聯(lián)發(fā)展而來。但是,在 Chiplet 架構(gòu)中,有更多且不同的層需要考慮。
「就物理層而言,芯片之間的互聯(lián)可能會支持更少的物理連接,運(yùn)行距離更長,」迪蒙德解釋說?!缚赡苄枰薪獯鳎⊿erDes)。在 AMBA CHI C2C 的情況下,該協(xié)議是分組化的,以支持在物理層之上運(yùn)行。協(xié)議層將需要一個架構(gòu)規(guī)范,以提供所需的長期穩(wěn)定性,支持隨著時間的推移重復(fù)使用,并隨著生態(tài)系統(tǒng)的出現(xiàn),支持價值鏈中不同參與者之間的潛在重復(fù)使用。」
在很大程度上,Chiplet 到 Chiplet 的通信是一個分區(qū)問題,而在汽車設(shè)計中,這個問題尤其具有挑戰(zhàn)性。
「舉個例子——我可以從 X 公司獲得一個帶有完美 CPU 復(fù)合體的芯粒,但它沒有 GPU,」西門子數(shù)字化工業(yè)軟件公司混合與虛擬系統(tǒng)部門的副總裁戴維·弗里茨說道。「我正在嘗試為車載信息娛樂系統(tǒng)(IVI)做些什么,所以我需要一個 GPU 來進(jìn)行渲染。有些公司會說:要不我把我們的 GPU 拿出來,單獨(dú)放在一個芯粒里,然后把這個芯粒稱為一個『液滴』怎么樣?但這只是一個無法獨(dú)立存在的子系統(tǒng)模塊。人們會創(chuàng)造這些『液滴』,然后他們會說,:你拿著我們的『液滴』去找其他公司,他們會圍繞它添加他們需要的東西。所以,實際上我們又回到了出售硬宏(hard macros)的老路上?!何疫@里有 GPU,但我的內(nèi)存卻在另一個芯粒上?這行不通,因為我沒有 GPU 所需的高帶寬,無法支持高分辨率、多顯示屏?!凰?,如果你沒有工具來探索這個領(lǐng)域的復(fù)雜性,并推導(dǎo)出那些不直觀或不明顯的更深層次、更硬性的要求,那么你最終只會做出錯誤的決策,而無法拿出一款有競爭力的產(chǎn)品?!?/p>
在異構(gòu)系統(tǒng)中,分區(qū)不僅僅關(guān)乎硬件。軟件也需要在 Chiplet 之間兼容。
「如果你考慮推理,推理通常使用較小的數(shù)據(jù)集并據(jù)此做出決策,」Eliyan 公司戰(zhàn)略營銷副總裁凱文·唐納利表示?!柑幚碓乜赡苋堪谝粋€芯片內(nèi),而你需要進(jìn)行的互聯(lián)是與外部世界和內(nèi)存之間的。這決定了你擁有什么樣的互聯(lián),以及你在這些互聯(lián)上需要什么樣的帶寬。這將決定類似推理功能的芯片集的劃分方式。如果是訓(xùn)練,并且像英偉達(dá)那樣處理海量數(shù)據(jù)集,他們關(guān)注的是如何將大量的大型解聚芯片無縫地整合起來,使它們看起來像是更大、更單片的芯片。在這種情況下,他們需要盡可能緊密地互連 GPU 核心,并在芯粒之間獲得盡可能多的帶寬。這種片外互連問題正是推動他們做出劃分決策的原因,也是他們將其旋轉(zhuǎn) 90 度(與其他人之前的做法相比)的原因,其他人之前的做法是試圖讓兩個巨大的單片芯片看起來像是一個更大、更巨大的單片芯片。然后,芯片外部的連接通向 I/O 世界和其他內(nèi)存。這就是片上互連在他們劃分中所起的作用。在軟件層面,他們能夠使兩個解耦的處理器看起來像一個巨大的處理器,根據(jù)他們公布的信息與之前的可用信息相比,這讓他們獲得了出色的性能基準(zhǔn)?!?/p>
這也可以被稱為橫截面帶寬和能耗。「當(dāng)你將事物從彼此身上分離,從一個單片芯片分離成兩個需要重新連接的異質(zhì)部分(或者就此而言,同質(zhì)部分)時,這是你需要關(guān)注的兩件事,」Eliyan 公司的首席戰(zhàn)略與業(yè)務(wù)官帕特里克·索赫伊利指出?!改阏趯ふ铱梢猿惺芨喙牡膮^(qū)域,因為現(xiàn)在你可以在芯片外部將它們連接起來。在芯片內(nèi)部進(jìn)行連接總是更高效的,但如果沒有空間就別無選擇。所以,這是由一個決策決定的。另一個決策是,一個芯片需要與另一個芯片以多快的速度進(jìn)行通信,即橫截面帶寬需要是多少,以及是否能夠承受將它們彼此遠(yuǎn)離放置,而不是放在一個單片芯片中。這兩點是軟件劃分,以及確保整個系統(tǒng)將系統(tǒng)級封裝(SIP)視為一個整體——這始終是其中的關(guān)鍵部分——與 Chiplet 策略無關(guān),只是確保所有部分都能作為一個子系統(tǒng)協(xié)同工作。」
Chiplet 給互連實現(xiàn)帶來了什么
Chiplet 系統(tǒng)的出現(xiàn)帶來了創(chuàng)建可用于生產(chǎn)實現(xiàn)的新挑戰(zhàn)?!高@需要使用一種新的方法來測試 D2D 接口在不斷提高的數(shù)據(jù)速率下的表現(xiàn),并允許對良好的芯片進(jìn)行測試和篩選,」Alphawave 的朱利亞諾表示?!肝覀?nèi)绾卧诰A或封裝上測試 D2D 互連的物理層?HBM 學(xué)習(xí)是否適用于此,或者我們需要采用不同的方法?我們現(xiàn)在討論的是以更高的 32Gbps 數(shù)據(jù)速率進(jìn)行連接,并且每個引腳的數(shù)據(jù)傳輸速率達(dá)到 64Gbps,這將連接越來越多的 Chiplet。通常,這是在先進(jìn)的凸塊間距中實現(xiàn)的,而這種間距在晶圓級別上是不太可能的。在我們的物理層(PHY)內(nèi)部設(shè)計測試級結(jié)構(gòu)至關(guān)重要,這樣可以深入了解硅的健康狀況并隨時間觀察關(guān)鍵時序參數(shù)的可觀測性?!?/p>
Alphawave 已經(jīng)實施了先進(jìn)的測試和調(diào)試方法,允許其工程團(tuán)隊使用內(nèi)部回環(huán)和寄存器訪問來測試鏈路。該公司還在與外包半導(dǎo)體組裝和測試公司合作,實施結(jié)構(gòu)測試,以確保 D2D 結(jié)構(gòu)的全面測試覆蓋。
另一個新問題源于將來自不同供應(yīng)商且需要互操作的 D2D 互連和 Chiplet 進(jìn)行集成?!溉缃瘢覀儾渴鸬拇蠖鄶?shù)系統(tǒng)都來自單一供應(yīng)商,但我們正在與生態(tài)系統(tǒng)合作伙伴和客戶合作,為多供應(yīng)商互操作性鋪平道路。我們已經(jīng)創(chuàng)建了測試載體和發(fā)布版 Chiplet,這些可以與其他方一起使用,以進(jìn)行清晰的電氣互操作性測試和協(xié)議測試,」朱利亞諾指出。
系統(tǒng)發(fā)現(xiàn)也是 Chiplet 中需要標(biāo)準(zhǔn)化的另一個領(lǐng)域,Arteris 的史蒂文斯說道。「要創(chuàng)建一個 Chiplet 生態(tài)系統(tǒng),它們需要能夠『發(fā)現(xiàn)』外部存在什么,并且如果需要支持真正的芯?;旌吓c匹配,它們需要能夠?qū)R以形成一個系統(tǒng)。今天,Chiplet 是作為一個系統(tǒng)進(jìn)行設(shè)計和驗證的,但這缺乏協(xié)同使用的靈活性。驗證知識產(chǎn)權(quán)(IP)對于 Chiplet 也至關(guān)重要。為了實現(xiàn)互操作性,必須有行業(yè)內(nèi)信賴的『標(biāo)準(zhǔn)』驗證 IP。這使 Chiplet 設(shè)計可以針對驗證 IP 進(jìn)行驗證,而無需針對其他 Chiplet 進(jìn)行驗證?!?/p>
從互連的角度來看,還必須考慮整體內(nèi)存映射?!竷?nèi)存映射是特定地址訪問如何映射到系統(tǒng)中的內(nèi)存控制器,」史蒂文斯說道?!冈?Chiplet 系統(tǒng)中,內(nèi)存訪問可以跨越 Chiplet。這種映射會對性能產(chǎn)生影響。細(xì)粒度的映射會將訪問均勻地分散到各個 Chiplet 上,但可能會由于遠(yuǎn)程 Chiplet 的較長延遲而導(dǎo)致性能問題。粗粒度的映射可能更好,但訪問可能不會分散得那么均勻,因此存在一個棘手的權(quán)衡。系統(tǒng)架構(gòu)師應(yīng)該對此進(jìn)行建模,但另一種方法是使其在引導(dǎo)時配置,以便在硅調(diào)試之后可以進(jìn)行試驗?!?/p>
Chiplet 架構(gòu)的另一個重要考量是,并非所有 Chiplet 劃分和架構(gòu)都適用 D2D 互連?!噶私?KPI 以便為 D2D 鏈路和 Chiplet 分區(qū)選擇正確的配置,這一點至關(guān)重要,」朱利亞諾指出?!肝覀儜{借自身在 Chiplet 定制硅片和 D2D 互連領(lǐng)域的領(lǐng)先地位,指導(dǎo)客戶正確劃分系統(tǒng),并在實現(xiàn) TCO 和上市時間之間找到最佳平衡點。一個重要的例子是封裝技術(shù),以及特定配置所需的 D2D 配置。選擇過程需要涉及芯?;ミB的所有層級。然后,將電氣物理層(PHY)和封裝類型轉(zhuǎn)移到互連協(xié)議和特定于域架構(gòu)的芯粒劃分上?!?/p>
Alphawave 的多標(biāo)準(zhǔn) I/OChiplet。來源:Alphawave Semi
在更深入地了解 Chiplet 互連后,一個關(guān)鍵問題浮現(xiàn):商業(yè) Chiplet 市場何時能成形。雖然英特爾、AMD、英偉達(dá)和蘋果等公司已經(jīng)在使用 Chiplet,但這些 Chiplet 是專為它們自己的設(shè)備設(shè)計的。要實現(xiàn)基本即插即用的商業(yè) Chiplet,還有很長的路要走。
「我們將看到的下一個階段是,當(dāng)前的主要參與者圍繞其知識產(chǎn)權(quán)開放生態(tài)系統(tǒng),允許配套 Chiplet 的出現(xiàn),」Synopsys 技術(shù)產(chǎn)品管理高級總監(jiān)蒂姆·科格爾表示?!高@將需要一套完整的架構(gòu)和協(xié)作工具方法。特別是在汽車行業(yè),這是一個非常重要的趨勢。在歐洲,有 imec 汽車 Chiplet 計劃(ACP)。日本則有先進(jìn)汽車系統(tǒng)芯片研究(ASRA)聯(lián)盟。有負(fù)責(zé)架構(gòu)協(xié)作和物理方面的工作小組。我們?nèi)绾卧谛盘枌用鎸崿F(xiàn)協(xié)同工作?我們?nèi)绾卧诤暧^架構(gòu)層面實現(xiàn)協(xié)同工作,以便將各部分整合在一起?特別是在汽車行業(yè),這一趨勢尤為強(qiáng)勁,因為他們清楚地看到了使用 Chiplet 概念實現(xiàn)可擴(kuò)展架構(gòu)的好處。他們希望從低端汽車到中端再到高端,只需簡單地說『這是一個,這是兩個,這是四個 Chiplet』就能實現(xiàn)。他們看到了巨大的經(jīng)濟(jì)規(guī)模,并計劃通過 Chiplet 路徑來實現(xiàn)這一點?!?/p>
然而,要實現(xiàn)這一目標(biāo),還有很多工作要做。作為一個行業(yè),我們?nèi)栽诹私?Chiplet 及其標(biāo)準(zhǔn),所有這些標(biāo)準(zhǔn)都涉及不同的領(lǐng)域,Keysight 的信號完整性應(yīng)用科學(xué)家兼高速數(shù)字應(yīng)用產(chǎn)品經(jīng)理表示?!感袠I(yè)面臨的一大挑戰(zhàn)是,要確保所有這些標(biāo)準(zhǔn)都能協(xié)同工作,因為遲早它們都需要相互連接并協(xié)同發(fā)揮作用?!?/p>
評論