芯片設(shè)計(jì)中,DRAM 類型的選擇正在變復(fù)雜
芯片制造商開始將多種類型和風(fēng)格的 DRAM 整合到同一個(gè)先進(jìn)封裝中,為日益分布式的內(nèi)存但更加復(fù)雜的設(shè)計(jì)奠定了基礎(chǔ)。盡管多年來(lái)預(yù)測(cè) DRAM 將被其他類型的內(nèi)存取代,但它仍然是幾乎所有計(jì)算中的重要組成部分。它的足跡非但沒有消失,反而在增加,選擇的數(shù)量也在增加。
本文引用地址:http://2s4d.com/article/202311/452949.htm有幾個(gè)因素推動(dòng)了這種擴(kuò)張。
首先,系統(tǒng)中計(jì)算元素的數(shù)量和密度不斷增加,以更快地處理更多數(shù)據(jù),特別是對(duì)于人工智能/機(jī)器學(xué)習(xí)和數(shù)據(jù)中心應(yīng)用程序。更多的核心需要更多的內(nèi)存,因?yàn)樾枰幸粋€(gè)地方來(lái)存儲(chǔ)數(shù)據(jù)并處理數(shù)據(jù)。
其次,通常情況下,大部分?jǐn)?shù)據(jù)都會(huì)在緩存中處理,而 SRAM 一直是 L1 到 L3 緩存的首選內(nèi)存。但 SRAM 的擴(kuò)展速度不再與數(shù)字邏輯相同。因此,它在芯片上占用了更大的空間,并且 DRAM 速度的提高使得某些類型適合 L3 緩存。
最后,來(lái)回移動(dòng)數(shù)據(jù)移動(dòng)受到帶寬和距離的限制,因此僅在一個(gè)物理位置添加更多內(nèi)存并不一定會(huì)提高性能。事實(shí)上,它可能會(huì)起到相反的作用。
由于這些原因,芯片制造商正在使用更多的 DRAM。在某些情況下,DRAM(尤其是 HBM)正在取代一些 SRAM。DRAM 擁有久經(jīng)考驗(yàn)的耐用性記錄以及成熟的工藝,而且比 SRAM 便宜得多。Objective Analysis 總經(jīng)理 Jim Handy 表示,根據(jù)原始數(shù)據(jù),相同容量的 SRAM 成本可能比 DRAM 高出 2,500 倍以上,具體取決于 DRAM 的類型。
當(dāng)然,DRAM 有多種類型可供選擇。有些速度非???,如 HBM,但也很昂貴。其他類型速度較慢,但價(jià)格便宜,如基本的 DDR DIMM。然而,變化的是,在異構(gòu)架構(gòu)中,兩者都可以發(fā)揮重要作用,以及多種其他 DRAM 類型和更狹義的存儲(chǔ)器,如 MRAM 或 ReRAM。
「我們正在考慮更多的混合模型,在同一系統(tǒng)中使用不同的 DRAM 技術(shù),」Cadence 高級(jí)技術(shù)營(yíng)銷經(jīng)理 Kos Gitchev 說(shuō)。「如果您確實(shí)需要非常高的性能,并且愿意為此付費(fèi),那么您可能會(huì)選擇 HBM。您可以將其用于 L3 緩存,或者您需要立即訪問的任何其他內(nèi)容。如果您仍然需要更多內(nèi)存,但延遲稍長(zhǎng),則可以在 RDIMM(注冊(cè)雙列直插內(nèi)存模塊)或 MRDIMM(多路復(fù)用器級(jí) DIMM)中使用 DRAM。如果您正在尋找大容量,那么您可能會(huì)考慮 CXL 后面的 DRAM。該技術(shù)開始針對(duì)非常具體的應(yīng)用程序,具有真正的高帶寬和低功耗、更大的內(nèi)存占用,但延遲稍多。將所有這些混合在一起是每個(gè)人解決這些問題的方向?!?/span>
與先進(jìn)節(jié)點(diǎn)或先進(jìn)封裝的幾乎每一項(xiàng)改進(jìn)一樣,解決一個(gè)問題可能會(huì)導(dǎo)致另一個(gè)問題。盡管如此,基本理論是合理的,并且當(dāng)今市場(chǎng)上也有證據(jù)。例如,保持某些功能(例如人工智能)以最大速度運(yùn)行可能至關(guān)重要,這將使高帶寬內(nèi)存成為最佳選擇。但并非所有功能都是必需的,并且它們并不都需要這種級(jí)別的性能。在某些情況下,GDDR5 或 GDDR6 可能就足夠了。在其他情況下,可能是 LPDDR,在其他情況下可能是 DDR4。所有這些都有不同的成本,這些成本可以用來(lái)回移動(dòng)數(shù)據(jù)的資源以及存儲(chǔ)芯片的貨幣價(jià)值來(lái)衡量。
另一方面,并不是所有的 DRAM 都是一樣的,在沒有充分了解不同類型的 DRAM 會(huì)如何影響其他組件的情況下,僅添加不同類型的 DRAM 可能會(huì)導(dǎo)致問題。重要的是要以避免未來(lái)問題的方式將它們集成起來(lái),這包括復(fù)雜的布局規(guī)劃,以避免信號(hào)完整性和防止熱問題。眾所周知,DRAM 和散熱不太好。但也有一堆以前從未認(rèn)真考慮過(guò)的新問題。
「DRAM 向前發(fā)展的重大問題分為兩類——常見的問題(更多的帶寬和容量、管理功率)和一些新的問題(更具挑戰(zhàn)性的可靠性,這導(dǎo)致了片上 ECC 和 RowHammer 保護(hù)等問題),」Rambus 的杰出發(fā)明家 Steven Woo 說(shuō)道。「為了應(yīng)對(duì)新的挑戰(zhàn),在芯片上放置更多的電容器會(huì)增加片上錯(cuò)誤的發(fā)生,因此今天的 DRAM 在數(shù)據(jù)返回到控制器之前會(huì)進(jìn)行一定量的片上錯(cuò)誤糾正。像 RowHammer 這樣的相鄰單元干擾問題的發(fā)生是因?yàn)檫@些單元彼此非常接近,訪問一組單元可能會(huì)導(dǎo)致鄰近單元的位翻轉(zhuǎn)?!?/span>
什么地方最有效
選擇的數(shù)量不斷增加,也讓我們很難決定使用哪些存儲(chǔ)器。通常根據(jù)性能、功耗、成本、可靠性(糾錯(cuò)碼以及經(jīng)過(guò)全面測(cè)試和供應(yīng)鏈安全)和容量來(lái)選擇 DRAM。因此,如果 DRAM 將用于 L3 緩存,則可能需要高性能和低功耗。如果要用于高級(jí)封裝中的低級(jí)功能,則它可能是標(biāo)準(zhǔn) DIMM。
但這些選擇中的每一個(gè)也會(huì)影響整體芯片或系統(tǒng)級(jí)封裝設(shè)計(jì),并伴隨著特定的設(shè)計(jì)考慮。
「過(guò)去,DDR4 和 LPDDR4 并沒有那么復(fù)雜,」Synopsys 產(chǎn)品營(yíng)銷高級(jí)經(jīng)理 Graham Allan 表示?!敢粋€(gè)客戶將啟用 DDR4,另一個(gè)客戶將啟用 LPDDR4,并且存在重疊。隨著我們進(jìn)入 DDR5 和 LPDDR5 及更高版本,這些應(yīng)用空間確實(shí)發(fā)生了分化,接口協(xié)議和物理信令也發(fā)生了變化。DDR5 通常需要與大量 DRAM(大容量)通信,因此您主要與寄存器 DIMM 連接。使用 LPDDR,您通常會(huì)與一個(gè)封裝或設(shè)備通信,并且該設(shè)備中最多有兩個(gè)負(fù)載。LPDDR 也是接地端接的。DDR 端接到正電壓軌。這些是非常不同的物理接口和協(xié)議,這意味著客戶需要選擇其中之一?!?/span>
還有一些中間選項(xiàng)可以幫助在多個(gè)應(yīng)用程序中使用相同的設(shè)計(jì)。例如,MRDIMM 可用于將容量加倍或?qū)捈颖?,具體取決于工作負(fù)載?!付嗦窂?fù)用器級(jí) DIMM 的容量和速度是 SDRAM(同步 DRAM)的兩倍,」Allan 說(shuō)?!杆拿烂钪幵谟?DRAM 不會(huì)改變。它以兩種不同的模式運(yùn)行。它的運(yùn)行方式類似于負(fù)載減少的 DIMM,但速度不會(huì)加倍。這將是一種使用它來(lái)獲得更高容量的模式?;蛘咚远嗦窂?fù)用排序模式運(yùn)行,這使得 DRAM 和外部接口之間的帶寬加倍?!?/span>
這是圖片的一部分。另一部分是 PHY,即物理層,它提供與內(nèi)存的物理接口。PHY 因所使用的 DRAM 類型而異,隨著數(shù)據(jù)量的增加和設(shè)計(jì)變得越來(lái)越異構(gòu),它們變得尤為重要。
PHY 還可以鏈接在一起形成一種主堆棧,以便管理復(fù)雜設(shè)備中的內(nèi)存資源,無(wú)論是 GDDR6 還是 LPDDR4。這樣,所有類型的 DRAM 都可以被視為可用資源并進(jìn)行集中管理。
「通過(guò)某種類型的結(jié)構(gòu)來(lái)管理帶寬,所有內(nèi)容都是可見且可尋址的,」瑞薩電子基礎(chǔ)設(shè)施業(yè)務(wù)部公司副總裁兼總經(jīng)理 Balaji Kanigicherla 說(shuō)道?!高@不僅僅是提高密度或存儲(chǔ)器的物理原理,這是材料科學(xué)。存儲(chǔ)器的應(yīng)用架構(gòu)是產(chǎn)業(yè)發(fā)展的方向。密度需要提高,因?yàn)槟M谙嗤膸捪芦@得更多的容量。我們可以根據(jù)每美元或每 GB 的路徑進(jìn)行混合和匹配,并且可以在 SSD、DRAM 和本地片上 SRAM 緩存之間使用分層。這正在轉(zhuǎn)向整個(gè)系統(tǒng)的 TCO,并考慮我們將為每一層支付的成本?!?/span>
這本質(zhì)上提高了內(nèi)存管理的抽象級(jí)別。Kanigicherla 表示:「您可以從當(dāng)前模型發(fā)展到在全球范圍內(nèi)解決內(nèi)存問題,并基本上創(chuàng)建足夠有效的互連來(lái)管理緩存或減少延遲。」「這就像全局可尋址內(nèi)存的一個(gè)分區(qū)。顯然,您需要提供帶寬。但好消息是,對(duì)于人工智能工作負(fù)載,它們對(duì)延遲的敏感度稍低,對(duì)帶寬的敏感度更高。所以你可以利用這項(xiàng)技術(shù)來(lái)擴(kuò)大規(guī)模。在 CXL 和 UCIe 之間,應(yīng)該有一種更漸進(jìn)的方法來(lái)分解存儲(chǔ)器,可能包括光學(xué)互連,并實(shí)現(xiàn)存儲(chǔ)器的完整全局視圖。但這需要整個(gè)行業(yè)的努力才能實(shí)現(xiàn)。這并不簡(jiǎn)單?!?/span>
內(nèi)存池是另一種選擇,并且在數(shù)據(jù)中心中越來(lái)越受歡迎。內(nèi)存池對(duì)于 DRAM 的作用就像超擴(kuò)展對(duì)于處理器核心的作用一樣。當(dāng)需要額外的內(nèi)存時(shí),可以像使用額外的計(jì)算核心一樣使用它,通常是通過(guò) CXL 接口。
Rambus 說(shuō):「池化背后的想法是,如果我有一組服務(wù)器,并且每臺(tái)服務(wù)器都有內(nèi)存,那么每臺(tái)服務(wù)器不太可能同時(shí)使用所有內(nèi)存容量?!筗oo 最近在 CASPA 活動(dòng)中的一次演講中說(shuō)道?!父幸饬x的是將其中一些容量放入外部機(jī)箱中,并將其視為池資源。當(dāng)處理器需要的內(nèi)存超過(guò)機(jī)箱內(nèi)的內(nèi)存時(shí),它們可以在短時(shí)間內(nèi)檢查并配置一些內(nèi)存,將其用于計(jì)算,然后將其返回到池中。這是讓很多業(yè)內(nèi)人士興奮不已的新功能之一。更遠(yuǎn)一點(diǎn),一旦你做了這些類型的事情,你就可以開始考慮通過(guò)交換機(jī)附加內(nèi)存和池。CXL 標(biāo)準(zhǔn)還允許多級(jí)切換。這種靈活性將有助于提高各種應(yīng)用程序的性能和總擁有成本?!?/span>
其他存儲(chǔ)方法
除了更傳統(tǒng)的方法之外,DRAM 還向多種方向發(fā)展。部分原因是轉(zhuǎn)向異構(gòu)集成和高級(jí)封裝以及更多特定領(lǐng)域的設(shè)計(jì),部分原因是更接近數(shù)據(jù)源進(jìn)行處理的好處。
「與計(jì)算和 DRAM 相比,我們使用 17% 的能量進(jìn)行計(jì)算,并使用 63% 的能量將數(shù)據(jù)從一個(gè)點(diǎn)移動(dòng)到另一個(gè)點(diǎn),」Siemens Digital Industries Software 的內(nèi)存技術(shù)專家 Jongsin Yun 說(shuō)道。「這是大量的能量。我們可以節(jié)省這一點(diǎn)并提高速度和電源效率。當(dāng)前的解決方案是向緩存中添加更多內(nèi)存,但這是一個(gè)昂貴的解決方案。我們不需要將所有數(shù)據(jù)移動(dòng)到 DRAM。我們可以在內(nèi)存中進(jìn)行一些計(jì)算,或者使用一些基于 GPU 的 AI 卷積,這樣我們就可以在不進(jìn)行內(nèi)存?zhèn)鬏數(shù)那闆r下進(jìn)行計(jì)算?!?/span>
今天的選擇比以往任何時(shí)候都多,而且還有更多的選擇處于開發(fā)階段。例如,華邦電子開發(fā)了幾種基于 DRAM 的內(nèi)存解決方案,但超越了經(jīng)典的 DRAM 使用模型。一是該公司的單芯片 CUBE(定制超帶寬元件)架構(gòu)。另一種是偽靜態(tài) DRAM,它介于 SRAM 和 DRAM 之間,無(wú)需外部數(shù)據(jù)重寫。這兩者都針對(duì)特定市場(chǎng),例如可穿戴設(shè)備和邊緣服務(wù)器。
「現(xiàn)在最熱門的話題是生成式人工智能,」華邦電子美國(guó)公司營(yíng)銷主管 CS Lin 說(shuō)?!傅菙?shù)據(jù)中心發(fā)生的情況與我們關(guān)注的地方有不同的要求,而且密度也有很大不同。我們專注于 16 GB/秒及以下的密度,但該解決方案可擴(kuò)展到 256 KB/秒。它的運(yùn)行速度非常接近 HBM2 帶寬,但具有功耗極低的優(yōu)勢(shì)?!?/span>
CUBE 方法,延遲約為 25 納秒,單位密度比 14 納米 SRAM 高 5 倍。來(lái)源:華邦電子
Lin 表示,這種方法的好處是能夠使用標(biāo)準(zhǔn) DRAM 來(lái)提高性能,而不是依賴最先進(jìn)的工藝節(jié)點(diǎn)。通常,較高的密度會(huì)產(chǎn)生延遲,但 CUBE 架構(gòu)使用數(shù)千個(gè)硅通孔來(lái)移動(dòng)數(shù)據(jù),并根據(jù)更多帶寬或更高速度的需求靈活分配這些通孔。這允許更細(xì)粒度的系統(tǒng)架構(gòu),以及更小的占地面積。
另一種方法是均衡。這個(gè)計(jì)劃已經(jīng)醞釀了一段時(shí)間,但似乎終于獲得了關(guān)注?!妇饪梢愿纳颇谕ǖ滥┒私邮盏降臄?shù)據(jù),」Synopsys 的 Allan 解釋道?!负?jiǎn)單來(lái)說(shuō),這就像符號(hào)間干擾。當(dāng)一系列比特通過(guò)通道傳輸時(shí),當(dāng)一個(gè)比特完成時(shí),它實(shí)際上已經(jīng)進(jìn)入下一個(gè)比特的時(shí)域。信號(hào)上升和下降以及從 1 到 0 的切換需要比一個(gè)單位間隔更長(zhǎng)的時(shí)間。你并不是從穩(wěn)定的低潛力狀態(tài)開始的。你是從一個(gè)更高的狀態(tài)開始的。使用決策反饋均衡來(lái)偏移輸入接收器中的采樣點(diǎn)。那么我現(xiàn)在如何優(yōu)化我的輸入接收器,以便對(duì)一和零檢測(cè)具有相似的余量?我并沒有真正感覺到有什么東西可以將參考電壓精確地放在中間?!?/span>
內(nèi)存計(jì)算也即將出現(xiàn)。雖然已經(jīng)有幾種使用 MRAM 的商業(yè)方法,但普林斯頓大學(xué)的研究人員在 2019 年的一篇論文中展示了 FPGA 中的外部 DRAM 控制器,可以與現(xiàn)成的 DRAM 一起使用來(lái)創(chuàng)建大規(guī)模并行計(jì)算。研究人員聲稱,這種方法克服了所謂的內(nèi)存墻,即邏輯性能已經(jīng)超過(guò)了內(nèi)存帶寬。
權(quán)衡
那么,與 DRAM 相比,SRAM 的使用量是多少?對(duì)此沒有簡(jiǎn)單的公式,因?yàn)檫@不是同類比較。
Flex Logix 首席技術(shù)官兼聯(lián)合創(chuàng)始人 Cheng Wang 表示:「確實(shí)沒有什么神奇的方法可以做到這一點(diǎn)。」我們的大部分設(shè)計(jì)權(quán)衡來(lái)自于對(duì) SRAM 帶寬、SRAM 容量和 DRAM 帶寬進(jìn)行建模的性能估計(jì)。這是我們的三個(gè)主要旋鈕?;旧?,我們有四種標(biāo)準(zhǔn)的計(jì)算規(guī)模,為我們的標(biāo)準(zhǔn) IP 產(chǎn)品提供不同數(shù)量的 SRAM 和 DRAM 帶寬。這是基于我們運(yùn)行模型的經(jīng)驗(yàn)數(shù)據(jù)來(lái)確定哪種效果更好。如果我們有 2 倍的 SRAM 容量,某些模型可以運(yùn)行得更好。如果您可以通過(guò)將 SRAM 加倍來(lái)使性能幾乎翻倍,并且再用 20% 的面積來(lái)實(shí)現(xiàn) 2 倍的性能,那就太好了。但還有很多其他型號(hào)無(wú)法從額外的 SRAM 中受益,那么您就白白添加了該區(qū)域。這就是為什么進(jìn)行周期準(zhǔn)確的性能估計(jì)很重要。在我們的例子中,它的精確度不能精確到單個(gè)周期,但可以精確到 8%,這超出了我們的需要。然后,您可以對(duì)適當(dāng)?shù)?SRAM/DRAM 計(jì)算權(quán)衡進(jìn)行大量架構(gòu)分析,這可能因工作負(fù)載類型而異?!?/span>
這是復(fù)雜的數(shù)學(xué),并且隨著系統(tǒng)被分解為異構(gòu)元素(例如小芯片),它變得更加復(fù)雜。「SRAM 每一位需要更多晶體管才能實(shí)現(xiàn)。它比 DRAM 密度更低、更昂貴,并且在讀取和寫入過(guò)程中具有更高的功耗。」Ansys 首席產(chǎn)品經(jīng)理 Takeo Tomine 說(shuō)道?!改壳埃琒RAM 是在 CPU 通常設(shè)計(jì)的先進(jìn) finFET 技術(shù)節(jié)點(diǎn)上設(shè)計(jì)的,而 finFET 器件由于器件的熱阻較高,更容易產(chǎn)生熱效應(yīng)(自熱)?!?/span>
在某些情況下,使用什么類型的內(nèi)存以及在何處使用它可能取決于設(shè)備的預(yù)期使用壽命?!赣袃蓚€(gè)主要的可靠性問題會(huì)導(dǎo)致存儲(chǔ)器的壽命縮短,」Tomine 說(shuō)?!钙渲兄皇牵ミB可靠性與技術(shù)節(jié)點(diǎn)縮小會(huì)導(dǎo)致存儲(chǔ)器的使用壽命縮短,因?yàn)樽詿釙?huì)導(dǎo)致嚴(yán)重的電遷移(EM),這是最關(guān)鍵的可靠性問題之一。材料和工藝技術(shù)以及技術(shù)擴(kuò)展不斷提高電磁壽命。其次是不同架構(gòu)的設(shè)備帶來(lái)的可靠性挑戰(zhàn)。在將器件架構(gòu)從 finFET 轉(zhuǎn)移到納米片再到 CFET 的過(guò)程中,熱阻急劇增加,這意味著器件通道的 Delta T 值更高。器件自熱將與金屬焦耳熱耦合。器件的自熱會(huì)影響柵極氧化物擊穿(時(shí)間相關(guān)的電介質(zhì)擊穿),并且還會(huì)降低 HCI(熱載流子注入)性能,從而使器件的 BTI(偏置溫度不穩(wěn)定性)惡化?!?/span>
可靠性是衡量存儲(chǔ)設(shè)備在給定時(shí)間內(nèi)無(wú)故障運(yùn)行的能力的指標(biāo)。智能手機(jī)的預(yù)期壽命為 4 年,而汽車、軍事或金融服務(wù)器應(yīng)用的預(yù)期壽命為 10 至 15 年(或更長(zhǎng)),這一時(shí)間范圍可能非常不同。能夠理解可能影響存儲(chǔ)器壽命的潛在相互作用至關(guān)重要,它們可能因架構(gòu)、存儲(chǔ)器類型和使用情況而異。
這也會(huì)影響使用哪種內(nèi)存以及整個(gè)系統(tǒng)架構(gòu)。因此,如果記憶可以被替換,那么與將這些記憶嵌入某種類型的高級(jí)封裝中并密封起來(lái)相比,壽命就不那么重要了?!高@就像擁有一個(gè) DRAM 卡池,現(xiàn)在就可以升級(jí),」瑞薩電子的 Kanigicherla 說(shuō)道?!甘褂?HBM,如果出現(xiàn)問題,你將無(wú)能為力,因此你將扔掉非常昂貴的芯片。在 CPU 方面,服務(wù)器之間的聯(lián)系非常緊密,你無(wú)法做太多的事情來(lái)升級(jí)任何東西。這就是全局共享內(nèi)存概念起作用的原因。其中一些解決方案是自動(dòng)出現(xiàn)的?!?/span>
延遲增加了另一個(gè)權(quán)衡。「特別是使用 HBM,可以將處理器和 DRAM 非常緊密地結(jié)合在一起,」Cadence IP 集團(tuán)產(chǎn)品營(yíng)銷總監(jiān) Frank Ferro 說(shuō)道。「這樣做有很多好處。HBM 一直在快速發(fā)展。我們幾乎每?jī)赡昃蜁?huì)看到性能的改進(jìn)。所以這條曲線很陡。但從系統(tǒng)設(shè)計(jì)的角度來(lái)看,2.5D 仍然是一個(gè)挑戰(zhàn)。優(yōu)化中介層并幫助客戶設(shè)計(jì)這確實(shí)是對(duì)話的關(guān)鍵部分?!?/span>
結(jié)論
自 1967 年發(fā)明以來(lái),DRAM 一直是計(jì)算的關(guān)鍵。盡管多年來(lái)無(wú)數(shù)存儲(chǔ)技術(shù)對(duì)其提出了挑戰(zhàn),但沒有任何技術(shù)可以取代它。鑒于圍繞這項(xiàng)技術(shù)的狂熱活動(dòng),在可預(yù)見的未來(lái)沒有任何東西可以取代它。
DRAM 現(xiàn)在不再是一種類型,而是有多種類型,并且每種類型都在不斷發(fā)展并催生新的想法。從內(nèi)存到處理元件的物理連接,到服務(wù)器機(jī)架外部的內(nèi)存池,各個(gè)層面都有創(chuàng)新。目前正在努力縮短信號(hào)在內(nèi)存和處理器內(nèi)核之間傳輸?shù)木嚯x,這將減少移動(dòng)數(shù)據(jù)所需的功耗以及每個(gè)周期所需的時(shí)間。
從長(zhǎng)遠(yuǎn)來(lái)看,DRAM 仍然是一個(gè)充滿活力和創(chuàng)新的領(lǐng)域,并且即將出現(xiàn)更多的創(chuàng)新和不同的方式來(lái)組合內(nèi)存解決方案,這些解決方案可以對(duì)性能、成本、可靠性和壽命產(chǎn)生重大影響。
評(píng)論