新聞中心

EEPW首頁 > EDA/PCB > 設計應用 > 院士論壇:集成電路推動處理器的發(fā)展歷程及未來展望

院士論壇:集成電路推動處理器的發(fā)展歷程及未來展望

—— 劉明院士在“2023中國計算機大會”的講演摘錄
作者:祝凱 時間:2024-03-17 來源:EEPW 收藏
編者按:2023年10月底,CNCC2023(2023 中國計算機大會)在沈陽召開。10 月28 日,中國科學院院士、復旦大學教授、CCF(中國計算機學會)集成電路設計專家委員會主任劉明做了“集成電路:計算機發(fā)展的基礎”報告。她介紹了三部分:集成電路如何推動微處理器的發(fā)展,AI領域?qū)S眉軜?gòu)如何實現(xiàn)計算和存儲的融合,新器件、架構(gòu)、集成技術的展望。


本文引用地址:http://2s4d.com/article/202403/456414.htm

引言

集成電路(IC)和計算機相伴相生,之間的關系非常緊密。集成電路的集成度和性能的持續(xù)進步,推動了計算機算力、能效的快速提升。與此同時,計算的新應用拓展也驅(qū)動了集成電路等基礎器件的電路架構(gòu)、工藝、集成技術的不斷創(chuàng)新。

1 IC如何推動微的發(fā)展

實際上,通用計算機早于集成電路出現(xiàn)——20世紀40年代,基于真空電子管的通用計算機就在密碼破譯、導彈的軌跡計算以及原子彈的研制等方面發(fā)揮了重要的作用。

隨著固態(tài)器件即晶體管的發(fā)明,基于晶體管的計算機的算力急速提升,成本也大幅下降,使得計算機的應用從軍事領域拓展到商業(yè)領域。

特別值得一提的是20世紀70年代初期,英特爾只是一家100多人的小企業(yè),因接受了日本Busicom公司的訂單委托,做一款用于計算器的處理芯片,最終英特爾完成了在單個芯片上實現(xiàn)了一個完整的的開發(fā),誕生了第一個商用的通用。該處理器被英特爾命名為4004。4004 采用10 μm 的工藝,在12 mm2 的面積上集成了2300個晶體管,算力達60KOPS,已有RISC架構(gòu)雛形。

這款芯片非常有價值,因為它開啟了英特爾新的發(fā)展時代,也使英特爾在集成電路制造領域成為一家偉大的企業(yè)。從更嚴格的意義上看,著名的摩爾定律是按照英特爾的尺寸微縮來定義的。

從上世紀70 年代的4004/10 μm到現(xiàn)在的5 nm技術,大概經(jīng)歷了20 代的制程技術(如圖1)。如果較粗地進行劃分,可分為三個階段:早期,是物理尺寸微縮的階段,制造技術的進步主導了集成電路的發(fā)展,集成電路從小規(guī)模、中規(guī)模到大規(guī)模、超大規(guī)模。中期,發(fā)展到100 nm以下后,單純地靠尺寸微縮已無法維持集成電路的高速發(fā)展,這時依靠物理尺寸微縮和電路架構(gòu)創(chuàng)新,來共同推動集成電路的發(fā)展,此時集成電路進入了SoC的時代。當前及未來,是集成芯片:-based integration,此部分將在第三部分探討。

1710684197232446.png

圖1 集成電路微縮工藝歷史(以英特爾為例)

CPU在幾何尺寸上的微縮有效的時期也稱為Dennard微縮定理(尺寸微縮從10μm到0.13μm,功率密度保持不變)的有效時期。由于工藝制造技術的進步,使CPU的性能快速提升,CPU從4位發(fā)展到64位,還包括了高速緩存、流水線、超標量、多發(fā)射體系架構(gòu)等可以在單個芯片上實現(xiàn),這是一個非常快速發(fā)展的時期。

在這些背后,集成電路做了哪些技術提升?首先是光刻技術的不斷進步。光刻的基本原理是把掩模板的圖形轉(zhuǎn)移到襯底上,它的分辨率由式(1)這個簡單的公式?jīng)Q定:

image.png   image.png

從式(1)可知,提高分辨率有三個路徑: ①減少光源的波長λ,光源的波長從早期的436 nm(汞燈G-line)到今天EUV(極紫外線光源)技術的7 nm以下;②增加鏡頭的數(shù)值孔徑ΝΑ,從早期的0.33增加到現(xiàn)在的1.36;③減少k1因子。

1.1 光刻技術。在過去60 多年的發(fā)展歷程中,光刻技術從光源、鏡頭的材料與結(jié)構(gòu)、圖形傳遞模式(注:傳統(tǒng)的傳遞方式是透射式,EUV 光刻已經(jīng)采用反射式)多元化創(chuàng)新,特別是對于今天的步進- 掃描的光刻機,最大的單次曝光面積已達26×33=858 mm2,遇到了“面積墻”。

1.2 晶圓的尺寸不斷增大。單個晶圓上可以獲得的芯片的數(shù)量越多,越能降低單個晶體管的制造成本。例如從2英寸到12英寸,單個基層晶體管的成本下降了8個數(shù)量級。這種成本優(yōu)勢在存儲器里尤為明顯。

1.3 器件的結(jié)構(gòu)變遷

1)平面架構(gòu)

平面器件的結(jié)構(gòu)經(jīng)過一代代演進,發(fā)生了非常大的變化。以集成電路的關鍵技術——平面MOSFET 為例,教科書上的溝道之間導通的原理越來越復雜,以提高驅(qū)動的能力,改善靜電,減少材料和工藝帶來的波動性,最終提高產(chǎn)品的性能。

隨著尺寸的微縮,邏輯門的延遲在不斷減少,到了250 nm,Al(鋁)互連+SiO2 絕緣介質(zhì)的技術節(jié)點,互聯(lián)RC 延時已經(jīng)主導了系統(tǒng)性能,所以就誕生了新的互聯(lián)技術:由雙大馬士革Cu+low k 介質(zhì)的工藝,代替了傳統(tǒng)互聯(lián)。這種技術首先由IBM 推向量產(chǎn)。1998年,IBM 發(fā)布了首款銅互連微處理器——IBM PowerPC 750,采用0.22 μm 工藝,相較于鋁互連,工作頻率提升33%。

到了100 nm以下之后,Dennard微縮定律停滯。這是由于漏電的增加,很難保持功率密度不變。這時單純靠幾何尺寸的微縮來實現(xiàn)高算力的增長趨緩,所以計算機微處理器朝著多核異構(gòu)以及專用架構(gòu)的方向發(fā)展。此時,集成電路也進入了制造和設計協(xié)同發(fā)展的時代。

在這個階段,制造技術有哪些變革?首先是由于尺寸不斷微縮,溝道導致的載流子遷移率降低,因此應變硅技術首先得到應用,在英特爾奔騰4 處理器90 nm 工藝中量產(chǎn),主頻達到3 GHz。

隨著尺寸進一步微縮,傳統(tǒng)的SiO+ 多晶硅已經(jīng)行不通了,所以高介電常數(shù)(High-k)+ 金屬柵得到應用,使漏電減少10 倍。這一技術也是英特爾首先在其45 nm工藝Core2/Xeon(酷睿2/ 至強)中得到量產(chǎn),隨后在更小的節(jié)點上得到廣泛應用。

2)立體架構(gòu)

隨著特征尺寸進一步微縮,平面器件結(jié)構(gòu)被拋棄,F(xiàn)inFET取代平面器件,成為主流的器件結(jié)構(gòu)。這一技術也是由英特爾2012 年首先在其22 nm FinFET工藝中得到驗證量產(chǎn),生產(chǎn)Ivy Bridge 處理器。

3)異構(gòu)多核、SoC 時代

從另一個角度——架構(gòu)來看,以CPU 為例,就是從單核發(fā)展到多核,并進一步采用了異構(gòu)多核的架構(gòu)、協(xié)處理器、GPU架構(gòu)、專用處理器等來提高性能。集成電路進入了SoC的時代。

集成電路技術經(jīng)過多年的發(fā)展,也遇到了天花板。

以英偉達的GPU 為例,A100 芯片的單個芯片面積已達828 mm2,接近了光刻機的面積極限858 mm2。

從另一角度來看,單個芯片的面積不斷增大,芯片的良率也在急劇下降,這也就意味著SoC 芯片的進一步發(fā)展也面臨著諸多的挑戰(zhàn)。

因此,從處理器角度來看,吳明院士認為大致可以分成三個階段。

早期(1971—2005),制造技術扮演了重要的角色,單個die(芯片)的密度支持了更多的性能。單個die密度從最初的2300 到了26 億個晶體管。

中期(2005—2020),設計和制造的協(xié)同扮演了重要的角色,不僅單個die 的集成度和面積在不斷增大,使得桌面P 用SoC的晶體管數(shù)量從17億到20億個,而且單die也集成了更多的功能。

當前及未來(2000—未來),要從三個維度來思考未來的芯片:設計、制造、封測的協(xié)同優(yōu)化,以探索晶圓級的單芯片的可能。

2 AI驅(qū)動的計算架構(gòu)變革:實現(xiàn)計算和存儲的融合

人工智能(AI)算法的能力取決于其網(wǎng)絡模型的規(guī)模,這就意味著算法對于算力的需求增長是非常快的,每年大概超過10 倍。但芯片能夠提供的算力增長大概一年只有1.1~1.5 倍,可見兩者有巨大的差距。

這期間在芯片架構(gòu)上也做過很多改進,從CPU到FPGA到GPU,性能上對于AI 處理有很大的提升,但最終無論是GPU還是CPU,廣義上都是一個存算分離的架構(gòu),都需要讀取存儲芯片的值,然后執(zhí)行計算,也就意味著都面臨著存儲墻和功耗墻這兩個巨大的挑戰(zhàn)。

因此現(xiàn)在也提出了很多新的架構(gòu):①的架構(gòu),即盡可能把處理單元放置在存儲器的附近,以最小化由數(shù)據(jù)傳輸引起的延遲,功耗的損耗;②更激進的方法是用存儲來進行計算,即(或稱存算一體計算),這樣就無需數(shù)據(jù)的搬運(如圖2)。

1710688041139206.png

圖2 計算和存儲架構(gòu)的融合方案

以下介紹這兩種架構(gòu)這些年的發(fā)展。

2.1

是面向特定應用領域的一種專用計算架構(gòu)?,F(xiàn)在產(chǎn)業(yè)上,如華為的達芬奇,Google TPU 屬于這類架構(gòu)。這類架構(gòu)需要開發(fā)專用的互聯(lián)存儲的架構(gòu),并優(yōu)化矩陣運算陣列,以實現(xiàn)大算力、高帶寬、高效率以及低功耗。

但是的核心需要依賴一個非常大的片上存儲,通常需要有100MB 以上。然而隨著尺寸的微縮,存儲密度的增加要落后于邏輯器件的增加,這意味著SRAM/DRAM的密度增加是趨于飽和的。

因此,未來要想使近存計算的能效以及算力進一步提升,除了存儲器本身的進步以外,還需要在集成架構(gòu)等方面的創(chuàng)新,例如wafer/die-to-wafer bonding,以及3D-IC、BEOL 晶體管和存儲器的集成等技術。

與此同時,一系列具有新原理的器件也得到人們的關注。例如產(chǎn)業(yè)界和學術界合作的兩類產(chǎn)品:用阻變存儲器(RRAM)和磁存儲器(STT-MRAM)來做近存計算,也取得了非常好的性能。

2.2

也就是利用存儲器來去進行計算。嚴格地講,今天演變的有數(shù)字和模擬的。

以模擬為例,憶阻器件基于歐姆定理完成一次乘法,基于基爾霍夫定律完成一列累加。因為這樣一個架構(gòu)不需要數(shù)據(jù)的搬運,所以可以很好地提高能效。這類新器件發(fā)展非???,從早期(2015 年)只有在器件和陣列上的概念的演示,到現(xiàn)在有片上的推理以及訓練的芯片,其集成度、算力和能效都在快速地提升,未來也有望支持面向?qū)嶋H應用場景的認知和學習的任務(如圖3)。

1710688251680810.png

圖3 存算一體的發(fā)展趨勢

2.3 微電子所在近存計算架構(gòu)上的進展

所在的中科院微電子所團隊與國內(nèi)主要半導體制造商合作,在28和14 nm工藝節(jié)點實現(xiàn)了阻變存儲器(RRAM)大規(guī)模陣列集成,開發(fā)了工業(yè)標準化高性能嵌入式存儲IP,并聯(lián)合產(chǎn)業(yè)界率先實現(xiàn)量產(chǎn)導入。整體平臺和國際一流廠商相比,有相當?shù)母偁幜Α?/p>

利用該工藝平臺技術,團隊做了一些的嘗試。首先在電路上做一些工作,來優(yōu)化、規(guī)避這類存儲器潛在的問題,最終實現(xiàn)了百萬級的規(guī)模,能效在100TOPS/W,也可以支持矩陣向量乘法與矩陣轉(zhuǎn)置等一系列操作。

1710688378638936.png

圖4 集成電路未來的發(fā)展(來源:TSMC,ISSCC 2021)

3 新器件、架構(gòu)、集成技術的展望

集成電路發(fā)展從1958年誕生到今天,已有60 多年的歷史,這期間,無論是在底層維度,還是架構(gòu)、進一步提升集成規(guī)模上,都面臨著非常多的挑戰(zhàn),但是都一步步地走過來了,所以只要人的創(chuàng)造力還在,集成電路的未來還是非??善诘摹?/p>

3.1 FinFET的變遷

首先從器件角度看,22 nm時, 英特爾采用了FinFET的器件;但是對于大部分的代工產(chǎn)品,到了14 nm才是FinFET器件。FinFET也經(jīng)歷了幾代演變,主要是把Fin越做越高,寬度越來越減?。ㄈ鐖D5),以提高它的密度和性能。

1710688522547848.png

圖5 器件結(jié)構(gòu)的創(chuàng)新

但是發(fā)展到了一定的階段也遇到了瓶頸:5 nm以下技術節(jié)點,較薄Fin很難進行外延,也就意味著載流子的遷移率開始變差,所以器件結(jié)構(gòu)需要進一步地演變。下一步的演進就是把Fin水平地倒下來,就成了Nanosheet結(jié)構(gòu),有著更高的密度,可以實現(xiàn)更好的柵控能力。

這樣的器件結(jié)構(gòu)又遇到了問題,就出來了Forksheet及CFET等不同的結(jié)構(gòu)。這些器件結(jié)構(gòu)都可以更好地利用三維的尺度,向今天的3D NAND來學習。

集成電路在基礎器件方面的尺寸的微縮,廣義上是為了提高密度。而提高密度的同時,器件的微縮帶來了性能的下降,就要通過材料和器件結(jié)構(gòu)的創(chuàng)新來提升性能、降低功耗。

3.2 類腦計算

從計算架構(gòu)的角度看,除了傳統(tǒng)的馮式架構(gòu),還有近存計算和存內(nèi)計算。如果向生物界學習,生物腦是怎么工作的?生物腦是功能化的網(wǎng)絡拓撲,是由稀疏的脈沖的表達,同時它是大規(guī)模的并行計算,編碼采用時空的信息編碼。如果參考生物的腦,類腦芯片應該能夠?qū)崿F(xiàn)什么樣的功能?

它應該是分布式的存儲,多核心的并行,它的神經(jīng)元應該是脈沖的神經(jīng)元,它可以實現(xiàn)高通量的異步的脈沖的路由,稀疏的時空計算。如果有這樣的功能,我們就不僅僅實現(xiàn)了存內(nèi)計算的減少數(shù)據(jù)搬運,同時由于采用了脈沖驅(qū)動的異步計算,可以進一步降低功耗,同時時空關聯(lián)的編碼機制可以降低數(shù)據(jù)的冗余,實現(xiàn)動態(tài)的學習(圖6)。

1710688646209544.png

圖6 類腦計算

進一步來看,未來如果借鑒于生物腦的結(jié)構(gòu)和信息處理的方式,我們可以進一步降低 AI芯片的功耗,提高智能化。

但是這個領域還處于早期階段,所以無論是算法、異步電路的設計、芯片的架構(gòu)、工具鏈等方面還面臨著諸多挑戰(zhàn)。

3.3 Chiplet(

在怎么提高規(guī)模上,我們現(xiàn)在靠傳統(tǒng)的提高密度——當然這條路還在持續(xù),但那種增加SoC芯片面積的路似乎已經(jīng)遇到了天花板,我們可以采用另外一條路徑,就是集成芯片:-based integration(圖7)。

1710688770735854.png

圖7 集成芯片/Chiplet()技術

通過這種技術,可把復雜的SoC 芯片首先分解成),然后再采用半導體制造的技術,將不同的芯粒集成在一個硅基的interposer 上,以實現(xiàn)更復雜系統(tǒng)的集成和應用。

這種技術的優(yōu)勢是可以突破封裝連線的極限;另外,現(xiàn)在一顆復雜的SoC芯片設計的周期是非常漫長的,也可以突破現(xiàn)在光刻的單die 的面積極限,最終可以實現(xiàn)異質(zhì)的、非標的工藝的集成。

3.3.1 Chipet的歷史

最早Chiplet 概念是由Xilinx(注:2022 年被AMD收購)在2011 年提出,Xilinx V72000T 采用4 顆相同的FPGA的顆粒,實現(xiàn)了2.5D集成2層堆疊。到了2016年,英偉達GP100 采用了2種芯粒(GPU+DRAM×4),共5顆die,也實現(xiàn)了2.5D集成2層堆疊。2019年華為昇騰910采用了3種不同的芯粒(AI+DRAM+I/O),共6顆die實現(xiàn)了2.5D集成,也是2 層堆疊。2021年,英特爾Ponte Vecchio是一個非常神奇的結(jié)構(gòu),采用6種芯粒(AI+SRAM+DRAM+Base+Bridge), 共有47顆芯粒,實現(xiàn)了3D的形成,是一個真正的3 層的堆疊。

可見,經(jīng)過10 年的發(fā)展,集成芯片已經(jīng)成為高性能計算芯片的一種關鍵技術,并且在朝著3D 多層堆疊、更多種類的芯粒、更大集成規(guī)模的趨勢發(fā)展。

3.3.2 我國的部分研究進展

關于之前提到的存內(nèi)計算,優(yōu)勢是能耗非常低,但也有顯而易見的缺點——算力不夠。如果借助于集成芯片技術,是否可以維持它的低能效,同時提高它的算力?所在的復旦大學的團隊研發(fā)的芯粒存算一體集成芯片,基于2.5D集成扇出工藝,實現(xiàn)了算力和芯粒數(shù)量的同步增長(如圖8)。

1710688967830088.png

圖8 可擴展的存算一體集成芯片

2023 年起,國家自然科學基金委批復“集成芯片前沿技術科學基礎”重大研究計劃立項。這個項目圍繞三個科學問題:①芯粒的數(shù)學描述和組合優(yōu)化理論,②大規(guī)模芯粒的并行架構(gòu)和設計自動化,③芯粒尺度的多物理場耦合機制和界面理論。

4 結(jié)束語

“什么時候摩爾定律終結(jié)?”劉明院士看到過無數(shù)的回答,也自問過這個問題該怎么回答。她最喜歡的答案是Mike Mayberry(筆者注:英特爾的首席技術官、實驗室總監(jiān),原英特爾技術與生產(chǎn)事業(yè)部副總裁兼元器件研究總監(jiān))的回答:只要人類還有想法,就總能夠使摩爾定律持續(xù)下去。

盡管我們今天面臨了各種巨大挑戰(zhàn),包括底層的器件層面,電路架構(gòu)層面,以及如何提高規(guī)模這種集成度的層面。但隨著從底層器件、制造技術、架構(gòu)以及基于chiplet的集成等不同維度的持續(xù)創(chuàng)新,摩爾定律一定能走下去。因為它本來就不是一個科學定律,只是一個經(jīng)濟觀察的規(guī)律。

今天晶體管的數(shù)量是每個package(封裝)里是100B,預計2035 年增加到1T。集成電路數(shù)量的大幅提升也必將推動計算進入Zetta 時代(如圖9)。

1710689199795804.png

圖9 浮點運算次數(shù)與存儲的路線圖

用Robert Noyce(注:Fairchild 和英特爾聯(lián)合創(chuàng)始人,商用DRAM和微處理器聯(lián)合發(fā)明人)的話來結(jié)束這次講演:不要被歷史所拖累。去做一些美妙的事情吧。

(本文來源于《EEPW》2024.3)



評論


相關推薦

技術專區(qū)

關閉