馮丹:憶阻器RRAM最有希望取代DRAM
日前,一年一度的中國(guó)存儲(chǔ)峰會(huì)在北京如期舉行,“數(shù)據(jù)中流擊水,浪遏飛舟”是今年大會(huì)主題,論道存儲(chǔ)未來,讓數(shù)據(jù)釋放價(jià)值,業(yè)界嘉賓圍繞中國(guó)及全球存儲(chǔ)市場(chǎng)的現(xiàn)狀與發(fā)展趨勢(shì)進(jìn)行了深入解讀,干貨滿滿。下午第三分論壇,中國(guó)計(jì)算機(jī)協(xié)會(huì)信息存儲(chǔ)專委會(huì)主任馮丹作為開場(chǎng)嘉賓,就算存融合的憶阻器發(fā)展趨勢(shì)及RRAM(阻變存儲(chǔ)器)性能優(yōu)化方法展開主題演講。馮丹表示,當(dāng)前憶阻器呈現(xiàn)出大容量、計(jì)算與存儲(chǔ)深度融合的發(fā)展趨勢(shì),而RRAM容量很大,速度快、能耗低,RRAM也認(rèn)為是下一代代替DRAM(動(dòng)態(tài)隨機(jī)存儲(chǔ)器)的一個(gè)很好的選擇。
本文引用地址:http://2s4d.com/article/201712/372922.htm
馮丹從三個(gè)方面介紹憶阻器的相關(guān)發(fā)展,首先是市場(chǎng)需求,IDC預(yù)計(jì),到2020年全球的數(shù)據(jù)量將達(dá)到40ZB,數(shù)據(jù)量強(qiáng)大,另外一方面是對(duì)存儲(chǔ)的需求,包括高性能計(jì)算的存儲(chǔ)需求,以及各種各樣的網(wǎng)絡(luò)應(yīng)用,對(duì)存儲(chǔ)的需求是速度更快。例如12306,春運(yùn)時(shí)每天超過300億次PV操作,每秒并發(fā)訪問1.3 GB的數(shù)據(jù),對(duì)內(nèi)存的需求非常大,包括大數(shù)據(jù)分析等都是放在內(nèi)存里,而大規(guī)模計(jì)算所需內(nèi)存容量將是現(xiàn)在的1000倍,內(nèi)存需求以及供給存在巨大差距。
憶阻器RRAM最有希望取代DRAM
當(dāng)前,DRAM以電容器中電荷量的多少來存儲(chǔ)數(shù)據(jù),電容器必須設(shè)計(jì)的足夠大以增加保留時(shí)間,降低刷新頻率,這樣就導(dǎo)致容量和能耗受限,工藝制程難以下降,而CPU性能的增長(zhǎng)速度飛快,內(nèi)存容量的增長(zhǎng)遠(yuǎn)低于CPU性能的增長(zhǎng)速度,也就是通常所說的內(nèi)存強(qiáng)的問題,另外是能耗問題,隨著容量的進(jìn)一步增大,泄漏功耗進(jìn)一步的增加,服務(wù)器40-50%能耗來自內(nèi)存,DRAM的能耗中有40%來自刷新。
ITRS報(bào)告指出,DRAM很難在20nm技術(shù)結(jié)點(diǎn)以下保持可擴(kuò)展性,DRAM工藝在達(dá)到X-nm之后將會(huì)停止,當(dāng)DRAM工藝到了幾個(gè)納米之后,擴(kuò)展性受限。馮丹表示,比較包括自旋轉(zhuǎn)移在內(nèi)的幾種存儲(chǔ)器,其中最典型的代表就是憶阻變,通過不斷的研究發(fā)展,當(dāng)前的RRAM容量很大,速度很快能耗很低,所以也認(rèn)為RRAM也是下一代代替DRAM的一個(gè)很好的選擇。
以RRAM為例,用憶阻器來做存儲(chǔ),金屬氧化物的存儲(chǔ)器的主要原理,首先就是在低阻態(tài)狀態(tài)下,存儲(chǔ)器可以使導(dǎo)電絲斷掉,成為高阻態(tài),而這個(gè)操作時(shí)間是比較長(zhǎng)的,延遲較大,同樣在這種狀態(tài)下,再加上一定大小的電壓,就使得導(dǎo)電絲從高阻態(tài)變成了低阻態(tài)。
RRAM陣列的結(jié)構(gòu)有兩種,一種是交叉點(diǎn)結(jié)構(gòu),單晶體管單電阻(1T1R)陣列的結(jié)構(gòu)是,在每一個(gè)交叉點(diǎn)都需要一個(gè)訪問晶體管,以獨(dú)立選通每一個(gè)單元。但它的缺點(diǎn)也非常明顯,1T1R結(jié)構(gòu)的RRAM的總芯片面積取決于晶體管占用的面積,因此存儲(chǔ)密度較低。Crossbar結(jié)構(gòu)也頗受關(guān)注,每一個(gè)存儲(chǔ)單元位于水平的字線(WL)和垂直的位線(BL)的交叉點(diǎn)處。每個(gè)單元占用的面積為4F²(F是技術(shù)特征尺寸),達(dá)到了單層陣列的理論最小值。其優(yōu)點(diǎn)是存儲(chǔ)密度較高,而存在互連線上的電壓降和潛行電流路徑,造成讀寫性能下降,能耗上升以及寫干擾等問題則是其缺點(diǎn)所在,很多的研究都是圍繞這一類展開。
RRAM最大的缺點(diǎn)是其嚴(yán)重的器件級(jí)變化性,RRAM器件狀態(tài)的轉(zhuǎn)變需要通過給兩端電極施加電壓來控制氧離子在電場(chǎng)驅(qū)動(dòng)下的漂移和在熱驅(qū)動(dòng)下的擴(kuò)散兩方面的運(yùn)動(dòng),使得導(dǎo)電絲的三維形貌難以調(diào)控,再加上噪聲的影響,造成了器件級(jí)變化性。器件級(jí)變化性是制造可靠的芯片產(chǎn)品的關(guān)鍵問題。
大容量、計(jì)算與存儲(chǔ)深度融合成為憶阻器的發(fā)展趨勢(shì)
Crossbar結(jié)構(gòu)的RRAM比1T1R結(jié)構(gòu)的RRAM存儲(chǔ)容量大,SLC的性能比MLC的性能高,而RRAM原型芯片的存儲(chǔ)容量由Mb級(jí)逐漸向Gb級(jí)發(fā)展,技術(shù)結(jié)點(diǎn)逐漸縮小,讀寫性能逐漸提高。從容量和讀寫帶寬的發(fā)展對(duì)比來看,RRAM雖發(fā)展較晚,但存儲(chǔ)容量增長(zhǎng)迅速,相比于PCRAM和STT-MRAM,RRAM在讀寫帶寬當(dāng)方面更具優(yōu)勢(shì)。另一方面,基于憶阻器的神經(jīng)形態(tài)計(jì)算系統(tǒng)也在不斷發(fā)展中,有憶阻器構(gòu)成的Crossbar陣列可用于加速神經(jīng)形態(tài)計(jì)算中常見的矩陣向量乘法,作為一種模擬計(jì)算,要想提高計(jì)算精度就需要解決Crossbar陣列中互連導(dǎo)線上的電壓降以及器件變化所導(dǎo)致的可靠性問題,計(jì)算與存儲(chǔ)已深度融合。
從器件變化性問題上看,憶阻器的狀態(tài)變化量近似服從對(duì)數(shù)正態(tài)分布。對(duì)此,需要預(yù)先測(cè)試陣列中所有憶阻器,通過統(tǒng)計(jì)它們的阻值狀態(tài)分布來得到變化性規(guī)律。交換權(quán)重矩陣的兩行或兩列,與此同時(shí),交換輸入輸出向量對(duì)應(yīng)的元素,使得較大的突觸權(quán)重被映射到具有較小變化性的憶阻器中,從而降低網(wǎng)絡(luò)輸出的變化性。
神經(jīng)網(wǎng)絡(luò)的計(jì)算規(guī)模比較大的時(shí)候,傳統(tǒng)的二維就要很多的陣列共同計(jì)算,能耗增加,采用三維結(jié)構(gòu)之后,柱狀電機(jī)在同一平面,這樣就可以降低整個(gè)大規(guī)模的神經(jīng)網(wǎng)絡(luò)計(jì)算的能耗,以及可以實(shí)現(xiàn)更低的延遲。此外還可以實(shí)現(xiàn)邏輯預(yù)算,以滿足多變的計(jì)算需求。
基于AI的神經(jīng)網(wǎng)絡(luò)舉證運(yùn)算,當(dāng)容量不夠時(shí),通過在過大容量的存儲(chǔ)空間中做計(jì)算,減少數(shù)據(jù)的移動(dòng),能夠獲得更好的性能。目前,學(xué)術(shù)界和工業(yè)界已推出一些相應(yīng)的樣片,但實(shí)際產(chǎn)品還是比較少的。中芯國(guó)際和中科院微電子所合作開發(fā)了芯片,今年1月,美國(guó)Crossbar公司宣布與中芯國(guó)際合作開發(fā)的40nm工藝的3-D堆疊1TnR陣列的RRAM芯片正式出樣,憶阻器真正要到使用還需要經(jīng)過一段階段,但是趨勢(shì)就是大容量。
如何優(yōu)化大容量RRAM性能?
由于線路電阻和電流泄露IR drop會(huì)減小施加在選定單元兩端的電壓值,而ReRAM單元的RESET延遲和施加在其兩端的電壓值成指數(shù)級(jí)反比,IR drop會(huì)大大增加訪問延遲,為了減小電流泄露,普遍采用半偏置寫機(jī)制。在緩解IR drop問題上,雙端接地電路設(shè)計(jì)(DSGB),減小了wordline上的IR drop,大大降低了RESET延遲,對(duì)于8位寫的512×512陣列而言,worst-case RESET延遲 682ns降到240ns 。
采用區(qū)域劃分的雙端寫驅(qū)動(dòng)方法,對(duì)于8位寫的1024×1024陣列而言,不使用DSWD機(jī)制的陣列IR drop嚴(yán)重,RESET延遲指數(shù)級(jí)增大。DSWD機(jī)制減小了bitline上的IR drop,提升了512行以上單元的電壓,大大降低了RESET延遲。
離write driver近的行在bitline有著較小的IR drop,訪問延遲也較小;而離write driver遠(yuǎn)的行訪問延遲較大
將crosbar陣列根據(jù)不同行的不同延遲,劃分為快慢區(qū)域。在基于有效電流路徑的電壓偏置方面,選擇離目標(biāo)單元最近的外圍電路對(duì)其施加寫電壓,改善導(dǎo)線上的電壓降,降低寫延遲;分塊對(duì)角區(qū)域劃分:縮小區(qū)域內(nèi)單元訪問延遲差異,降低區(qū)域的寫延遲,不僅在電路方面,針對(duì)TLC,憶阻器RRAM可以用編碼的方法提高性能。
評(píng)論