ARM的CACHE原理

作者：時(shí)間：2016-11-20 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Cache的工作原理是基于程序訪問(wèn)的局部性。
對(duì)大量典型程序運(yùn)行情況的分析結(jié)果表明，在一個(gè)較短的時(shí)間間隔內(nèi)，由程序產(chǎn)生的地址往往集中在存儲(chǔ)器邏輯地址空間的很小范圍內(nèi)。指令地址的分布本來(lái)就是連續(xù)的，再加上循環(huán)程序段和子程序段要重復(fù)執(zhí)行多次。因此，對(duì)這些地址的訪問(wèn)就自然地具有時(shí)間上集中分布的傾向。
數(shù)據(jù)分布的這種集中傾向不如指令明顯，但對(duì)數(shù)組的存儲(chǔ)和訪問(wèn)以及工作單元的選擇都可以使存儲(chǔ)器地址相對(duì)集中。這種對(duì)局部范圍的存儲(chǔ)器地址頻繁訪問(wèn)，而對(duì)此范圍以外的地址則訪問(wèn)甚少的現(xiàn)象，就稱(chēng)為程序訪問(wèn)的局部性。
根據(jù)程序的局部性原理，可以在主存和CPU通用寄存器之間設(shè)置一個(gè)高速的容量相對(duì)較小的存儲(chǔ)器，把正在執(zhí)行的指令地址附近的一部分指令或數(shù)據(jù)從主存調(diào)入這個(gè)存儲(chǔ)器，供CPU在一段時(shí)間內(nèi)使用。這對(duì)提高程序的運(yùn)行速度有很大的作用。這個(gè)介于主存和CPU之間的高速小容量存儲(chǔ)器稱(chēng)作高速緩沖存儲(chǔ)器 (Cache)。
系統(tǒng)正是依據(jù)此原理，不斷地將與當(dāng)前指令集相關(guān)聯(lián)的一個(gè)不太大的后繼指令集從內(nèi)存讀到Cache，然后再與CPU高速傳送，從而達(dá)到速度匹配。
CPU對(duì)存儲(chǔ)器進(jìn)行數(shù)據(jù)請(qǐng)求時(shí)，通常先訪問(wèn)Cache。由于局部性原理不能保證所請(qǐng)求的數(shù)據(jù)百分之百地在Cache中，這里便存在一個(gè)命中率。即CPU在任一時(shí)刻從Cache中可靠獲取數(shù)據(jù)的幾率。
命中率越高，正確獲取數(shù)據(jù)的可靠性就越大。一般來(lái)說(shuō)，Cache的存儲(chǔ)容量比主存的容量小得多，但不能太小，太小會(huì)使命中率太低；也沒(méi)有必要過(guò)大，過(guò)大不僅會(huì)增加成本，而且當(dāng)容量超過(guò)一定值后，命中率隨容量的增加將不會(huì)有明顯地增長(zhǎng)。
只要Cache的空間與主存空間在一定范圍內(nèi)保持適當(dāng)比例的映射關(guān)系，Cache的命中率還是相當(dāng)高的。
一般規(guī)定Cache與內(nèi)存的空間比為4：1000，即128kB Cache可映射32MB內(nèi)存；256kB Cache可映射64MB內(nèi)存。在這種情況下，命中率都在90％以上。至于沒(méi)有命中的數(shù)據(jù)，CPU只好直接從內(nèi)存獲取。獲取的同時(shí)，也把它拷進(jìn) Cache，以備下次訪問(wèn)。
Cache的基本結(jié)構(gòu)
Cache通常由相聯(lián)存儲(chǔ)器實(shí)現(xiàn)。相聯(lián)存儲(chǔ)器的每一個(gè)存儲(chǔ)塊都具有額外的存儲(chǔ)信息，稱(chēng)為標(biāo)簽(Tag)。當(dāng)訪問(wèn)相聯(lián)存儲(chǔ)器時(shí)，將地址和每一個(gè)標(biāo)簽同時(shí)進(jìn)行比較，從而對(duì)標(biāo)簽相同的存儲(chǔ)塊進(jìn)行訪問(wèn)。Cache的3種基本結(jié)構(gòu)如下：
DCACHE
ARM cache架構(gòu)由cache存儲(chǔ)器和寫(xiě)緩沖器（write-buffer）組成，其中寫(xiě)緩沖器是CACHE按照FIFO原則向主存寫(xiě)的緩沖處理器。
一般來(lái)說(shuō)CACHEABILITY和BUFFERABILITY都是可以配置的，所以，一塊存儲(chǔ)區(qū)域可以配置成下面4種方式：NCNB CNB NCB CB。在實(shí)際應(yīng)用當(dāng)中，可以根據(jù)需要對(duì)主存進(jìn)行配置。對(duì)I/O MAP來(lái)說(shuō)，一般都需要采用NCNB方式，以保證對(duì)I/O的正確操作。而其他的存儲(chǔ)區(qū)域一般都可以配置成CB方式，以獲取最好的性能。
引入CACHE和WRITE BUFFER是為了提高存儲(chǔ)訪問(wèn)的速度，提供系統(tǒng)性能。如果CACHE打開(kāi)的話，CPU讀寫(xiě)主存的時(shí)候，都是通過(guò)CACHE進(jìn)行的。進(jìn)行讀操作的時(shí)候，如果在CACHE里面找到了所需的內(nèi)容 (CACHE HIT)，直接從CACHE里讀?。蝗绻x的內(nèi)容不在CACHE上的時(shí)候 (CACHE MISS)，先把所需的內(nèi)容裝載到CACHE里，在從CACHE上讀取。進(jìn)行寫(xiě)操作的時(shí)候，數(shù)據(jù)先寫(xiě)到CACHE上。具體又可以分為WRITE THROUGH和 WRITE BACK兩種方式。如果是WRITE THROUGH方式的話，每次寫(xiě)操作都通過(guò)CACHE+WRITE BUFFER把數(shù)據(jù)直接寫(xiě)到主存當(dāng)中去；如果是WRITE BACK 方式的話，數(shù)據(jù)最初只是寫(xiě)到CACHE上，必要的時(shí)候(CACHE REPLACEMENT) 在將CACHE上的數(shù)據(jù)通過(guò)WRITE BUFFER實(shí)際回寫(xiě)到主存當(dāng)中去。
DCaches使用的是虛擬地址，它的大小是16KB,它被分成512行（entry），每行8個(gè)字（8 words,32Bits）。每行有兩個(gè)修改標(biāo)志位（dirty bits），第一個(gè)標(biāo)志位標(biāo)識(shí)前4個(gè)字，第二個(gè)標(biāo)志位標(biāo)識(shí)后4個(gè)字，同時(shí)每行中還有一個(gè)TAG 地址（標(biāo)簽地址）和一個(gè)valid bit。
與ICaches一樣，系統(tǒng)上電或重起（Reset）的時(shí)候，DCaches功能是被關(guān)閉的，我們必須往Ccr bit置1去開(kāi)啟它，Ccr bit在CP15協(xié)處理器中控制寄存器1的第2位（關(guān)閉DCaches功能則是往該位置0）。與ICaches不同，DCaches功能是必須在MMU開(kāi) 啟之后才能被使用的。
我們現(xiàn)在討論的都是DCaches,你可能會(huì)問(wèn)那Write Buffer呢？他和DCaches區(qū)別是什么呢？其實(shí)DCaches和Write Buffer兩者間的操作有著非常緊密的聯(lián)系，很抱歉，到目前為止我無(wú)法說(shuō)出他們之間有什么根本上的區(qū)別（-_-!!!），但我能告訴你什么時(shí)候使用的是 DCaches,什么時(shí)候使用的是Write Buffer.系統(tǒng)可以通過(guò)Ccr bit對(duì)Dcaches的功能進(jìn)行開(kāi)啟與關(guān)閉的設(shè)定，但是在s3c2410中卻沒(méi)有確定的某個(gè)bit可以來(lái)開(kāi)啟或關(guān)閉Write Buffer… 你可能有點(diǎn)懵…我們還是來(lái)看一張表吧，這張表說(shuō)明了DCaches,Write Buffer和CCr,Ctt (descriptor中的C bit),Btt(descriptor中的B bit)之間的關(guān)系，其中“Ctt and Ccr”一項(xiàng)里面的值是 Ctt與Ccr進(jìn)行邏輯與之后的值（Ctt&&Ccr）.
從上面的表格中我們可以清楚的知道系統(tǒng)什么時(shí)候使用的是DCaches,什么時(shí)候使用的是Write Buffer，我們也可以看到DCaches的寫(xiě)回方式是怎么決定的（write-back or write-througth）。
在這里我要對(duì)Ctt and Ccr=0進(jìn)行說(shuō)明，能夠使Ctt and Ccr=0的共有三種情況，分別是
Ctt =0， Ccr=0
Ctt =1， Ccr=0
Ctt =0， Ccr=1
我們分別對(duì)其進(jìn)行說(shuō)明。
情況1（Ctt =0， Ccr=0）：這種情況下CPU的DCaches功能是關(guān)閉的（Ccr=0），所以CPU存取數(shù)據(jù)的時(shí)候不會(huì)從DCaches里進(jìn)行數(shù)據(jù)地查詢，CPU直接去內(nèi)存存取數(shù)據(jù)。
情況2（Ctt =1， Ccr=0）：與情況1相同。
情況3（Ctt =0， Ccr=1）：這種情況下DCaches功能是開(kāi)啟的，CPU讀取數(shù)據(jù)的時(shí)候會(huì)先從DCaches里進(jìn)行數(shù)據(jù)地查詢，若DCaches中沒(méi)有合適的數(shù)據(jù)，則CPU會(huì)去內(nèi)存進(jìn)行讀取，但此時(shí)由于Ctt =0（Ctt 是descriptor中的C bit,該bit決定該descriptor所描述的內(nèi)存區(qū)域是否可以被Cache）,所以CPU不會(huì)把讀取到的數(shù)據(jù)Cache到DCaches(不發(fā)生 linefill).
到此為止我們用兩句話總結(jié)一下DCaches與Write Buffer的開(kāi)啟和使用：
1．DCaches與Write Buffer的開(kāi)啟由Ccr決定。
2．DCaches與Write Buffer的使用規(guī)則由Ctt和Btt決定。
ICACHE
當(dāng)系統(tǒng)上電或重起（Reset）的時(shí)候，ICaches功能是被關(guān)閉的，我們必須往lcr bit置1去開(kāi)啟它，lcr bit在CP15協(xié)處理器中控制寄存器1的第12位（關(guān)閉ICaches功能則是往該位置0）。ICaches功能一般是在MMU開(kāi)啟之后被使用的（為了降低MMU查表帶來(lái)的開(kāi)銷(xiāo)）,但有一點(diǎn)需要注意，并不是說(shuō)MMU被開(kāi)啟了ICaches才會(huì)被開(kāi)啟，正如本段剛開(kāi)始講的，ICaches的開(kāi)啟與關(guān)閉是由 lcr bit所決定的，無(wú)論MMU是否被開(kāi)啟，只要lcr bit被置1了，ICaches就會(huì)發(fā)揮它的作用。
大家是否還記得discriptor（描述符）中有一個(gè)C bit我們稱(chēng)之為Ctt,它是指明該描述符描述的內(nèi)存區(qū)域內(nèi)的內(nèi)容（可以是指令也可以是數(shù)據(jù)）是否可以被Cache，若Ctt=1,則允許Cache,否則不允許被Cache。于是CPU讀取指令出現(xiàn)了下面這些情況：
如果CPU從Caches中讀取到所要的一條指令（cache hit）且這條指令所在的內(nèi)存區(qū)域是Cacheble的（該區(qū)域所屬描述符中Ctt=1）,則CPU執(zhí)行這條指令并從Caches中返回（不需要從內(nèi)存中讀?。?。
若CPU從Caches中讀取不到所要的指令（cache miss）而這條指令所在的內(nèi)存區(qū)域是Cacheble的（同第1點(diǎn)），則CPU將從內(nèi)存中讀取這條指令，同時(shí)，一個(gè)稱(chēng)為“8-word linefill”的動(dòng)作將發(fā)生，這個(gè)動(dòng)作是把該指令所處區(qū)域的8個(gè)word寫(xiě)進(jìn)ICaches的某個(gè)entry中，這個(gè)entry必須是沒(méi)有被鎖定的（對(duì)鎖定這個(gè)操作感興趣的朋友可以找相關(guān)的資料進(jìn)行了解）
若CPU從Caches中讀取不到所要的指令（cache miss）而這條指令所在的內(nèi)存區(qū)域是UnCacheble的（該區(qū)域所屬描述符中Ctt=0），則CPU將從內(nèi)存讀取這條指令并執(zhí)行后返回（不發(fā)生linefill）
通過(guò)以上的說(shuō)明，我們可以了解到CPU是怎么通過(guò)ICaches執(zhí)行指令的。你可能會(huì)有這個(gè)疑問(wèn)，ICaches總共只有512個(gè)條目（entry），當(dāng) 512個(gè)條目都被填充完之后，CPU要把新讀取近來(lái)的指令放到哪個(gè)條目上呢？答案是CPU會(huì)把新讀取近來(lái)的8個(gè)word從512個(gè)條目中選擇一個(gè)對(duì)其進(jìn)行寫(xiě)入，那CPU是怎么選出一個(gè)條目來(lái)的呢？這就關(guān)系到ICaches的替換法則（replacemnet algorithm）了。 ICaches的replacemnet algorithm有兩種，一種是Random模式另一種Round-Robin模式，我們可以通過(guò)CP15協(xié)處理器中寄存器1的RR bit對(duì)其進(jìn)行指定（0 = Random replacement 1 = Round robin replacement），如果有需要你還可以進(jìn)行指令鎖定（INSTRUCTION CACHE LOCKDOWN）。
虛擬cache
Cache 位于MMU前面靠近CPU稱(chēng)為邏輯CACHE又叫虛擬Cache。CPU可以直接訪問(wèn)CACHE的數(shù)據(jù)，而ARM 11（ARMV6）的結(jié)構(gòu)是CACHE 在MMU后面CPU訪問(wèn)CACHE要通過(guò)MMU地址轉(zhuǎn)換
在DM6446的core用的是哈佛結(jié)構(gòu)，即把CACHE分為8K的D-CACHE（數(shù)據(jù)CACHE）和16K的I-cache(指令CACHE)
一個(gè)完整的CACHE分為CACHE控制器和CACHE存儲(chǔ)器
例子
Davinci DM6446 D-cache行應(yīng)為512行，cache存儲(chǔ)器主要分為三個(gè)部分：目錄存儲(chǔ)段（driectory-story），狀態(tài)信息段（status information）和數(shù)據(jù)項(xiàng)段（data section）每一行cache都包括這三部分。Cache用目錄存儲(chǔ)段來(lái)存儲(chǔ)主存的地址，數(shù)據(jù)項(xiàng)段存放的是主存的數(shù)據(jù)，在cache中用狀態(tài)信息段來(lái) 記錄狀態(tài)信息，其中v表示有效位，d表示臟位，有效位記錄當(dāng)前cache行是活動(dòng)的，cache行的數(shù)據(jù)和主存中的數(shù)據(jù)是一致的，處理器可以讀取。臟位則表示cache行的數(shù)據(jù)和主存中的數(shù)據(jù)不一致。
在讀寫(xiě)請(qǐng)求到達(dá)存儲(chǔ)器前會(huì)被CACHE捕獲，cache存儲(chǔ)器將該請(qǐng)求分成三部分標(biāo)簽，組索引和數(shù)據(jù)索引域，cache通過(guò)組索引域確定可能包含地址和數(shù)據(jù)cache的行，cache存儲(chǔ)器檢查匹配的CACHE 行的狀態(tài)標(biāo)簽，如果是V表示（cache hit）命中，否則cache失效（cache miss）在cache失效時(shí)從主存吧cache行考到CACHE存儲(chǔ)器
主存中的部分內(nèi)容存放在cache中的最簡(jiǎn)單方式是直接映射，在一個(gè)直接映射中，主存的地址唯一對(duì)應(yīng)cache行，因?yàn)橹鞔嫒萘亢艽笏灾鞔娴暮芏嗟刂酚成涞酵粋€(gè)cache行
見(jiàn)下圖：
在DM6446 中內(nèi)存為128M （bootargs 設(shè)為128M）8K的D-CACHE則128×1024/8 = 16384映射一個(gè)cache行。由于cache的速度大大大于低速的主存速度，因此需要寫(xiě)緩沖器。
Cache與DRAM存取的一致性
在CPU與主存之間增加了Cache之后，便存在數(shù)據(jù)在CPU和Cache及主存之間如何存取的問(wèn)題。讀寫(xiě)各有2種方式。
貫穿讀出式(Look Through)
該方式將Cache隔在CPU與主存之間，CPU對(duì)主存的所有數(shù)據(jù)請(qǐng)求都首先送到Cache，由Cache自行在自身查找。如果命中，則切斷CPU對(duì)主存的請(qǐng)求，并將數(shù)據(jù)送出；不命中，則將數(shù)據(jù)請(qǐng)求傳給主存。
該方法的優(yōu)點(diǎn)是降低了CPU對(duì)主存的請(qǐng)求次數(shù)，缺點(diǎn)是延遲了CPU對(duì)主存的訪問(wèn)時(shí)間。
旁路讀出式(Look Aside)
在這種方式中，CPU發(fā)出數(shù)據(jù)請(qǐng)求時(shí)，并不是單通道地穿過(guò)Cache，而是向Cache和主存同時(shí)發(fā)出請(qǐng)求。由于Cache速度更快，如果命中，則 Cache在將數(shù)據(jù)回送給CPU的同時(shí)，還來(lái)得及中斷CPU對(duì)主存的請(qǐng)求；不命中，則Cache不做任何動(dòng)作，由CPU直接訪問(wèn)主存。
它的優(yōu)點(diǎn)是沒(méi)有時(shí)間延遲，缺點(diǎn)是每次CPU對(duì)主存的訪問(wèn)都存在，這樣，就占用了一部分總線時(shí)間。
寫(xiě)穿式(Write Through)
任一從CPU發(fā)出的寫(xiě)信號(hào)送到Cache的同時(shí)，也寫(xiě)入主存，以保證主存的數(shù)據(jù)能同步地更新。
它的優(yōu)點(diǎn)是操作簡(jiǎn)單，但由于主存的慢速，降低了系統(tǒng)的寫(xiě)速度并占用了總線的時(shí)間。
回寫(xiě)式(Copy Back)
為了克服貫穿式中每次數(shù)據(jù)寫(xiě)入時(shí)都要訪問(wèn)主存，從而導(dǎo)致系統(tǒng)寫(xiě)速度降低并占用總線時(shí)間的弊病，盡量減少對(duì)主存的訪問(wèn)次數(shù)，又有了回寫(xiě)式。
它是這樣工作的：數(shù)據(jù)一般只寫(xiě)到Cache，這樣有可能出現(xiàn)Cache中的數(shù)據(jù)得到更新而主存中的數(shù)據(jù)不變(數(shù)據(jù)陳舊)的情況。但此時(shí)可在Cache 中設(shè)一標(biāo)志地址及數(shù)據(jù)陳舊的信息，只有當(dāng)Cache中的數(shù)據(jù)被再次更改時(shí)，才將原更新的數(shù)據(jù)寫(xiě)入主存相應(yīng)的單元中，然后再接受再次更新的數(shù)據(jù)。這樣保證了 Cache和主存中的數(shù)據(jù)不致產(chǎn)生沖突。
ARM cache 策略
Cache的寫(xiě)策略分為直寫(xiě)策略和回寫(xiě)策略。同時(shí)向cache行和相應(yīng)的主存位置寫(xiě)數(shù)據(jù)，同時(shí)更新這兩個(gè)地方的數(shù)據(jù)的方法稱(chēng)為直寫(xiě)策略（writethrough），把數(shù)據(jù)寫(xiě)入cache行，不寫(xiě)入主存的或者只有當(dāng)cache被替換時(shí)或清理cache行時(shí)才寫(xiě)入主存的策略稱(chēng)為回寫(xiě)策略（writeback）。采用回寫(xiě)策略時(shí)，當(dāng)處理器cache命中，只向cache存儲(chǔ)器寫(xiě)數(shù)據(jù)，不寫(xiě)入主存，主存里的數(shù)據(jù)就和cache里不一致，cache里的數(shù)據(jù)是最新的，主存里的數(shù)據(jù)是早前的。這就用cache存儲(chǔ)器信息狀態(tài)標(biāo)志位了，當(dāng)向cache存儲(chǔ)器里某行寫(xiě)數(shù)據(jù)時(shí)，置相應(yīng)行的信息標(biāo)志臟位為1，那么主控制器下次訪問(wèn)cache存儲(chǔ)器就知道cache里有主存沒(méi)有的數(shù)據(jù)了，把數(shù)據(jù)寫(xiě)回到主存中去。
當(dāng)一個(gè)cache訪問(wèn)失效時(shí)，cache控制器必須從當(dāng)前有效行中取出一個(gè)cache行存儲(chǔ)從主存中取到的信息，被選中替換的cache行稱(chēng)為丟棄者，如果這個(gè)cache行中臟位為1則應(yīng)把該cache行中的數(shù)據(jù)回寫(xiě)到主存中，而替換策略決定了那個(gè)cache行會(huì)被替換，在arm926ejs中ARM支持兩種策略：輪轉(zhuǎn)策略和偽隨機(jī)策略。輪轉(zhuǎn)策略就是取當(dāng)前cache行的下一行，偽隨機(jī)策略是控制器隨機(jī)產(chǎn)生一個(gè)值。
當(dāng)cache失效時(shí)，ARM采取兩種方式分配cache行，一種是讀操作（read-allocate）還有一種是讀-寫(xiě)分配策略（read- write-allocate），當(dāng)cache未命中時(shí)對(duì)于讀操作策略，在對(duì)cache存儲(chǔ)器讀操作時(shí)才會(huì)分配cache行
全相聯(lián)Cache
在全相聯(lián)Cache中，存儲(chǔ)的塊與塊之間，以及存儲(chǔ)順序或保存的存儲(chǔ)器地址之間沒(méi)有直接的關(guān)系。程序可以訪問(wèn)很多的子程序、堆棧和段，而它們是位于主存儲(chǔ)器的不同部位上。
因此，Cache保存著很多互不相關(guān)的數(shù)據(jù)塊，Cache必須對(duì)每個(gè)塊和塊自身的地址加以存儲(chǔ)。當(dāng)請(qǐng)求數(shù)據(jù)時(shí)，Cache控制器要把請(qǐng)求地址同所有地址加以比較，進(jìn)行確認(rèn)。
這種Cache結(jié)構(gòu)的主要優(yōu)點(diǎn)是，它能夠在給定的時(shí)間內(nèi)去存儲(chǔ)主存器中的不同的塊，命中率高；缺點(diǎn)是每一次請(qǐng)求數(shù)據(jù)同Cache中的地址進(jìn)行比較需要相當(dāng)?shù)臅r(shí)間，速度較慢。
直接映像Cache
直接映像Cache不同于全相聯(lián)Cache，地址僅需比較一次。
在直接映像Cache中，由于每個(gè)主存儲(chǔ)器的塊在Cache中僅存在一個(gè)位置，因而把地址的比較次數(shù)減少為一次。其做法是，為Cache中的每個(gè)塊位置分配一個(gè)索引字段，用Tag字段區(qū)分存放在Cache位置上的不同的塊。
單路直接映像把主存儲(chǔ)器分成若干頁(yè)，主存儲(chǔ)器的每一頁(yè)與Cache存儲(chǔ)器的大小相同，匹配的主存儲(chǔ)器的偏移量可以直接映像為Cache偏移量。Cache的Tag存儲(chǔ)器(偏移量)保存著主存儲(chǔ)器的頁(yè)地址(頁(yè)號(hào))。
以上可以看出，直接映像Cache優(yōu)于全相聯(lián)Cache，能進(jìn)行快速查找，其缺點(diǎn)是當(dāng)主存儲(chǔ)器的組之間做頻繁調(diào)用時(shí)，Cache控制器必須做多次轉(zhuǎn)換。
組相聯(lián)Cache
組相聯(lián)Cache是介于全相聯(lián)Cache和直接映像Cache之間的一種結(jié)構(gòu)。這種類(lèi)型的Cache使用了幾組直接映像的塊，對(duì)于某一個(gè)給定的索引號(hào)，可以允許有幾個(gè)塊位置，因而可以增加命中率和系統(tǒng)效率。

新聞中心

ARM的CACHE原理

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)