KeyStone存儲器架構
3
相應地,局域 L2 存儲器是高達 1MB 的統(tǒng)一存儲器(最初宣布推出的器件為 512KB 或 1MB)。此外,該存儲器也可配置為全高速緩存、全存儲器映射 SRAM(默認),或是 32、64、128、256 或 512KB 四路集關聯(lián)高速緩存選項的組合。本文引用地址:http://2s4d.com/article/202429.htm
至共享存儲器子系統(tǒng)的存取路徑經過精心的重新設計,能夠顯著降低至較高級存儲器的時延,無論所有CorePac和數據 I/O 是否處于繁忙狀態(tài),均能維持相同的效率。
二級存儲器效率 —— 與之前的系列產品相比,LL2 存儲器器件和控制器的時鐘運行速率更高。C66x LL2 存儲器以等同于 CPU 時鐘的時鐘速率運行。更高的時鐘頻率可實現(xiàn)更快的訪問時間,從而減少了因 L1 高速緩存失效造成的停滯,在此情況下必須從 LL2 高速緩存或 SRAM 獲取存儲器)。光這一項改進就自動使得從 C64X+ 或 C67X 器件進行應用升級實現(xiàn)了很大的速度提升,而且無需為 C66x 指令集進行重新編譯。
此外,無論是對用戶隱藏的還是由軟件命令驅動的高速緩存一致性操作都會變得更高效,而且需要執(zhí)行的周期數也更少。反之,這也意味著自動的高速緩存一致性操作(例如檢測、數據移出)對處理器的干擾更小,因而停滯周期數也更少。手動的高速緩存一致性操作(例如全局或模塊回寫和/或無效)占用較少的周期即可完成,這就意味著在為共享存儲器判優(yōu)的過程中,實現(xiàn)CorePac 之間或 CorePac 與 DMA 主系統(tǒng)的同步將需要更短的等待時間。
共享存儲器效率 —— 為進一步提高共享存儲器的執(zhí)行效率,在 CorePac 內置了擴展存儲器控制器 (XMC)。對共享內部存儲器 (SL2/SL3) 和外部存儲器 (DDR3 SRAM) 來說,XMC 是通向 MSMC 的通道,且架構的構建基礎實施在此前具有共享二級(SL2)存儲器(比如TMS320C6472 DSP)的器件之上。
圖 3 - 共享存儲器架構
在以前具有 SL2 存儲器的器件上,通向 SL2 的存取路徑與通向 LL2的存取路徑一樣,在鄰近內部接口處均有一個預取緩沖器。預取功能可隱藏對共享 RAM 庫的訪問時延,并可優(yōu)化代碼執(zhí)行及對只讀數據的存?。ㄈ嬷С謱懖僮鳎MC 雖然也遵循相同的目標,但是卻進一步擴展添加了強大得多的預取功能,從而對程序執(zhí)行和 R/W 數據獲取提供了可與 LL2 相媲美的最佳性能。預取功能不僅能在訪問存儲器之前通過拉近存儲器和 C66x DSP 內核之間的距離來降低存取時延,而且還能緩解其他 CorePac 和數據 I/O 通過 MSMC 爭奪同一存儲器資源的競爭局面。
MSMC 通過 256 位寬的總線與 XMC 相連,而 XMC 則可直接連接至用于內部 SL2/SL3 RAM 的 4 個寬 1024 位存儲器組。內部存儲器組使 XMC 中的預取邏輯功能能夠在未來每次請求訪問物理 RAM 之前獲取程序和數據,從而避免后續(xù)訪問停滯在 XMC。MSMC 可通過另一 256 位接口與外部存儲器接口控制器直接相連,進一步將 CorePac 的高帶寬接口一直擴展到外部存儲器。
對于外部存儲器而言,KeyStone架構可通過與共享內部存儲器相同的通道進行訪問,從而較之前的架構實現(xiàn)了顯著的增強。該通道的寬度是之前器件的兩倍,而速度則為一半,從而大幅降低了到達外部 DDR3 存儲器控制器(通過 XMC 和 MSMC)的時延。在此前的 C6000 DSP 中以及眾多的嵌入式處理器架構中,外部 CPU 和高速緩存訪問是通過芯片級互連進行發(fā)布的,而 XMC 則可提供更為直接的最優(yōu)通道。當從外部存儲器執(zhí)行程序時,其可大幅提高 L1/L2 高速緩存效率,并在多個內核與數據 I/O 對外部存儲器并行判優(yōu)時能夠顯著降低所帶來的遲滯。
評論