利用時鐘裕度技術(shù)實現(xiàn)系統(tǒng)邊界穩(wěn)定性與早期故障預(yù)測
計算機領(lǐng)域的超頻技術(shù)已存在多年,其目的就是有意識地讓系統(tǒng)超越工作極限,實現(xiàn)最大性能,但這通常會減少設(shè)備的使用壽命且難以保證系統(tǒng)的穩(wěn)定性。許多系統(tǒng)設(shè)計人員都認為超頻技術(shù)除了影響系統(tǒng)穩(wěn)定性之外一文不值,但實際它也有一些潛在的好處:可以為我們確定實際系統(tǒng)總時序預(yù)算(TTB)裕度以及估算產(chǎn)品現(xiàn)場使用壽命提供有益信息。超頻技術(shù)正在發(fā)展為一種稱為“時鐘裕度”的新技術(shù),該技術(shù)可確保系統(tǒng)穩(wěn)定運行。此外,本文還將探討如何利用可編程時鐘源來實現(xiàn)時鐘裕度技術(shù),確保在臨界條件下的真正系統(tǒng)穩(wěn)定性。
本文引用地址:http://2s4d.com/article/201809/388948.htm
很多讀者對上世紀80年代和90年代初期的PC平臺可能記憶猶新,這種平臺都帶有一個所謂加速模式(turbo mode)按鍵。我喜歡按下加速模式按鍵,并觀察顯示數(shù)字的變化??蛇@些數(shù)字到底意味著什么呢?按下這個按鍵,首先是自我感覺良好,認為自己正在體驗一種極限計算性能,可謂物超所值,畢竟當年的一部臺式機價值2500美元。我也很清楚,要是覺得加速模式下性能不穩(wěn)定,那么總可以返回正常模式,以確保整個系統(tǒng)的穩(wěn)定性。坦率地說,實際上我從未在正常模式下工作過,相信其他人也一樣。當然,加速模式是一柄雙刃劍,人們一直批評它會造成系統(tǒng)崩潰,而且還會擔心一旦風扇失靈,就會把CPU燒壞報廢掉。
實際上,過去的加速模式就是我們今天所說的超頻技術(shù)。其實基本概念并沒變,都是要接近或超越系統(tǒng)的計算速度極限,將系統(tǒng)推到穩(wěn)定與不穩(wěn)定的邊緣。想到超頻技術(shù)時,總是自然而然地想到PC。除了超頻技術(shù)帶來的問題之外,能不能通過超頻技術(shù)(即以超頻為工具)找到系統(tǒng)的弱點呢?能不能通過一種結(jié)構(gòu)化的“試驗設(shè)計”,讓邏輯中最薄弱的一環(huán)自動暴露出來呢?能不能通過超頻技術(shù)來準確判斷系統(tǒng)穩(wěn)定與不穩(wěn)定的確切臨界點呢?我們的分析還會不會提供一些隱性的有價值信息,有助于推測系統(tǒng)老化影響帶來的早期故障問題?如果認為超頻的好處是讓系統(tǒng)達到穩(wěn)定工作的極限,那么降頻又會怎么樣呢?通常認為超頻主要就是修改設(shè)置時間,而降頻就是修改保存時間。要討論超頻或降頻,就需要給系統(tǒng)“標稱”響應(yīng)定義一個參考基準。系統(tǒng)設(shè)計人員應(yīng)當根據(jù)系統(tǒng)組件數(shù)據(jù)表提供的有關(guān)制造規(guī)范建立一個標稱響應(yīng)的標準。
總時序預(yù)算
首先介紹一些涵蓋關(guān)于超頻概念的新術(shù)語??倳r序預(yù)算(TTB)與超頻系統(tǒng)的穩(wěn)定性條件密切相關(guān)。總時序預(yù)算是指系統(tǒng)能夠?qū)崿F(xiàn)的性能。根據(jù)這個定義,我們可以明確理性條件下系統(tǒng)的邊界時序性能限定??倳r序預(yù)算是指系統(tǒng)的整體邊界性能極限條件下的,既包括超頻和降頻時的體驗效果。我們往往要通過實踐分析來獲得總時序預(yù)算參數(shù),數(shù)據(jù)表中的內(nèi)容不能提供這種最大和最小容限規(guī)范。根據(jù)定義,數(shù)據(jù)表提供的是系統(tǒng)“標稱”的時鐘速度(位于最大和最小指標之間),是構(gòu)成整體系統(tǒng)的設(shè)備選擇的內(nèi)在特性。在分析系統(tǒng)總時序預(yù)算的時候,會發(fā)現(xiàn)標稱數(shù)值與總時序預(yù)算數(shù)值之間存在一定的性能差或者頻率差。系統(tǒng)電壓與溫度都會影響總時序預(yù)算,為了獲得一致性的結(jié)果,必須考慮這些影響因素。
始終裕度
時鐘裕度(clock margining)也是一個有趣的術(shù)語。其含義包含的不僅僅是超頻的概念。時鐘裕度的概念是指我們通過全面的回歸測試、根據(jù)總時序預(yù)算數(shù)據(jù)來探索并得出系統(tǒng)的穩(wěn)定性參數(shù)。通過時鐘裕度,讓小部分軟件超頻運行,能全面了解系統(tǒng)的工作性能極限。可在產(chǎn)品壽命周期中隔一定時期就進行一次時鐘裕度檢測,了解實際性能與標稱性能的差別,從而了解產(chǎn)品性能變化的趨勢。這種趨勢有助于估計系統(tǒng)什么時候會達到壽命終點。系統(tǒng)制造后不久,會進行一次參照時鐘裕度性能差檢測,這通??山⑵鹨粋€極限性能基準。隨著產(chǎn)品的老化,在實際的測試中首次極限性能與標稱的差距最大,以后每次檢測都會發(fā)現(xiàn)差距在縮小。
系統(tǒng)老化
系統(tǒng)老化這是一個老生常談的問題了,也是一個有趣的問題。世界上沒有完美的產(chǎn)品,硅芯片制造也一樣。硅芯片的封裝會對產(chǎn)品使用壽命產(chǎn)生很大影響,因為封裝技術(shù)密封性不好,硅芯片會暴露于外界環(huán)境。從硅芯片的角度來說,熱載流子注入的自然效應(yīng)與電子移動的細微效果會對系統(tǒng)產(chǎn)生影響。熱量會加速硅芯片的老化。老化作為一種靈敏度參數(shù)來說,則體現(xiàn)在總時序預(yù)算數(shù)據(jù)上。通過超頻與降頻對比,發(fā)現(xiàn)超頻對系統(tǒng)產(chǎn)生的壓力最大,這也是性能差分析的基本方法。
時鐘裕度的實施
上面談?wù)摿诉@么多關(guān)于時鐘裕度技術(shù)的話題,那么怎樣才能實施時鐘裕度技術(shù)呢?首先,我們要知道,最先進的系統(tǒng)通常包括眾多時鐘源。在多數(shù)情況下,時鐘間存在相互依賴的關(guān)系,但有時也會存在獨立的時鐘?,F(xiàn)在,常見的時鐘源通常采用鎖相環(huán)技術(shù),確保噪聲最小化,這使得新一代鎖相環(huán)技術(shù)產(chǎn)生的時鐘源具有較小的抖動,同時在相位噪聲性能方面優(yōu)于固定的時鐘源。鎖相環(huán)通常作為帶可編程分壓器的時鐘合成器,可支持多種時鐘輸出的合成,而且相互依賴的不同時鐘之間可建立不同的“分頻比”。分頻比是PC時鐘領(lǐng)域的過時術(shù)語,但對任何相互依賴的時鐘問題來說仍然適用。
為了成功實現(xiàn)時鐘裕度功能,其必須內(nèi)置頻率調(diào)節(jié)的功能。變頻功能在實際上可能比最初設(shè)想的要更困難,因為我們必須全面了解鎖相環(huán)技術(shù)的性能,不僅要了解工作期間可以實現(xiàn)的目標頻率,還要了解不同反饋編程條件下的相位噪聲與抖動性能?;跁r域的抖動是我們需要了解的重要內(nèi)容,這樣才能確保不同頻率之間的一致性(不能突然斷開),否則系統(tǒng)的穩(wěn)定性分析就會出錯。如果發(fā)生了不連續(xù)的抖動情況,也不會出現(xiàn)太大麻煩,可以通過多個特定的輸出頻率開槽或所需的分頻比來解決。此外,應(yīng)當確保開槽不要在頻率變化期間進行,除非鎖相環(huán)的設(shè)置在CPU對任何形式的開槽和短脈沖不敏感的間隔中進行。
確保總時序預(yù)算正確的技巧就是,應(yīng)當了解哪些頻率范圍表現(xiàn)較好,這樣就能小心地通過逐步逼近的辦法接近總時序預(yù)算目標,而每一步的變化量可能有差別。如果頻率變化較大,那么通常會導(dǎo)致總時序預(yù)算差別結(jié)果較小??倳r序預(yù)算邊界檢測要求最終肯定要突破系統(tǒng)的界限,然后重啟并略微后退一些,直至獲得滿意的一致性閾值為止。有許多沒有文件記載的“小竅門”可以完成此項工作。建立系統(tǒng)總時序預(yù)算的關(guān)鍵就是一致性與可重復(fù)性。
正如前面簡單談到的那樣,執(zhí)行時鐘裕度工作所發(fā)現(xiàn)的最重要信息就是在產(chǎn)品投入使用后估算出實際的產(chǎn)品使用壽命終結(jié)時間。本文分析的目的就是要通過時鐘裕度來計算產(chǎn)品的標稱性能與總時序預(yù)算之間的差異,以備后續(xù)之需。在幾周、幾個月乃至幾年的時間里,投入實際使用的產(chǎn)品運行相同的回歸進程,重復(fù)計算性能差異。我認為,能夠體現(xiàn)產(chǎn)品使用壽命結(jié)束的情況就是在性能差為零或為負值。這并不是說系統(tǒng)出現(xiàn)故障,而只是說沒有性能差了,說明產(chǎn)品已經(jīng)到了使用壽命的終點。無論采用何種產(chǎn)品支持方式,如果性能差為零,則說明產(chǎn)品的使用壽命已經(jīng)結(jié)束了,這一信息對那些需要全天候持續(xù)工作的系統(tǒng)來說是至關(guān)重要的。如圖1所示,根據(jù)歷史性能差信息預(yù)測出了性能差為零的時間。通過簡單的線性分析或非線性曲線分析,可以估計得出產(chǎn)品使用壽命結(jié)束的時間。
圖 1:系統(tǒng)使用壽命估算分析圖。
在溫度與電壓等外部因素已知、記錄且匹配的情況下進行未來回歸檢測,確保符合時鐘裕度技術(shù)的準確性。圖1顯示了超頻工作情況下的時鐘裕度性能差為正值的變化圖,此原理也適用于降頻工作的情況。不過,在降頻工作情況下,性能差的變動不會太大且基本保持穩(wěn)定。這里將降頻工作情況下的時鐘裕度差值設(shè)為正值。
在時鐘裕度技術(shù)的實施過程中,通過不斷調(diào)整來修正鎖相環(huán)時鐘源或其他時鐘源。圖2顯示了一個采用時鐘裕度技術(shù)的簡單的鎖相環(huán)進程的一級方案。管理系統(tǒng)的最佳方法之一,就是采用看門狗計時器,成功完成回歸檢測后,軟件就會重新設(shè)置計時器,而系統(tǒng)故障則會導(dǎo)致看門狗計時器超時。反復(fù)進行上述工作,重復(fù)檢測回歸計算,存儲鎖相環(huán)頻率內(nèi)容,進程不斷重復(fù)進行直到出現(xiàn)故障。如前所述,不斷趨近總時序預(yù)算極限的過程中,可以了解鎖相環(huán)參數(shù)與系統(tǒng)步進變化大小的靈敏度,越接近總時序預(yù)算標準極限,步進改變就越小。這樣,就要多次循環(huán)上述工作,直到取到最后一次成功檢測參數(shù)為止,超過這個回歸檢測界限,系統(tǒng)就會出故障。因此最后一個已知的成功回歸檢測結(jié)果就是總時序預(yù)算的極限。
圖 2:采用時鐘裕度技術(shù)的簡單的鎖相環(huán)進程。
本文小結(jié)
測試時鐘裕度性能差的過程,也就是了解總時序預(yù)算極限的過程,對了解如何發(fā)掘系統(tǒng)的全部潛力很有用。時鐘裕度技術(shù)有助于找到系統(tǒng)最薄弱的環(huán)節(jié),還能不斷調(diào)節(jié)并創(chuàng)建一個匹配的系統(tǒng),以防止系統(tǒng)超過總時序預(yù)算極限發(fā)生災(zāi)難性后果。總時序預(yù)算可以幫助我們明確時鐘裕度性能差,估算出產(chǎn)品投入使用后的使用壽命。為了實現(xiàn)上述功能,時鐘裕度技術(shù)的核心就是可編程的鎖相環(huán)。通過參考PLL環(huán)路編程進程的有關(guān)討論,驗證了使用硬件計時器與非易失性存儲設(shè)備有助于簡化管理工作,明確總時序預(yù)算極限。
評論