英特爾用AI技巧發(fā)現(xiàn)數(shù)據(jù)中心芯片中隱藏的缺陷
對于大型數(shù)據(jù)中心中的高性能芯片,數(shù)學可能是敵人。由于超大規(guī)模數(shù)據(jù)中心正在進行的計算規(guī)模龐大,在數(shù)百萬個節(jié)點和大量硅片上全天候運行,因此會出現(xiàn)極其罕見的錯誤。這只是統(tǒng)計數(shù)據(jù)。這些罕見的、“無聲的”數(shù)據(jù)錯誤不會在傳統(tǒng)的質量控制篩查中出現(xiàn),即使公司花費數(shù)小時尋找它們也是如此。
本文引用地址:http://2s4d.com/article/202504/469841.htm本月,在加利福尼亞州蒙特雷舉行的 IEEE 國際可靠性物理研討會上,英特爾工程師介紹了一種使用強化學習來更快地發(fā)現(xiàn)更多無聲數(shù)據(jù)錯誤的技術。該公司正在使用機器學習方法來確保其 Xeon 處理器的質量。
當數(shù)據(jù)中心發(fā)生錯誤時,運營商可以關閉并替換節(jié)點,或者使用有缺陷的系統(tǒng)進行低風險的計算,英特爾亞利桑那州錢德勒園區(qū)的電氣工程師 Manu Shamsa 說。但如果能及早發(fā)現(xiàn)錯誤,那就更好了。理想情況下,他們會在芯片集成到計算機系統(tǒng)之前被發(fā)現(xiàn),此時可以進行設計或制造更正以防止將來再次出現(xiàn)錯誤。
“在筆記本電腦中,您不會注意到任何錯誤。在具有真正密集節(jié)點的數(shù)據(jù)中心中,星星很有可能對齊并發(fā)生錯誤?!?nbsp;Intel 的 Manu Shamsa
找到這些缺陷并不容易。沙姆薩說,工程師們對它們感到非常困惑,他們開玩笑說,這一定是由于遠距離的幽靈般的動作,愛因斯坦對量子糾纏的稱呼。但他們并沒有什么令人毛骨悚然的,Shamsa 花了數(shù)年時間來描述他們。在去年同一會議上發(fā)表的一篇論文中,他的團隊提供了這些錯誤原因的完整目錄。大多數(shù)是由于制造過程中的微小變化。
即使每個芯片上的數(shù)十億個晶體管中的每一個都正常工作,它們彼此之間也不完全相同。例如,給定晶體管對溫度、電壓或頻率變化的響應方式的細微差異可能會導致誤差。
由于計算速度和涉及的大量芯片,這些微妙之處更有可能在大型數(shù)據(jù)中心中出現(xiàn)?!霸诠P記本電腦中,您不會注意到任何錯誤。在具有真正密集節(jié)點的數(shù)據(jù)中心中,星星很有可能對齊并發(fā)生錯誤,“Shamsa 說。
只有在數(shù)據(jù)中心安裝了芯片并運行了數(shù)月后,才會出現(xiàn)一些錯誤。晶體管特性的微小變化會導致它們隨著時間的推移而退化。Shamsa 發(fā)現(xiàn)的一個這樣無聲錯誤與電阻有關。起初正常工作并通過標準測試以尋找短路的晶體管,在使用后會降解,從而變得更耐用。
“你認為一切都很好,但在下面,錯誤導致了錯誤的決定,”Shamsa 說。Shamsa 說,隨著時間的推移,由于單個晶體管的輕微弱點,“一加一會變成三,悄無聲息,直到你看到影響。
機器學習發(fā)現(xiàn)缺陷
這項新技術建立在一組現(xiàn)有的檢測靜默錯誤的方法(稱為 Eigen 檢驗)之上。這些測試使芯片在一段時間內重復做困難的數(shù)學題,以期使無聲錯誤明顯。它們涉及對填充了隨機數(shù)據(jù)的不同大小的矩陣的作。
有大量的 Eigen 檢驗。運行所有這些應用程序將花費不切實際的時間,因此芯片制造商使用隨機方法來生成一組可管理的內存條。這樣可以節(jié)省時間,但不會檢測到錯誤。“沒有原則來指導輸入的選擇,”Shamsa 說。他想找到一種方法來指導選擇,以便相對較少的測試可能會發(fā)現(xiàn)更多錯誤。
英特爾團隊使用強化學習為其至強 CPU 芯片的部分開發(fā)測試,該部分使用所謂的熔斷-乘法-加法 (FMA) 指令執(zhí)行矩陣乘法。Shamsa 表示,他們選擇 FMA 區(qū)域是因為它占據(jù)了芯片的相對較大的區(qū)域,使其更容易受到潛在的靜默錯誤的影響——更多的硅,更多的問題。更重要的是,芯片這一部分的缺陷會產生電磁場,從而影響系統(tǒng)的其他部分。由于 FMA 在不使用時會關閉以節(jié)省電量,因此對其進行測試需要反復打開和關閉電源,這可能會激活隱藏的缺陷,否則這些缺陷不會出現(xiàn)在標準測試中。
在訓練的每個步驟中,強化學習程序都會為潛在有缺陷的芯片選擇不同的測試。它檢測到的每個錯誤都被視為獎勵,隨著時間的推移,代理會學會選擇哪些測試可以最大程度地提高檢測到錯誤的機會。經過大約 500 個測試周期后,該算法學習了哪組 Eigen 測試優(yōu)化了 FMA 區(qū)域的錯誤檢測率。
Shamsa 說,這種技術檢測到缺陷的可能性是隨機 Eigen 測試的五倍。特征測試是開源的,是面向數(shù)據(jù)中心的 openDCDiag 的一部分。因此,其他用戶應該能夠使用強化學習來修改他們自己的系統(tǒng)的這些測試,他說。
在某種程度上,無聲、細微的缺陷是制造過程中不可避免的一部分——絕對的完美和均勻性仍然遙不可及。但 Shamsa 表示,英特爾正試圖利用這項研究來學習更快地找到導致靜默數(shù)據(jù)錯誤的前兆。他正在研究是否存在可以為未來錯誤提供早期預警的危險信號,以及是否可以更改芯片配方或設計來管理它們。
評論