新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 嵌入式Linux Kernel錯誤跟蹤技術(shù)

嵌入式Linux Kernel錯誤跟蹤技術(shù)

作者: 時間:2013-10-23 來源:網(wǎng)絡(luò) 收藏
隨著嵌入式系統(tǒng)的廣泛應(yīng)用,對系統(tǒng)的可靠性提出了更高的要求,尤其是涉及到生命財產(chǎn)等重要領(lǐng)域,要求系統(tǒng)達(dá)到安全完整性等級3級以上[1],故障率(每小時出現(xiàn)危險故障的可能性)為10-7以下,相當(dāng)于系統(tǒng)的平均故障間隔時間(MTBF)至少要達(dá)到1141年以上,因此提高系統(tǒng)可靠性已成為一項艱巨的任務(wù)。對某公司在工業(yè)領(lǐng)域14 878個控制器系統(tǒng)的應(yīng)用調(diào)查表明,從2004年初到2007年9月底,隨著硬軟件的不斷改進(jìn),根據(jù)錯誤報告統(tǒng)計的故障率已降低到2004年的五分之一以下,但查找錯誤的時間卻增加到原來的3倍以上。

這種解決問題所需時間呈上升的趨勢固然有軟件問題,但缺乏必要的手段以輔助解決問題才是主要的原因。通過對故障的統(tǒng)計跟蹤發(fā)現(xiàn),難以解決的軟件錯誤和從發(fā)現(xiàn)到解決耗時較長的軟件錯誤都集中在操作系統(tǒng)的核心部分,這其中又有很大比例集中在驅(qū)動程序部分[2]。因此,技術(shù)被看成是提高系統(tǒng)安全完整性等級的一個重要措施[1],大多數(shù)現(xiàn)代操作系統(tǒng)均為發(fā)展提供了操作系統(tǒng)內(nèi)核“崩潰轉(zhuǎn)儲”機制,即在軟件系統(tǒng)宕機時,將內(nèi)存內(nèi)容保存到磁盤[3],或者通過網(wǎng)絡(luò)發(fā)送到故障服務(wù)器[3],或者直接啟動內(nèi)核調(diào)試器[4]等,以供事后分析改進(jìn)。

基于操作系統(tǒng)內(nèi)核的崩潰轉(zhuǎn)儲機制近年來有以下幾種:

(1) LKCD( Kernel Crash Dump)機制[3];

(2) KDUMP(Linux Kernel Dump)機制[4];

(3) KDB機制[5];

(4) KGDB機制[6]。

綜合上述幾種機制可以發(fā)現(xiàn),這四種機制之間有以下三個共同點:

(1) 適用于為運算資源豐富、存儲空間充足的應(yīng)用場合;

(2) 發(fā)生系統(tǒng)崩潰后恢復(fù)時間無嚴(yán)格要求;

(3) 主要針對較通用的硬件平臺,如X86平臺。

在嵌入式應(yīng)用場合想要直接使用上列機制中的某一種,卻遇到以下三個難點無法解決:

(1) 存儲空間不足

嵌入式系統(tǒng)一般采用Flash作為存儲器,而Flash容量有限,且可能遠(yuǎn)遠(yuǎn)小于嵌入式系統(tǒng)中的內(nèi)存容量。因此將全部內(nèi)存內(nèi)容保存到Flash不可行。

(2) 記錄時間要求盡量短

嵌入式系統(tǒng)一般有復(fù)位響應(yīng)時間盡量短的要求,有的嵌入式操作系統(tǒng)復(fù)位重啟時間不超過2s,而上述幾種可用于Linux系統(tǒng)的轉(zhuǎn)儲機制耗時均不可能在30s內(nèi)。寫Flash的操作也很耗時間,實驗顯示,寫2MB數(shù)據(jù)到Flash耗時達(dá)到400ms之多。

(3) 要求能夠支持特定的硬件平臺

嵌入式系統(tǒng)的硬件多種多樣,上面提到的四種機制均是針對X86平臺提供了較好的支持,而對于其他體系的硬件支持均不成熟。

由于這些難點的存在,要將上述四種轉(zhuǎn)儲機制中的一種移植到特定的嵌入式應(yīng)用平臺是十分困難的。因此,針對上述嵌入式系統(tǒng)的三個特點,本文介紹一種基于特定平臺的嵌入式Linux機制LCRT(Linux Crash Record and Trace),為定位嵌入式Linux系統(tǒng)中軟件故障和解決軟件故障提供輔助手段。

1 Linux內(nèi)核崩潰的分析

分析Linux內(nèi)核對于運行期間各種“陷阱”的處理可以得知,Linux內(nèi)核對于應(yīng)用程序?qū)е碌腻e誤可以予以監(jiān)控,在應(yīng)用程序發(fā)生除零、內(nèi)存訪問越界、緩沖區(qū)溢出等錯誤時,Linux內(nèi)核的異常處理例程可以對這些由應(yīng)用程序引起的異常情況予以處理。當(dāng)應(yīng)用程序產(chǎn)生不可恢復(fù)的錯誤時,Linux內(nèi)核可以僅僅終止產(chǎn)生錯誤的應(yīng)用程序,其他應(yīng)用程序仍然可以正常運行。
嵌入式Linux Kernel錯誤跟蹤技術(shù)
如果Linux內(nèi)核本身或者新開發(fā)的Linux內(nèi)核模塊存在bug,產(chǎn)生了“除零”,“內(nèi)存訪問越界”、“緩沖區(qū)溢出”等錯誤,同樣會由Linux內(nèi)核的異常處理例程來處理。Linux內(nèi)核通過在異常處理程序中判斷,如果發(fā)現(xiàn)是“嚴(yán)重的不可恢復(fù)”的內(nèi)核異常,則會導(dǎo)致“內(nèi)核恐慌”(kernel panic),即Linux內(nèi)核崩潰。圖1所示為Linux內(nèi)核對異常情況的處理流程。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)

上一頁 1 2 3 下一頁

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉