新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 嵌入式Linux Kernel錯(cuò)誤跟蹤技術(shù)

嵌入式Linux Kernel錯(cuò)誤跟蹤技術(shù)

作者: 時(shí)間:2013-10-23 來源:網(wǎng)絡(luò) 收藏

2 LCRT機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)

通過對(duì)內(nèi)核代碼的分析可知,內(nèi)核本身提供了一種“內(nèi)核通知機(jī)制”[7-8],并預(yù)定義了“內(nèi)核事件通知鏈”,使得內(nèi)核擴(kuò)展開發(fā)人員可以通過這些預(yù)定義的內(nèi)核事件通知鏈在特定的內(nèi)核事件發(fā)生時(shí)執(zhí)行附加的處理流程。通過對(duì)Linux內(nèi)核源代碼的研究發(fā)現(xiàn),對(duì)于上文中提到的“嚴(yán)重不可恢復(fù)的內(nèi)核異?!?,預(yù)定義了一個(gè)通知鏈和通知點(diǎn),使得在發(fā)生Linux之后,可以在Linux內(nèi)核的panic函數(shù)中預(yù)定義的一個(gè)“通知鏈”[7]上掛接LCRT機(jī)制來獲得Linux現(xiàn)場的一些信息并記錄到非易失性存儲(chǔ)器中,以便分析引起Linux內(nèi)核崩潰的原因。

2.1 設(shè)計(jì)要點(diǎn)

LCRT機(jī)制的設(shè)計(jì)和實(shí)現(xiàn)基于如下特定的機(jī)制:

(1) 編譯器選項(xiàng)與內(nèi)核依賴

Linux內(nèi)核及相應(yīng)的驅(qū)動(dòng)程序都采用GNU[9]的開源編譯器GCC[9]編譯,為了結(jié)合LCRT機(jī)制方便地提取信息和記錄信息,需要采用特定的GCC編譯器選項(xiàng)來編譯Linux內(nèi)核和相關(guān)的驅(qū)動(dòng)程序以及應(yīng)用程序。用到的選項(xiàng)為:-mpoke-function-name[9]。使用這個(gè)選項(xiàng)編譯出的二進(jìn)制程序中可以包含C語言函數(shù)名稱的信息,以方便函數(shù)調(diào)用鏈回溯時(shí)記錄信息的可讀性。

(2) Linux內(nèi)核notify_chain機(jī)制[8]

Linux內(nèi)核提供“通知鏈”功能,并預(yù)定義了一個(gè)內(nèi)核崩潰通知鏈,在Linux內(nèi)核的異常處理例程中判斷出系統(tǒng)進(jìn)入“不可恢復(fù)”狀態(tài)時(shí),會(huì)沿預(yù)定義的通知鏈順序調(diào)用注冊到相應(yīng)鏈中的通知函數(shù)。

(3) 函數(shù)調(diào)用的棧布局

Linux內(nèi)核的絕大部分由C語言實(shí)現(xiàn),而且C語言也多用來進(jìn)行Linux內(nèi)核開發(fā)。Linux內(nèi)核及使用LKM擴(kuò)展而加入Linux內(nèi)核執(zhí)行環(huán)境的代碼是有規(guī)律可循的,這些代碼在執(zhí)行過程中產(chǎn)生的棧布局和這些規(guī)律的代碼相關(guān)聯(lián)。例如,這些函數(shù)在執(zhí)行函數(shù)之前會(huì)保存本函數(shù)調(diào)用后的返回地址、本函數(shù)被調(diào)用時(shí)傳遞過來的參數(shù)及調(diào)用本函數(shù)的函數(shù)所擁有的棧幀的棧底。

2.2 LCRT機(jī)制的設(shè)計(jì)思想

LCRT機(jī)制分為Linux內(nèi)核模塊[8]部分和Linux用戶程序部分。內(nèi)核模塊部分的設(shè)計(jì)采用了Linux內(nèi)核模塊的模式而不是直接修改Linux內(nèi)核。這樣的設(shè)計(jì)降低了Linux內(nèi)核和LCRT機(jī)制之間的耦合度,同時(shí)滿足了Linux內(nèi)核和LCRT機(jī)制獨(dú)立升級(jí)完善的便利性。用戶程序部分完成從非易失性存儲(chǔ)器中讀取、清除LCRT機(jī)制保存的信息等相關(guān)功能。

在LCRT機(jī)制的設(shè)計(jì)中,針對(duì)嵌入式系統(tǒng)的特點(diǎn),其設(shè)計(jì)決策有:

(1) 將對(duì)于解決和定位問題最具輔助意義的函數(shù)調(diào)用關(guān)系鏈記錄下來。

(2) 為了不占用過多的存儲(chǔ)空間,有選擇性地將函數(shù)調(diào)用序列上的函數(shù)各自用到的棧內(nèi)容保存起來,而不是保存全部內(nèi)容。

(3) 將記錄的信息保存到非易失性存儲(chǔ)器中,這樣既達(dá)到了掉電保存的目的、又縮短了寫入時(shí)間。

LCRT機(jī)制的設(shè)計(jì)包括以下五個(gè)方面。

(1) 設(shè)計(jì)Linux內(nèi)核模塊、動(dòng)態(tài)地加載LCRT機(jī)制、盡量少地修改Linux內(nèi)核代碼。

(2)在相應(yīng)、預(yù)定義的Linux內(nèi)核通知鏈上掛接LCRT的通知函數(shù)。

(3) 在LCRT機(jī)制的通知處理函數(shù)中進(jìn)行堆棧回溯得到函數(shù)調(diào)用信息。

(4) 記錄回溯到的函數(shù)調(diào)用信息和堆棧空間內(nèi)容到非易失性存儲(chǔ)器。

(5) 開發(fā)用戶空間的工具,可以從非易失性存儲(chǔ)器中讀取保存的信息。

2.3 LCRT機(jī)制的實(shí)現(xiàn)

LCRT機(jī)制的實(shí)現(xiàn)可參照2.2節(jié)的設(shè)計(jì)思想,分步予以實(shí)現(xiàn)。限于篇幅,本文不過多涉及Linux內(nèi)核模塊的原理和實(shí)現(xiàn)相關(guān)的細(xì)節(jié),僅僅給出LCRT機(jī)制的內(nèi)核模塊實(shí)現(xiàn)偽代碼。用偽代碼描述LCRT機(jī)制的加載函數(shù)如下:

int lcrt_init(void)

{

printk("Registering my__panic notifier.");

bt_nvram_ptr=(volatile unsigned char*)ioremap_

nocache (BT_NVRAM_BASE,BT_NVRAM_LENGTH);

bt_nvram_index+=sizeof(struct bt_info);

*)bt_nvram_ptr,BT_NVRAM_LENGTH);

notifier_chain_register(panic_notifier_list,my_

panic_block);

return 0;

}

LCRT機(jī)制的通知處理函數(shù)完成函數(shù)調(diào)用關(guān)系回溯、得到函數(shù)名稱、函數(shù)棧內(nèi)容等工作,限于篇幅,在這里用下面?zhèn)未a說明:

void ll_bt_information(struct pt_regs *pr)

{

變量定義等初始化工作

do {

reglist=*(unsigned long *)(*myfp-8);

//從函數(shù)棧幀的頂部獲取函數(shù)開始執(zhí)行時(shí)保存的寄存器信息

  //從函數(shù)的代碼區(qū)中取得函數(shù)的名稱

//從函數(shù)的棧幀里取出函數(shù)執(zhí)行函數(shù)體代碼之前保存的函數(shù)參數(shù)信息

  //從本函數(shù)的棧幀中得到調(diào)用本函數(shù)的代碼所在位置和調(diào)用本函數(shù)的函數(shù)棧幀的棧底

}while(直到函數(shù)調(diào)用鏈的鏈頭);

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉