嵌入式代碼經(jīng)常產(chǎn)生bug的五大原因
在嵌入式開發(fā)軟件中查找和消除潛在的錯(cuò)誤是一項(xiàng)艱巨的任務(wù)。通常需要英勇的努力和昂貴的工具才能從觀察到的崩潰、死機(jī)或其他計(jì)劃外的運(yùn)行時(shí)行為追溯到根本原因。
本文引用地址:http://2s4d.com/article/202401/454709.htm在最壞的情況下,根本原因會(huì)破壞代碼或數(shù)據(jù),使系統(tǒng)看起來仍然可以正常工作或至少在一段時(shí)間內(nèi)仍能正常工作。
工程師常常放棄嘗試發(fā)現(xiàn)不常見異常的原因,這些異常在實(shí)驗(yàn)室中不易再現(xiàn),將其視為用戶錯(cuò)誤或“小故障”。然而,機(jī)器中的這些鬼魂仍然存在。這是難以重現(xiàn)錯(cuò)誤的最常見根本原因指南。每當(dāng)您閱讀固件源代碼時(shí),請(qǐng)查找以下五個(gè)主要錯(cuò)誤。并遵循建議的最佳做法,以防止它們?cè)俅伟l(fā)生在您身上。
1. 競(jìng)爭(zhēng)條件
競(jìng)爭(zhēng)條件是指兩個(gè)或多個(gè)執(zhí)行線程(可以是RTOS任務(wù)或main() 和中斷處理程序)的組合結(jié)果根據(jù)交織指令的精確順序而變化的任何情況。每個(gè)都在處理器上執(zhí)行。
例如,假設(shè)您有兩個(gè)執(zhí)行線程,其中一個(gè)規(guī)則地遞增一個(gè)全局變量(g_counter + = 1; ),而另一個(gè)偶然將其歸零(g_counter = 0; )。如果不能始終以原子方式(即,在單個(gè)指令周期內(nèi))執(zhí)行增量,則存在競(jìng)爭(zhēng)條件。
如圖1所示,將任務(wù)視為汽車接近同一十字路口。計(jì)數(shù)器變量的兩次更新之間的沖突可能永遠(yuǎn)不會(huì)發(fā)生,或者很少會(huì)發(fā)生。但是,這樣做的時(shí)候,計(jì)數(shù)器實(shí)際上不會(huì)在內(nèi)存中清零。其值至少在下一個(gè)清零之前是損壞的。這種影響可能會(huì)對(duì)系統(tǒng)造成嚴(yán)重后果,盡管可能要等到實(shí)際碰撞后很長(zhǎng)一段時(shí)間才會(huì)出現(xiàn)。
最佳實(shí)踐:可以通過必須以適當(dāng)?shù)膿屜认拗菩袨閷?duì)原子地執(zhí)行代碼的關(guān)鍵部分,來避免競(jìng)爭(zhēng)條件。為防止涉及ISR的爭(zhēng)用情況,必須在另一個(gè)代碼的關(guān)鍵部分持續(xù)時(shí)間內(nèi)至少禁止一個(gè)中斷信號(hào)。
對(duì)于RTOS任務(wù)之間的爭(zhēng)用,最佳實(shí)踐是創(chuàng)建特定于該共享庫的互斥體,每個(gè)互斥體在進(jìn)入關(guān)鍵部分之前必須獲取該互斥體。請(qǐng)注意,依靠特定CPU的功能來確保原子性不是一個(gè)好主意,因?yàn)檫@只能防止?fàn)幱们闆r發(fā)生,直到更換編譯器或CPU。
共享數(shù)據(jù)和搶占的隨機(jī)時(shí)間是造成競(jìng)爭(zhēng)狀況的元兇。但是錯(cuò)誤可能并不總是會(huì)發(fā)生,這使得從觀察到的癥狀到根本原因的種族狀況跟蹤變得異常困難。因此,保持警惕以保護(hù)所有共享對(duì)象非常重要。每個(gè)共享對(duì)象都是一個(gè)等待發(fā)生的事故。
最佳實(shí)踐:命名所有潛在共享的對(duì)象(包括全局變量,堆對(duì)象或外圍寄存器和指向該對(duì)象的指針),以使風(fēng)險(xiǎn)對(duì)于所有將來的代碼閱讀者而言都是顯而易見的;在Netrino嵌入式C編碼標(biāo)準(zhǔn)提倡使用“的G_ 為此,”前綴。查找所有可能共享的對(duì)象將是爭(zhēng)用條件代碼審核的第一步。
2. 不可重入功能
從技術(shù)上講,不可重入功能的問題是爭(zhēng)用狀況問題的特例。而且,由于相關(guān)原因,由不可重入函數(shù)引起的運(yùn)行時(shí)錯(cuò)誤通常不會(huì)以可重現(xiàn)的方式發(fā)生 —— 使它們同樣難以調(diào)試。不幸的是,非重入功能也比其他類型的競(jìng)爭(zhēng)條件更難在代碼審查中發(fā)現(xiàn)。
圖2顯示了一個(gè)典型的場(chǎng)景。在這里,要搶占的軟件實(shí)體也是RTOS任務(wù)。但是,它們不是通過直接調(diào)用共享對(duì)象而是通過函數(shù)調(diào)用間接操作。
例如,假設(shè)任務(wù)A調(diào)用套接字層協(xié)議功能,該套接字功能調(diào)用TCP層協(xié)議功能,調(diào)用IP層協(xié)議功能,該功能調(diào)用以太網(wǎng)驅(qū)動(dòng)程序。為了使系統(tǒng)可靠地運(yùn)行,所有這些功能都必須是可重入的。
但是,以太網(wǎng)驅(qū)動(dòng)程序的所有功能都以以太網(wǎng)控制器芯片的寄存器形式操作相同的全局對(duì)象。如果在這些寄存器操作期間允許搶占,則任務(wù)B可以在將數(shù)據(jù)包A排隊(duì)之后但在發(fā)送開始之前搶占任務(wù)A。
然后,任務(wù)B調(diào)用套接字層功能,該套接字層功能調(diào)用TCP層功能,再調(diào)用IP層功能,該功能調(diào)用以太網(wǎng)驅(qū)動(dòng)程序,該隊(duì)列將數(shù)據(jù)包B排隊(duì)并傳輸。
當(dāng)CPU的控制權(quán)返回到任務(wù)A時(shí),它將請(qǐng)求傳輸。根據(jù)以太網(wǎng)控制器芯片的設(shè)計(jì),這可能會(huì)重傳數(shù)據(jù)包B或產(chǎn)生錯(cuò)誤。數(shù)據(jù)包A丟失,并且不會(huì)發(fā)送到網(wǎng)絡(luò)上。
為了可以同時(shí)從多個(gè)RTOS任務(wù)中調(diào)用此以太網(wǎng)驅(qū)動(dòng)程序的功能,必須使它們可重入。如果它們每個(gè)僅使用堆棧變量,則無事可做。
因此,C函數(shù)最常見的樣式固有地是可重入的。但是,除非精心設(shè)計(jì),否則驅(qū)動(dòng)程序和某些其他功能將是不可重入的。
使函數(shù)可重入的關(guān)鍵是暫停對(duì)外圍設(shè)備寄存器,包括靜態(tài)局部變量,持久堆對(duì)象和共享內(nèi)存區(qū)域在內(nèi)的全局變量的所有訪問的搶占。這可以通過禁用一個(gè)或多個(gè)中斷或獲取并釋放互斥鎖來完成。問題的細(xì)節(jié)決定了最佳解決方案。
最佳實(shí)踐:在每個(gè)庫或驅(qū)動(dòng)程序模塊中創(chuàng)建和隱藏一個(gè)互斥量,這些互斥量不是本質(zhì)上可重入的。使獲取此互斥鎖成為操作整個(gè)模塊中使用的任何持久數(shù)據(jù)或共享寄存器的前提。
例如,相同的互斥鎖可用于防止涉及以太網(wǎng)控制器寄存器和全局或靜態(tài)本地?cái)?shù)據(jù)包計(jì)數(shù)器的競(jìng)爭(zhēng)情況。在訪問這些數(shù)據(jù)之前,模塊中訪問此數(shù)據(jù)的所有功能必須遵循協(xié)議以獲取互斥量。
注意非重入功能可能會(huì)作為第三方中間件,舊版代碼或設(shè)備驅(qū)動(dòng)程序的一部分進(jìn)入您的代碼庫。
令人不安的是,不可重入函數(shù)甚至可能是編譯器隨附的標(biāo)準(zhǔn)C或C++庫的一部分。如果您使用GNU編譯器來構(gòu)建基于RTOS的應(yīng)用程序,請(qǐng)注意您應(yīng)該使用可重入的“newlib”標(biāo)準(zhǔn)C庫,而不是默認(rèn)庫。
3. 缺少volatile關(guān)鍵字
如果未使用C的volatile關(guān)鍵字標(biāo)記某些類型的變量,則可能導(dǎo)致僅在將編譯器的優(yōu)化器設(shè)置為低級(jí)或禁用編譯器才能正常工作的系統(tǒng)中出現(xiàn)許多意外行為。該揮發(fā)性預(yù)選賽期間變量聲明,其中它的目的是為了防止優(yōu)化的讀取和變量的寫入使用。
例如,如果您編寫清單1所示的代碼,則優(yōu)化器可能會(huì)通過消除第一行來嘗試使程序更快速、更小,從而損害患者的健康。但是,如果將g_alarm聲明為volatile ,那么將不允許這種優(yōu)化。
最佳實(shí)踐:將揮發(fā)的關(guān)鍵字應(yīng)該用于聲明每個(gè):由ISR和代碼的任何其他部分訪問的全局變量,由兩個(gè)或多個(gè)RTOS任務(wù)訪問的全局變量(即使已阻止了這些訪問中的競(jìng)爭(zhēng)條件),指向內(nèi)存映射外設(shè)寄存器(或一組或一組寄存器)的指針,以及延遲循環(huán)計(jì)數(shù)器。
請(qǐng)注意,除了確保所有讀寫操作都針對(duì)給定變量之外,使用volatile還通過添加其他“序列點(diǎn)”來限制編譯器。除易失性變量的讀取或?qū)懭胫獾钠渌资栽L問必須在該訪問之前執(zhí)行。
4. 堆棧溢出
每個(gè)程序員都知道堆棧溢出是很不好的事情。但是,每次堆棧溢出的影響都各不相同。損壞的性質(zhì)和不當(dāng)行為的時(shí)機(jī)完全取決于破壞哪些數(shù)據(jù)或指令以及如何使用它們。重要的是,從堆棧溢出到它對(duì)系統(tǒng)的負(fù)面影響之間的時(shí)間長(zhǎng)短取決于使用阻塞位之前的時(shí)間。
不幸的是,堆棧溢出比臺(tái)式計(jì)算機(jī)更容易遭受嵌入式系統(tǒng)的困擾。這有幾個(gè)原因,其中包括:
· 嵌入式系統(tǒng)通常只能占用較少的RAM;
· 通常沒有虛擬內(nèi)存可回退(因?yàn)闆]有磁盤);
· 基于RTOS任務(wù)的固件設(shè)計(jì)利用了多個(gè)堆棧(每個(gè)任務(wù)一個(gè)),每個(gè)堆棧的大小都必須足夠大,以確保不會(huì)出現(xiàn)唯一的最壞情況的堆棧深度;
· 中斷處理程序可能會(huì)嘗試使用這些相同的堆棧。
使該問題進(jìn)一步復(fù)雜化的是,沒有大量的測(cè)試可以確保特定的堆棧足夠大。您可以在各種加載條件下測(cè)試系統(tǒng),但是只能測(cè)試很長(zhǎng)時(shí)間。僅在“半個(gè)藍(lán)月亮”中運(yùn)行的測(cè)試可能不會(huì)見證僅在“一次藍(lán)月亮”中發(fā)生的堆棧溢出。
在算法限制(例如無遞歸)下,可以通過對(duì)代碼的控制流進(jìn)行自上而下的分析來證明不會(huì)發(fā)生堆棧溢出。但是,每次更改代碼時(shí),都需要重做自上而下的分析。
最佳實(shí)踐:啟動(dòng)時(shí),在整個(gè)堆棧上繪制不太可能的內(nèi)存模式。(我喜歡使用十六進(jìn)制23 3D 3D 23,它看起來像ASCII內(nèi)存轉(zhuǎn)儲(chǔ)中的籬笆' #==# '。)在運(yùn)行時(shí),讓管理員任務(wù)定期檢查是否沒有任何涂料在預(yù)先設(shè)定的高水位上方標(biāo)記已更改。
如果發(fā)現(xiàn)某個(gè)堆棧有問題,請(qǐng)?jiān)诜且资詢?nèi)存中記錄特定的錯(cuò)誤(例如哪個(gè)堆棧以及洪水的高度),并為產(chǎn)品的用戶做一些安全的事情(例如,受控關(guān)閉或重置)可能會(huì)發(fā)生真正的溢出。這是添加到看門狗任務(wù)中的一項(xiàng)不錯(cuò)的附加安全功能。
5. 堆碎片化
嵌入式開發(fā)工程師并沒有很好地利用動(dòng)態(tài)內(nèi)存分配。其中之一是堆碎片的問題。
通過C的malloc()標(biāo)準(zhǔn)庫例程或C++的new關(guān)鍵字創(chuàng)建的所有數(shù)據(jù)結(jié)構(gòu)都駐留在堆中。堆是RAM中具有預(yù)定最大大小的特定區(qū)域。最初,堆中的每個(gè)分配都會(huì)減少相同字節(jié)數(shù)的剩余“可用”空間。
例如,特定系統(tǒng)中的堆可能從地址0x20200000開始跨越10KB。一對(duì)4KB數(shù)據(jù)結(jié)構(gòu)的分配將留下2KB的可用空間。
可以通過調(diào)用free()或使用delete關(guān)鍵字將不再需要的數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)返回到堆中。從理論上講,這使該存儲(chǔ)空間可用于后續(xù)分配期間的重用。但是分配和刪除的順序通常至少是偽隨機(jī)的,這導(dǎo)致堆變成一堆更小的碎片。
若要查看碎片可能是一個(gè)問題,請(qǐng)考慮如果上述4KB數(shù)據(jù)結(jié)構(gòu)中的第一個(gè)空閑時(shí)會(huì)發(fā)生什么情況?,F(xiàn)在,堆由一個(gè)4KB的空閑塊和另一個(gè)2KB的空閑塊組成。它們不相鄰,無法合并。所以我們的堆已經(jīng)被分割了。盡管總可用空間為6KB,但超過4KB的分配將失敗。
碎片類似于熵:兩者都隨時(shí)間增加。在長(zhǎng)時(shí)間運(yùn)行的系統(tǒng)(換句話說,曾經(jīng)創(chuàng)建的大多數(shù)嵌入式系統(tǒng))中,碎片最終可能會(huì)導(dǎo)致某些分配請(qǐng)求失敗。然后呢?您的固件應(yīng)如何處理堆分配請(qǐng)求失敗的情況?
最佳實(shí)踐:避免完全使用堆是防止此錯(cuò)誤的肯定方法。但是,如果動(dòng)態(tài)內(nèi)存分配在您的系統(tǒng)中是必需的或方便的,則可以使用另一種結(jié)構(gòu)化堆的方法來防止碎片。
關(guān)鍵觀察是問題是由大小可變的請(qǐng)求引起的。如果所有請(qǐng)求的大小都相同,則任何空閑塊都將與其他任何塊一樣好,即使它恰巧不與任何其他空閑塊相鄰。圖3顯示了如何將多個(gè)“堆”(每個(gè)用于特定大小的分配請(qǐng)求)的使用實(shí)現(xiàn)為“內(nèi)存池”數(shù)據(jù)結(jié)構(gòu)。
許多實(shí)時(shí)操作系統(tǒng)都具有固定大小的內(nèi)存池API。如果您可以訪問其中之一,請(qǐng)使用它代替malloc()和free()?;蚓帉懽约旱墓潭ù笮〉膬?nèi)存池API。您只需要三個(gè)函數(shù):一個(gè)用于創(chuàng)建新的池(大小為M塊N字節(jié));另一個(gè)分配一個(gè)塊(來自指定的池);三分之一代替free()。
代碼審查仍然是最佳實(shí)踐,可以通過首先確保系統(tǒng)中不存在這些錯(cuò)誤來避免許多調(diào)試麻煩。最好的方法是讓公司內(nèi)部或外部的人員進(jìn)行全面的代碼審查。
強(qiáng)制使用我在這里描述的最佳實(shí)踐的標(biāo)準(zhǔn)規(guī)則編碼也應(yīng)該會(huì)有所幫助。如果您懷疑現(xiàn)有代碼中存在這些討厭的錯(cuò)誤之一,那么執(zhí)行代碼審查可能比嘗試從觀察到的故障追溯到根本原因要快。
評(píng)論