新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 基于DSP雙機容錯實時系統(tǒng)的設(shè)計

基于DSP雙機容錯實時系統(tǒng)的設(shè)計

作者: 時間:2012-04-13 來源:網(wǎng)絡(luò) 收藏


容錯的研究主要集中在兩個方面:① 改進實時調(diào)度算法,使之確保實時任務(wù)在正常運行和遇到錯誤時,均能在規(guī)定時限到來以前獲得正確的輸出。② 將過去應(yīng)用于普通計算機系統(tǒng)中的冗余容錯策略移植到中。

本文引用地址:http://2s4d.com/article/257576.htm

在具有硬件容錯能力的計算機系統(tǒng)中,其失效65%來自軟件,僅有8%來自于硬件。因此,軟件容錯能力成為決定計算機系統(tǒng)可靠性的關(guān)鍵。為了在出現(xiàn)硬件或軟件的暫時或永久故障的情況下,保證關(guān)鍵任務(wù)仍能在規(guī)定的時限范圍內(nèi)完成運算,并輸出正確的結(jié)果,提出一種雙處理器實時嵌入式容錯系統(tǒng)體系結(jié)構(gòu)。該系統(tǒng)結(jié)構(gòu)采用多處理器體系結(jié)構(gòu),實現(xiàn)計算機之間的通信,并無縫整合了計算機硬件、操作系統(tǒng)、應(yīng)用軟件級的軟件容錯設(shè)計,達到從整體上提高系統(tǒng)可靠性的目的。

1 的體系結(jié)構(gòu)

本系統(tǒng)采用圖1所示的系統(tǒng)硬件結(jié)構(gòu)模型。該系統(tǒng)在雙機比較系統(tǒng)的基礎(chǔ)上,結(jié)合多處理機的松耦合與緊耦合系統(tǒng)結(jié)構(gòu),在不同的處理機間通過通道互連實現(xiàn)通信,為在硬件容錯中結(jié)合軟件容錯提供可能。

圖1 系統(tǒng)結(jié)構(gòu)模型

A機和B機各有獨自的外圍控制邏輯和外設(shè),這樣不會引起系統(tǒng)資源的競爭,增加整體系統(tǒng)的穩(wěn)定性。當然,這樣是以花費更多的硬件設(shè)施為代價的。比較器及不一致檢測用專門設(shè)計的仲裁檢測電路來實現(xiàn),其根據(jù)A機與B機周期向其發(fā)送的自檢測信號來判斷A機系統(tǒng)和B機系統(tǒng)運行的狀況。

雙機系統(tǒng)的運行狀態(tài)如下:

① 如果A機與B機均正常運行,則將計算機A作為主系統(tǒng),計算機B作為備份使用,A機的運行結(jié)果作為系統(tǒng)輸出,A機運行到檢測點,向B機發(fā)送日志,B機更新日志列表。

② 如果A機正常而B機故障,亦將A機的運行結(jié)果作為系統(tǒng)輸出,同時將B機的運行故障狀態(tài)報告給A機,并向B機進行復(fù)位控制操作。

③ 如果A機故障,B機正常,則進行開關(guān)切換操作,B機進行系統(tǒng)備份任務(wù)重調(diào)度,B機運行結(jié)果作為系統(tǒng)輸出,并向A機進行復(fù)位控制操作,在檢測點更新A機日志,保持需要備份的任務(wù)狀態(tài)一致。

2 軟件設(shè)計與實現(xiàn)

圖2所示模型結(jié)合嵌入式實時系統(tǒng)的體系結(jié)構(gòu),采用層次結(jié)構(gòu)和模塊結(jié)構(gòu)相結(jié)合,無縫整合了計算機硬件、操作系統(tǒng)、應(yīng)用軟件級的軟件容錯設(shè)計。在整體上采用分層的結(jié)構(gòu)模型,克服了軟、硬件分離和脫節(jié)的問題,提高系統(tǒng)的靈活性和可移植性。模型的每一層均可以看作是一個相對獨立的系統(tǒng)。在每一層中按照系統(tǒng)功能,劃分不同的功能模塊。

圖2 雙機容錯系統(tǒng)軟件體系結(jié)構(gòu)

該系統(tǒng)采用對稱結(jié)構(gòu),為支持容錯處理,每個節(jié)點從下到上分為3個主要部分,即MCFT(Multiprocessor CommunicatiON for Fault Tolerance)、RTOS系統(tǒng)級容錯組件、任務(wù)級動態(tài)冗余組件。

2.1 多機容錯通信模塊MCFT

在操作系統(tǒng)與硬件之間加入MCFT層,MCFT作為BSP(Board Support Package)的一部分,作為硬件平臺的抽象層,為操作系統(tǒng)提供統(tǒng)一的界面,提高系統(tǒng)的可移植性。有容錯需求的任務(wù),通過MCFT所提供的功能傳遞日志,保持主系統(tǒng)和備份系統(tǒng)的關(guān)鍵任務(wù)的狀態(tài)和數(shù)據(jù)一致。MCFT屏蔽了底層通信的具體實現(xiàn)細節(jié),使系統(tǒng)的實現(xiàn)與連接介質(zhì)無關(guān)。

MPFT管理著一些數(shù)據(jù)包,并且在各個節(jié)點之間發(fā)送和接收這些數(shù)據(jù)包,數(shù)據(jù)包的結(jié)構(gòu)如下:

2.2 RTOS系統(tǒng)級容錯組件

RTOS系統(tǒng)級容錯組件,包括系統(tǒng)內(nèi)核級容錯支持組件、系統(tǒng)自診斷組件和主/備用機切換支持組件。

(1) 內(nèi)核級容錯支持組件

為支持操作系統(tǒng)級和應(yīng)用級通信,在該系統(tǒng)中,每個節(jié)點上保存兩個對象表,一個本地任務(wù)表,一個容錯任務(wù)表。本地任務(wù)表在每個節(jié)點上都是不同的,它包含在此節(jié)點上創(chuàng)建的所有任務(wù)。容錯對象表包含系統(tǒng)中所有的容錯任務(wù),在所有節(jié)點上是一樣的。為保持在所有節(jié)點上容錯任務(wù)表的一致性,每個節(jié)點對容錯對象的創(chuàng)建、刪除等都必須通知給備份節(jié)點。利用檢查點技術(shù)和傳遞日志法,保持主系統(tǒng)和備份系統(tǒng)的備份任務(wù)的狀態(tài)和數(shù)據(jù)一致。一旦主機發(fā)生故障,系統(tǒng)程序自動進行主/備用機切換,備用機系統(tǒng)使備份任務(wù)就緒,利用實時任務(wù)的調(diào)度策略,使備份任務(wù)在備份機上發(fā)生重調(diào)度,成為主機。

(2) 系統(tǒng)自診斷組件

如圖3所示,系統(tǒng)中采用自診斷的方法來診斷系統(tǒng)級的故障,用任務(wù)級的檢測來診斷應(yīng)用級的故障。

自診斷劃分為幾個不同的測試階段,系統(tǒng)啟動自檢測階段和周期自檢測階段。自動啟動診斷的因素有:主/備用機定時切換和主機發(fā)生故障。周期自檢測階段根據(jù)系統(tǒng)需求,周期性檢測外設(shè)和通信口。每個階段對應(yīng)設(shè)備的幾種功能塊,包括CPU的自診斷、中斷響應(yīng)自診斷、串口自診斷、定時器自診斷、離散量自診斷、RAM自診斷等。

由于結(jié)果比較是實時系統(tǒng)中任何事務(wù)處理都需要經(jīng)歷的步驟,因此把任務(wù)級的故障檢測放到結(jié)果判別部分進行。

(3) 主/備用機切換支持組件

仲裁檢測電路中對主/備用機設(shè)置了“看門狗”監(jiān)視器。當主/備用機處于正常工作狀態(tài)時,運行于CPU上的某一任務(wù)周期性地對“看門狗”施加復(fù)位信號,這樣,“看門狗”計數(shù)器就不可能產(chǎn)生溢出觸發(fā)信號;當CPU出現(xiàn)故障時,“看門狗”會輸出一個離散觸發(fā)信號并發(fā)出報警,此時,系統(tǒng)進行自動切換,讓備用的系統(tǒng)機工作。

2.3 任務(wù)級動態(tài)冗余

在實時多任務(wù)系統(tǒng)中,采用另一種軟件冗余方法——任務(wù)級動態(tài)冗余。任務(wù)級動態(tài)冗余方法是實時系統(tǒng)中瞬間故障的恢復(fù)方法之一。

在實時多任務(wù)的環(huán)境下,充分利用操作系統(tǒng)提供的功能,對各個基本任務(wù)建立后備任務(wù)作為冗余,并對后備任務(wù)進行容錯調(diào)度,從而起到類似于重試或卷回恢復(fù)的作用。利用檢查點技術(shù)和傳遞日志法保持主系統(tǒng)和備份系統(tǒng)的狀態(tài)的一致性,實現(xiàn)錯誤恢復(fù),有較高的性價比。

根據(jù)應(yīng)用程序,結(jié)合實時性要求,采用以下的措施:

① 把應(yīng)用程序分解成多個任務(wù),任務(wù)以過程的形式出現(xiàn),各個任務(wù)進入運行的順序是從1到?n,并在每個任務(wù)的最后設(shè)置檢查點,傳遞日志。

② 根據(jù)應(yīng)用程序的要求事先給各個任務(wù)安排優(yōu)先級,使得任務(wù)可以根據(jù)要求及時占有處理器,實現(xiàn)實時處理。

③ 為各基本任務(wù)準備一個后備任務(wù)存放在內(nèi)存中,平時后備任務(wù)不建立,不占有系統(tǒng)資源,僅在需要時才激活使用,后備任務(wù)的優(yōu)先級比相應(yīng)的優(yōu)先級要高。馬上建立就搶占執(zhí)行,是某種意義上的重試或程序卷回。

④ 為實現(xiàn)恢復(fù)功能的后備任務(wù),可以和原有任務(wù)完全一樣,也可以是替換算法。

下面的算法能為各個任務(wù)產(chǎn)生容錯調(diào)度,從而實現(xiàn)任務(wù)冗余:

當后備任務(wù)執(zhí)行了Nmax次之后還通不過檢測,就認為系統(tǒng)出現(xiàn)永久故障,系統(tǒng)報警。Nmax是個閥門值,是由實時要求所決定的。

3 可靠性分析

在考慮了雙機的切換問題(包括切入成功率,與此相關(guān)的切入時間和再次切入的時間及其故障判別問題)后,完整的雙機容錯系統(tǒng)的穩(wěn)態(tài)可用度為


其中:λ為平均失效率,β為故障診斷率,是平均診斷時間的倒數(shù);μ為平均維修率,是平均維修時間的倒數(shù);α為加入失效率,是平均切入時間的倒數(shù);C為故障判別率;α′為再次切入失效率,是再次切入時間的倒數(shù)(重啟雙工時間的倒數(shù));D為切入成功率。

采用對稱雙機系統(tǒng),在典型值的計算中可以獲得99.99995%的可用度。

4 結(jié)論

隨著實時系統(tǒng)在安全領(lǐng)域內(nèi)越來越多的應(yīng)用,可靠性已經(jīng)成為衡量系統(tǒng)優(yōu)劣的重要因素之一。傳統(tǒng)的實時系統(tǒng)容錯只滿足了系統(tǒng)某一方面的容錯需求。為了在出現(xiàn)硬件或軟件的暫時或永久故障的情況下,系統(tǒng)仍能在規(guī)定的時限范圍內(nèi)完成運算,并輸出正確的結(jié)果,本文提出一個軟、硬件結(jié)合的完整的解決方案,能滿足系統(tǒng)的強實時性、高可靠性、服務(wù)不斷流的要求。此方案應(yīng)用于RTEMS中,具有很高的可靠性。



關(guān)鍵詞: DSP 雙機容錯 實時系統(tǒng)

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉