新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 嵌入式系統(tǒng)的高可用性:始終可用

嵌入式系統(tǒng)的高可用性:始終可用

作者:Warren Webb,EDN技術(shù)編輯 時(shí)間:2008-09-02 來(lái)源:EDN China 收藏

  設(shè)計(jì)人員正在調(diào)整各種高可用體系結(jié)構(gòu),以滿足客戶對(duì)用于下一代超級(jí)可靠系統(tǒng)應(yīng)用的持久數(shù)據(jù)接口的需求。

  要 點(diǎn)

  ·高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)實(shí)現(xiàn)動(dòng)態(tài)路徑,人們能?chē)@不可操作的子系統(tǒng)重新設(shè)定信息路由。

  ·管理軟件自動(dòng)監(jiān)視系統(tǒng)工作,并在發(fā)生故障或性能降低時(shí)用冗余元件來(lái)替換。

  ·熱插拔特性實(shí)現(xiàn)無(wú)中斷的修理和升級(jí),并為發(fā)展容錯(cuò)自愈系統(tǒng)鋪平了道路。

  ·刀片計(jì)算機(jī)集群以更低的采購(gòu)和運(yùn)營(yíng)成本支持可擴(kuò)展、高密度、高可用的服務(wù)器系統(tǒng)。

本文引用地址:http://2s4d.com/article/87623.htm

  隨著普適計(jì)算時(shí)代的到來(lái)(屆時(shí)用戶將可隨時(shí)隨地訪問(wèn)信息和服務(wù)),系統(tǒng)設(shè)計(jì)人員在提高服務(wù)器、遠(yuǎn)程設(shè)備、數(shù)據(jù)傳輸基礎(chǔ)設(shè)施的可用性方面承受著日益增大的壓力。鑒于其應(yīng)用,人們對(duì)系統(tǒng)可靠性的期望遠(yuǎn)遠(yuǎn)高于對(duì)多數(shù)其它計(jì)算系統(tǒng)的期望。終止或重啟其中一些關(guān)鍵應(yīng)用系統(tǒng)需要承擔(dān)人身財(cái)產(chǎn)或重要信息損失的風(fēng)險(xiǎn)。在滿足這些要求的過(guò)程中,嵌入式系統(tǒng)設(shè)計(jì)者運(yùn)用各種智能硬件和軟件冗余技巧在日常運(yùn)行中實(shí)現(xiàn)高達(dá) 99.999% 的可用性,即每年停機(jī)時(shí)間不到六分鐘。

  “”描述系統(tǒng)特性,它們使系統(tǒng)在發(fā)生硬件或軟件故障時(shí)能夠保持連續(xù)工作。高可用系統(tǒng)具有內(nèi)置監(jiān)視和復(fù)制數(shù)據(jù)路徑,透明地取代可選硬件或軟件組件復(fù)制正常功能,在出現(xiàn)故障時(shí)也能照常工作。一般而言,系統(tǒng)還支持在不中斷運(yùn)行的前提下替換故障組件或升級(jí)。隨著通用連接的問(wèn)世,數(shù)據(jù)安全也成了可用性的一個(gè)要素,這是因?yàn)槲词跈?quán)的黑客、惡意軟件或外部“拒絕服務(wù)”攻擊會(huì)導(dǎo)致預(yù)期功能中斷??捎眯砸话愣x為 /(+MTTR),其中 是指平均無(wú)故障時(shí)間,MTTR 是指平均修理時(shí)間。

  對(duì)于越來(lái)越多的嵌入式系統(tǒng)應(yīng)用都變得十分必要,而不斷提高的技術(shù)趨勢(shì)使系統(tǒng)設(shè)計(jì)任務(wù)日益困難。例如,可以預(yù)見(jiàn),隨著客戶需要嵌入式設(shè)備中有更多功能,增加的硬件和軟件組件帶來(lái)了新的故障模式。顯然,增加的的組件不利于達(dá)到更高的可用性,甚至產(chǎn)生其它冗余性,從而不斷加劇系統(tǒng)復(fù)雜性。當(dāng)前向普遍連接發(fā)展的趨勢(shì)也給高可用嵌入式系統(tǒng)設(shè)計(jì)者帶來(lái)了許多數(shù)據(jù)安全與通信可靠性問(wèn)題。雖然最可靠的系統(tǒng)可能使用有限資源的簡(jiǎn)便的單獨(dú)設(shè)備,但設(shè)計(jì)者必須采用一種提高任意嵌入配置可用性的戰(zhàn)略。

  不間斷運(yùn)行

  當(dāng)前多數(shù)用于提高服務(wù)可用性的訣竅和技巧均源自電信行業(yè)。多年來(lái),電信設(shè)備制造商設(shè)計(jì)了多種方案,以便提供不間斷的服務(wù),即使發(fā)生硬件和軟件故障也是如此。遺憾的是,多數(shù)方案都是專有的,維護(hù)費(fèi)用高,并且難以在要求演變時(shí)進(jìn)行更新。它們還需要很長(zhǎng)的開(kāi)發(fā)周期。設(shè)備設(shè)計(jì)者無(wú)法利用 COTS(商用現(xiàn)貨)構(gòu)件,這是因?yàn)闆](méi)有通用內(nèi)置設(shè)備提高服務(wù)可用性。為了解決可用性難題,電路板制造商制定一系列可與專有系統(tǒng)性能匹敵的硬件和軟件規(guī)范。

   (智能平臺(tái)管理接口)規(guī)范是用來(lái)解決可用性問(wèn)題的最早標(biāo)準(zhǔn)之一,它由戴爾、英特爾、惠普、NEC 公司制定,旨在從本地和遠(yuǎn)程監(jiān)視設(shè)備,以便執(zhí)行電源管理、冷卻、電子鍵控和熱插拔等事務(wù)處理。 與管理控制器相互配合,后者在主機(jī)處理器出現(xiàn)故障時(shí)可依靠自身運(yùn)行。借助平臺(tái)管理,操作人員能監(jiān)視設(shè)備是否出現(xiàn)邊際操作或潛在問(wèn)題,并能在它們變成系統(tǒng)故障之前糾正它們。PICMG (Peripheral Component Interconnect Industrial Computer Manufacturers Group)組織把 的若干變體都包含到電路板級(jí) CompactPCI 規(guī)范和 ATCA(高級(jí)電信計(jì)算架構(gòu))規(guī)范中。

  為了最大限度發(fā)揮 IPMI 的優(yōu)勢(shì),設(shè)備客戶需要具備熱插拔功能,以便在不關(guān)閉系統(tǒng)的情況下替換出故障的系統(tǒng)板。熱插拔系統(tǒng)要求硬件和軟件能夠在等待修理的同時(shí),動(dòng)態(tài)設(shè)定信號(hào)路由,使其繞過(guò)出故障的組件。必備熱插拔技術(shù)之一是系統(tǒng)板和背板之間的物理連接。如果不控制電源涌流和背板信號(hào)連接,簡(jiǎn)單直連可能會(huì)干擾總線上的其它板。例如,CompactPCI 利用不同長(zhǎng)度的分級(jí)引腳來(lái)控制通向背板的物理連接??ㄆ瑢?dǎo)向器確保板的插入垂直于背板。較長(zhǎng)的引腳首先對(duì)接、供電并接地,以便對(duì) PCI 總線信號(hào)預(yù)充電。串聯(lián)電阻限制了電源電流浪涌。中等長(zhǎng)度引腳連至處于預(yù)充電、高阻抗或禁用狀態(tài)的 PCI 總線信號(hào)。最短的引腳支持總線通信。

  防故障交換結(jié)構(gòu)

  串行交換結(jié)構(gòu)技術(shù)是另一種設(shè)計(jì)創(chuàng)新,對(duì)于高可用性系統(tǒng)有多種好處。這些體系結(jié)構(gòu)允許在計(jì)算節(jié)點(diǎn)之間設(shè)立動(dòng)態(tài)數(shù)據(jù)路徑,并支持多路并發(fā)數(shù)據(jù)傳輸。交換結(jié)構(gòu)的一個(gè)主要好處是,每條連接均為直接的點(diǎn)到點(diǎn)數(shù)據(jù)路徑,并帶來(lái)更好的電特性,允許的頻率和帶寬高于總線體系結(jié)構(gòu)。典型的交換結(jié)構(gòu)使用多級(jí)開(kāi)關(guān)在源和目標(biāo)之間建立路由。這些動(dòng)態(tài)路徑對(duì)于高可用性設(shè)計(jì)也很有價(jià)值,使人們能?chē)@不可操作的子系統(tǒng)設(shè)定數(shù)據(jù)路由。多數(shù)主要電路板標(biāo)準(zhǔn)現(xiàn)在都規(guī)定交換結(jié)構(gòu),盡管它們并未提出具體的交換結(jié)構(gòu)技術(shù)實(shí)現(xiàn)數(shù)據(jù)傳輸。與此相反,一系列附屬規(guī)范為以太網(wǎng)、InfiniBand、StaRFabric、PCI Express、RapidIO 等各種交換結(jié)構(gòu)對(duì)背板進(jìn)行詳細(xì)定義。雖然這種方法滿足了業(yè)內(nèi)不同觀點(diǎn)的要求,但它也可能造成同一標(biāo)準(zhǔn)內(nèi)部的互操作問(wèn)題。

  VITA(VMEbus International Trade Association)41 VXS 為廣泛應(yīng)用的 VMEbus (Versa-module eurocard bus)增添了一些交換結(jié)構(gòu)技術(shù)高可用性優(yōu)勢(shì)。VXS 規(guī)范定義了一種有效載荷卡、一種交換卡、一種新型高帶寬背板連接器,并保留標(biāo)準(zhǔn)的并行 VMEbus 連接器。每個(gè)新型交換結(jié)構(gòu)端口均包含兩組四聯(lián)串行位通道——一組用于輸入數(shù)據(jù),另一組用于輸出數(shù)據(jù),對(duì)于每條串行通道均支持 10 Gbps 數(shù)據(jù)速率。交換卡包含必要的結(jié)構(gòu)交換功能,以便在有效負(fù)荷卡之間或圍繞故障設(shè)定串行數(shù)據(jù)路由,或使其繞過(guò)故障。為了保持交換結(jié)構(gòu)任意性,VITA 41子規(guī)范為 InfiniBand、串行RapidIO、GbE(千兆以太網(wǎng))、PCI Express 定義了交換卡和有效載荷卡。

  PICMG(PCI Industrial Computer Manufacturers Group)針對(duì)電信設(shè)備的獨(dú)特要求,發(fā)布了 ATCA 規(guī)范,提供 VME 和 CompactPCI 等開(kāi)放體系結(jié)構(gòu)的替代結(jié)構(gòu)。ATCA 重點(diǎn)強(qiáng)調(diào)高可用性特性,采用高速串行數(shù)據(jù)鏈路和交換結(jié)構(gòu)技術(shù)。超大板面積支持復(fù)雜的電信電路,并提供輸入電源和冷卻功能,實(shí)現(xiàn)每插槽高達(dá) 200 W 的功率。ATCA 規(guī)范具有適用于所有板和有源模塊的熱插拔功能,因此最大限度減少系統(tǒng)中斷。一個(gè)機(jī)架管理元件(其規(guī)范基于IPMI)監(jiān)視各插入模塊的健康、功率、冷卻甚至鍵控情況,以確保各子系統(tǒng)在高效率工作。各模塊從冗余-48V直流饋電器獲得電力,并從冗余控制與數(shù)據(jù)板獲取數(shù)據(jù),以防止單一故障使整個(gè)機(jī)箱停止運(yùn)行。

  Adlink Technology公司利用 ATCA 的熱插拔和機(jī)架管理特性優(yōu)勢(shì),并延伸了它的性能極限,于最近發(fā)布了aTCA-6900 CPU刀片服務(wù)器,該服務(wù)器配備兩顆四核 Intel Xeon 處理器和兩個(gè)AdvancedMC (Mezzanine-Card)支架,以實(shí)現(xiàn)設(shè)計(jì)的靈活性(圖 1)。aTCA-6900 CPU 刀片服務(wù)器可支持八顆CPU內(nèi)核以及一種交換結(jié)構(gòu),后者包括2個(gè)10千兆以太網(wǎng)接口、2個(gè)PCI Express 接口和2個(gè)光通道接口。板載存儲(chǔ)設(shè)備包括 4 GB USB 閃存和各種硬盤(pán)安裝選件。前面板I/O包括視頻、3個(gè)USB 2.0 端口、2 個(gè) RJ-45 以太網(wǎng)端口以及 1 個(gè) RJ-45 串口。aTCA-6900 起價(jià)不到 5000 美元。

  準(zhǔn)確到達(dá)的數(shù)據(jù)流

  隨著聯(lián)網(wǎng)嵌入式設(shè)備的增多,對(duì)于專用可靠數(shù)據(jù)源的需求成了任何新產(chǎn)品開(kāi)發(fā)過(guò)程中的主要考慮事項(xiàng)。如果人們采用多個(gè)設(shè)備,并且它們均需要各自不同而又同時(shí)存在的數(shù)據(jù)流,那么數(shù)據(jù)服務(wù)器處理要求就變得十分關(guān)鍵了。文件共享、安全監(jiān)視、娛樂(lè)等許多嵌入式系統(tǒng)應(yīng)用均需要來(lái)自專用服務(wù)器的獨(dú)立且始終可用的數(shù)據(jù)流。為了達(dá)到對(duì)這些以數(shù)據(jù)為中心的項(xiàng)目可用性的期望,設(shè)計(jì)師正在轉(zhuǎn)向每機(jī)架數(shù)百顆 CPU 并且每板多顆 CPU 的高密度電腦陣列。具有多塊電腦板的系統(tǒng)一般稱作刀片服務(wù)器,它具備系統(tǒng)管理、負(fù)載均衡、熱插拔功能以及共享外設(shè),為萬(wàn)維網(wǎng)訪問(wèn)和數(shù)據(jù)服務(wù)提供高度可靠的數(shù)據(jù)。單個(gè)刀片計(jì)算機(jī)一般不配備本地外設(shè),要對(duì)它們進(jìn)行遠(yuǎn)程管理。集群式服務(wù)器運(yùn)行管理軟件來(lái)平衡計(jì)算負(fù)載,報(bào)告故障,提供刀片配置信息,并監(jiān)視熱插拔事務(wù)處理。刀片服務(wù)器基本上是一些需要特殊軟件管理系統(tǒng)以便達(dá)到最長(zhǎng)正常運(yùn)行時(shí)間的高可用性系統(tǒng)。單獨(dú)的管理網(wǎng)絡(luò)提高了服務(wù)器安全性,這是因?yàn)樗煞乐龟P(guān)鍵的操作系統(tǒng)信息和更新數(shù)據(jù)經(jīng)過(guò)公共網(wǎng)絡(luò)或互聯(lián)網(wǎng)。

  幾家開(kāi)放源代碼和商用軟件組織致力于提高操作系統(tǒng)和嵌入固件的可靠性。例如,High Availability Linux Project 主辦一項(xiàng)開(kāi)放源代碼開(kāi)發(fā)工作,旨在為 Linux 操作系統(tǒng)提供一種集群體系結(jié)構(gòu),以提高可靠性、可用性和可服務(wù)性。Heartbeat 是該項(xiàng)目最知名的組成部分,在網(wǎng)絡(luò)上定期向其它 Heartbeat 實(shí)例發(fā)送數(shù)據(jù)包來(lái)驗(yàn)證性能。當(dāng)系統(tǒng)不再收到數(shù)據(jù)包時(shí),它就按照用戶提供的公式來(lái)假定發(fā)生了節(jié)點(diǎn)故障,并自動(dòng)將服務(wù)路由到替代節(jié)點(diǎn)。

  與此類似,Service Availability Forum 由通信公司和計(jì)算設(shè)備公司組成,他們合作制定高可用性和管理軟件接口規(guī)范。這些規(guī)范針對(duì)一些電信系統(tǒng)與服務(wù)開(kāi)發(fā)商,其系統(tǒng)和服務(wù)采用 CompactPCI 和 ATCA 等 COTS 模塊構(gòu)建。他們的目的是允許更多地重復(fù)使用硬件和軟件,并縮短產(chǎn)品開(kāi)發(fā)周期。硬件平臺(tái)接口規(guī)范定義了 COTS 硬件和高可用性管理中間件之間的接口(圖 2)。于是各應(yīng)用無(wú)需專有軟件接口就能獨(dú)立搜索、監(jiān)視和管理硬件。

  得益于最新一代電路板標(biāo)準(zhǔn)和專門(mén)的軟件開(kāi)發(fā)員社區(qū)的幫助,設(shè)計(jì)師目前擁有多種工具使用現(xiàn)成可用的產(chǎn)品來(lái)配置高可用嵌入式系統(tǒng)。盡管發(fā)展趨勢(shì)是多功能和復(fù)雜的嵌入式產(chǎn)品,但設(shè)計(jì)師可以把來(lái)自多家供應(yīng)商的組件組合起來(lái),以便滿足其性能要求,并仍能達(dá)到甚至超過(guò)難以企及的“5 個(gè) 9”(99.999%) 可用性目標(biāo)。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: 嵌入式 高可用性 MTBF IPMI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉