關(guān)于全光網(wǎng)生存性的問(wèn)題及其解決方法
由于OXC、OADM的出現(xiàn),使得聯(lián)網(wǎng)不僅能在業(yè)務(wù)層進(jìn)行,光層的聯(lián)網(wǎng)也變成現(xiàn)實(shí)。如何控制和管理網(wǎng)絡(luò)就變成一個(gè)非常重要而且相當(dāng)棘手的問(wèn)題。由于現(xiàn)在所有的光器件都是電控型的,所以如何在光層之上構(gòu)造一個(gè)合適的控制平臺(tái)就成了問(wèn)題的關(guān)鍵。現(xiàn)在國(guó)際上的四大組織作的各種草案,雖各有差異,但基本的思路都是相似的。他們總的思路都是以IP為核心,借用IP網(wǎng)中的流量控制(TE)、IS-IS、OSPF、RIP、RSVP等一系列協(xié)議,并在原協(xié)議的基礎(chǔ)上進(jìn)行擴(kuò)展和修改來(lái)達(dá)到控制光網(wǎng)絡(luò)的目的,而且將信令網(wǎng)(控制平臺(tái))與業(yè)務(wù)網(wǎng)相分離(最起碼是邏輯上的分離)。
光層的聯(lián)網(wǎng)畢竟不同于電層,而且現(xiàn)在要做的不僅僅是單粒度的控制和調(diào)度,而是立足于小到一個(gè)分組、TDM、ATM業(yè)務(wù),大到光波長(zhǎng)、光纖級(jí)的多粒度調(diào)度和分配。所以控制平臺(tái)或者說(shuō)是信令網(wǎng)的構(gòu)造不僅僅是涉及到一個(gè)層面的問(wèn)題,而是涉及到幾個(gè)層面,既要向前兼容,又需向后兼容;既要保證光網(wǎng)的大容量、可平滑升級(jí)擴(kuò)容以及強(qiáng)壯性,又要保證業(yè)務(wù)的QoS和CoS。要實(shí)現(xiàn)這樣一個(gè)功能強(qiáng)大的、綜合的信令網(wǎng),有很多問(wèn)題值得仔細(xì)研究。
故障檢測(cè)和定位
故障檢測(cè)和定位的大目標(biāo)首先是為快速準(zhǔn)確地實(shí)現(xiàn)保護(hù)倒換和業(yè)務(wù)的恢復(fù),其次是為了整個(gè)網(wǎng)絡(luò)的管理和維護(hù)。
由于到目前為止,光域上能夠準(zhǔn)確檢測(cè)的參數(shù)只有光功率、光信噪比(OSNR)和中心波長(zhǎng),而像誤碼率、LOS、LOF這類(lèi)參數(shù)只能在電域檢測(cè)。由于故障檢測(cè)是實(shí)現(xiàn)自愈的第一步,而且保護(hù)倒換和路由的恢復(fù)都有嚴(yán)格的時(shí)間要求,所以故障檢測(cè)不僅要求準(zhǔn)確,而且要求快速。
故障的定位是實(shí)現(xiàn)保護(hù)倒換和路由恢復(fù)的第二步,是至關(guān)重要的一步,要實(shí)現(xiàn)自愈,必須實(shí)現(xiàn)故障的快速和準(zhǔn)確定位。因?yàn)橹挥写_定了故障的具體位置,才能進(jìn)行網(wǎng)絡(luò)的保護(hù)和恢復(fù)以及進(jìn)一步的業(yè)務(wù)配置,如果一個(gè)網(wǎng)絡(luò)不能進(jìn)行精確的故障定位,那么網(wǎng)絡(luò)的生存性就不會(huì)得到保證。
但是由于故障的傳遞性、檢測(cè)機(jī)制的不完善性以及故障檢測(cè)與故障傳遞之間的時(shí)差的原因使得故障的定位在光網(wǎng)絡(luò)中成為一個(gè)難點(diǎn)。當(dāng)在一個(gè)網(wǎng)絡(luò)中發(fā)生光纖斷裂和節(jié)點(diǎn)掉電等收鮮?,相关的皆戙簣D觳獾憔婢?SPAN class=GramE>即情況往往是一處發(fā)生故障,網(wǎng)絡(luò)中多處產(chǎn)生告警,所以必須知道全網(wǎng)的信息(包括配置和業(yè)務(wù)信息),才能精確地進(jìn)行定位。當(dāng)然這也不是不可逾越的困難,故障的定位除與節(jié)點(diǎn)自身的功能緊密相關(guān)外,還與信令的傳送方式或者說(shuō)信令網(wǎng)總的控制方式直接相關(guān)。一般而言,只有在知道全網(wǎng)的信息的情況下才能實(shí)現(xiàn)故障的準(zhǔn)確定位,但是由于故障的發(fā)生是帶有偶然性的,也即各節(jié)點(diǎn)收到的信息是突發(fā)性的,不能拿一般的馬爾可夫理論進(jìn)行分析,即不屬于一般的M/M/X排隊(duì)模型,而是屬于D/M/X模型,如果每個(gè)節(jié)點(diǎn)(分布式控制)或者說(shuō)主節(jié)點(diǎn)(集中式控制)需要收集所有故障信息來(lái)處理,那么不僅要一套復(fù)雜的算法,而且節(jié)點(diǎn)處理該信息時(shí)必須合理考慮故障傳遞與信息傳遞的時(shí)差問(wèn)題,這樣就增加了實(shí)現(xiàn)的復(fù)雜度,而且也難以滿(mǎn)足時(shí)效性的要求。
解決方法:對(duì)于分布式控制的網(wǎng)絡(luò),采用分布式定位的方法,這種分布式的故障定位方法是與業(yè)務(wù)和鏈路相關(guān)的。對(duì)于集中式控制的網(wǎng)絡(luò),即有主控節(jié)點(diǎn)的網(wǎng)絡(luò),故障定位采用分層定位的方法,即首先由單節(jié)點(diǎn)承擔(dān)一部分故障的簡(jiǎn)單分析,如:本節(jié)點(diǎn)相關(guān)告警的過(guò)濾和屏蔽,還有本節(jié)點(diǎn)嚴(yán)重告警的定位,然后再將處理結(jié)果上報(bào)主控節(jié)點(diǎn),由主控節(jié)點(diǎn)進(jìn)一步分析和處理,最終確定故障的具體位置。 {{分頁(yè)}}
從上述分析可以看出,單節(jié)點(diǎn)能夠定位的故障是有限的,必須將所有相關(guān)的告警收集起來(lái)進(jìn)行相關(guān)性分析,才能實(shí)現(xiàn)故障的精確定位。這就涉及到單節(jié)點(diǎn)處理后的信息如何合理和正確地發(fā)布的問(wèn)題。這就涉及到故障信息的編碼,合理有效的編碼將會(huì)使故障定位真正做到快速而又準(zhǔn)確。當(dāng)然,在故障信息發(fā)布的同時(shí),必須輔以相應(yīng)的故障信息抑制,否則,故障信息的不斷發(fā)布將會(huì)使故障定位產(chǎn)生連帶的錯(cuò)誤。
故障信息的傳送
集中式控制
在集中式控制下,由于所有的控制信息都是由主控節(jié)點(diǎn)下發(fā)的,所以檢測(cè)到故障后,應(yīng)該盡快地將本節(jié)點(diǎn)處理后的告警和定位信息送到主節(jié)點(diǎn),使主控節(jié)點(diǎn)能夠快速和準(zhǔn)確地進(jìn)行故障分析和定位?,F(xiàn)有兩種處理方式可供參考:
* 廣播式方法,即一旦檢測(cè)到故障,稍加處理就以廣播的形式進(jìn)行發(fā)送,其他非相關(guān)節(jié)點(diǎn)僅僅起轉(zhuǎn)接該信息的作用,只有主控節(jié)點(diǎn)才能接收此信息。
這種處理方式的優(yōu)點(diǎn)是思路簡(jiǎn)單,但是它帶來(lái)的負(fù)面影響是信令網(wǎng)中的信息流量加大,容易產(chǎn)生控制流的阻塞,而且會(huì)使非主控節(jié)點(diǎn)的處理變得復(fù)雜化。所以廣播信息的控制和管理是必不可少的,而這本身就是一個(gè)通信控制的難題,所以此方法實(shí)現(xiàn)起來(lái)相對(duì)困難。
* 最短路徑方式發(fā)送,即每個(gè)非主控節(jié)點(diǎn)都有路由表,該路由表上記錄了該節(jié)點(diǎn)到主控節(jié)點(diǎn)最短徑以及其他可達(dá)路徑的出口。通過(guò)這種方式故障信息就可以最快的方式到達(dá)主控節(jié)點(diǎn)。此種方式處理簡(jiǎn)單,但它要求每個(gè)節(jié)點(diǎn)都儲(chǔ)存必需的路由表,而且在網(wǎng)絡(luò)更改或者擴(kuò)容時(shí)不得不更改路由表,故不可避免地要增加系統(tǒng)的代價(jià)。
分布式控制
在分布式控制下,各節(jié)點(diǎn)的地位是平等的,所以各節(jié)點(diǎn)對(duì)故障的兩層過(guò)濾都由自己完成,但是如果每個(gè)節(jié)點(diǎn)都像集中控制方式下的主控節(jié)點(diǎn),不僅不經(jīng)濟(jì),而且處理的復(fù)雜度相當(dāng)大,很難滿(mǎn)足時(shí)效性的嚴(yán)格要求。所以其第二層處理功能應(yīng)該僅僅收集相關(guān)鏈路或者通道的故障信息,但是這就需要本節(jié)點(diǎn)了解整個(gè)網(wǎng)絡(luò)的拓?fù)?,處理上還是比較困難,需要定制一套相當(dāng)復(fù)雜的算法。
實(shí)現(xiàn)分布式控制下信令的傳送,是實(shí)現(xiàn)其定位的關(guān)鍵,如何將相關(guān)的故障信息收集到本節(jié)點(diǎn),以實(shí)現(xiàn)故障的定位,是非常復(fù)雜的。下面提出兩種處理的方法:
* 廣播式發(fā)送。這種方式與集中方式下的廣播相比,沒(méi)有任何優(yōu)勢(shì),因?yàn)榻M播地址內(nèi)要攜帶所有相關(guān)節(jié)點(diǎn)的IP地址,要求每個(gè)節(jié)點(diǎn)必須知道和分析全網(wǎng)的業(yè)務(wù)配置信息。
* 分布選路的方式,即信令網(wǎng)自身的選路,依據(jù)自身攜帶的信息來(lái)進(jìn)行選路,最終目的是將所攜帶的故障信息送到能定位的節(jié)點(diǎn)。這種信息發(fā)布方式需要非常復(fù)雜的算法支持,因?yàn)槊總€(gè)節(jié)點(diǎn)都要依據(jù)收到的信息來(lái)決定是否與自己相關(guān),即每個(gè)節(jié)點(diǎn)都要進(jìn)行復(fù)雜的運(yùn)算和查詢(xún)自己的數(shù)據(jù)庫(kù)信息。{{分頁(yè)}}
保護(hù)倒換和路由恢復(fù)
一是將保護(hù)倒換和路由恢復(fù)分開(kāi)考慮,即采用不同的編碼、不同的機(jī)制。這是出于時(shí)間要求的考慮,保護(hù)倒換要求在50ms完成,而路由恢復(fù)要求為2s。
另一種思路是統(tǒng)一編碼、不同處理的方法,即IETF的思路。這種思路的主要出發(fā)點(diǎn)是為迎合現(xiàn)在流行的IPV6協(xié)議處理模式。但是這種處理方式較復(fù)雜。
其實(shí)解決了第二種思路,第一種也就迎刃而解?,F(xiàn)在來(lái)分析第二種思路的實(shí)現(xiàn)。
保護(hù)倒換分析
一般的保護(hù)方式有:
1.1+1方式,一般用于端到端的保護(hù)——鏈路、通道和業(yè)務(wù)均可。
2.1:1方式,適用于端到端的保護(hù)和業(yè)務(wù)的保護(hù)。
3.M:N方式,資源共享的保護(hù)方式,通常采用通道保護(hù)方式。
4.環(huán)網(wǎng)APS保護(hù)方式,包括兩纖單向環(huán)、兩纖雙向環(huán)和四纖雙向環(huán)。在環(huán)網(wǎng)中又分復(fù)用段保護(hù)和通道共享保護(hù),是利用環(huán)網(wǎng)的特殊結(jié)構(gòu)來(lái)實(shí)施的一種保護(hù)方式,屬于對(duì)資源的保護(hù)。
在光網(wǎng)絡(luò)中采用的保護(hù)方式也不會(huì)超出這幾種。但是各種不同的保護(hù)方式有由其相應(yīng)的應(yīng)用場(chǎng)合,所以不同的故障應(yīng)選用不同的保護(hù)方式。由于環(huán)網(wǎng)具有很強(qiáng)的自愈能力,全光環(huán)形網(wǎng)絡(luò)也可借用升級(jí)的環(huán)網(wǎng)APS協(xié)議來(lái)實(shí)現(xiàn)保護(hù),但對(duì)于格形網(wǎng)而言情況就十分復(fù)雜,因?yàn)槠淠骋绘溌坊蛘咄ǖ缽牟煌挠^(guān)點(diǎn)來(lái)看屬于不同的簡(jiǎn)單拓?fù)?,選用那種保護(hù)方式與其子網(wǎng)標(biāo)識(shí)密切相關(guān)。為了實(shí)現(xiàn)快速的保護(hù)倒換以及增強(qiáng)格形網(wǎng)的“強(qiáng)壯”性,利用圖論的知識(shí)將格形網(wǎng)劃分為幾個(gè)子網(wǎng)(以最小環(huán)進(jìn)行劃分,不能歸為最小環(huán)的,標(biāo)識(shí)為樹(shù)),將這些子網(wǎng)進(jìn)行標(biāo)識(shí),就可以在整個(gè)格形網(wǎng)中對(duì)不同子網(wǎng)中的故障采取不同的保護(hù)方法,對(duì)環(huán)形子網(wǎng)中的故障借用環(huán)網(wǎng)的保護(hù)方法,對(duì)樹(shù)形子網(wǎng)中的故障采用相應(yīng)的1+1或者M(jìn):N保護(hù)。這是因?yàn)楦裥尉W(wǎng)其實(shí)就是環(huán)網(wǎng)的相交相割再加上一些樹(shù)形拓?fù)洌ɑ蛘吖聧u)而構(gòu)成的。對(duì)處于不同子網(wǎng)的資源和業(yè)務(wù)實(shí)施不同的保護(hù)方式,可以提高網(wǎng)絡(luò)的生存性。
路由恢復(fù)分析
由于不管那種保護(hù)方式都需要預(yù)留資源,如果一個(gè)網(wǎng)絡(luò)中全部采用保護(hù)方式的話(huà),這勢(shì)必大大降低網(wǎng)絡(luò)資源的利用率,所以一個(gè)網(wǎng)絡(luò)中除了采取適當(dāng)?shù)谋Wo(hù)方式外,一般要采用業(yè)務(wù)恢復(fù)的方法來(lái)實(shí)施對(duì)業(yè)務(wù)的保護(hù)。由于恢復(fù)路由不是預(yù)留的而是按照一定的優(yōu)化方法算出來(lái)的,所以它比保護(hù)方案更能合理地利用網(wǎng)絡(luò)的資源,更能優(yōu)化業(yè)務(wù)的分配。但是由于恢復(fù)路由是在故障情況下臨時(shí)算出來(lái)的,所以勢(shì)必造成恢復(fù)時(shí)間比保護(hù)時(shí)間長(zhǎng),此外它必須是在故障定位信息已經(jīng)更新的情況下才能計(jì)算。故恢復(fù)時(shí)間取決于故障定位時(shí)間和算法的時(shí)間以及網(wǎng)絡(luò)的規(guī)模。
與保護(hù)倒換不同,路由恢復(fù)和資源調(diào)度不僅僅要了解線(xiàn)路或者通道的好壞,而且需要了解各鏈路和通道的資源使用情況。只有這樣,才能依據(jù)一定的波長(zhǎng)路由算法進(jìn)行資源的合理調(diào)配。 {{分頁(yè)}}
集中式控制情況下有利于網(wǎng)絡(luò)的最優(yōu)化,但是由于主控節(jié)點(diǎn)記憶的數(shù)據(jù)量太大和處理的“事務(wù)”過(guò)多,速度不高,不適合于大型網(wǎng)絡(luò)。分布式控制由于不是依據(jù)全網(wǎng)的信息來(lái)選路和恢復(fù),所以不利于網(wǎng)絡(luò)的最優(yōu)化,但是各個(gè)節(jié)點(diǎn)處于同等的地位,處理相對(duì)簡(jiǎn)單,所以速度相對(duì)較快,而且適合于任何規(guī)模的網(wǎng)絡(luò),但是隨著網(wǎng)絡(luò)的運(yùn)行,可能會(huì)導(dǎo)致網(wǎng)絡(luò)的應(yīng)用嚴(yán)重不合理。
根據(jù)上述分析,在一個(gè)大型網(wǎng)絡(luò)中,筆者認(rèn)為應(yīng)該兩種控制方式并存。對(duì)于實(shí)時(shí)性要求高的一些操作,例如資源的保護(hù)和重要業(yè)務(wù)的恢復(fù)采用分布式的控制方法,也可借用預(yù)選恢復(fù)路由的方法來(lái)實(shí)現(xiàn)。對(duì)于一些實(shí)時(shí)性要求不高的操作,例如業(yè)務(wù)配置、性能管理、維護(hù)等則可采用集中式控制的方法,這樣有利于合理配置網(wǎng)絡(luò),對(duì)于一些既要求實(shí)時(shí)性,而分布式控制方法很難解決或者說(shuō)解決有困難的操作,例如故障定位,則可以采用兩種控制方法結(jié)合的分節(jié)控制的方法來(lái)實(shí)現(xiàn),這樣就可以提高網(wǎng)絡(luò)控制和管理的靈活性,而且提高實(shí)時(shí)性和合理性。
拓?fù)浣Y(jié)構(gòu)的識(shí)別
為了在一個(gè)網(wǎng)絡(luò)中同時(shí)支持保護(hù)倒換和路由的恢復(fù),并且要保護(hù)和恢復(fù)協(xié)調(diào)操作,這就需要借用圖論的知識(shí)將網(wǎng)絡(luò)劃分為幾個(gè)子網(wǎng)。在這些不同拓?fù)涞倪壿嬜泳W(wǎng)中來(lái)分別執(zhí)行不同的保護(hù)和恢復(fù)方式。一般而言,保護(hù)是針對(duì)資源即物理層和段層的保護(hù),而恢復(fù)是針對(duì)業(yè)務(wù)層,即僅僅針對(duì)業(yè)務(wù)的。為實(shí)現(xiàn)這個(gè)目的,就需要信令網(wǎng)具有識(shí)別拓?fù)浣Y(jié)構(gòu)的能力,以及能夠按照一定的規(guī)則來(lái)劃分不同的子網(wǎng),這應(yīng)該是啟動(dòng)保護(hù)倒換和路由恢復(fù)的依據(jù),以及啟動(dòng)何種保護(hù)倒換類(lèi)型的必備信息。當(dāng)然這些信息不應(yīng)實(shí)時(shí)運(yùn)行,應(yīng)該具有相對(duì)的穩(wěn)定性,否則將會(huì)導(dǎo)致信令的交換時(shí)間過(guò)長(zhǎng),處理也十分復(fù)雜,更難保證保護(hù)、恢復(fù)等實(shí)時(shí)性要求高的操作。一般是設(shè)置一定時(shí)器,每隔一固定時(shí)間,查詢(xún)和自動(dòng)識(shí)別一次,還有就是故障觸發(fā)識(shí)別,即在系統(tǒng)發(fā)生故障的情況下來(lái)修改拓?fù)浣Y(jié)構(gòu),還有就是由網(wǎng)管啟動(dòng)識(shí)別命令來(lái)強(qiáng)制識(shí)別,這通常用于系統(tǒng)升級(jí)擴(kuò)容和改造時(shí)。
拓?fù)渥R(shí)別一般有兩種處理方法:
一是由網(wǎng)管配置,即規(guī)劃網(wǎng)絡(luò)時(shí)將網(wǎng)絡(luò)拓?fù)浒匆欢ǖ乃惴ɑ蛘甙凑赵O(shè)計(jì)者的要求分為幾個(gè)子網(wǎng),然后由網(wǎng)管配置各節(jié)點(diǎn)的子網(wǎng)標(biāo)識(shí)。這種做法的前提是必須事先知道網(wǎng)絡(luò)的物理配置。在網(wǎng)絡(luò)升級(jí),或者物理拓?fù)涓淖兊那闆r下,需要重新配置。這種做法的主要好處就是簡(jiǎn)單易操作、便于管理,缺點(diǎn)就是實(shí)時(shí)性不強(qiáng)、對(duì)網(wǎng)絡(luò)操作者的依賴(lài)性過(guò)強(qiáng),也即對(duì)維護(hù)者的知識(shí)要求較高,這種方法是相對(duì)靜態(tài)的,也是目前使用較多的方法。
第二種方法是節(jié)點(diǎn)自動(dòng)識(shí)別,在不同的控制方式下,實(shí)現(xiàn)的方法和難易不同。
集中式控制:網(wǎng)絡(luò)拓?fù)涞淖R(shí)別工作應(yīng)該交給主控節(jié)點(diǎn)完成。在大型網(wǎng)絡(luò)中,這種方式的實(shí)現(xiàn)非常復(fù)雜,所以距離實(shí)用化還有很長(zhǎng)一段路要走。
分布式控制:為了識(shí)別整個(gè)網(wǎng)絡(luò)的拓?fù)?,必須知道全網(wǎng)的信息,但分布式控制機(jī)制下的節(jié)點(diǎn)明顯不具備這個(gè)功能,所以此功能可以交給中心網(wǎng)管來(lái)完成。相比于集中式控制,兩者的區(qū)別是:集中式控制把網(wǎng)絡(luò)的識(shí)別放在控制層完成,速度相對(duì)較快,而分布式控制則必須將網(wǎng)絡(luò)的識(shí)別交由管理層完成,速度相對(duì)較慢。 {{分頁(yè)}}
信令的交換
集中式控制
下行方向的信息(由主控節(jié)點(diǎn)發(fā)給其他非主控節(jié)點(diǎn)的信息)的傳送和握手方式有兩種:
* 一種是IETF提到的,也就是貝爾實(shí)驗(yàn)室現(xiàn)在采用的方法:并行發(fā)送、串行握手后決定動(dòng)作的準(zhǔn)則。
* 另一種是依據(jù)光網(wǎng)絡(luò)不同于電網(wǎng)絡(luò)的特點(diǎn)以及利用集中式控制的優(yōu)點(diǎn)提出的并行發(fā)送、先接收命令、再相互握手的準(zhǔn)則。
這兩種方案各有優(yōu)缺點(diǎn):第一種方案保證了動(dòng)作的正確性,即一般不會(huì)發(fā)生差錯(cuò),這種方案繼承了以前電域協(xié)議的先握手后倒換的思想。第二種方案是從實(shí)際情況演繹出來(lái)的一種追求時(shí)效性的方法。它的缺點(diǎn)是有產(chǎn)生差錯(cuò)的可能,但優(yōu)點(diǎn)是其倒換時(shí)間非常短。
分布式控制
這種分布選路的方式,必須采用先握手、再動(dòng)作的命令。因?yàn)榇藭r(shí)單節(jié)點(diǎn)不足以知道全網(wǎng)的狀態(tài),而僅僅了解與其相關(guān)的一些鏈路、通道及節(jié)點(diǎn)的狀況,所以如果采用先動(dòng)作、再握手的規(guī)則的話(huà),其錯(cuò)誤概率是無(wú)法估計(jì)的。
在此種方式下,節(jié)點(diǎn)的相應(yīng)命令僅僅發(fā)送給其相關(guān)的節(jié)點(diǎn),其他節(jié)點(diǎn)在收到這些命令后,僅僅轉(zhuǎn)發(fā)相應(yīng)命令,源節(jié)點(diǎn)收到這些回應(yīng)命令后才作出相應(yīng)的動(dòng)作,并且向其他相關(guān)節(jié)點(diǎn)發(fā)確認(rèn)信息,其他節(jié)點(diǎn)收到此命令后,也做相應(yīng)的動(dòng)作,并回送確認(rèn)信令,至此一個(gè)動(dòng)作完成。
評(píng)論