故障域隔離(FDI)方法有效避免網(wǎng)絡(luò)事故的“互相推諉”
當(dāng)網(wǎng)絡(luò)問題并不復(fù)雜,并且當(dāng)大家都來自同一個組織的時候,專家團隊方法能夠有效地對事故作出響應(yīng)。但近年來,隨著基礎(chǔ)架構(gòu)云端化,相關(guān)利益主體分布在不同的部門、公司和地理區(qū)域,針對網(wǎng)絡(luò)事故和業(yè)務(wù)應(yīng)用性能問題的根本原因分析(RCA)變得越發(fā)困難。
本文引用地址:http://2s4d.com/article/201808/387898.htm為滿足服務(wù)水平協(xié)議(SLA)要求并防止客戶流失,快速查明根本原因已成為許多企業(yè)的首要任務(wù)。但是,據(jù)《Emulex可視性調(diào)查》表明,79%的企業(yè)曾經(jīng)將事故發(fā)生的原因錯誤地歸咎于某個IT部門,這不僅增添了混亂程度,還推遲了解決問題的時間。
針對以上問題,本文將介紹一個由數(shù)據(jù)包分析驅(qū)動的故障域隔離(FDI)方法,幫助企業(yè)進行故障檢修并解決網(wǎng)絡(luò)和應(yīng)用性能問題。
外包成為主流
即使整個基礎(chǔ)架構(gòu)由一家企業(yè)所有,要充分了解整個基礎(chǔ)架構(gòu)的實際狀態(tài)也會非常困難。更何況,當(dāng)外包業(yè)務(wù)迅速擴張時,端到端業(yè)務(wù)應(yīng)用就會逐漸出現(xiàn)許多盲點。如果整個技術(shù)層都被外包出去,就會出現(xiàn)一個巨大的盲點,導(dǎo)致您無法在該技術(shù)域內(nèi)進行RCA。為了順應(yīng)技術(shù)外包的趨勢,企業(yè)必須清楚地區(qū)別事故響應(yīng)工作流程中FDI階段與RCA階段的目的和要求。
什么是FDI?
FDI的理念很簡單,任何看過病的人都不難理解,它跟醫(yī)療保健領(lǐng)域的“事故調(diào)查”流程在本質(zhì)上相似。首先,一名全科醫(yī)生會進行初步評估、安排診斷測試并評估結(jié)果。然后,患者將接受??漆t(yī)生的檢查,而且只有在證據(jù)充分、可以確定病情時才會進行其他診斷和治療。診斷過程以事實而不是以猜測作為依據(jù)。
部署FDI的企業(yè)希望最大限度地減少參與每次事故調(diào)查的技術(shù)專家的人數(shù)和類型,這就是FDI需要在RCA之前進行的原因。這樣做的目的是為了在開始深入分析根本原因之前找到一個可疑的技術(shù)層。為什么要按技術(shù)進行隔離呢?一是因為IT部門和外包業(yè)務(wù)通常是按技術(shù)劃分的,二是因為這樣有助于快速減少參與人員的數(shù)量。由于只會牽涉到一個故障域,技術(shù)隔離可以避免整個部門及外部企業(yè)由于接受調(diào)查而導(dǎo)致業(yè)務(wù)停頓。這就好比您不會讓一名神經(jīng)外科醫(yī)生來檢查腳趾骨折一樣。
FDI的一個主要目的是防止調(diào)查過程中“相互推諉”的現(xiàn)象。要使FDI更為有效,必須提供確鑿的證據(jù),證實某個“可疑”子系統(tǒng)或技術(shù)層是導(dǎo)致問題的根本原因。同時,還需要確認(rèn)任何其他子系統(tǒng)或技術(shù)層不可能是問題的根源所在。當(dāng)故障域位于外包技術(shù)中時,這一點尤為重要。
在將問題移交給負(fù)責(zé)的團隊或服務(wù)提供商處理的時候,有效的FDI還有助于提供與特定技術(shù)相關(guān)、可付諸行動的數(shù)據(jù),這將為技術(shù)團隊提供相關(guān)情景、癥狀和信息,以便他們立即針對其所負(fù)責(zé)的系統(tǒng)進行深入的根本原因分析。
圖1: 事故響應(yīng)流程
只需要一組事實
為保證其效率及有效性,F(xiàn)DI需要根據(jù)在技術(shù)層之間交換的實際數(shù)據(jù)包進行分析。數(shù)據(jù)包不會“撒謊”,它們也不會掩蓋平均值或統(tǒng)計數(shù)據(jù)中的關(guān)鍵細(xì)節(jié)。以基本數(shù)據(jù)包作為證據(jù)可以確保FDI流程找到對于事故具有不可推卸責(zé)任的故障技術(shù)層。
“首要FDI”指的是將事故交予特定技術(shù)團隊或外包服務(wù)提供商。它的目標(biāo)相對簡單,即在少數(shù)部門、團隊以及外包服務(wù)商中分配事故,因而是一種極為經(jīng)濟的實施方法。在實際操作中,它涉及的技術(shù)層、網(wǎng)絡(luò)中的分路點以及在每個技術(shù)層之間進行監(jiān)控的網(wǎng)絡(luò)記錄器均相對較少。
什么原因?qū)е铝搜舆t?
當(dāng)人們認(rèn)真地進行RCA并且有自信確定問題所在的時候,人們就可以降低成本并縮短解決問題的時間。當(dāng)負(fù)責(zé)處理問題的人員擁有正確評估原因及解決問題的專業(yè)技能時,RCA就能達到最佳效果。
在前文,我們提到以數(shù)據(jù)包為導(dǎo)向的FDI流程能夠有效加快事故調(diào)查并減少參與人員數(shù)量。此外,F(xiàn)DI不需要很多分路器和設(shè)備即可對主要技術(shù)層進行隔離,從而實現(xiàn)其首要目標(biāo)——僅指派相關(guān)的人員參與事故調(diào)查。那么,為什么很多重大事故調(diào)查仍然需要召開專家小組會議呢?
問題在于,有的人認(rèn)為,僅僅依靠若干分路器和網(wǎng)絡(luò)記錄器不足以完全解決復(fù)雜的事故。您知道嗎?他們的看法是正確的。但是,這并不是事故調(diào)查流程FDI階段的目標(biāo),該階段的目標(biāo)是隔離故障。通過基本數(shù)據(jù)包以及數(shù)據(jù)包分析的流程,您可以簡單有效地實現(xiàn)這一目標(biāo)。
分而治之
首要/一級FDI流程會將事故隔離到由企業(yè)內(nèi)部結(jié)構(gòu)和外包安排所定義的單一技術(shù)層。要達到首要FDI的最佳效果,我們需要:1) 使用網(wǎng)絡(luò)記錄工具監(jiān)控和儲存技術(shù)層之間產(chǎn)生的網(wǎng)絡(luò)流量;2) 通過應(yīng)用事務(wù)分析(Application Transaction Analysis)來進行故障隔離。數(shù)據(jù)包存儲對于高效的FDI所依賴的回顧性分析(Back-in-time Analysis)至關(guān)重要。
您可能已經(jīng)猜到,F(xiàn)DI是一個可以分層部署的“分治”流程。您還可以在每個技術(shù)層次中進行FDI,從而進一步隔離問題,直到高效完成RCA。這個過程可以稱為“層內(nèi)FDI”或“輔助FDI”。
輔助FDI工作流程尤其適用于網(wǎng)絡(luò)事故調(diào)查。同理,為達到FDI的最佳效果,我們需要監(jiān)控并儲存關(guān)鍵網(wǎng)絡(luò)組件之間的實際數(shù)據(jù)包流,從而進行有效的回顧性分析。
如果以網(wǎng)絡(luò)內(nèi)FDI作為目標(biāo),則需要了解應(yīng)在哪些位置部署網(wǎng)絡(luò)分路器和網(wǎng)絡(luò)記錄工具。首要FDI與網(wǎng)絡(luò)內(nèi)FDI之間的主要區(qū)別在于觀察點的位置更多與物理位置、技術(shù)、員工專業(yè)技能以及外包程度和外部提供商有關(guān),與組織問題關(guān)系不大。但是,F(xiàn)DI流程較為類似:執(zhí)行基于數(shù)據(jù)包的分析以提供確鑿證據(jù),從而確定哪些技術(shù)或服務(wù)提供商存在問題、哪些不存在問題。
始終運行還是始終可用?
我們不希望等到發(fā)生重大事故時才開始部署執(zhí)行FDI所需的分路器和監(jiān)控工具,這將與FDI的初衷背道而馳。因此,我們應(yīng)部署并始終運行執(zhí)行主要/一級FDI所需的分路器和網(wǎng)絡(luò)記錄工具。
但是,如何執(zhí)行輔助/技術(shù)內(nèi)FDI呢?如何處理遠(yuǎn)程站點、地區(qū)性數(shù)據(jù)中心和非關(guān)鍵性應(yīng)用呢?您不可能四處進行分路,也無法儲存一切內(nèi)容。
幸運的是,人們開發(fā)了許多網(wǎng)絡(luò)記錄工具,以滿足主要技術(shù)層之間的“始終運行”記錄需求,以及通過網(wǎng)絡(luò)數(shù)據(jù)包代理連接到眾多二級分路點的“始終可用”記錄需求。始終可用的設(shè)備不一定能夠保證長期的回顧可視性,但您可以在需要時快速配置這些設(shè)備,根據(jù)當(dāng)前事故調(diào)查的特定可視性需求進行監(jiān)控。
如此簡單?
那么,F(xiàn)DI真的像我們所說的那么簡單嗎?我們需要辯證地回答這個問題。很顯然,在現(xiàn)代企業(yè)聯(lián)網(wǎng)業(yè)務(wù)應(yīng)用基礎(chǔ)架構(gòu)這樣復(fù)雜的動態(tài)系統(tǒng)中,可能會出現(xiàn)各種反常、復(fù)雜甚至是匪夷所思的問題。您始終需要對這些類型的問題進行深入調(diào)查,并利用專家的技能和知識來加以解決。但這并不能說明FDI與有效解決這些負(fù)載問題無關(guān)。事實上,這些問題使一個嚴(yán)格、可重復(fù)、由數(shù)據(jù)驅(qū)動的FDI流程更為重要了。要解決復(fù)雜問題,為什么不采用FDI這種久經(jīng)考驗的“分治”方法呢?
評論