雖說(shuō)如今的硬件與軟件系統(tǒng)都有各種各樣的熱備(HA)或應(yīng)急方案,但隨著IT系統(tǒng)和企業(yè)業(yè)務(wù)系統(tǒng)復(fù)雜性的不斷提升,“沒有故障的網(wǎng)絡(luò)”似乎也只是IT人閑侃的一個(gè)神話了。IT故障隱患就在身邊,如果一個(gè)企業(yè)的IT運(yùn)維管理完全依賴于工程師的經(jīng)驗(yàn),這種人為因素過(guò)多的管理境界,IT運(yùn)維管理恐怕永遠(yuǎn)會(huì)處于手工作坊的階段。因此,大家都在匆忙尋找一味叫做BSM的解藥,而能否有一個(gè)高效而準(zhǔn)確的故障發(fā)現(xiàn)機(jī)制,能否進(jìn)行有效率的根源分析,對(duì)于BSM“落地”而言,則是一個(gè)很重要的指標(biāo)。
以“人”為本的IT運(yùn)維故事
根據(jù)IDC之前提供的《中國(guó)業(yè)務(wù)服務(wù)管理(BSM)》資料,國(guó)內(nèi)IT運(yùn)維市場(chǎng)預(yù)計(jì)到2013年將達(dá)到47.9億元的市場(chǎng)份額。業(yè)務(wù)擴(kuò)容壓力對(duì)高端運(yùn)維人才的需求迅速增加,同時(shí)大量在線關(guān)鍵業(yè)務(wù)系統(tǒng)需要7X24小時(shí)穩(wěn)定可靠運(yùn)行的保障,這對(duì)IT運(yùn)維管理團(tuán)隊(duì)的整體服務(wù)水平的提升要求越來(lái)越迫切。作為朝陽(yáng)行業(yè)的IT運(yùn)維,在一路高歌猛進(jìn)的同時(shí),也承受著高級(jí)IT運(yùn)維人員頻繁跳槽,離職率過(guò)高帶來(lái)的一系列問(wèn)題。
在某合資企業(yè),或是因?yàn)殚L(zhǎng)期加班的壓力、或是因?yàn)樾浇饐?wèn)題,一位資格較老的IT工程師突然離職了。企業(yè)領(lǐng)導(dǎo)和其他同事除了惋惜之外也沒有太好的辦法,在做好交接工作之后,這件事也漸漸被淡忘。
突然,企業(yè)總部的ERP系統(tǒng)出現(xiàn)了嚴(yán)重的故障,時(shí)斷時(shí)通。IT運(yùn)維部門上下齊心,從物理層查到了應(yīng)用層,又從應(yīng)用層查回到物理層設(shè)備,并且,大家也拿出之前這位離職工程師的文檔研究起來(lái)。有人終于找到了這臺(tái)服務(wù)器的故障記錄,也發(fā)現(xiàn)了同樣 “緩慢”的故障和處理方法。看似是一根救命稻草,但按照這個(gè)文檔執(zhí)行了數(shù)據(jù)庫(kù)優(yōu)化向?qū)е螅收线是沒有解決。把人請(qǐng)回來(lái)?或者再請(qǐng)一個(gè)高人過(guò)來(lái)看看?
不知道你能從這個(gè)故事中看到什么?但從故障現(xiàn)象來(lái)看,有的網(wǎng)絡(luò)故障解決辦法是相通的,但從隨時(shí)變化的網(wǎng)絡(luò)架構(gòu)和業(yè)務(wù)系統(tǒng)實(shí)際運(yùn)行環(huán)境來(lái)看,解決相同現(xiàn)象的故障,方法可能迥然不同。如果我們?cè)贗T運(yùn)維管理的過(guò)程中,過(guò)多的依靠個(gè)人英雄主義,最終會(huì)導(dǎo)致網(wǎng)絡(luò)故障處理效率不高,并造成IT運(yùn)維服務(wù)質(zhì)量停滯不前的邋遢局面。
作為國(guó)內(nèi)領(lǐng)先的IT運(yùn)維管理專家,北塔軟件認(rèn)為:“依靠個(gè)人能力進(jìn)行運(yùn)維管理有許多缺點(diǎn),比如無(wú)法做到事前發(fā)現(xiàn)、無(wú)法做到準(zhǔn)確定位、故障原因可能出現(xiàn)誤判、響應(yīng)時(shí)間慢等等。核心業(yè)務(wù)和IT系統(tǒng)息息相關(guān),一旦網(wǎng)絡(luò)出現(xiàn)了故障,影響和損失非常巨大。但傳統(tǒng)的管理模式只能導(dǎo)致出現(xiàn)問(wèn)題后被動(dòng)響應(yīng),而IT運(yùn)維管理部門的真正價(jià)值并不是出現(xiàn)故障之后的處理,而是在故障發(fā)生前能夠準(zhǔn)確判斷,排除隱患,并避免故障的發(fā)生。雖然很多企業(yè)發(fā)現(xiàn)了這個(gè)問(wèn)題,并引入了BSM等理論作為支撐,但如何在這套理論下利用運(yùn)維管理工具把BSM落地,擺脫人為因素的影響,這個(gè)課題也許在國(guó)內(nèi)IT運(yùn)維管理領(lǐng)域才剛剛開始。”
處理故障的三要素:精、準(zhǔn)、快
BSM落地是體現(xiàn)IT部門價(jià)值的最佳途徑,也就是說(shuō)BSM建立后,IT部門是能做到對(duì)業(yè)務(wù)的透明管理。透明化監(jiān)控業(yè)務(wù)系統(tǒng)運(yùn)行情況,就能事先發(fā)現(xiàn)可能引起系統(tǒng)宕機(jī)故障或者訪問(wèn)質(zhì)量無(wú)法保障的問(wèn)題,把可能發(fā)生故障的隱患,通過(guò)業(yè)務(wù)系統(tǒng)的整體監(jiān)控視圖發(fā)現(xiàn)問(wèn)題。那么,怎么才能讓BSM落地呢?如何讓故障處理不再成為手忙腳亂折騰,或者必須請(qǐng)來(lái)一個(gè)外來(lái)的和尚呢?北塔軟件在其發(fā)布的北塔BTIM產(chǎn)品中包含了一個(gè)非常經(jīng)典的“故障根源分析策略”,也許可以回答這個(gè)讓多少人糾結(jié)的疑問(wèn)。
“BTIM故障根源分析策略”是指:通過(guò)日常高頻度監(jiān)測(cè)少量關(guān)鍵指標(biāo),控制被管系統(tǒng)管理壓力,一旦發(fā)現(xiàn)問(wèn)題,依據(jù)實(shí)體業(yè)務(wù)流分析邏輯,按分析需要逐層擴(kuò)大數(shù)據(jù)采集的深度和廣度,層層深入,直達(dá)故障根源。也許這段內(nèi)容對(duì)于很多剛剛接觸IT運(yùn)維管理的新人,或者說(shuō)管理層來(lái)說(shuō)有一些難以理解。但若把這個(gè)套理論歸納起來(lái),就是要在故障處理時(shí)突出“精、準(zhǔn)、快”這個(gè)三個(gè)字,便很容易了然。
精:是指業(yè)務(wù)日常健康指標(biāo)實(shí)現(xiàn)精細(xì)化管理。如果我們業(yè)務(wù)系統(tǒng)所有發(fā)生的事件都沒有遺漏的接收了下來(lái),這特別是對(duì)一些疑難雜癥的分析有幫助,可后期進(jìn)行詳細(xì)的分析。但在海量的業(yè)務(wù)事件中,快速的定位到事件的根源如同大海撈針。所以,“精”代表的是有挑選的記錄,而不是全部。
準(zhǔn):是指故障定位準(zhǔn)、分析原因準(zhǔn)。比如北塔BTIM通過(guò)服務(wù)視圖追蹤支持業(yè)務(wù)應(yīng)用的IT組件的性能和可用性,通過(guò)TFS管理系統(tǒng),采用SNMP方式取得服務(wù)管理參數(shù),實(shí)現(xiàn)對(duì)主機(jī)、數(shù)據(jù)庫(kù)、中間件以及應(yīng)用管理的實(shí)時(shí)監(jiān)控,通過(guò)軟件來(lái)監(jiān)視服務(wù),管理人員在業(yè)務(wù)層就能查看所有關(guān)鍵信息,并通過(guò)各層監(jiān)控來(lái)融合管理功能。而一旦出現(xiàn)告警事件,管理人員就可以通過(guò)TFS故障診斷路徑直接定位源頭。
快:是指預(yù)警快、操作快和處理流程快。要想實(shí)現(xiàn)快,必須有前兩項(xiàng)功能的支撐,不然在海量日志中翻騰、在故障原因前左顧右盼,這些勢(shì)必影響故障處理的時(shí)間。另外,這里的快還包含了IT運(yùn)維工具本身的操作效率,比如:自定義左右鍵響應(yīng)事件,實(shí)現(xiàn)參考信息快速鏈接等等。當(dāng)然,快還包括了遇到重大故障快速啟動(dòng)應(yīng)急響應(yīng)流程。
BSM不要誤讀“人”的作用
業(yè)務(wù)結(jié)構(gòu)不斷變化的本性造成運(yùn)維實(shí)體復(fù)雜性的增加,而要實(shí)現(xiàn)BSM,也不是簡(jiǎn)單的靠人堆砌起來(lái)的運(yùn)維體系。BSM的三要素是人員、流程和技術(shù)。人員因素是指企業(yè)需要清晰定義IT支持人員的角色職責(zé),明確人員的技能等級(jí),進(jìn)行IT部門內(nèi)部的梯隊(duì)建設(shè)。絕對(duì)不能拋開人的因素,但也只有把這三方的元素緊密配合,才能從總體上提高IT服務(wù)管理的質(zhì)量并達(dá)到最佳實(shí)踐效果。
推薦閱讀
對(duì)此方案,夏普中國(guó)投資公司公關(guān)室室長(zhǎng)武桂力9月26日告訴本報(bào)記者:“夏普目前還沒有對(duì)外公布新的裁員計(jì)劃,依然是原來(lái)公布的5000人裁員計(jì)劃,至于向銀行方面提供的新的重組方案,以及新的融資,夏普的確在推進(jìn),但具>>>詳細(xì)閱讀
本文標(biāo)題:企業(yè)BSM:IT故障管理只憑經(jīng)驗(yàn) BSM難以落地
地址:http://m.sdlzkt.com/a/xie/20120201/115052.html