【導(dǎo)讀】當(dāng)一個(gè)IT解決方案在生產(chǎn)階段進(jìn)展不順時(shí),項(xiàng)目小組應(yīng)根據(jù)項(xiàng)目自身所準(zhǔn)備、計(jì)劃并測(cè)試好的一個(gè)流程去采取一些措施。
為了挽回這艘輪船的名譽(yù),泰坦尼克的高管們?cè)噲D避免碰撞。然而, S型轉(zhuǎn)彎方法雖好,但還是未能大大減慢輪船的行駛速度。泰坦尼克號(hào)后來(lái)終于慢慢停了下來(lái),有成百個(gè)乘客是這樣描述的:在持續(xù)幾秒鐘的震動(dòng)及隆隆聲中,輪船仿佛在一大堆大理石上翻轉(zhuǎn)了一下。
船不是“突然停止的”,因此幾乎沒(méi)有受到什么損傷。側(cè)面也沒(méi)有什么大的搖晃,整條船也沒(méi)有反復(fù)的擺動(dòng)。當(dāng)一艘輪船在采取了一定的措施來(lái)減輕側(cè)撞時(shí),一般都可以產(chǎn)生這種情況。擺放在餐廳的早餐餐具幾乎沒(méi)有晃動(dòng),放在一等艙吸煙室及休息室的飲料也沒(méi)有灑出來(lái)。所有的跡象表明輪船被擱在了冰山的冰架上。麥多克阻止了船頭直接與冰山相撞,如果那樣相撞的話,前4個(gè)艙廂會(huì)撞壞,成百名乘客將遇難或致殘。
同樣的,當(dāng)一個(gè)IT解決方案在生產(chǎn)階段進(jìn)展不順時(shí),項(xiàng)目小組應(yīng)根據(jù)項(xiàng)目自身所準(zhǔn)備、計(jì)劃并測(cè)試好的一個(gè)流程去采取一些措施。此流程必須基于一個(gè)平均修復(fù)時(shí)間時(shí)鐘,這是為了盡可能快地得到實(shí)時(shí)的IT解決方案以滿足服務(wù)級(jí)別協(xié)議(SLAs)的首要目標(biāo)。然后在后臺(tái)可以修補(bǔ)解決方案,這個(gè)修補(bǔ)可以是暫時(shí)的也可以是永久的。
然而,在方案投入運(yùn)行前,方案的完整性必須先建立好,這樣問(wèn)題才不會(huì)再發(fā)生。操作人員可以通過(guò)時(shí)鐘來(lái)檢查流程及監(jiān)測(cè)、判定、方案及修復(fù)這四個(gè)“問(wèn)題”象限。當(dāng)平均修復(fù)時(shí)間(MTTR)時(shí)鐘開始記時(shí),就標(biāo)志著服務(wù)(一次意外事件,參看第2節(jié))失敗的開始,必須為用戶意外時(shí)間制定標(biāo)準(zhǔn),這樣可以評(píng)估有多少用戶服務(wù)丟失以及丟失持續(xù)的時(shí)間。
這比通常用的以百分比(例如99.999%)來(lái)衡量服務(wù)的效用性要精確得多。泰坦尼克的問(wèn)題監(jiān)測(cè)信號(hào)是來(lái)自于守望員發(fā)出的長(zhǎng)達(dá)37秒鐘的警告。這對(duì)IT解決方案來(lái)說(shuō)并沒(méi)有多少相同之處,后者可能是在任何重要失敗出現(xiàn)之前就消除錯(cuò)誤并提出警告。這首先就讓操作人員有時(shí)間去采用自動(dòng)的或手動(dòng)的操作行動(dòng)來(lái)預(yù)防問(wèn)題的出現(xiàn)。
泰坦尼克號(hào)的船長(zhǎng)、主管以及高管聚集在橋樓決定采取什么措施。由于損傷的程度也是問(wèn)題的一部分,因此船上分布了兩個(gè)搜索救援組,一個(gè)在船頭,一個(gè)在船中央。第一個(gè)小組在10分鐘內(nèi)返回并匯報(bào)沒(méi)有大的損傷或進(jìn)水。在主管布魯斯.伊斯梅看來(lái),問(wèn)題監(jiān)測(cè)及判定現(xiàn)在是完整的。使用求救呼號(hào)的決定對(duì)他來(lái)說(shuō)是個(gè)問(wèn)題,因?yàn)檫@樣做會(huì)有損白星公司在業(yè)界的地位,并且會(huì)破壞泰坦尼克號(hào)的廣告效應(yīng),摧毀一度輝煌的行銷(參看第2 節(jié)和第5節(jié)),這種行銷曾吸引了世界上不少富人踏上這艘號(hào)稱最安全的輪船。
另一個(gè)較好的解決方案是讓輪船返回哈利法克斯,遠(yuǎn)離紐約和世界新聞中心。然后他可以制造出更好的新聞故事,將事故忽視為一次小意外。他能夠?qū)⒊丝娃D(zhuǎn)送上火車,再對(duì)輪船進(jìn)行修補(bǔ),或者把輪船送回貝爾法斯特修補(bǔ)。事實(shí)上,他可以大膽地宣布泰坦尼克號(hào)自身采用了新興技術(shù),是一艘救生船,能夠把自己從一次巨大的災(zāi)難中救回,因而能為白星公司作一次更好的安全性宣傳。
對(duì)今天的IT解決方案來(lái)說(shuō),問(wèn)題的結(jié)論考慮了該方案給用戶造成的影響。結(jié)論必須與有效跡象相一致。對(duì)反饋機(jī)制及日志的再調(diào)查對(duì)于判斷問(wèn)題是否擴(kuò)大了以及擴(kuò)大的原因是什么至關(guān)重要。
在一個(gè)復(fù)雜的IT解決方案里,常常能看到多米諾效應(yīng),即諸如一個(gè)子系統(tǒng)這樣小的有缺陷的因素會(huì)激發(fā)一系列問(wèn)題。如果不分析出事情進(jìn)展的精確信息,這可能會(huì)導(dǎo)致一次錯(cuò)誤的判斷――產(chǎn)生一次錯(cuò)誤的修補(bǔ)并且問(wèn)題重新發(fā)生。只有找到問(wèn)題的最根本原因并得以證實(shí)才算完成了判斷。
對(duì)一個(gè)IT解決方案來(lái)說(shuō),肯定手邊的證據(jù)以及詢問(wèn)下面幾個(gè)問(wèn)題非常重要。是否意識(shí)到IT解決方案會(huì)失敗?如果是的話,是否嘗試了一些(自動(dòng)化的)預(yù)防措施?它向人工或自動(dòng)化的操作員發(fā)出了警報(bào)嗎?反饋機(jī)制是否有問(wèn)題并且提供了不可靠的數(shù)據(jù)?對(duì)問(wèn)題的判斷準(zhǔn)確嗎?
泰坦尼克號(hào)的情況是緊急的,但還不到災(zāi)難性這一步。伊斯梅急于挽回顏面,他害怕白星公司的名聲受損,這使得周邊的環(huán)境很容易出錯(cuò)。泰坦尼克號(hào)安靜地靠在水下的冰架上,這使它看起來(lái)十分安穩(wěn)。也許細(xì)心一些他們就能以最小的損傷全身而退。伊斯梅倉(cāng)促行動(dòng)做出了草率的決定。第二搜索救援組(里面有造船人員和木匠)還來(lái)不及返回并給予評(píng)估。
今天的IT項(xiàng)目從中所獲取的經(jīng)驗(yàn)是:在解決問(wèn)題時(shí),必須在搜集好所有數(shù)據(jù)信息的前提下,分析每個(gè)解決方案所帶來(lái)的風(fēng)險(xiǎn)性,再考慮選擇最合適的解決方案。要不然就得靠最后第四象限的修復(fù)階段了。在這個(gè)階段里,操作小組會(huì)根據(jù)服務(wù)級(jí)別協(xié)議(SLAs)即時(shí)撤回IT解決方案,并讓服務(wù)再重新開始。
就泰坦尼克號(hào)來(lái)說(shuō),不是所有采取的措施都是完全依據(jù)問(wèn)題的解決方案。伊斯梅做出了致命的決定,給輪機(jī)艙打電話讓船向前開,想以最低速度來(lái)改變當(dāng)時(shí)的情況。輪機(jī)員后來(lái)證實(shí)輪船以3哩/小時(shí)的速度前行時(shí)曾發(fā)出過(guò)碾碎的聲音。
結(jié)論
今天,許多IT項(xiàng)目由于沒(méi)有作好周密準(zhǔn)備,導(dǎo)致流程不能很好地處理有關(guān)平均修復(fù)時(shí)間(MTTR)時(shí)鐘的問(wèn)題,因而項(xiàng)目在操作階段受到了嚴(yán)重的損傷。一個(gè)流程對(duì)于操作小組來(lái)說(shuō)意義重大,因?yàn)樗苁剐〗M快速恢復(fù)服務(wù)并維持服務(wù)水平。一個(gè)流程也應(yīng)具有部門之間的相互制衡機(jī)制(通過(guò)審核),以此來(lái)最小化在一個(gè)有壓力的環(huán)境下出錯(cuò)的可能性。一個(gè)流程應(yīng)該列出每個(gè)人承擔(dān)的責(zé)任和扮演的角色,以此確保合適的人去制定合適的決策。
【?發(fā)表評(píng)論?0條?】