近日一家名為“前沿數(shù)控技術(shù)”的微創(chuàng)公司出名了,而且火遍IT界朋友圈。而為這家企業(yè)送上神助攻的竟然是業(yè)界知名的鵝廠。讓筆者不僅感嘆真實風(fēng)水輪流轉(zhuǎn)啊。至于事情的起因不必多說,總之一句話:“存放在騰訊云所謂三備份的存儲上的企業(yè)核心數(shù)據(jù)竟然丟了,而且連鵝廠這樣的大廠居然也沒恢復(fù)了”。更加不要臉的是鵝廠給出的解決方案竟然是云計算的服務(wù)費不收了,外加賠償13萬。哥哥,你這是在賣硬盤嗎?“前沿數(shù)控”憤而怒之,聲稱要起訴鵝廠賠償1000萬。
至于丟失的數(shù)據(jù)是價值13萬還是1000萬,這并不是筆者今天想要討論的問題。單就這個事件本身,由于沒有做好業(yè)務(wù)連續(xù)性管理而導(dǎo)致公司發(fā)生重大業(yè)務(wù)風(fēng)險這件事情,“前沿數(shù)控”的CIO和CTO的責(zé)任是跑不掉的。畢竟資源是租的,但數(shù)據(jù)可是你們自己的啊。因此從這件事情上讓我們認(rèn)識到對于一個企業(yè)來說,無論是初創(chuàng)型企業(yè)還是一個大型企業(yè),業(yè)務(wù)連續(xù)性管理(BCM)都是一項重要而又艱巨的任務(wù)。
風(fēng)險無處不在
對于一個企業(yè)的高層領(lǐng)導(dǎo)者來說,一般負有兩大責(zé)任:最大限度地促進業(yè)務(wù)增長和最大限度地保護核心資產(chǎn)。對于看得見的責(zé)任(促進業(yè)務(wù)增長)一般來說都會得到企業(yè)的充分重視。而對于看不見的責(zé)任(保護核心資產(chǎn))而言,很多企業(yè)領(lǐng)導(dǎo)者就顯得不是那么的重視了。即使這些風(fēng)險有可能瞬間就能毀掉這個公司。
“天上掉下來這么個餡餅,怎么就砸到我腦袋上了?”一旦發(fā)生風(fēng)險,這是企業(yè)管理者嘴里經(jīng)常抱怨的一句話。不過恭喜你,這個“餡餅”就砸到你的腦袋上了。這就是風(fēng)險,風(fēng)險無處不在。企業(yè)面臨的風(fēng)險既有可能是像911襲擊或者超強颶風(fēng)登陸那種如電影般的毀滅性事件,也有可能是像停電、漏水、火災(zāi)這樣的常見事件。但是無論事件大小,一旦事件處理失控,給企業(yè)帶來的就有可能是災(zāi)難性的打擊。試想一下,某一天中午,你和平常一樣走出公司總部大門吃午飯,突然接到接到火警電話,并被告知總部大樓因為失火及其他消防隱患導(dǎo)致一周之內(nèi)全面封閉檢查。即使你的數(shù)據(jù)中心并沒有在火災(zāi)中被損壞,請問你能保證你的正常業(yè)務(wù)不受影響嗎?
業(yè)務(wù)連續(xù)性管理(BCM)從本質(zhì)上說不僅僅是一個技術(shù)問題,而是一個包含著技術(shù)問題,業(yè)務(wù)問題和管理問題的綜合體。對于一些大型公司而言,業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)工作應(yīng)該向企業(yè)風(fēng)險管理部門匯報。而在一些較小的組織里,這個角色應(yīng)該向首席運營官(COO)或者同時向COO和CTO(首席技術(shù)官)匯報。風(fēng)險有可能出現(xiàn)在IT技術(shù)上,也有可能出現(xiàn)在業(yè)務(wù)流程上或管理制度里,有些可能是有一些意外事件導(dǎo)致的,而有些也有可能是由于人為原因造成的。當(dāng)災(zāi)難來臨時,我們是否有響應(yīng)的預(yù)案,讓業(yè)務(wù)按照我們事先規(guī)劃好的路徑演進,這就是業(yè)務(wù)連續(xù)性管理所要討論的問題。
業(yè)務(wù)連續(xù)性管理(BCM)的目標(biāo)和方法
業(yè)務(wù)連續(xù)性問題既是一個技術(shù)問題也是一個業(yè)務(wù)問題,但歸根到底還是一個業(yè)務(wù)問題。因此在目標(biāo)上也是為了最大限度地保證在災(zāi)難發(fā)生時業(yè)務(wù)損失最小化,業(yè)務(wù)連續(xù)性最大化。因此在業(yè)務(wù)保護方法上分為兩種,分別是連續(xù)性保護和恢復(fù)性保護。
正所謂”再好的刀傷藥也抵不上不剌口”。連續(xù)性保護方法的目標(biāo)就是最大化地做好事前預(yù)防工作,盡量不讓災(zāi)難發(fā)生。例如在IT技術(shù)領(lǐng)域最常見的方法如“消除單點故障”技術(shù),并行處理技術(shù),DevOps技術(shù)等。在業(yè)務(wù)領(lǐng)域,如事前的合規(guī)性審查,集中授權(quán)等。在管理領(lǐng)域,如定期的設(shè)備巡檢,定期的業(yè)務(wù)Review等。都可以有效地避免風(fēng)險的發(fā)生和發(fā)展。
當(dāng)由于某些不可控的原因?qū)е聻?zāi)難已經(jīng)發(fā)生時,就必須采用一系列的恢復(fù)性保護方法來保證業(yè)務(wù)安全了。在IT技術(shù)領(lǐng)域最常用的方法如備份/恢復(fù)技術(shù),DR技術(shù)等。在業(yè)務(wù)和管理領(lǐng)域也有相應(yīng)的技術(shù)和方法。因此本次事件從技術(shù)上講就是因為“前沿數(shù)控”在數(shù)據(jù)安全性上采用了數(shù)據(jù)高可靠方法,而沒有另外采用備份恢復(fù)策略。一旦數(shù)據(jù)出現(xiàn)邏輯錯誤,三份數(shù)據(jù)全部不可用。更尷尬的是還沒有可恢復(fù)的數(shù)據(jù),哪怕是幾天前的。
業(yè)務(wù)連續(xù)性管理的流程
當(dāng)災(zāi)難發(fā)生時,救人永遠都是第一位的。特別是在如化工廠、或其他高危環(huán)境的組織發(fā)生災(zāi)難時更是這樣。這是BCM一貫的價值觀。在保證人員安全的前提下,盡最大努力保證企業(yè)核心資產(chǎn)的安全才會變成一項重要任務(wù)。
第二項任務(wù)就是BIA方法了。為了分析災(zāi)難對業(yè)務(wù)的影響,以及業(yè)務(wù)在災(zāi)難恢復(fù)當(dāng)中的優(yōu)先級,我們最常使用的一項技術(shù)使“業(yè)務(wù)影響分析”方法(BIA)。BIA方法通常有兩大目標(biāo):
1. 識別事件對組織或其流程可能產(chǎn)生的潛在影響,以及用來定量和定性評估這些影響的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)可能來自財務(wù)、運營、客戶、法規(guī)及名譽等多個維度。
2. 在組織內(nèi)以業(yè)務(wù)優(yōu)先級為基礎(chǔ)統(tǒng)一地定義組織每一流程的恢復(fù)時間目標(biāo)(RTO)和恢復(fù)點目標(biāo)(RPO)
在第二點中通常有兩個問題需要注意。
問題1:企業(yè)的核心系統(tǒng)通常是最先恢復(fù)的系統(tǒng)嗎?
答案是不一定。要看具體的客戶行業(yè)和背景。筆者曾經(jīng)半開玩笑地問過一個銀行業(yè)客戶一個問題:“如果某一天你們的數(shù)據(jù)中心著火了,請問你覺得最先需要恢復(fù)的業(yè)務(wù)系統(tǒng)是哪一個?”客戶回答:“核心系統(tǒng)”。我回答:“不一定,我覺得可能是800/400的Call Center系統(tǒng)?!睘槭裁??試想一下,銀行總部大樓著火了,這個消息會分分鐘的傳遍整個朋友圈。如果你是這個銀行的儲戶你會是什么反應(yīng)?“我的錢還在嗎?”,“我下個月的貸款還用不用還了?”如果這時候800電話2天打不通會有什么后果?一群大爺大媽分分鐘包圍每一個儲蓄所,然后拉橫幅靜坐“還我血汗錢”,然后就是媒體鋪天蓋地的報道,然后就是更多人加入靜坐和擠兌…… 因此合理引導(dǎo)客戶預(yù)期在這個時候比恢復(fù)系統(tǒng)更重要。
問題2:RTO和RPO是業(yè)務(wù)目標(biāo)還是技術(shù)目標(biāo)?
經(jīng)常會有一些朋友有這樣一個誤區(qū),認(rèn)為RTO和RPO是一個技術(shù)目標(biāo)。當(dāng)然上述兩個目標(biāo)有很大的技術(shù)目標(biāo)的部分。但是從業(yè)務(wù)連續(xù)性的廣義性上將,上述兩個目標(biāo)應(yīng)該被歸納到業(yè)務(wù)目標(biāo)的范圍。及組織業(yè)務(wù)真正恢復(fù)的恢復(fù)時間和恢復(fù)點。從技術(shù)和業(yè)務(wù)兩種不同角度出發(fā),在這兩個目標(biāo)當(dāng)中對RTO的影響相對較大。因此從這個廣義上講可能真的不存在什么雙活。因為當(dāng)災(zāi)難真真切切發(fā)生時,及時IT系統(tǒng)看上去都是好的。誰能保證沒有一點業(yè)務(wù)損失呢?是否應(yīng)該在重新啟動業(yè)務(wù)前,需要對業(yè)務(wù)系統(tǒng)的每筆業(yè)務(wù)完整性做一次校驗,當(dāng)校驗完成后才能開門營業(yè)呢?
在做完業(yè)務(wù)的BIA分析后,下一項任務(wù)就是為每一個業(yè)務(wù)場景制定業(yè)務(wù)連續(xù)性策略了。在這個階段將通過一系列的技術(shù)和業(yè)務(wù)手段告訴董事會我們該如何達到之前BIA分析中所規(guī)定的RTO和RPO目標(biāo)。這一階段的目標(biāo)主要有如下幾點:
1. 通過一系列的技術(shù)和業(yè)務(wù)策略來滿足BIA所規(guī)劃的RTO和RPO目標(biāo)
2. 通過成本分析法,制定過渡架構(gòu)和遷移計劃。即標(biāo)識出先做哪個后做哪個
3. 獲得管理層的批準(zhǔn)并分步實施這些策略
演練與維護也是業(yè)務(wù)連續(xù)性管理中最最重要,不可獲取的組成部分。要想保證業(yè)務(wù)連續(xù)性計劃長期有效,這需要組織架構(gòu)的支持和資金的長期支持。這一點最容易被管理層忽略。因此這一點應(yīng)該在業(yè)務(wù)連續(xù)性管理項目提出時就向管理層首先提出來,并得到長期預(yù)算支持的許可。
另外關(guān)于支持企業(yè)業(yè)務(wù)連續(xù)性管理的IT技術(shù)方面,由于存在太多的架構(gòu)和產(chǎn)品,總體上包括采用更可靠的設(shè)備、更可靠的架構(gòu)、創(chuàng)建永久的災(zāi)備站點技術(shù)設(shè)施等,在這里就不一一贅述了。
總之,這場大戲還沒收場,我和各位看官一樣,抱著看熱鬧的不嫌事兒大的心理等待著第二季的播出。最后祝前沿數(shù)控好運,祝鵝廠好運!
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。