新聞中心
有災無備的背後(hòu):災備管理是最大的黑洞
作者:睿至大數據
據不完全統計,在過(guò)去的一年中,全國(guó)開(kāi現科)建、在建和已建成(chéng)的災備中心、災備照相項目不下百餘處,這(zhè)些災備中心承載著(zhe)産業園區喝拍、金融機構、醫療民生、區域大數據/雲計拍又算平台等諸多業務發(fā)展中心的災難備份恢複及業務連續性保障工作,是許多政府林服機構、企業事(shì)業單位及懂資組織機構IT和業務可持續發(fā)展的重要保障。

   麗能 從北京的亦莊,到廣州的南翔;從安徽的合肥,到江的子西的贛州;還(hái)有風景如畫的廣西城議桂林到中緬國(guó)境線邊的雲南保山,還(hái)有大草原上的明珠呼和浩聽中特,僅是在2017年7-8月間,國(guó)内宣布相雨動工和建成(chéng)的災備中心不下十餘處,範圍遍及分爸全國(guó)各地、天南海北,著(zhe)力發(fā)展大數據與雲計算産業,呢媽為技術開(kāi)發(fā)區、産業園區提供堅實的IT基礎笑也,已經(jīng)成(chéng)為各地政府、企業的共識的通,而建立災備中心,成(chéng)為所有工作中不可或缺的一部分。&nb還大sp;

1505118286.jpg

    據不完全統計,在過(guò大可)去的一年中,全國(guó)開(kāi)建、在建和已這舞建成(chéng)的災備中心、災備項目不下百餘處,這(zhè)和身些災備中心承載著(zhe)産業園區、金融機構、醫療民生、區域大數據/雲計玩路算平台等諸多業務發(fā)展中心的災難備份恢複及業務連續性保障工作,是學要許多政府機構、企業事(shì)到弟業單位及組織機構IT和業務可持續暗自發(fā)展的重要保障。


    與此同時相麗(shí),國(guó)内正在形成(chéng)睡志新的災備中心外包服務業務新模式,例如某建立在廣西桂林的災備中心,其服務目标不僅和商僅是為了本地園區和企業事(shì)單位下男,更重要的是,它將(jiāng)成(chéng)議放為一個對(duì)外服務的新平台,除了服務于桂林市公共基礎數據中心,制微更要面(miàn)向(xiàng)廣問冷西和東盟提供數據災備服務業務——這(zhè)意味著(zhe)土中,災備中心的身份已經(jīng)悄然發(fā)報生生了轉變:從對(duì)内提供服務的基礎設施,變成(chéng)了對(d少城uì)外提供服務的商業化災備服務中心。 


    但在各地如春筍般建立災備中日爸心的背後(hòu),一個隐憂仍然久久不能(né日低ng)散去:自2010年開(kāi)始,幾乎每年都(dōu)會(錯可huì)有國(guó)内的知名企業涉及到業務連續性事(shì)故當靜內中,這(zhè)其中既有知名的制造水書業企業、物流公司或是電商平台,也有中小型的銀行、信用社、保險公司、證子小券公司等金融機構,更有甚者,大型知名多個商業銀行也頻繁牽扯其中:2012-2013年,短短的半年多時(shí)國司間裡(lǐ),多家金融機構出現業務系統故障,這(zhè)些事(shì)故不僅船慢波及銀行櫃台、ATM等傳統業務是見,就(jiù)連網絡銀行、手機銀行、事拍網銀支付、POS機支付等業務也因故癱瘓,而且幾乎每次他月事(shì)故,都(dōu)是“北京、上海、廣州、購人深圳等大型城市首當其沖,全國(guó)範圍出現癱瘓”——無一例外的,這(z事視hè)些出現事(shì)故的金融機構都(dōu)曾标榜自秒車己“建立了可靠的、高效的容災備份體系些話甚至是多活數據中心”。


   &n視件bsp;將(jiāng)上面(miàn)的友從這(zhè)些新聞放在一起(qǐ近間)形成(chéng)的尴尬局面(miàn)讓人哭笑內書不得:一邊是不斷落成(chéng)的災備中心;一邊是事(shì理車)故頻發(fā)、麻煩不斷的各類政府機構、企事(shì)業單聽子位,到底災備中心是不是白建了?到底那麼(me)多災備的項目建子為成(chéng)了之後(hòu)、甚至演練了之問歌後(hòu),在關鍵時(shí)刻為什麼(呢器me)不起(qǐ)作用?到底是哪裡(lǐ)出我生了錯?


有災無備的背後(hòu):容災管理是最大的黑洞
    衆所周知,在服務器領域坐業有一個名為RAS特性的提法,即可靠性(Rel內又iability)、可用性(Availabil林物ity)和可服務性(Serviceability)河是,高水平的RAS特性意味著(zhe)該服務器可以承載企業更為關鍵的核心應用,綠計而RAS特性并不是某一個組件或某一個層面(miàn)所組成(chén來答g)的,它包括了管理層、操作系統層、CPU、内存、I/O甚至是用冷散熱供電等多層次、多維度的RAS特性,是一個整合的有機體。&nb海都sp;

在災備領域,概念也是相通的。事(shì)實上,在災備這(zhè)一話題下作劇包括兩(liǎng)個部分:第一是災備系統的建設,指的工森是建設物理(硬件)的設備和基礎設施,比如說(劇黑shuō)災備系統、兩(liǎng)地三中心等等;第二件請是容災管理,它包括了容災管理平台、企業的容災管理規範(比如應議新急響應機制等),是“軟件平台+管理策略”的組合——災備系統是“著哥搭台”,容災管理是“唱戲” 


    這(zhè)但懂就(jiù)是災備往往被(bèi)稱為災備體系或容災體系的原因,哥姐一個可靠、可用和可信賴的災備系統,不僅僅是建設了災備中心、災備機樹化房或是災備設備(服務器、存儲、網絡以及軟件平台),還(hái)應訊也該有完整的災備應急機制和高效(更準确來說(跳下shuō):是要奏效)的容災管理體系。 


   化照; 但在實際情況中,容災管理卻成(chén志器g)為了災備系統建設最大的黑洞,這(zhè)其中的原因是多方面(小中miàn)的: 


    報個;首先,企業的IT架構往往是複雜的、多元化的,擁有不器妹同時(shí)期采購的新舊架構,業務應用環境也在第三平台時(shí)代變得船習越發(fā)複雜,同時(shí),雲計子說算的加入也讓IT架構變得更加多元化;

其次,容災管理工具要麼(me)是不足,要麼(me)是沒(méi)有10雜照0%的發(fā)揮其功用,這(zhè)導緻運維人員不僅無法唱裡真正的、實時(shí)的了解各業務系統的災備關鍵人醫指标,更無法完成(chéng)周期性的災備系統維護美遠、災備切換演練(以及制定服務報告和切換手冊); 


    第三,在災備維護、管理、測試、術工演練甚至是切換流程中,存在大量需要人為謝姐幹預的工作,包括切換判斷、手動啟停、彙報審批等等方面(miàn關討),導緻整個業務系統不僅切換過(guò)程不可控、流程繁瑣,甚至路務是進(jìn)行1、2次災備預演之後(hò就文u),都(dōu)會(huì)因為意外的人員問章資題而導緻災備切換失敗; 


    第四,過(guò)分低習依賴于由容災管理團隊根據技能(néng)和經(j報都īng)驗設立的災備預案規劃,這(zhè)不僅導緻企業面(miàn)劇見對(duì)多種(zhǒng)災備場景,缺乏針對(duì)性下離的全局災備預案規劃,更缺乏系統本身的驗證機上能制,真正出現災備切換場景時(shí)難以保證應用切換的準路厭确和實時(shí)性。&nbs作生p;


  &nbs嗎時p; 最為關鍵的是,當災備系統的容災管理複雜視黃、低效、依賴人工幹預,災備系統最需要發(fā)揮起(qǐ)作用——也就(ji友遠ù)是俗稱的“切”——的時(sh什場í)候,無論是業務團隊還(hái)是IT團隊員關,都(dōu)在這(zhè)個“涉及系統多、人員多、耗時(shí)長(chán服是g)、風險大、影響廣”的問題面(miàn)前蹑手蹑子爸腳:誰也不知道(dào)在切換的流程在業中,哪裡(lǐ)會(huì)出問題,哪裡(l動公ǐ)會(huì)有纰漏,哪裡(lǐ話學)又會(huì)有意想不到的問子鄉題。 


    最終的結果,就(jiù計作)是誰都(dōu)“心裡(lǐ)沒(méi)底”,誰那章都(dōu)“手上沒(méi)準”。于是,誰也不敢做出決定(或者輛門說(shuō)誰也不敢擔負未知的風險相她),“原本可能(néng)是有效身光的災備系統也就(jiù)此變成(chéng)了一個無效的擺事計設”。


睿至容災管理:可視、可控、更可“切”

    為了不讓辛辛苦錯年苦且花費了大價錢災備系統形同虛設,企業需現拿要統一的、自動化的、專業化的容災管理平台,它的建設應當遵循災備體系建設的規律短日,幫助IT團隊實現災備工作的流程化、精細化和自動化,提高容災管理的水平和工作資事效率。 


   &n跳月bsp;針對(duì)容災管理中所遇到的問題和企業災備系統的實際需求,睿至提出數動了容災管理平台的“三化”: 

容災狀态可視化:支持IT團隊的容災指标監控、切錢舊換過(guò)程監控,容災資源納入統一管理體系,同時(shí),有清晰、完整城暗的容災大屏(指揮及)展示平台; 
容災切換可控化:包含可管理的容災預案,可自定義容樹銀災切換流程,為不同需求、不同層面(miàn)的融在需求定于容災場景,當視去然,也要嚴格的管理切換權限;
容災演練自動化:提供容災演練模闆,可自定義容災演練策得習略并支持多應用場景的一鍵容災,并且提供詳盡的切換演練報告。


   &nb愛也sp;為了滿足這(zhè)三點需求,睿至容災管理解決方案提供了一系列的功厭來能(néng)設計和技術創新,比如說都輛(shuō): 

   技看; 在睿至容災管理平對文台上,IT團隊不僅對(duì)舞通應用狀态的一緻性、災備系統可用性及運行狀态一目了然,更對聽習(duì)業務系統BIA、RPO/RTP、複制鍊路(的狀态和性能美明(néng))等關鍵指标有著(zhe)詳盡的有間信息監控,而且所有有關信息都(dōu)可以在災備系統大屏幕上清晰的、實時(s地國hí)的、圖形化的展現出來;此外,還(hái)可以店行自動進(jìn)行包括行業合規性動校、容災故障切換、容災計劃内切換、容災演練在内的一系列分通制析并生成(chéng)報告; 


   器村; 為了做到“可控”,睿至容災管理街拿解決方案同樣(yàng)可圈可點:通過(guò)智能(néng)化流們雪程配置、格式化定制腳本等可自定義的切換流程設計,睿至將(jiāng)線下相快審批和線上切換流程統一化(且每個流程均可支持自動執行或人工執行/木鐘驗證),并且實現了高容錯率的自動化、标準化運科書維。不僅如此,通過(guò)預支支持主流OS、虛拟化和數據庫應用的災備切那年換流程通用預案模闆(也可以自定義),睿至容災管理解決方案支持“開(kāi)家又箱即用”,極大的增強了切換時(shí)的易用性。 


    此外,災備預案配置管理朋唱功能(néng)可以自定義容災切換的場景和流程(提供靈活自動化引擎,可配置任何這妹切換場景):任務對(duì)應腳本,并綁定執行角色和節點資源,讓後(hòu)多舞海個任務組成(chéng)一個流程,多個歌高流程組成(chéng)一個場景,一個預案動個中可能(néng)包含多個場景(場景之間也可厭購以互為關聯甚至是“父子”)。當輛服然,睿至容災管理解決方案提供了靈活卻又間知嚴格的人員分配與權限控制(管理)能(néng)力,從而确保冷也了隻有專的、對(duì)應其工作範疇的容災管理維護媽水人員才可以對(duì)災備系統做出任何還放的修改和調整,是災備系統和災備切換最重要的一道(dào)安全短著保障。


    對(du友說ì)于災備系統來說(shuō),能(nén時吃g)不能(néng)“切”的關鍵,既不是災備舞南系統花了多少銀兩(liǎng),也不是使用了哪個國男雜(guó)際知名品牌的産品,而是萬一遇他業到關鍵時(shí)刻時(shí)的“最終決斷”,是那一聲幹淨利綠的落的“切!”——隻是在現實世界中,有勇氣喊出這(zhè)一聲公到的人并不多,這(zhè)其中的根本原因并不複雜:就內少(jiù)像是國(guó)際大賽上的運動員、高考考場上的黃區高三考生,關鍵是要看平時(sh中報í)練的多不多。 


  &nb黑能sp; 但容災演練不是說(shuō)練就(jiù)匠化練的,由于事(shì)關重大且牽扯的人員衆多器我、流程複雜,一次容災演練往往要興師動衆的準備十幾費月天甚至一個月的時(shí)間,即使是再姐數重視容災演練的IT團隊也無法一年中很多次的進(j子志ìn)行演練,“一年一次都(dōu外海)算是好(hǎo)的,更不用說(shuō土場)标準的一年兩(liǎng)次甚至一就城年多次。” 


    因此,睿至容災民討管理解決方案將(jiāng)著(zhe)民飛眼點放在了容災演練的自動化上:它不僅支持靈活的在線腳是畫本定制,可以自定義容災演練場景,還(hái)有著(zhe)清晰、呢船完整的容災演練切換流程展示,具備“演練準票商備-開(kāi)始演練-進(jìn)行切換-反向(月水xiàng)複制-應用驗證-發(fā)布公告很下”的容災演練全生命周期管理能(néng)力,“日兵想怎麼(me)練就(jiù)怎麼(me)練”是對(duì)容災演練zui最話多大的收益,也是确保臨門一腳喊得出來的關鍵因素。 

作為關注在容災管理運營解決方案,睿至容災管理解決方案們木通過(guò)實現導航可視化、公開切換自動化、流程可編輯、文檔可更新等手段,為用戶容災管理節約人力物力和這,減少失誤,降低人為影響,保障業務持續運行,與傳統手段相比,裡時睿至的解決方案能(néng)夠將(ji白街āng)原本需要3~10個人且耗費數小時(sh麗謝í)的災備切換,轉變為隻需要1~算費3人僅僅45分鐘-2小時(shí)的高效率災備自動化切換,而且同時(sh店哥í)保證切換的成(chéng)功率和數據、業務鄉內的可用性。 


   樹鐵; 當然,建成(chéng)了災備系統、有了完備的容災管理平吧見台,也并不意味著(zhe)災備系統建設的100%成(chéng)功,201些謝5年某區域性商業銀行業務系統中斷長(cháng)達3厭快7個小時(shí)40分鐘的教訓仍然曆曆在目:這(zhè)是一姐事家曾經(jīng)率先完成(chéng)8000公裡(還船lǐ)災備演練的區域性商業銀行,它曾經(jīng)建立了務家國(guó)内領先的災備系統和應如河急響應機制,但随著(zhe)建成(chéng)系統後(hòu)門暗的3、4年中,該行安全生産意思薄弱、應急管理體系缺失,加之街畫應急處置過(guò)程混亂,結果釀成(chéng)了近年來商業銀理要行最嚴重的一次運營事(shì)故。
 
    “20%靠系統、3司關0%靠管理,剩下的50%,靠的是從不懈怠的容災管明遠理意識,靠的是每天懸在心裡(lǐ)的警鐘長(chán要用g)鳴。”在一位曾經(jīng頻舊)經(jīng)曆過(guò)災備系統明身切換且“僥幸成(chéng)功人姐”的CIO眼裡(lǐ),“災備系統的物理姐鐘系統、容災管理和危機意識”才是确保成(chéng)功的全部要素,而睿至,則至路也少幫助企業用戶們完成(chéng)了三分之一的重要(家討容災管理)工作。


  • 1
  • 2