作者:admin 日期:2023-09-03 瀏覽: 次
騰訊云技術復盤「數據丟失事件」,為什么業務上云還要再做云備份?
眾多慘痛的云事故告訴了我們一個幾乎無法規避的現實,那就是云也會宕機,也會丟失數據….
【CSDN 編者按】近兩日,因騰訊云損壞了北京一家創業公司的文件系統元數據,導致后者的業務經營、甚至融資進程,都受到影響而引發了業內關于云安全的探討。
對此,在繼公開聲明之后,騰訊云官方于昨晚發文進行技術復盤,對“人為/運維失誤”進行了細節還原,其表示:“該故障緣起于因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規范的操作,導致云盤的三副本安全機制失效,并最終導致客戶數據完整性受損。”
現在很多企業的數據,都選擇上云。然而,即便是國內知名云服務商,也免不了掉鏈子。
作為用戶,該如何盡量避免這種情況呢?而此事件一出我們便頗感疑惑,難道沒有備份嗎?許多人說,“這事兒對云服務是災難,關鍵業務和數據的備份還是要自己做,這個成本是必須付的。”
鑒于此,深圳市木浪云數據有限公司聯合創始人 & CEO、多備份在線備份云服務創始人陳元強,給 CSDN 投稿來為大家詳細介紹云故障的背景、云的本質以及使用云的攻略,深度剖析為什么業務上云了還要再做云備份!
以下為正文:
背景
我們先來回顧下幾起大的云故障。
2017年3月,國內某著名云平臺發生大規模的安全軟件缺陷,導致大批用戶云主機文件被異常刪除,業務中斷......
2017年4月,全球知名的云平臺發生大規模存儲故障,導致大量全球知名業務中斷。
2018年8月,國內某知名云平臺發生嚴重故障,直接導致某創新公司數據全部丟失,公司面臨前所未有的業務停擺威脅......
以上是云平臺自身原因引起的災難性故障......
其實還有外部因素導致的問題:
2017年5月,全球爆發的Wannacry勒索病毒,給網絡帶來了未有的挑戰,云平臺也不能完全幸免,
2018年1月,Intel 芯片設計缺陷,給整個IT架構帶來災難性影響,云平臺性能和安全受到極大的挑戰。
2018年8月,Wannacry病毒再次感染爆發,直接使得臺灣的知名芯片制造企業三大生產線全線停產,直接損失超過3%,達到人民幣17.4億。
實際上,除了我們看到的公有云這些嚴重故障外,幾乎每天都能聽到,發生在企業內部的私有云,因為各種原因,包含軟件缺陷、人員,電力異常等導致的業務中斷、數據丟失。企業正常的生產受到極大的影響,損失無法估量。
這些內部、外部因素疊加在一起,實際上帶來了幾乎無法規避的現實: 云也會宕機,也會丟失數據….
云的本質
在IOE(IBM, Oracle,EMC)時代,IT專家們為了最大程度規避崗位風險,通過采用業界最知名,最大牌的服務器(小型機)、存儲硬件操作系統、應用軟件,同時引入最大牌的備份軟件來組成自己的企業級數據中心方案。如下(示意圖1):
示意圖1
當然這種架構維護成本相當高,一般的企業難以招架,也只有少數的大企業或有實力的機構才有能力采用。
隨著各行業競爭加劇,企業需要更高效、性價比更高的IT方案,提高效率,降低成本。這時候,云計算出現了。
什么是云計算:
簡單點,就是把原先分散的資源集中放在一起,需要多少,就從資源池里面提供多少。
這里資源重點指的是計算能力、存儲能力、以及網絡連接能力,如下(示意圖2)。
示意圖2
比如:
10家企業,每家原來采購花費了100萬,共計1000萬,每家實際平均只用了30萬的,共計300萬,實際資源還剩余了700萬沒有用到。
用了云計算以后,云計算平臺企業一次性投入1000萬建設公共云平臺,每家實際30萬,可以服務33家企業。當然好處,不止于直接的成本降低,還有運維管理效率的提升。
當然了,這幾年開放架構性能每年翻倍,價格還不斷降低,這花掉的1000萬大部分是買的比原來小型機時代更便宜的開放架構的硬件,實際上通過集群連接技術,計算和讀寫數據能力絲毫不亞于小型機的能力。
可以說云計算是非常理想的去IOE方案,但也僅僅是在資源的組合利用和調度方面,這是目前云計算核心解決的問題。云計算目前相對成熟的服務,就是計算和存儲。
在數據可靠性存儲方面,我們再剖析看看構成云的核心要素塊存儲、對象存儲。通常,我們用云計算,文件之類的數據一般就是存儲在塊存儲或對象存儲之上。數據庫之類的數據,一般上規模云平臺,底層也是基于分布式存儲架構。
這幾種上層存儲服務底層都是以分布式存儲為主要提供形式。
基本的數據讀寫邏輯是:
數據以分塊的方式,寫入到多個存儲節點的底層磁盤。寫入什么樣的數據,存儲是不會感知到的。也就是說正確的數據,被破壞的數據同樣會被寫入到存儲底層。同時,因為各種磁盤電氣特性或系統各種復雜的內存一致性策略等,寫入的時候,還會有是否真的寫入,或者寫正確到磁盤上的區別(當然這不僅是分布式系統一家的情況,傳統的存儲也會類似)。
分布式存儲(云存儲),能否解決的問題列表:
問題
能否解決數據存儲安全性
數據被人為刪除或改寫
不能
數據被病毒勒索加密
不能
少數節點故障,能否找回數據
能
異常斷電
有條件情況下,能保證數據正確
上層數據被刪除
不能
上層軟件缺陷導致數據丟失
不能
存儲軟件自身缺陷,數據丟失風險
不完全能,部分能解決
災難,導致機房整體故障
不能
如果出現上面列表,本該解決的,卻不能解決,那還會有其他因素綜合影響。
正因為有以上問題,云平臺提供方,通常會引入一些備份機制,如快照,災備數據中心等技術。但很遺憾的是,一般的快照最多也只能解決平臺體系內的問題。系統整體風險,還需要謀求獨立于平臺的第三方解決方案。災備數據中心對于一般技術水平的企業還是難于駕馭。
這些平臺底層的容災設計機制,需要完全信任依賴于廠家的承諾實現。
企業上云,目前主要分成幾類:
公有云
私有云
云主機服務
虛擬化
云數據庫服務
超融合云平臺
容器云服務
OpenStack私有云
云存儲服務
容器云
其他服務
以上所有類型,底層都離不開分布式存儲技術(云存儲),都會遇到幾乎核心的幾類風險。
綜上所述,云的本質在于解決資源的充分共享和調度,其安全性需要引入外部的各類服務來保證。對于如何正確上云,需要充分理解云這把利器和與生而來的風險。
最佳實踐
對于云來說,不同的方式,或保護等級,對于的實施成本大不一樣,可能差距到10倍不等。
正確選用方案,需要了解實際的業務情況。
1)對于上公有云的情況
①最低保護級別的部署
單數據中心,數據庫主從配置+冷備份(異地云區域)+云主機快照是最低配置。
數據庫主從解決單點問題,當主節點宕機,還有從節點接管服務。
數據庫冷備份解決邏輯或人為因素導致的數據丟失等風險,通常應當部署在不同的地理區域。
以上兩點保障核心數據得到了基本保障。
為什么對云主機還要啟用快照?上面不就是一些程序或配置么?很簡單,時間就是損失,恢復時間越長,企業承擔的損失越大。通常,從你copy程序和修改配置,到部署、驗證、需要的時間絕對是恢復快照的10倍以上。
當然,如果備份機制能獨立于平臺,那將是更好的方案。百度上搜索,會有不少云備份的方案可供選擇。
②對于可靠性要求高的應用
通常采用主數據中心與副數據中心結合的結構。這種結構,沒有技術力量的團隊,建議還是慎用,真正能跑起來,難度大。最大的挑戰,需要解決多個數據中心數據一致性問題。對于這種方案,通常建議采用主從方案,同時工作的方案,會導致系統設計復雜度異常高。
數據中心通常采用支持多線BGP機房,解決南北互通,和不同運營商之間互通問題。
主從之間數據復制可以采用云平臺自身提供的一些方案或者利用第三方的數據復制軟件,完成核心數據在兩個數據中心(區域)復制。
2)對于私有云部署:
部署私有云的企業,通常是有一定的IT維護管理力量,同時也是特別注重數據安全的。這種情況,通常有如下組合。
①私有云本地數據保護
對于通常的企業的IT數據中心,推薦采用私有云加上一套備份系統。
這里的私有云包含虛擬化數據中心、超融合數據中心、OpenStack等系列數據中心等。客觀上存在分布式(云)存儲不能規避的風險,需要最低搭配一套備份系統。請注意恢復時間對業務影響代價。如果一定要采用手動方式備份,請確保恢復時間是企業可以承受的代價。
根據重要程度,配置的備份系統有不同的指標要求。
業務類型
指標要求
在線服務
丟失數據盡可能少,恢復時間短,在分鐘級
支撐系統
恢復時間在小時級
資料系統
恢復時間在幾小時級
歸檔系統
恢復時間在天等
同時,為了考慮系統的整體云平臺備份支持能力,系統的靈活擴展能力和數據重刪能力,也是一個重點考察指標。目前國內外有一些產品便專門針對云和虛擬化平臺設計,以實現更好的云保護管理能力。
②私有云異地災備和容災
對于保護等級要求較高的情況,兩套私有云平臺 + 備份系統,形成熱災備接管 + 數據和應用容災恢復架構。私有云兩地容災架構,通常要求專線,帶寬要能保障,目前的帶寬還是比較貴,需要提前核算好相關的費用成本。
典型的實施方案如下。
實施方案一:
兩套私有云之間,通過云平臺廠商提供的存儲復制技術,完成兩地數據復制和同步。同時,系統需要引入一套備份系統。部署在主或從數據中心。兩種部署方法,看具體情況選擇。一般為了降低對主數據中心影響,通常應當部署在從數據中心。
這種架構需要云平臺支持,成本投入大,數據管理粒度相對粗,一般針對整個存儲系統實施,缺少各種粒度和優先級控制。
實施方案二:
兩套系統之間,通過第三方完成數據備份和異地復制,形成災備架構
兩套私有云之間,通過第三方云平臺備份與復制廠商,提供的數據備份與復制技術,完成兩地數據備份、復制和同步。這種方案特點是管理靈活,可以細化到一個云主機系統。在備份的同時,也同時在做復制容災。一般在從數據中心,不需要部署和主中心一樣的配置,可以低于主中心。
這兩種方案達到的效果如下:
問題
能否解決
如何解決
數據被人為刪除或改寫
能
備份系統
數據被病毒勒索加密
能
備份系統
少數節點故障,能否找回數據
能
分布式存儲系統
異常斷電
有條件情況下,能保證數據正確
備份系統和存儲系統聯合
上層數據被刪除
能
備份系統
上層軟件缺陷導致數據丟失
能
備份系統
存儲軟件自身缺陷,數據丟失風險
能
備份系統
災難,導致機房整體故障
能
兩地容災機制
是否能及時恢復業務
能
備份系統和容災機制結合
簡言之,數據安全無小事,無論是在云計算時代還是在傳統IT的時代,數據保護都非常重要。當然,在云計算快速發展的時代,數據保護產品和方案一定要與云環境完全融合,這已是勢在必行。
作者介紹:陳元強,現任深圳市木浪云數據有限公司聯合創始人 & CEO,多備份在線備份云服務創始人。超過18年信息安全、分布式系統與海量業務架構設計等經歷,曾就職于騰訊、盛大、宜搜、永達,并擔任大數據、搜索、移動、信息安全等業務線總監崗位。曾發起創立騰訊第1套具有核心專利技術百億級實時大數據平臺,更早曾在深圳永達負責國家級863項目復雜網絡信息安全管理平臺,防DDOS系統研發等。
聲明:本文為作者投稿,版權歸對方所有。“征稿啦”
CSDN 公眾號秉持著「與千萬技術人共成長」理念,不僅以「極客頭條」、「暢言」欄目在第一時間以技術人的獨特視角描述技術人關心的行業焦點事件,更有「技術頭條」專欄,深度解讀行業內的熱門技術與場景應用,讓所有的開發者緊跟技術潮流,保持警醒的技術嗅覺,對行業趨勢、技術有更為全面的認知。
如果你有優質的文章,或是行業熱點事件、技術趨勢的真知灼見,或是深度的應用實踐、場景方案等的新見解,歡迎聯系 CSDN 投稿,聯系方式:微信(guorui_1118,請備注投稿+姓名+公司職位),郵箱([email protected])。
————— 推薦閱讀 —————