作者:admin 日期:2023-08-25 瀏覽: 次
騰訊云丟數(shù)據(jù)復(fù)盤:運(yùn)維遷移未開校驗(yàn),非多副本硬盤同時(shí)壞
原文來自騰訊云報(bào)道。
近日,騰訊云客戶北京清博數(shù)控科技有限公司所屬“前沿?cái)?shù)控”平臺(tái)一塊操作系統(tǒng)云盤發(fā)生故障,導(dǎo)致該客戶的文件系統(tǒng)元數(shù)據(jù)損壞,我們對(duì)客戶業(yè)務(wù)所受影響表示誠(chéng)摯歉意。同時(shí),我們也對(duì)此次故障過程進(jìn)行了深入的技術(shù)復(fù)盤。復(fù)盤發(fā)現(xiàn),該故障緣起于因磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導(dǎo)致云盤的三副本安全機(jī)制失效,并最終導(dǎo)致客戶數(shù)據(jù)完整性受損。痛定思痛,騰訊云希望在盡力幫助客戶解決本次問題的同時(shí),也通過相關(guān)機(jī)制的優(yōu)化避免類似情況的再度發(fā)生。故障過程復(fù)盤當(dāng)天上午11:57,我們的運(yùn)維人員收到倉(cāng)庫(kù)Ⅰ空間使用率過高告警,準(zhǔn)備發(fā)起搬遷擴(kuò)容;在14:05時(shí),運(yùn)維人員從倉(cāng)庫(kù)Ⅰ選擇了一批云盤搬遷至新倉(cāng)庫(kù)Ⅱ,為了加速搬遷,手動(dòng)關(guān)閉了遷移過程中的數(shù)據(jù)校驗(yàn);在20:27 搬遷完成之后,運(yùn)維人員將客戶的云盤訪問切至倉(cāng)庫(kù)Ⅱ,同時(shí)為了釋放空間,對(duì)倉(cāng)庫(kù)Ⅰ中的源數(shù)據(jù)發(fā)起了回收操作;到20:30 監(jiān)控發(fā)現(xiàn)倉(cāng)庫(kù)Ⅱ部分云盤出現(xiàn)IO異常。故障原因復(fù)盤本次事故起源自因磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤,再由于數(shù)據(jù)遷移過程中的不規(guī)范操作,導(dǎo)致異常數(shù)據(jù)擴(kuò)散至三副本,進(jìn)而導(dǎo)致客戶數(shù)據(jù)完整性受損。 數(shù)據(jù)搬遷過程中的違規(guī)操作主要如下兩點(diǎn): 第一是正常數(shù)據(jù)搬遷流程默認(rèn)開啟數(shù)據(jù)校驗(yàn),開啟之后可以有效發(fā)現(xiàn)并規(guī)避源端數(shù)據(jù)異常,保障搬遷數(shù)據(jù)正確性,但是運(yùn)維人員為了加速完成搬遷任務(wù),違規(guī)關(guān)閉了數(shù)據(jù)校驗(yàn); 第二是正常數(shù)據(jù)搬遷完成之后,源倉(cāng)庫(kù)數(shù)據(jù)應(yīng)保留24小時(shí),用于搬遷異常情況下的數(shù)據(jù)恢復(fù),但是運(yùn)維人員為了盡快降低倉(cāng)庫(kù)使用率,違規(guī)對(duì)源倉(cāng)庫(kù)進(jìn)行了數(shù)據(jù)回收。因這些錯(cuò)誤操作的連續(xù)影響,導(dǎo)致該客戶數(shù)據(jù)完整性受損,給客戶的正常業(yè)務(wù)運(yùn)行造成影響,騰訊云對(duì)此再次表示最誠(chéng)懇的歉意。改進(jìn)措施:經(jīng)過技術(shù)復(fù)盤,騰訊云技術(shù)團(tuán)隊(duì)深入到每個(gè)環(huán)節(jié),通過責(zé)任到人與流程閉環(huán)的雙管齊下,相應(yīng)作出如下的加強(qiáng)和改進(jìn)措施: 首先,我們將全面審視所有的數(shù)據(jù)流程,涉及數(shù)據(jù)安全的流程自動(dòng)化閉環(huán),進(jìn)一步提升我們常規(guī)運(yùn)維自動(dòng)化和流程化,降低人工干預(yù)。同時(shí)把全流程的數(shù)據(jù)安全校驗(yàn)作為系統(tǒng)的常開功能,不允許被關(guān)閉。 其次,針對(duì)物理硬盤靜默數(shù)據(jù)錯(cuò)誤,在當(dāng)前用戶訪問路徑數(shù)據(jù)校驗(yàn)自愈的基礎(chǔ)上,我們優(yōu)化現(xiàn)有巡檢機(jī)制,通過優(yōu)先巡檢主副本數(shù)據(jù)塊、跳過近期用戶訪問過的正確數(shù)據(jù)塊等方法,加速發(fā)現(xiàn)該類錯(cuò)誤,進(jìn)行數(shù)據(jù)修復(fù)。進(jìn)一步建議:騰訊云自2016年3月以來一直在提供免費(fèi)的快照功能(不等于備份,編者注),可以對(duì)重要數(shù)據(jù)進(jìn)行定期備份。同時(shí)出于對(duì)客戶數(shù)據(jù)隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟這一免費(fèi)功能。騰訊云在這里也呼吁客戶開啟這一功能,進(jìn)一步提升自身數(shù)據(jù)的安全性。未來,本著對(duì)客戶數(shù)據(jù)最大的敬畏,騰訊云將繼續(xù)探索更科學(xué)的機(jī)制,避免類似事件再次發(fā)生。
騰訊云2018年08月07日
注:本文與任何組織機(jī)構(gòu)無關(guān),如有錯(cuò)誤和不足之處歡迎在留言中批評(píng)指正。進(jìn)一步交流技術(shù),可以加我的QQ/微信:490834312。如果您想在這個(gè)公眾號(hào)上分享自己的技術(shù)干貨,也歡迎聯(lián)系我:)
感謝您的閱讀和支持!《企業(yè)存儲(chǔ)技術(shù)》微信公眾號(hào):HL_Storage
長(zhǎng)按二維碼可直接識(shí)別關(guān)注