回顧2015,當提到攜程,提到網易,提到支付寶,你會想到什么?是的,“宕機”!這幾乎已經成為2015年IT圈內的一大關鍵詞。近期,著名社交平臺Snapchat遭受了最大規模的一次宕機,服務中斷12小時后依然未恢復。而長達1天的宕機不僅使該公司遭受數百萬美元損失,也使利用Discover功能發布廣告支持內容的內近20家出版者遭到重大損失。
“全球數據保護指數”調查顯示,去年,超過一半的企業組織報告反映存在計劃外的宕機情況,并且有三分之一的企業遭受了數據丟失,其帶來的損失每年可高達1.7 萬億美元。因此,當前問題已不在于您的組織“是否”會出現計劃外宕機或數據丟失,而在于什么時候出現及其影響程度有多大。
調查根據企業對數據保護技術的采用和實施,將企業分成四類:僅13%的企業是“領導者”或“采用者”,他們擁有高級數據保護戰略,不太可能遭遇中斷;其余87%的企業被歸為“評估者”或“落后者”。這意味著這些組織的數據保護落后于市場趨勢。
看到調查中如此令人心驚肉跳的結果,企業是否該反思一下,自身服務器以及數據安全防護措施是否到位,對災難的應對能力是否具備,是否能夠積極從以往行業事件中吸取教訓,鞏固自身實力?我們來看看網友的經驗之談。
七嘴八舌,網友談宕機經歷
網友hai503談到自身經驗時說道:“個人經歷過機房所在大廈斷電,UPS供電30分鐘后機房斷電,那次斷電不影響第二天的業務處理,但懷疑是存儲壞掉的誘因。”
網友韓云松遇到過兩次宕機事件:“一次是因為網絡IP沖突,導致服務器關閉。由于突然斷電,路由重啟,vlan配置未保存,導致IP沖突;另外一次是因為存儲損壞,存儲做的raid5,一組壞了個盤,熱備盤沒有替換上,然后另一組也掛了個盤,最后全掛了,不過幸好有備份。”
網友renxiao2003也分享了經驗:“我們開發使用的Mantis服務器就會出現宕機事件。主要原因還是使用的是Windows系統,系統資源使用過多會造成無法服務的現象。”
最后,網友1983yu表示:“我們遇到的小規模的宕機一般都是機器或硬件掛了導致的,其實,大規模的宕機主要都是機房整體故障或是大面積的網絡故障導致的,因為服務出現的故障一般都不會持續太久,如果真是因為這個,只能說嗶了狗。”
宕機原因起底,人為因素偏多?
在談到宕機原因時,網友smilefish對引起宕機的主要因素作出了總結:硬件故障,系統故障,人為破壞,網絡攻擊,電力故障,機房設備故障。網友it_horse干脆表示:“引起宕機的大部分是人為因素,少部分是設備,但即使設備也是人的因素。”
那么,他們為什么會如此判斷?網友sjf0115對2015年影響廣泛的幾次宕機事件做出了總結,從他的總結中,我們似乎能看出些端倪:
-
1、2015年1月27日,2點起,便有網友發現,無法登陸Facebook,頁面顯示"對不起,出故障了,目前正在搶修,會盡快修復"。同時,黑客組織Lizard Squad發推特,聲稱對此次宕機事件負責。雖然Facebook發言人稱:"此次故障與第三方攻擊無關,發生故障的原因是我們對系統設置做了一點改動。"但相關數據顯示,Facebook美國總部當天曾遭受大規模DDos攻擊。
-
2、2015年3月11日,包括App Store、iTunes Store、Mac App Store以及iBooks Store在內的一系列蘋果在線商店服務,遭遇大面積服務中斷。據統計事故恢復時間長達11個小時。宕機原因是蘋果公司內部DNS錯誤。
-
3、2015年5月11日晚21時左右,網易旗下游戲、有道云筆記、LOFTER、考拉海購、網易公開課等無法正常訪問。事后,網易發表官方聲明稱:"因骨干網絡出現異常,導致網易旗下部分游戲及網站論壇暫時無法登陸,技術人員已經在搶修中“。
-
4、2015年5月27日,支付寶大面積癱瘓,電腦端和移動端均無法進行轉賬付款,緣由是杭州市蕭山區某地光纜被挖斷,進而導致支付寶一個主要機房受影響,導致部分地區的支付寶服務中斷數小時。
-
5、2015年5月28日,攜程網站和APP全線癱瘓,多項功能無法使用,宕機時間長達12小時,尷尬地創下了國內互聯網公司系統癱瘓的新紀錄。而后,攜程方面也兩次作出解釋:先是稱“因部分服務器疑似遭到不明攻擊所致”;后又宣布此次事件系內部人員錯誤操作導致,相同的是兩種解釋均是人為因素。
企業如何減少宕機,做好數據防護
網友韓云松從事運維工作,他提出了個人看法:“我們企業現在普遍為雙機熱備,采用的是共享存儲的方式,個人認為可以使用雙機雙存儲熱備方式,防止單點故障。至于RAC、DG我們還沒上,這是以后學習的方向。”
網友yuanjianfa0324認為:“服務器是硬件設備,而且是全年二十四小時不間斷運行的,通常負載量也較大。所以時間一長就容易出現宕機的情況,只要不是太頻繁,就是完全正常的。一般常用服務器的人都知道,每隔一段時間定期手動重啟下機器,對機器的性能有很大幫助,而且可以避免宕機的情況。畢竟服務器也是硬件,長期運行中間也應該有個喘氣的過程。”
網友1983yu表示:”數據防護也就那些東西,查詢漏洞,預防病毒,定期檢查源代碼,做好數據備份,充分認識內外攻擊之類的,對于被動的防御也沒有什么多好的辦法,盡量不犯些小錯誤,認真執行安全防護手段。有錢的有技術的企業就搞異地雙機房災備,這樣一個機房掛了,直接切到另一個機房來服務,沒錢的企業就只能期望機房不出問題,只是偶爾單節點機器異常罷了。“
網友sjf0115最后總結認為,在進行企業網站安全設計時,首先要了解自己的網絡可能面臨的攻擊,尋找網站漏洞,想要確保系統免受病毒入侵,不丟失數據,必須要經常運用殺毒軟件。而且,局域網每天遭受的攻擊類型是在不斷變化的,因此針對這種攻擊類型而采取的防范軟件也必須及時更新。其實,在技術提升的同時,我們更應該轉變的是觀念,正視容災備份的重要性。他一共強調了三點內容:
1、為了提高服務器安全性,可以采用軟硬件結合的方式,提高服務器可用性;
2、要進行備份確保信息不會丟失;
3、通過冗余,提高服務器性能。
在以上內容中,網友們結合自身經驗,將各類防護措施總結的較為全面。曾經有人將數據庫管理員進行數據保護時需注意的三個C做了總結,它們分別是:消耗、連續、控制。即確保知道什么地方存在數據消耗,以確保數據隨時隨地都受到保護;確保數據在整個連續的恢復點目標(RPO)和恢復時間目標(RTO)范圍內都受到了保護;保護數據庫的工作常需要將多個供應商的備份和保護解決方案進行融合。還有十分重要的一點,加強內部員工的安全防護意識,畢竟前車之鑒擺在那里,無論措施做得多完備,若操作不當也會導致嚴重后果。