今天下午,阿里云阿里云部分服務器于出現短暫無法訪問情況,致使其科技博客ifanr等網站無法訪問。阿里云方面稱,該故障的發展原因在于出現電力故障,已在維護恢復中。
服務器宕機當下見怪不怪了。有的因為安全措施沒做到位,有的是因為冗余電源沒配置,有的是因為人為失誤,等等。而服務器一旦出現問題,追究原因對用戶而言無濟于事,事后的損失賠償似乎顯得蒼白無力。如何做到預警,如何做好工作負載的技術支持,如何實現冗余保障......當下談論服務器持續7X24的智能響應技術已不計其數,然而頻繁出現服務器故障、服務器宕機又是何故?服務商該思考了。在此,筆者鄙陋,列舉幾種減少服務器宕機的方法,僅供服務商參考:
·選購合適的服務器產品
在琳瑯滿目的服務器產品中,企業選擇服務器產品不能人云亦云,應該在購買前,對自身員工數量、業務類別、業務規模、機房空間、服務對象性質、管理能力等進行徹底大清查之后,再進行比對,選擇適合自己的服務器產品。
·建構良性服務器機房
機房是服務器賴以生存空間,機房整潔度、布線合理性、通風情況如何,冷卻溫度如何將直接影響身處其中的服務器。“系統在過熱、過濕、灰塵過多的環境下也許仍可以運行,但是它們絕對達不到應有的使用壽命,而且較之于在建議的環境狀況下運行,更容易受到環境條件的影響,因而頻出故障。”來自TERiX計算機服務公司的營銷專員Joe Guenther這樣說道。
·運行服務器實時監控機制
服務器每天在運行的過程中,企業應該運行服務器實時監控機制。監控機制包括兩部分:員工實時檢查和網絡實時監測。企業部署相關員工對服務器運行數據進行按日分析,并整理出服務器工作日志,以便第一時間處理異常現象;同時對服務器機房進行按日檢查,避免人為諸如機房亂堆放雜物、有灰塵等情況干擾服務器正常運行。另一方面,企業應該選擇一套服務器監控解決方案,對服務器從內在質上進行實時監控,以便及時發出警報,及時安排相關技術人員進行整修。
·制定宕機災難修復計劃
既然服務器出現宕機的可能性隨時存在,在部署服務器時,企業需要邀請相關IT專家進行討論,分析該企業可能出現宕機情況,并就這些情況分析結果形成意見,思考宕機情況出現時的解決策略,制定一套宕機災難修復計劃,以便服務器在出現宕機時減少慌亂,及時應對。