應(yīng)用程序性能管理起來既變化多樣、又復(fù)雜難馴。時(shí)至今日,IT部門為了滿足業(yè)務(wù)形勢(shì)的各種需求,不得不在意外情況實(shí)際發(fā)生前就對(duì)問題進(jìn)行預(yù)判,并詳細(xì)規(guī)劃修復(fù)故障可能耗費(fèi)的時(shí)間——也就是MTTR(即平均修復(fù)時(shí)間)。換句話來說,僅僅及時(shí)做出反應(yīng)已經(jīng)無法取悅消費(fèi)者,現(xiàn)在技術(shù)人員必須在用戶尚未感受到之前,就將問題扼殺在萌芽狀態(tài)。
歷史在前進(jìn)、形勢(shì)在變化
云遷移、移動(dòng)技術(shù)、BYOD等多種新興技術(shù)趨勢(shì)都帶來了極度復(fù)雜的管理機(jī)制,這就迫使IT部門不能再滿足于傳統(tǒng)的識(shí)別及修復(fù)工作,而需要走在問題的前面。現(xiàn)在,技術(shù)團(tuán)隊(duì)必須能夠預(yù)測(cè)可能出現(xiàn)的情況、了解評(píng)估故障可能需要的時(shí)間,并最終實(shí)現(xiàn)關(guān)鍵性業(yè)務(wù)應(yīng)用程序始終擁有最佳性能表現(xiàn)。事實(shí)上,各種跡象表明我們甚至已經(jīng)初步擁有了能夠在故障實(shí)際發(fā)生之前就將其解決的先進(jìn)技術(shù)能力。
如今以MTT開頭的縮寫詞家族可謂人丁興旺,從平均診斷時(shí)間(簡(jiǎn)稱MTTI)、平均修復(fù)時(shí)間(簡(jiǎn)稱MTTR)再到最新的平均預(yù)測(cè)時(shí)間(簡(jiǎn)稱MTTP)——每個(gè)新生詞匯都代表著市場(chǎng)向技術(shù)團(tuán)隊(duì)提出的新要求,這種迅猛的變化趨勢(shì)確實(shí)令人頭痛。可以說以上三套基準(zhǔn)都意義重大、極具價(jià)值,標(biāo)志著技術(shù)運(yùn)營(yíng)的階段性發(fā)展方向,而企業(yè)用戶最關(guān)心的自然是這些突破性技術(shù)如何才能真正融入日常工作。在競(jìng)爭(zhēng)壓力下,IT部門不得不將負(fù)責(zé)范疇進(jìn)一步擴(kuò)大,嘗試在故障發(fā)生之前就將其解決——這將進(jìn)一步降低技術(shù)工具對(duì)終端用戶的技能需求,使整套業(yè)務(wù)方案更為易用。
可預(yù)測(cè)性已經(jīng)成為應(yīng)用程序性能管理工作中的關(guān)鍵環(huán)節(jié),而且技術(shù)分析人士已經(jīng)不再滿足于僅僅對(duì)處理時(shí)間做出預(yù)估。目前我們還只是對(duì)應(yīng)用程序使用情況進(jìn)行分析,但新時(shí)代的技術(shù)團(tuán)隊(duì)能夠緊密追蹤宏觀行為模式。此外,整個(gè)分析流程都必須以自動(dòng)化方式進(jìn)行,因?yàn)槊鎸?duì)如此規(guī)模的計(jì)算量,人力根本無法帶來任何幫助。當(dāng)然,這只是一種展望,目前我們還不能完成如此復(fù)雜的自動(dòng)化處理工作。
就在不久前,汽車愛好者們還喜歡在引擎蓋下面大做文章,希望能榨干自己改裝車發(fā)動(dòng)機(jī)的最后一點(diǎn)潛能。如今,隨著機(jī)動(dòng)車整體運(yùn)轉(zhuǎn)機(jī)制的復(fù)雜性與自動(dòng)化芯片的廣泛使用,隨便拿套工具就能為愛車加力的日子一去不復(fù)返了。與之類似,今天的企業(yè)級(jí)應(yīng)用程序堆棧也面臨著同樣的問題——太過復(fù)雜精密、難以按需修改。
自動(dòng)化實(shí)時(shí)預(yù)測(cè)分析技術(shù)如今迎來了發(fā)展過程中的全新篇章,其中以云基礎(chǔ)及混合環(huán)境為代表,這幾乎徹底改變了應(yīng)用性能管理領(lǐng)域的游戲規(guī)則。因此,我們不妨以改裝愛車的熱情來看待應(yīng)用性能管理所面臨的技術(shù)風(fēng)潮——這種突破性理念不僅能夠幫助IT部門專注于創(chuàng)新及業(yè)務(wù)支持、緩和設(shè)施故障,更使技術(shù)人員得以利用預(yù)測(cè)來代替修復(fù)、擺脫操作干擾,同時(shí)用戶也能獲得值得依賴的應(yīng)用程序性能預(yù)估結(jié)論。
很長(zhǎng)一段時(shí)間以來,“向云環(huán)境遷移”、“IT消費(fèi)化趨勢(shì)”、“混合型IT環(huán)境”以及BYOD等話題都被視為技術(shù)話題的重心,其中無疑存在大量炒作傾向。不過我們?nèi)匀灰姓J(rèn),這里提到的每一個(gè)話題都擁有改變游戲規(guī)則的力量,同時(shí)也為現(xiàn)有業(yè)務(wù)系統(tǒng)帶來諸多創(chuàng)新空間與技術(shù)挑戰(zhàn)。說到挑戰(zhàn),上述新技術(shù)給終端用戶帶來的技能要求可能是眾多問題中最難辨別也最難迅速解決的環(huán)節(jié)。
有鑒于此,預(yù)測(cè)概念的誕生就顯得更加重要。很多專家仍然鼓吹利用傳統(tǒng)的時(shí)間序列數(shù)據(jù)分析機(jī)制來進(jìn)行問題診斷、安全提示或警報(bào)閾值——但他們顯然忽視了新形勢(shì)所帶來的新情況:隨著網(wǎng)絡(luò)化進(jìn)程的普及與發(fā)展,分布式特性已經(jīng)使應(yīng)用程序的復(fù)雜性與關(guān)聯(lián)性大幅提升。
目前我們已經(jīng)發(fā)現(xiàn)了一種相當(dāng)有趣的方案,能夠?qū)M跨多種互聯(lián)端點(diǎn)的網(wǎng)絡(luò)負(fù)載行為及分布式應(yīng)用程序產(chǎn)生深遠(yuǎn)影響——它不僅能夠準(zhǔn)確把握設(shè)備的處理速度,同時(shí)還能根據(jù)終端用戶的不同服務(wù)水平協(xié)議將資源進(jìn)行合理分配。這套方案不同于以往的行為學(xué)習(xí)(簡(jiǎn)稱BL)機(jī)制,它突破性地利用多種考核維度來分析應(yīng)用程序的使用情況。這種名為使用模式的多用戶多事務(wù)行為管理方案將每一分鐘加以充分利用,意外情況再也不可能在技術(shù)人員的監(jiān)管之外肆意妄為了。
應(yīng)用程序行為學(xué)習(xí)(簡(jiǎn)稱ABL)會(huì)捕捉并分析實(shí)時(shí)數(shù)據(jù),及時(shí)反饋應(yīng)用程序基礎(chǔ)設(shè)施中各層的實(shí)際性能狀態(tài),并整理出終端用戶所感受到的真實(shí)使用體驗(yàn)。ABL會(huì)針對(duì)應(yīng)用程序性能創(chuàng)建出動(dòng)態(tài),同時(shí)利用統(tǒng)計(jì)相關(guān)性與模式匹配技術(shù)自動(dòng)發(fā)現(xiàn)各基礎(chǔ)設(shè)施組件的性能閾值。閾值自動(dòng)發(fā)現(xiàn)(簡(jiǎn)稱ATD)方案能夠大大降低管理工作對(duì)人力的依賴并減輕配置工作負(fù)擔(dān)。
分析機(jī)制還提供早期預(yù)警功能,能夠深入探詢基礎(chǔ)設(shè)施關(guān)鍵性效能指標(biāo)(簡(jiǎn)稱KPI),并將異常情況及時(shí)反饋給管理人員。在預(yù)警功能的強(qiáng)大輔助之下,技術(shù)人員能夠更快地進(jìn)行根本原因分析(簡(jiǎn)稱RCA)工作以及自動(dòng)修復(fù)流程。
ABL在對(duì)關(guān)鍵性應(yīng)用程序性能指標(biāo)的歷史及實(shí)時(shí)數(shù)據(jù)集進(jìn)行匯總時(shí),采用了相當(dāng)復(fù)雜的分析算法。到目前為止,系統(tǒng)、數(shù)據(jù)庫及存儲(chǔ)管理者一直都在以手動(dòng)方式利用這類方案進(jìn)行監(jiān)控及故障排查,這種“亡羊補(bǔ)牢”的笨辦法正是眼下的主流機(jī)制。ABL將問題檢測(cè)、故障排查重點(diǎn)以及生產(chǎn)環(huán)境下的爭(zhēng)議性問題等技術(shù)挑戰(zhàn)以自動(dòng)化形式完成,這就回避了傳統(tǒng)分析方案的復(fù)雜性及人工效率低下等問題,同時(shí)保障了高性能事務(wù)處理應(yīng)用始終擁有充裕的可用資源。
在引入ABL及預(yù)測(cè)分析機(jī)制之后,IT部門能夠?qū)W⒂趯?duì)每款應(yīng)用程序進(jìn)行性能優(yōu)化,而不僅僅是優(yōu)化底層設(shè)備。相較于過去需要在幾分鐘或者幾小時(shí)內(nèi)完成問題檢測(cè)、事故修復(fù)并應(yīng)對(duì)一系列多層環(huán)境的基礎(chǔ)設(shè)施中心型應(yīng)用性能管理方案,預(yù)測(cè)分析機(jī)制能夠?qū)⒐ぷ鲝?qiáng)度控制在過去的數(shù)分之一。IT如今可以在問題發(fā)生之前就做出預(yù)測(cè)并加以防范——在某些停機(jī)情況下,事前準(zhǔn)備能夠以五到十小時(shí)的時(shí)間節(jié)約量快速解決故障。
作者簡(jiǎn)介:供職于Appnomic Systems公司的Manisha Arora是一位經(jīng)驗(yàn)豐富的產(chǎn)品管理副總裁,她在技術(shù)分析方面的驕人造詣與強(qiáng)大的人際交往能力使她不僅對(duì)IT問題游刃有余、更能夠有效與同事、客戶及其他管理人員溝通。多年來,她始終專注于進(jìn)行業(yè)務(wù)應(yīng)用開發(fā)及產(chǎn)品交付工作,由此積累的豐富經(jīng)驗(yàn)幫助企業(yè)獲得了巨大的利潤(rùn)回報(bào)。Manisha在步入技術(shù)領(lǐng)域之初即擔(dān)任數(shù)據(jù)轉(zhuǎn)換領(lǐng)域的資深軟件工程師,其后她又成功依靠實(shí)踐心得相繼晉升為系統(tǒng)分析師及高級(jí)顧問。高超的職業(yè)技能幫助她迅速很快進(jìn)入了宏道資訊公司的管理層,在此期間她致力于管理客戶關(guān)系,并以兩百萬美元的年收入當(dāng)選年度百大財(cái)富高管。在加入Appnomic之前,她利用自己的才智與技巧在冠群電腦公司贏得了解決方案主管的職位。在職期間,她精心打理企業(yè)合作關(guān)系、營(yíng)銷團(tuán)隊(duì)及技術(shù)架構(gòu)等事務(wù),并在當(dāng)年就一舉將該公司的企業(yè)級(jí)IT管理方案服務(wù)部署份額提高了一倍。
原文名:Why Clean Up IT Accidents When They Can Be Prevented?