omniture

讓IT自動化

2011-04-22 16:16

從手工賬簿到財務(wù)軟件,從柜臺長龍到電子銀行,從紙質(zhì)流程到移動辦公,IT讓業(yè)務(wù)越來越自動化,越來越高效;但I(xiàn)T自身為什么不能更自動化些?

什么時候網(wǎng)絡(luò)管理員能擺脫四處救火的消防員形象?什么時候數(shù)據(jù)庫管理員能夠從容應(yīng)對海量數(shù)據(jù)的監(jiān)控、管理?什么時候系統(tǒng)管理員能夠吃著火鍋、唱著歌,就能確保系統(tǒng)正常運行呢?

自動化 必須的

2010年5月份,第三方研究公司Coleman Parkes Research的調(diào)查研究結(jié)果顯示,企業(yè)的IT支出呈現(xiàn)出 70/30 規(guī)則,即與新的IT計劃相比,企業(yè)70%的錢都花了現(xiàn)有系統(tǒng)的運維上。而IT運維人員70%的精力和時間都花在了日常巡檢、系統(tǒng)發(fā)布、配置等基礎(chǔ)運維工作上。

的確是如此。在4月9日舉行的“自動化:IT的未來——惠普軟件IT自動化用戶研討會”上,一位不愿透露姓名的某國有大型銀行技術(shù)經(jīng)理以其數(shù)據(jù)中心為例向記者介紹,復(fù)雜的架構(gòu)、繁雜的工作、嚴(yán)格的流程、紛繁的系統(tǒng)、眾多的管理團隊和離散的操作,讓系統(tǒng)運維工作占用了大量的資金和人力成本,但實際效果卻不怎么樣。

因為集中復(fù)雜的服務(wù)器、網(wǎng)絡(luò)和存儲部署與多點分布的業(yè)務(wù)應(yīng)用之間存在大量的相互依賴的關(guān)系,在復(fù)雜的架構(gòu)下,“要手工做持續(xù)的大量變更非常容易出錯,且前后不一致;而在運維組、調(diào)度組、安全組等不同的團隊及系統(tǒng)之間的調(diào)度和協(xié)作也因缺乏標(biāo)準(zhǔn)化控制而凌亂;在各自獨立的系統(tǒng)視圖下對網(wǎng)絡(luò)、服務(wù)器、存儲等基礎(chǔ)設(shè)施豎井式的分離管理也讓運維工作不能體現(xiàn)出整體效應(yīng)。”這位技術(shù)經(jīng)理感慨地說。

一方面,企業(yè)既需要用自動化工具替代手工操作,把IT人員從繁瑣的日常運維工作中解放出來,使其不再做重復(fù)勞動,可以有更多的時間去做更具創(chuàng)新、更有價值的事情;另一方面自動化也能解決一旦系統(tǒng)出現(xiàn)問題后,各個崗位互相扯皮、責(zé)任不清的問題。

“無論是從人工成本還是系統(tǒng)效率還是支撐業(yè)務(wù)創(chuàng)新的角度看,IT自動化都是必然的趨勢。”中國工商銀行數(shù)據(jù)中心安全部副總經(jīng)理敦宏程肯定地對記者說。

光大銀行運行管理處項目經(jīng)理張憲鐸也對記者說,“各銀行具體環(huán)境不太一樣,得根據(jù)銀行自己實際情況綜合考慮,在風(fēng)險可控的前提原則下,自動化應(yīng)該是個大方向。

業(yè)務(wù)導(dǎo)向的運維

“現(xiàn)在很多監(jiān)控、管理工作是孤立的,網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、業(yè)務(wù)之間不相互關(guān)聯(lián)。一旦業(yè)務(wù)出現(xiàn)問題,沒有一個統(tǒng)一、簡單、可控的監(jiān)控與管理,不能自動化,無法高效地解決問題。” 惠普全球運維管理資深專家Jonathan研討會上以美國大型醫(yī)療藥品供應(yīng)商麥克森(McKesson)的數(shù)據(jù)中心自動化運維為例,介紹了當(dāng)前IT運維的現(xiàn)狀和難點和自動化IT的價值。

當(dāng)然,IT自動化的價值不只是在于保障系統(tǒng)本身的正常運行,降低運行成本,提高運行效率,更重要的是要高效、靈活地實現(xiàn)IT對業(yè)務(wù)的支撐,應(yīng)對加速變化的業(yè)務(wù)流程,與業(yè)務(wù)融為一體,不斷創(chuàng)新。

惠普軟件技術(shù)總監(jiān)于志偉用醫(yī)院急診的例子介紹了瞬捷企業(yè)對IT自動化需求的必要性。“一名昏迷的病人被送進(jìn)急診室搶救,掃描一下,這名病人的病史、過敏史等所有信息就都展現(xiàn)在了醫(yī)生面前,醫(yī)生就可以對癥采取急救措施了。在醫(yī)院,時間就是生命。試想如果沒有自動化的IT手段收集、快速查詢、傳輸這些信息,搶救情況會多么糟糕,而單靠人工是不可能做到的。”

另外,他也說,現(xiàn)在企業(yè)對CIO的期望,不再只是保證系統(tǒng)的可靠性和可用率,而是得面向業(yè)務(wù),更加敏捷、高效地去適應(yīng)業(yè)務(wù)流程,通過IT獲取更多的業(yè)務(wù)機會、增長利潤、體現(xiàn)競爭優(yōu)勢。而通常情況下,要實現(xiàn)這些CIO不得不還得面臨的一個“殘忍”現(xiàn)實是并沒有增加新的IT預(yù)算。還是原來那些錢,但卻要做更多事,那么CIO就必須簡化IT,通過IT自動化實現(xiàn)創(chuàng)新的目標(biāo)。

在于志偉看來,IT自動化分為三個階段:第一個階段是單個任務(wù)自動化,用自動化工具取代日常手工作業(yè),比如服務(wù)器自動巡檢、自動化測試應(yīng)用上線等,這樣可以解放IT人力等資源投入到其他創(chuàng)新項目,這個階段是目前大多企業(yè)都可以做到的;第二階段是自動化IT流程,依據(jù)ITIL等標(biāo)準(zhǔn)化的最佳實踐,實現(xiàn)配置、變更、事件等管理的自動化,將過去要用2-3個小時做的事情現(xiàn)在用幾秒鐘完成,這階段是IT應(yīng)用相對成熟的金融、電信等行業(yè)用戶正在做的;而第三個階段就是要實現(xiàn)服務(wù)自動化,比如上線一個ERP系統(tǒng)、CRM系統(tǒng),過去可能需要5個月,而通過自動化,通過云服務(wù)就可以2個小時完成。于志偉說,怒目前很多企業(yè)都是已經(jīng)實現(xiàn)了服務(wù)器、網(wǎng)絡(luò)、存儲等基礎(chǔ)設(shè)施的自動化,而面向業(yè)務(wù)的流程和服務(wù)自動化則是大勢所趨。

Jonathan則針對目前IT運維的現(xiàn)狀,提出企業(yè)先要整合網(wǎng)絡(luò)、存儲、服務(wù)器等各自的監(jiān)控管理平臺成一個平臺,然后從業(yè)務(wù)出發(fā),看業(yè)務(wù)需要落實什么,再將業(yè)務(wù)與IT緊密關(guān)聯(lián),并通過恰當(dāng)?shù)闹С煮w系實現(xiàn)整個運維過程的自動化。

在會上,惠普軟件自動化專家陳禾也向與會嘉賓介紹了惠普針對數(shù)據(jù)庫和中間件自動化的DMA解決方案。他認(rèn)為,針對數(shù)據(jù)庫和中間件自動化的DMA是基礎(chǔ)架構(gòu)到應(yīng)用之間的一個連接紐帶,是一個非常重要的連接點。

關(guān)鍵是基礎(chǔ)腳本庫和流程庫

已經(jīng)有兩年數(shù)據(jù)中心自動化建設(shè)經(jīng)驗的某大型銀行數(shù)據(jù)中心負(fù)責(zé)人向記者介紹了他們的經(jīng)驗。

“我們當(dāng)時做自動化建設(shè)的起因是運維工作面臨著三大困難:一是隨著數(shù)據(jù)中心的業(yè)務(wù)發(fā)展,運維的規(guī)模不斷膨脹,管理體系不斷增加,但人手卻沒有增加,有限的人手怎樣面對復(fù)雜的運維環(huán)境是當(dāng)時最突出的矛盾。第二個困難就是在配置管理部分,因為從系統(tǒng)安裝到后期運維的整個運維生命周期內(nèi),配置管理信息非常多。作為普通的系統(tǒng)管理員,面對海量的配置要求,如何能一次性地、準(zhǔn)確地獎信息輸入電腦非常關(guān)鍵。第三就是在數(shù)據(jù)中心的日常項目管理方面,相關(guān)軟件的部署和運維不能100%覆蓋整個系統(tǒng),總會有5%部分的系統(tǒng)是沒有覆蓋到的。這是因為今天的數(shù)據(jù)中心已經(jīng)涵蓋包括軟件、傳輸、ITM監(jiān)控等非常多的產(chǎn)品,普通的系統(tǒng)管理員很難全部掌握全部產(chǎn)品的運維知識和技能。”這位負(fù)責(zé)人說。

如何解決這些困難呢?自動化是非常好的方法。從2009年開始,該行開始了自動化建設(shè)一期的建設(shè)。立項之初,項目就設(shè)立了三大目標(biāo),第一是做什么,就是要建立跨平臺、面向服務(wù)的自動化運維管理體系。第二是怎么做,核心環(huán)節(jié)是什么,就是要發(fā)展不完善的基礎(chǔ)腳本庫和基礎(chǔ)流程庫,這兩樣是其整個自動化運維的核心關(guān)鍵。“只有把腳本庫和流程庫很規(guī)范地建設(shè)好后,才能在復(fù)雜的環(huán)境中推進(jìn)自動化運維,否則雖然自動化在某些情況下能提高工作效率,還是會帶來負(fù)面的風(fēng)險。” 他說。

第三就是組織架構(gòu),數(shù)據(jù)中心怎樣協(xié)調(diào)系統(tǒng)部、應(yīng)用部、運維部、調(diào)度部、安全部等各個技術(shù)水平不一的部門共同實施自動化,必須得有方法、有制度。“我們不斷將自動化的知識、理念、平臺的使用方法等做知識轉(zhuǎn)移,讓像系統(tǒng)部、應(yīng)用部等技術(shù)能力較強的部門接受自動化工具,同時也協(xié)調(diào)一些流程管理部門,像安全部、調(diào)度部等,讓他們的日常工作也越來越自動化。”

經(jīng)過兩年的努力,該負(fù)責(zé)人介紹,該行已經(jīng)實現(xiàn)了系統(tǒng)運維的自動化,包括配置信息的收集、系統(tǒng)日常健康檢查等,把日常重復(fù)、簡單、可控的工作,納入自動化范疇;其次就是實現(xiàn)了一些操作的自動化,比如數(shù)據(jù)中心網(wǎng)上批量處理的自動化;還有災(zāi)備切換的自動化。

他以系統(tǒng)健康檢查自動化為例,向記者介紹他們的具體做法就是將健康檢查的標(biāo)準(zhǔn)、規(guī)范的前提形成一些腳本,通過自動化運維平臺定時地調(diào)用這些腳本,生成的報表可以快速地反饋到運維人員的信箱。“當(dāng)時我們就是每天晚上大概三四點鐘的時候,定時執(zhí)行這個自動化任務(wù)。每天早上九點鐘,系統(tǒng)管理員上班打開電腦就可以從他的郵箱里面看到昨天晚上整個系統(tǒng)的運維情況。他就不用再花時間到不同的平臺上去檢查這些參數(shù),只要對這些報表進(jìn)行瀏覽,再對他覺得有疑點的地方做正式的檢查和排查。通過這種方式,在節(jié)省時間和人力成本的同時,確保了系統(tǒng)的可用性,降低了發(fā)生問題的風(fēng)險。”

自動化的前提是風(fēng)險可控

自動化雖是大勢所趨,但記者采訪發(fā)現(xiàn),用戶對于自動化還是非常謹(jǐn)慎的。敦宏程認(rèn)為其實銀行有些流程環(huán)節(jié)是必須要有人介入的,不能什么事都自動化。敦宏程認(rèn)為,要推進(jìn)自動化,供應(yīng)商產(chǎn)品的成熟度也是他們要考慮琢磨的重中之重。因為曾經(jīng)他們遭遇尷尬的自動化事件,有個項目中,他們需要部署幾百臺某其他品牌服務(wù)器,預(yù)備采取自動化部署方案,預(yù)留的部署時間就很短,結(jié)果在在第二天要投產(chǎn)之前發(fā)現(xiàn)自動化部署有問題,他們不得不把所有人集中在機房,一人幾臺機器趴在地板上連夜手工裝機器。“可控性是我們考慮的第一要素。”

北京京東方光電科技有限公司自動化部部長邢明海也表示,出于安全的考慮,需要從效率和控制兩方面均衡考慮配比自動化和手工兩種方式。

張憲鐸認(rèn)為自動化和手工會有慢慢轉(zhuǎn)化的過程,就像復(fù)雜和簡單之間也是在慢慢轉(zhuǎn)化一樣。他說,目前對光大銀行來說,可以自動化的還是那些常規(guī)性、重復(fù)性的簡單操作,他們現(xiàn)在主要做的還是把相當(dāng)于眼睛和耳朵的監(jiān)控工作做到位,通過對基礎(chǔ)設(shè)施和業(yè)務(wù)的監(jiān)控,及時發(fā)現(xiàn)問題,保障系統(tǒng)和業(yè)務(wù)的可用性和連續(xù)性。推進(jìn)自動化的最終原則就是風(fēng)險可控,風(fēng)險可控的前提下把繁瑣操作自動化提高效率是好事,但如果風(fēng)險不一定可控,就不能冒冒失失地推進(jìn)自動化。

飯要一口一口吃,路要一步一步走。企業(yè)的IT自動化之旅,得按部就班、循序漸進(jìn)。

案例鏈接:

麥克森的自動化故事

麥克森是美國的一家大型醫(yī)療藥品供應(yīng)商,在全球500強排名34,在財富500強的美國公司中排名第14,年營業(yè)額1060億美元,是美國醫(yī)療藥品批發(fā)領(lǐng)域的頭一把交椅,有超過4萬家的藥店,同時它還是醫(yī)療流程系統(tǒng)提供商,像醫(yī)療記錄、藥方的合規(guī)審計等領(lǐng)域的軟件都是由麥克森提供的。

麥克森的問題有兩個,一是它基礎(chǔ)設(shè)施和業(yè)務(wù)應(yīng)用的監(jiān)控相互獨立,一旦業(yè)務(wù)出現(xiàn)問題,無法定位問題源于何處;二是其系統(tǒng)的應(yīng)用可靠性和性能非常重要,因為系統(tǒng)宕機一小時,麥克森就損失上百萬美元,而在線銷售藥品的部分,頁面反饋時間超過8秒,消費者就會離它而去。

麥克森現(xiàn)在采用了一套IT基礎(chǔ)設(shè)施監(jiān)控軟件,但是系統(tǒng)沒有集成,應(yīng)用組件、存儲、網(wǎng)絡(luò)和監(jiān)控軟件之間完全孤立,流程全是通過手工來做,大量的事件無法處理。于是麥克森開始系統(tǒng)改造,業(yè)務(wù)部門和IT部門共同提出了項目需求:提升服務(wù)管理水平,縮短平均修復(fù)時間(MTTR),降低成本并提升流程一致性,提升業(yè)務(wù)服務(wù)可視性,集成監(jiān)控并實現(xiàn)自動化。

經(jīng)過比對篩選,麥克森最終選擇了惠普。項目目標(biāo)就是要實現(xiàn)所有基礎(chǔ)設(shè)施監(jiān)控與事件關(guān)聯(lián),實現(xiàn)事件的處理和故障恢復(fù)的自動化。項目分為兩期:第一期是采用惠普的一些監(jiān)控工具和自動化的工具實行監(jiān)控的自動化和故障采集的自動化;第二期是實現(xiàn)故障解決的自動化。

項目共需要管理麥克森的3000臺服務(wù)器。第一期項目中,他們著重對事件進(jìn)行關(guān)注,用自動化的方式定位事件的根源;然后注意在流程處理過程中保持測試的準(zhǔn)確性,保持處理策略的一致性,用很多即插即用的插件實現(xiàn)監(jiān)控的標(biāo)準(zhǔn)化管理。

項目一期實現(xiàn)了自動化的從事件發(fā)生到處理到結(jié)束的閉環(huán)事件處理流程。項目4億美元的投入不到半年就收回成本了。通過自動化,麥克森節(jié)省了大量的工作時間,SLA水平也得到了顯著提升。

而麥克森自動化的經(jīng)驗就是先把自動化門戶建起來,用一些自動化工具去解決流程,但是這并不意味著直接用自動化,而是先手工運行一段時間,流程穩(wěn)定的時候再讓它自動去實現(xiàn)。如此下來,所有事件都能很好地解決。接下來麥克森還會利用惠普的新平臺做業(yè)務(wù)與基礎(chǔ)設(shè)施關(guān)聯(lián)的實時互動模型等。

 

(責(zé)任編輯:王少青)

消息來源:CIO360