北京2021年5月21日 /美通社/ -- 近日,亞馬遜云科技宣布Amazon DevOps Guru正式可用。這是一項完全托管的運(yùn)營服務(wù),使用機(jī)器學(xué)習(xí)技術(shù)自動檢測運(yùn)營問題,并對具體的修復(fù)措施給出建議,讓開發(fā)者更輕松地提高應(yīng)用的可用性。憑借亞馬遜電商Amazon.com和亞馬遜云科技多年來卓越的運(yùn)營經(jīng)驗,Amazon DevOps Guru采用機(jī)器學(xué)習(xí)技術(shù)自動分析數(shù)據(jù),如應(yīng)用程序指標(biāo)、日志、事件,并跟蹤偏離正常運(yùn)營模式的行為。當(dāng)Amazon DevOps Guru發(fā)現(xiàn)可能導(dǎo)致停機(jī)或服務(wù)中斷的異常應(yīng)用程序行為時,它會向開發(fā)人員發(fā)出告警通知并提供問題詳細(xì)信息,幫助他們快速了解問題的潛在影響和可能的原因,并提供修復(fù)的具體建議。開發(fā)人員可以使用Amazon DevOps Guru提供的補(bǔ)救建議,減少解決問題的時間,并提高應(yīng)用程序的可用性 -- 所有這些都不需要手動設(shè)置或機(jī)器學(xué)習(xí)專業(yè)知識。Amazon DevOps Guru無需預(yù)付費(fèi)用,客戶只需為Amazon DevOps Guru分析的數(shù)據(jù)付費(fèi)。欲開始使用Amazon DevOps Guru,請訪問:aws.amazon.com/devops-guru
隨著越來越多的組織轉(zhuǎn)向基于云的應(yīng)用程序部署和微服務(wù)架構(gòu)來擴(kuò)展他們的業(yè)務(wù),分布式應(yīng)用程序變得越來越普遍,開發(fā)人員需要更多的自動化實踐來維護(hù)應(yīng)用程序的可用性,并減少用于檢測、調(diào)試和解決運(yùn)營問題所耗費(fèi)的時間和精力。由于代碼錯誤或配置更改、不均衡的容器集群或資源耗盡(例如CPU、內(nèi)存、磁盤等)等引起的應(yīng)用程序宕機(jī)事件會導(dǎo)致糟糕的客戶體驗和收入損失。公司投入了大量的開發(fā)人員資源、時間和金錢來部署多種監(jiān)控工具,而這些工具通常需要單獨(dú)管理,且必須開發(fā)和維護(hù)針對常見問題的自定義警報,如負(fù)載均衡錯誤的峰值或應(yīng)用程序請求率的下降。設(shè)置閾值來識別和警告應(yīng)用程序資源的異常行為通常需要手動設(shè)置,并且要求閾值必須隨著應(yīng)用程序使用的變化而不斷更新(例如,在促銷期間出現(xiàn)異常大量的請求)。如果閾值設(shè)置得太高,開發(fā)人員只有在運(yùn)營性能受到嚴(yán)重影響時才會看到警報。而閾值設(shè)置得太低時,告警次數(shù)過于頻繁,導(dǎo)致開發(fā)者的判斷受到影響并容易忽視這些報警。即使開發(fā)人員收到了潛在運(yùn)營問題的警告,確定根本原因的過程仍然是困難的。使用現(xiàn)有的工具,開發(fā)人員常常很難從圖表和警報中找出運(yùn)營問題的根本原因,即使找到根本原因,也常常缺乏正確的信息來修復(fù)它。每次故障排除嘗試都是一次冷啟動,團(tuán)隊必須花費(fèi)數(shù)小時或數(shù)天時間來識別問題,耗時且乏味,拖慢解決運(yùn)營故障的進(jìn)程,并可能延長應(yīng)用程序中斷的時間。
Amazon DevOps Guru的機(jī)器學(xué)習(xí)模型借鑒Amazon.com 20多年來在構(gòu)建、擴(kuò)展和維護(hù)高可用的應(yīng)用程序方面的運(yùn)營經(jīng)驗。該服務(wù)能夠自動檢測運(yùn)營問題(例如,缺少或配置錯誤的警報、資源耗盡的早期預(yù)警、可能導(dǎo)致宕機(jī)的配置更改等),提供涉及資源和相關(guān)事件的情境,建議采取補(bǔ)救措施。用戶只需在Amazon DevOps Guru控制臺點擊幾下,就會自動從其亞馬遜云科技應(yīng)用程序中獲取歷史應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)(如延遲、錯誤率和資源請求率),并進(jìn)行分析,建立正常的運(yùn)營邊界。Amazon DevOps Guru使用一個預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型來識別與正常操作模式偏離的行為(例如,不足的計算能力、數(shù)據(jù)庫I/O利用率、內(nèi)存泄漏等)。當(dāng)Amazon DevOps Guru分析系統(tǒng)和應(yīng)用數(shù)據(jù)自動檢測異常時,它還將這些數(shù)據(jù)分組到運(yùn)營洞察中,包括異常指標(biāo)、應(yīng)用程序隨時間變化的行為可視化,以及補(bǔ)救措施建議 -- 所有這些都可以在Amazon DevOps Guru控制臺輕松查看。Amazon DevOps Guru還將相關(guān)的應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)(例如web應(yīng)用程序延遲峰值、磁盤空間耗盡、糟糕的代碼部署等)關(guān)聯(lián)和分組,以減少冗余警報,幫助用戶關(guān)注嚴(yán)重的問題。客戶可以通過Amazon DevOps Guru控制臺的儀表板查看配置更改歷史和部署事件,以及系統(tǒng)和用戶活動,從而生成一個可能導(dǎo)致運(yùn)營問題的優(yōu)先級列表。為了幫助客戶快速解決問題,Amazon DevOps Guru提供含有補(bǔ)救步驟的智能建議,并與Amazon Systems Manager集成,用于運(yùn)行手冊和協(xié)作工具,使客戶能夠更有效地維護(hù)應(yīng)用程序和管理其部署的基礎(chǔ)設(shè)施。例如,當(dāng)使用Amazon Relational Database Service (RDS)的分析應(yīng)用程序開始顯示出延遲性能退化時,Amazon DevOps Guru將通過自動分析跨應(yīng)用程序堆棧的相關(guān)指標(biāo)來檢測變化,確定潛在的根本原因(例如并發(fā)計算實例寫入RDS的數(shù)量增加),并提供解決問題的建議(例如增加RDS的容量和IOPS存儲以處理更高的負(fù)載)。
“客戶希望亞馬遜云科技能夠提供更多服務(wù),將我們數(shù)十年來不斷改善Amazon.com應(yīng)用可用性方面的卓越經(jīng)驗為他們所用。”亞馬遜云科技全球機(jī)器學(xué)習(xí)副總裁Swami Sivasubramanian表示,“Amazon DevOps Guru正是發(fā)揮我們的專長,構(gòu)建專門的機(jī)器學(xué)習(xí)模型,可以在運(yùn)營問題影響客戶之前就檢測、排除故障并預(yù)防它們,而不是在每次出現(xiàn)問題后開始處理。Amazon DevOps Guru可以即刻為客戶帶來好處,獲得我們運(yùn)行Amazon.com過程中積累的運(yùn)營最佳實踐,我們將Amazon DevOps Guru設(shè)計得簡單易用,對于每個亞馬遜云科技的客戶來說,都可以輕松地啟用該服務(wù)?!?/p>
客戶只需在亞馬遜云科技管理控制臺中點擊幾下,就可以使用Amazon DevOps Guru在幾分鐘內(nèi)開始分析帳戶和應(yīng)用程序活動,并提供運(yùn)營洞察。Amazon DevOps Guru為客戶提供單控制臺體驗,通過匯總多個來源(例如Amazon CloudTrail, Amazon CloudWatch, Amazon Config, Amazon CloudFormation, Amazon X-Ray)的相關(guān)數(shù)據(jù)并可視化,免去在多個工具之間切換??蛻暨€可以在Amazon DevOps Guru控制臺中查看相關(guān)的運(yùn)營事件和上下文數(shù)據(jù),并通過Amazon SNS接收警報。此外,Amazon DevOps Guru通過Amazon SDK支持API端點,使得亞馬遜合作伙伴網(wǎng)絡(luò)成員和客戶可以輕松地將Amazon DevOps Guru集成到他們現(xiàn)有的解決方案中,用于故障單分級、尋呼和針對高嚴(yán)重性問題的工程師自動通知。PagerDuty和Atlassian是亞馬遜云科技的合作伙伴,已經(jīng)將Amazon DevOps Guru集成到他們的運(yùn)營監(jiān)控和事件管理平臺中,使用該解決方案的客戶可以從Amazon DevOps Guru提供的運(yùn)營見解中獲益。Amazon DevOps Guru現(xiàn)已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、亞太地區(qū)(新加坡)、亞太地區(qū)(悉尼)、亞太地區(qū)(東京)、歐洲(法蘭克福)、歐洲(愛爾蘭)和歐洲(斯德哥爾摩)區(qū)域正式推出,其他區(qū)域也將很快推出。
與Amazon CodeGuru服務(wù)一起,Amazon DevOps Guru為客戶帶來了面向其運(yùn)營數(shù)據(jù)的機(jī)器學(xué)習(xí)自動化優(yōu)勢,讓開發(fā)人員可以更輕松地提高應(yīng)用可用性和可靠性。Amazon CodeGuru是一個由機(jī)器學(xué)習(xí)驅(qū)動的開發(fā)工具,為提高代碼質(zhì)量和識別應(yīng)用程序最昂貴的代碼行提供智能建議。
Atlassian產(chǎn)品為超過19.4萬家公司的團(tuán)隊服務(wù)以簡化團(tuán)隊合作,幫助他們組織、討論和完成工作?!昂芨吲d看到我們的客戶正在使用Amazon DevOps Guru來管理他們云應(yīng)用的運(yùn)營性能?!監(jiān)psgenie產(chǎn)品主管Emel Dogrusoz表示,“通過我們新的Opsgenie和Jira Service Management集成,當(dāng)Amazon DevOps Guru發(fā)現(xiàn)一個潛在問題時會立即通知正確的團(tuán)隊,并使用機(jī)器學(xué)習(xí)技術(shù)根據(jù)事件的嚴(yán)重程度對其進(jìn)行優(yōu)先級排序。這種集成確保團(tuán)隊都能快速響應(yīng),使用機(jī)器學(xué)習(xí)支持的建議解決問題,從每一個事件中獲取經(jīng)驗。”
Fidelity Investments幫助超過3500萬人對他們最重要的財務(wù)目標(biāo)更具信心,管理超過22000家企業(yè)的員工福利計劃,并通過創(chuàng)新的投資和技術(shù)解決方案支持超過13500家金融機(jī)構(gòu)發(fā)展業(yè)務(wù)。“在Fidelity,我們正利用云技術(shù)來增強(qiáng)我們的全球客戶體驗,并提高應(yīng)用程序的彈性?!盕idelity Investments公共云服務(wù)高級副總裁Keith Bliard表示,“像Amazon DevOps Guru這樣的AIOps工具幫助我們?yōu)榭蛻籼峁└咝У捏w驗和更有彈性的平臺。”
PagerDuty, Inc.( NYSE:PD)是數(shù)字運(yùn)營管理領(lǐng)域的領(lǐng)導(dǎo)者。“PagerDuty很高興能進(jìn)一步深化與亞馬遜云科技的合作,與Amazon DevOps Guru進(jìn)行新的集成。PagerDuty的數(shù)字運(yùn)營管理平臺是為了推動DevOps文化的轉(zhuǎn)變而建立的,我們很高興能通過這次集成持續(xù)推進(jìn)這一承諾?!盤agerDuty產(chǎn)品高級副總裁Jonathan Rende表示,“利用Amazon DevOps Guru的機(jī)器學(xué)習(xí)能力,PagerDuty為我們的客戶提供了更實時的‘信號->行動’能力。通過Amazon DevOps Guru,PagerDuty獲取Amazon SNS,亞馬遜云科技客戶可以在運(yùn)營問題成為影響客戶的停機(jī)事件之前采取實時行動?!?/p>
Thomson Reuters是全球最受信賴的資訊提供商之一,幫助專業(yè)人士做出自信的決定,更好地經(jīng)營企業(yè)。“客戶體驗和滿意度是我們的首要任務(wù)。當(dāng)接收到多個警報和監(jiān)測事件源時,從噪聲中篩選識別客戶影響事件是一項挑戰(zhàn)和耗時的工作?!盩homson Reuters站點可靠性和云部門總監(jiān)Steve Thoennes表示,“有了Amazon DevOps Guru,我們能夠利用其機(jī)器學(xué)習(xí)驅(qū)動的洞察力,為行動提供清晰的路徑,以減少甚至在許多情況下消除問題對我們客戶的影響。Amazon DevOps Guru與PagerDuty的集成也提供了一條直接路徑,可以在正確的時間將建議快速有效地傳遞給正確的人。我們預(yù)計這將顯著減少運(yùn)營停機(jī)時間?!?/p>