北京2023年10月25日 /美通社/ -- 數(shù)據(jù)中心的運維壓力到底有多大?過去,IT圈里流傳著這樣一句話:一入運維深似海,從此下班是路人。隨著人工智能、大數(shù)據(jù)、云計算等技術的成熟應用,數(shù)據(jù)中心走向集約化、規(guī)?;内厔?,數(shù)據(jù)中心的IT設備越來越繁雜,同時超過10萬臺乃至100萬臺服務器的超大規(guī)模數(shù)據(jù)中心越來越多,盡管許多企業(yè)在數(shù)據(jù)中心的投資十分重視,但卻往往卻忽略了后期運營管理的成本,有統(tǒng)計數(shù)據(jù)顯示,數(shù)據(jù)中心中服務器的運維成本在IT系統(tǒng)TCO中占比高達70%,因此,真正做到服務器智能管理,極簡運維對企業(yè)數(shù)據(jù)中心而言至關重要。
同時服務器作為數(shù)據(jù)中心的核心,承載著數(shù)據(jù)中心絕大部分計算任務,其可靠性、穩(wěn)定性以及對故障問題精準定位的能力都直接影響著整個數(shù)據(jù)中心系統(tǒng)運行,在考慮數(shù)據(jù)中心算力部署密度的同時,設備的智能管理、高效運維也相當重要,浪潮信息G7算力平臺就秉承極致的設計理念,憑借多年產(chǎn)品創(chuàng)新經(jīng)驗,通過多種保障來強化服務器自身的高效運維能力,構(gòu)建現(xiàn)代數(shù)據(jù)中心的可靠基礎,幫助用戶高效可靠地運行其各類應用負載。
智能底層設計 實現(xiàn)部件級精細化管理
“精益設計”之父蒙羅將精益設計定義為“更少的零件,更高的質(zhì)量”,關注產(chǎn)品的簡化設計與成本的降低,從產(chǎn)品設計的源頭開始改善,并兼顧生產(chǎn)環(huán)節(jié)的可制造性。而對于服務器設計來說,一點小小的改變,或許就能引起整個產(chǎn)品,甚至整個行業(yè)巨大的改變。
浪潮信息最新發(fā)布的G7算力平臺采用基于開源技術OpenBMC自主研發(fā)的服務器嵌入式管理系統(tǒng)InBry,可提供硬件狀態(tài)部署、節(jié)能、安全、預警等系列管理工具,以標準化接口構(gòu)建更加完善的服務器管理生態(tài)系統(tǒng),幫助企業(yè)用戶統(tǒng)一、智能化管理服務器等IT基礎設施,提高運維效率。
G7算力平臺的服務器嵌入式管理系統(tǒng)InBry具有智能故障診斷功能,可對服務器各類部件進行實時管理,實現(xiàn)服務器關鍵部件的深度故障診斷和故障預測維護,有效定位率可達95%。比如基于MCTP技術可以對系統(tǒng)內(nèi)IO 設備實現(xiàn)智能管理功能,可以對PCIE卡、NVME盤、E1/3.S盤等IO裝置快速管理,并透過MCTP Over PCIE了解關鍵部件上的溫度、健康狀態(tài)、IO性能、功耗等指標,結(jié)合浪潮信息龐大的故障定位診斷庫輸出詳細的故障原因和處理建議,對部件健康狀態(tài)進行預警、故障信息快速診斷和部件溫度/功耗監(jiān)測,大幅提升系統(tǒng)穩(wěn)定性。對針對內(nèi)存、硬盤的全面管理,全線G7算力平臺基于豐富的故障診斷庫建立AI智能算法模型集成到嵌入式管理系統(tǒng)中,對收集到的信息進行診斷,提前預知內(nèi)存、硬盤的健康狀態(tài),通過運維人員進行有計劃的運維,避免非預期的故障對數(shù)據(jù)中心造成不良影響。
同時G7算力平臺采用多個創(chuàng)新模塊設計,以供電模塊為例,G7算力平臺采用智能電源,支持鉑金、鉑金+、鈦金等寬域電源組合,可為系統(tǒng)在低業(yè)務場景提升4%~6%的轉(zhuǎn)換效率并提供客制化能耗最佳場景,以往的電源固件升級過程中可能出現(xiàn)的輸出掉電問題,浪潮信息獨有的智能電源設計可支持不斷電升級,而且不影響系統(tǒng)電源冗余及效能,成功率可達100%,同時G7算力平臺采用的智能電源具備自身健康狀態(tài)巡檢功能,運維人員可第一時間通過BMC可示化的圖表了解PSU黑盒內(nèi)部資訊,并通過獲取健康狀況,幫助運維人員快速診斷,定位故障源。
整機創(chuàng)新架構(gòu) 服務器全生命周期集群級自動化運維
在當前綠色算力的大趨勢下,企業(yè)數(shù)據(jù)中心不再只建在一處,服務器可能部署在世界各地。像很多互聯(lián)網(wǎng)、通信公司,IT設備會部署在相對自然冷卻環(huán)境優(yōu)渥的偏遠地區(qū),但這些地方往往人煙稀少,運維難度更多大,所以運維人員會更多以周期巡檢的方式進行設備部署和運維。
浪潮信息G7算力平臺提供全新服務器管理工具InManage Tools,能夠?qū)崿F(xiàn)服務器從上架到下線的全流程精細化管理。InManage Tools具備GUI、CLI等多種交互方式,支持服務器集群一鍵上架、智能固件更新、故障自動報修等高度自動化功能,零網(wǎng)絡部署、開箱即用,從而降低部署時間成本,提高交付效率。InManage Tools創(chuàng)新研發(fā)了帶外操作系統(tǒng)自動化部署功能,克服傳統(tǒng)PXE技術對用戶生產(chǎn)網(wǎng)絡造成的沖擊,實現(xiàn)硬件配置、固件刷新、系統(tǒng)和應用部署等自動化上架能力。InManage打通線上資源,通過線上固件源,可實現(xiàn)服務器集群固件版本自動檢測、智能推薦、批量刷新;結(jié)合服務器云診斷系統(tǒng),也可實現(xiàn)服務器部件日志一鍵收集、線上智能診斷、自動報修。
同時為了讓運維人員現(xiàn)場更高效操作,浪潮信息G7算力平臺在硬件層面上也進行了創(chuàng)新突破,架構(gòu)設計上兼容傳統(tǒng)后維護的同時提供前置IO的架構(gòu)選擇,節(jié)約50%系統(tǒng)風扇功耗,而且前IO架構(gòu)使熱敏部件如光模塊前置處于冷通道空間,保證溫度維持在25℃左右,光模塊平均故障率下降90%,壽命提升3倍以上。同時前 IO 出線方式,可以更好地適配新建機房的冷熱風道封閉設計,讓運維工作均可在冷通道進行,解決運維理線干涉問題,單邊維護效率更高,而面向整機浪潮信息G7算力平臺支持免工具運維,針對風扇、硬盤、OCP等6大部分結(jié)構(gòu)件進行優(yōu)化,可實現(xiàn)100%免工具便可進行拆卸,極大縮短了運維的時間和難度。
同時支持BMC直連管理Type-C接口,運維人員可通過連接終端設備(本地PC/手機)進行BMC近端維護,系統(tǒng)信息監(jiān)控、參數(shù)配置、定位設備、日志采集等,監(jiān)控模式更靈活,應用BMC技術,使技術人員可以通過Web管理界面、故障診斷LED等指引設備,加速找到已經(jīng)發(fā)生故障(或者正在發(fā)生故障)的組件,從而簡化維護工作、加快解決問題的速度,并且提高系統(tǒng)可用性。
數(shù)據(jù)中心級物理平臺 多數(shù)據(jù)中心統(tǒng)一管理
根據(jù)ResearchAndMarkets 《全球數(shù)據(jù)中心托管服務市場機遇》報告顯示,超大規(guī)模數(shù)據(jù)中心預計將從2019年的509個增長到2025年的890個,這將驅(qū)動數(shù)據(jù)中心運營方式的升級。報告預測,到2025年,70%的組織將通過持續(xù)的基礎設施自動化來補充應用程序的持續(xù)交付,以提高業(yè)務敏捷性。基礎設施自動化(IA)進入了穩(wěn)步上升期,它融合了深度學習、機器學習、語音識別、機器視覺等技術,并將其應用在IT基礎設施運營場景,預計兩到五年后會得到主流采用。數(shù)據(jù)中心規(guī)模不斷擴大,對運維的效率、成本、質(zhì)量都提出了更高的要求,所以打破傳統(tǒng)運維方式,打造“監(jiān)、管、控、防”智能化的運維是解決問題的關鍵。
浪潮信息G7算力平臺支持浪潮信息基礎設施智能化管理平臺InManage,通過Redfish、IPMI、SSH等多種管理協(xié)議實現(xiàn)大規(guī)模數(shù)據(jù)中心基礎設施智能化統(tǒng)一管理,并憑借前瞻的技術布局以及領先的智能運維(AIOps)技術,成為唯一入選中國智能運維(AIOps in China)標桿廠商的服務器企業(yè)。在數(shù)字化轉(zhuǎn)型的大潮中,InManage 通過數(shù)字孿生技術為IT資產(chǎn)管理提供了全新的解決方案,它能夠統(tǒng)一管理在線和離線資產(chǎn),實現(xiàn)在任何地方、任何時間都能掌握IT資產(chǎn)狀況。對于大規(guī)模IT基礎設施的智能化管理,InManage能實時感知服務器的狀態(tài),及時發(fā)現(xiàn)、預測并解決問題,讓IT系統(tǒng)始終保持最佳狀態(tài)。InManage支持本地和云端部署方式,無論客戶選擇私有云,還是公有云,都能得到最佳的使用體驗。而且,InManage還提供了豐富的北向API,能夠輕松地與其他系統(tǒng)進行集成,實現(xiàn)數(shù)據(jù)的共享和交換。
針對服務器運行過程中存在的CPU、內(nèi)存、硬盤等關鍵部件故障預測失效、告警失穩(wěn)等難題,InManage在智能化管理方面,擁有自動化數(shù)據(jù)處理、特征衍生、自動化建模工具多項創(chuàng)新能力,解決了局部硬件概率性故障下系統(tǒng)有效容錯的難題。InManage實現(xiàn)了對海量服務器帶內(nèi)、帶外日志的穩(wěn)定采集,提出了基于服務器部件告警日志,通過智能故障診斷 AI 模型,推理出服務器故障根因的整體解決方案,故障診斷精準度超過95%,遠高于業(yè)界平均標準。通過硬盤特征數(shù)據(jù)分布式采集和存取技術,實現(xiàn)了線上生產(chǎn)系統(tǒng)10萬級硬盤特征數(shù)據(jù)的高質(zhì)量分析,構(gòu)建面向業(yè)務場景的硬盤故障預測模型,預測準確率超過95%。同時,InManage利用設備檢查異常檢測機制,完成物理內(nèi)存故障精準位置的抓取,實現(xiàn)故障內(nèi)存物理位置向量化,基于向量化特征構(gòu)建內(nèi)存特征關聯(lián)關系模型,對內(nèi)存健康狀況有效進行實時預測性分析,與傳統(tǒng)預測方式相比準確率提升約30%。
隨著數(shù)字經(jīng)濟的發(fā)展,數(shù)據(jù)中心已成為各行各業(yè)的重要資產(chǎn),數(shù)據(jù)中心的運維水平能力也幾乎變?yōu)楣镜暮诵母偁幜χ?。浪潮信息服務器通過智能化運維,對服務器部件、單機到集群再到數(shù)據(jù)中心的管理進行層層優(yōu)化,幫助企業(yè)用戶不斷簡化運維難度提升運維效率,降低運維成本,推動數(shù)字化帶動更多經(jīng)濟收益。