北京2023年10月25日 /美通社/ -- 數據中心的運維壓力到底有多大?過去,IT圈里流傳著這樣一句話:一入運維深似海,從此下班是路人。隨著人工智能、大數據、云計算等技術的成熟應用,數據中心走向集約化、規(guī)模化的趨勢,數據中心的IT設備越來越繁雜,同時超過10萬臺乃至100萬臺服務器的超大規(guī)模數據中心越來越多,盡管許多企業(yè)在數據中心的投資十分重視,但卻往往卻忽略了后期運營管理的成本,有統(tǒng)計數據顯示,數據中心中服務器的運維成本在IT系統(tǒng)TCO中占比高達70%,因此,真正做到服務器智能管理,極簡運維對企業(yè)數據中心而言至關重要。
同時服務器作為數據中心的核心,承載著數據中心絕大部分計算任務,其可靠性、穩(wěn)定性以及對故障問題精準定位的能力都直接影響著整個數據中心系統(tǒng)運行,在考慮數據中心算力部署密度的同時,設備的智能管理、高效運維也相當重要,浪潮信息G7算力平臺就秉承極致的設計理念,憑借多年產品創(chuàng)新經驗,通過多種保障來強化服務器自身的高效運維能力,構建現(xiàn)代數據中心的可靠基礎,幫助用戶高效可靠地運行其各類應用負載。
智能底層設計 實現(xiàn)部件級精細化管理
“精益設計”之父蒙羅將精益設計定義為“更少的零件,更高的質量”,關注產品的簡化設計與成本的降低,從產品設計的源頭開始改善,并兼顧生產環(huán)節(jié)的可制造性。而對于服務器設計來說,一點小小的改變,或許就能引起整個產品,甚至整個行業(yè)巨大的改變。
浪潮信息最新發(fā)布的G7算力平臺采用基于開源技術OpenBMC自主研發(fā)的服務器嵌入式管理系統(tǒng)InBry,可提供硬件狀態(tài)部署、節(jié)能、安全、預警等系列管理工具,以標準化接口構建更加完善的服務器管理生態(tài)系統(tǒng),幫助企業(yè)用戶統(tǒng)一、智能化管理服務器等IT基礎設施,提高運維效率。
G7算力平臺的服務器嵌入式管理系統(tǒng)InBry具有智能故障診斷功能,可對服務器各類部件進行實時管理,實現(xiàn)服務器關鍵部件的深度故障診斷和故障預測維護,有效定位率可達95%。比如基于MCTP技術可以對系統(tǒng)內IO 設備實現(xiàn)智能管理功能,可以對PCIE卡、NVME盤、E1/3.S盤等IO裝置快速管理,并透過MCTP Over PCIE了解關鍵部件上的溫度、健康狀態(tài)、IO性能、功耗等指標,結合浪潮信息龐大的故障定位診斷庫輸出詳細的故障原因和處理建議,對部件健康狀態(tài)進行預警、故障信息快速診斷和部件溫度/功耗監(jiān)測,大幅提升系統(tǒng)穩(wěn)定性。對針對內存、硬盤的全面管理,全線G7算力平臺基于豐富的故障診斷庫建立AI智能算法模型集成到嵌入式管理系統(tǒng)中,對收集到的信息進行診斷,提前預知內存、硬盤的健康狀態(tài),通過運維人員進行有計劃的運維,避免非預期的故障對數據中心造成不良影響。
同時G7算力平臺采用多個創(chuàng)新模塊設計,以供電模塊為例,G7算力平臺采用智能電源,支持鉑金、鉑金+、鈦金等寬域電源組合,可為系統(tǒng)在低業(yè)務場景提升4%~6%的轉換效率并提供客制化能耗最佳場景,以往的電源固件升級過程中可能出現(xiàn)的輸出掉電問題,浪潮信息獨有的智能電源設計可支持不斷電升級,而且不影響系統(tǒng)電源冗余及效能,成功率可達100%,同時G7算力平臺采用的智能電源具備自身健康狀態(tài)巡檢功能,運維人員可第一時間通過BMC可示化的圖表了解PSU黑盒內部資訊,并通過獲取健康狀況,幫助運維人員快速診斷,定位故障源。
整機創(chuàng)新架構 服務器全生命周期集群級自動化運維
在當前綠色算力的大趨勢下,企業(yè)數據中心不再只建在一處,服務器可能部署在世界各地。像很多互聯(lián)網、通信公司,IT設備會部署在相對自然冷卻環(huán)境優(yōu)渥的偏遠地區(qū),但這些地方往往人煙稀少,運維難度更多大,所以運維人員會更多以周期巡檢的方式進行設備部署和運維。
浪潮信息G7算力平臺提供全新服務器管理工具InManage Tools,能夠實現(xiàn)服務器從上架到下線的全流程精細化管理。InManage Tools具備GUI、CLI等多種交互方式,支持服務器集群一鍵上架、智能固件更新、故障自動報修等高度自動化功能,零網絡部署、開箱即用,從而降低部署時間成本,提高交付效率。InManage Tools創(chuàng)新研發(fā)了帶外操作系統(tǒng)自動化部署功能,克服傳統(tǒng)PXE技術對用戶生產網絡造成的沖擊,實現(xiàn)硬件配置、固件刷新、系統(tǒng)和應用部署等自動化上架能力。InManage打通線上資源,通過線上固件源,可實現(xiàn)服務器集群固件版本自動檢測、智能推薦、批量刷新;結合服務器云診斷系統(tǒng),也可實現(xiàn)服務器部件日志一鍵收集、線上智能診斷、自動報修。
同時為了讓運維人員現(xiàn)場更高效操作,浪潮信息G7算力平臺在硬件層面上也進行了創(chuàng)新突破,架構設計上兼容傳統(tǒng)后維護的同時提供前置IO的架構選擇,節(jié)約50%系統(tǒng)風扇功耗,而且前IO架構使熱敏部件如光模塊前置處于冷通道空間,保證溫度維持在25℃左右,光模塊平均故障率下降90%,壽命提升3倍以上。同時前 IO 出線方式,可以更好地適配新建機房的冷熱風道封閉設計,讓運維工作均可在冷通道進行,解決運維理線干涉問題,單邊維護效率更高,而面向整機浪潮信息G7算力平臺支持免工具運維,針對風扇、硬盤、OCP等6大部分結構件進行優(yōu)化,可實現(xiàn)100%免工具便可進行拆卸,極大縮短了運維的時間和難度。
同時支持BMC直連管理Type-C接口,運維人員可通過連接終端設備(本地PC/手機)進行BMC近端維護,系統(tǒng)信息監(jiān)控、參數配置、定位設備、日志采集等,監(jiān)控模式更靈活,應用BMC技術,使技術人員可以通過Web管理界面、故障診斷LED等指引設備,加速找到已經發(fā)生故障(或者正在發(fā)生故障)的組件,從而簡化維護工作、加快解決問題的速度,并且提高系統(tǒng)可用性。
數據中心級物理平臺 多數據中心統(tǒng)一管理
根據ResearchAndMarkets 《全球數據中心托管服務市場機遇》報告顯示,超大規(guī)模數據中心預計將從2019年的509個增長到2025年的890個,這將驅動數據中心運營方式的升級。報告預測,到2025年,70%的組織將通過持續(xù)的基礎設施自動化來補充應用程序的持續(xù)交付,以提高業(yè)務敏捷性?;A設施自動化(IA)進入了穩(wěn)步上升期,它融合了深度學習、機器學習、語音識別、機器視覺等技術,并將其應用在IT基礎設施運營場景,預計兩到五年后會得到主流采用。數據中心規(guī)模不斷擴大,對運維的效率、成本、質量都提出了更高的要求,所以打破傳統(tǒng)運維方式,打造“監(jiān)、管、控、防”智能化的運維是解決問題的關鍵。
浪潮信息G7算力平臺支持浪潮信息基礎設施智能化管理平臺InManage,通過Redfish、IPMI、SSH等多種管理協(xié)議實現(xiàn)大規(guī)模數據中心基礎設施智能化統(tǒng)一管理,并憑借前瞻的技術布局以及領先的智能運維(AIOps)技術,成為唯一入選中國智能運維(AIOps in China)標桿廠商的服務器企業(yè)。在數字化轉型的大潮中,InManage 通過數字孿生技術為IT資產管理提供了全新的解決方案,它能夠統(tǒng)一管理在線和離線資產,實現(xiàn)在任何地方、任何時間都能掌握IT資產狀況。對于大規(guī)模IT基礎設施的智能化管理,InManage能實時感知服務器的狀態(tài),及時發(fā)現(xiàn)、預測并解決問題,讓IT系統(tǒng)始終保持最佳狀態(tài)。InManage支持本地和云端部署方式,無論客戶選擇私有云,還是公有云,都能得到最佳的使用體驗。而且,InManage還提供了豐富的北向API,能夠輕松地與其他系統(tǒng)進行集成,實現(xiàn)數據的共享和交換。
針對服務器運行過程中存在的CPU、內存、硬盤等關鍵部件故障預測失效、告警失穩(wěn)等難題,InManage在智能化管理方面,擁有自動化數據處理、特征衍生、自動化建模工具多項創(chuàng)新能力,解決了局部硬件概率性故障下系統(tǒng)有效容錯的難題。InManage實現(xiàn)了對海量服務器帶內、帶外日志的穩(wěn)定采集,提出了基于服務器部件告警日志,通過智能故障診斷 AI 模型,推理出服務器故障根因的整體解決方案,故障診斷精準度超過95%,遠高于業(yè)界平均標準。通過硬盤特征數據分布式采集和存取技術,實現(xiàn)了線上生產系統(tǒng)10萬級硬盤特征數據的高質量分析,構建面向業(yè)務場景的硬盤故障預測模型,預測準確率超過95%。同時,InManage利用設備檢查異常檢測機制,完成物理內存故障精準位置的抓取,實現(xiàn)故障內存物理位置向量化,基于向量化特征構建內存特征關聯(lián)關系模型,對內存健康狀況有效進行實時預測性分析,與傳統(tǒng)預測方式相比準確率提升約30%。
隨著數字經濟的發(fā)展,數據中心已成為各行各業(yè)的重要資產,數據中心的運維水平能力也幾乎變?yōu)楣镜暮诵母偁幜χ?。浪潮信息服務器通過智能化運維,對服務器部件、單機到集群再到數據中心的管理進行層層優(yōu)化,幫助企業(yè)用戶不斷簡化運維難度提升運維效率,降低運維成本,推動數字化帶動更多經濟收益。