omniture

服務器管理BMC進入開源時代 英特爾+三星+浪潮信息專家對話OpenBMC

2023-09-22 09:30 3472

北京2023年9月22日 /美通社/ -- 隨著人工智能、云計算等技術(shù)的快速發(fā)展,算力需求爆發(fā),服務器設計呈現(xiàn)多元異構(gòu)特征,如何快速適配多種通用計算處理器、多種異構(gòu)加速器和各類部件,實現(xiàn)服務器高效、穩(wěn)定、可靠運行,對服務器管理的兼容性、精細度、定制化和快速迭代能力提出了一系列新的挑戰(zhàn),BMC作為服務器管理和監(jiān)控的核心部件,相關技術(shù)和發(fā)展趨勢備受關注。

近日,在ODCC峰會"數(shù)據(jù)中心管理的開放之路"的圓桌對話上,來自英特爾、三星和浪潮信息的技術(shù)專家,從多元算力時代下管理固件面臨的挑戰(zhàn)、OpenBMC社區(qū)的發(fā)展現(xiàn)狀、管理固件未來發(fā)展趨勢等方向,暢聊數(shù)據(jù)中心固件管理開放之路,深度探討OpenBMC為數(shù)據(jù)中心固件管理發(fā)展帶來的全新機遇與變革路徑。 


數(shù)據(jù)中心規(guī)?;l(fā)展,點燃BMC管理固件開源開放

BMC是在服務器中嵌入的復雜而獨立SoC(System on Chip)系統(tǒng),硬件上由BMC處理器、內(nèi)存、Flash和外圍I/O組成,連接著服務器的處理器、存儲、傳感器等各類組件,軟件上基于Linux內(nèi)核構(gòu)建了嵌入式操作系統(tǒng)固件。BMC固件是服務器、整機柜到數(shù)據(jù)中心IT設備管理的關鍵核心, BMC不僅可以通過遠程控制、故障診斷、配置部署、固件升級等各類運維管理功能,保障服務器安全可靠運行,也可以為整機柜、數(shù)據(jù)中心管理平臺提供Redfish、IPMI、SNMP等API接口,實現(xiàn)海量服務器遠程集中運維管理和批量部署,是數(shù)據(jù)中心高效管理的核心組件。

英特爾云計算系統(tǒng)架構(gòu)師劉凌云在回顧BMC的演進過程中表示,BMC固件以往依賴IBV(Independent BMC Vendor,獨立BMC固件提供商)設計的閉源商業(yè)方案。但隨著超大規(guī)模互聯(lián)網(wǎng)應用場景的增多,傳統(tǒng)BMC開發(fā)周期長、線上故障響應不及時、安全需求及功能固化等問題日益突出。2014年,Meta(Facebook)面對傳統(tǒng)BMC開發(fā)周期長、問題處理響應慢、黑盒代碼不安全等問題,設計并開源了其管理固件解決方案,2015年Meta、谷歌、IBM、英特爾、微軟共同發(fā)起成立OpenBMC社區(qū),點燃了管理固件開源開放的星星之火。

對此,浪潮信息服務器固件研發(fā)經(jīng)理王興隆補充道:"服務器管理固件的產(chǎn)業(yè)生態(tài)是在數(shù)據(jù)中心規(guī)模不斷擴大的背景下逐漸成熟,而傳統(tǒng)BMC開發(fā)模式封閉、代碼閉源、架構(gòu)陳舊,已無法滿足大規(guī)模數(shù)據(jù)中心更加精細化、深層次的管理需求,OpenBMC應運而生,OpenBMC通過先進的軟件架構(gòu)讓各功能模塊深度解耦,甚至能夠按需加載功能模塊,提升了代碼的可移植性,顯著縮短了固件開發(fā)周期;開源開放讓上下游廠商能夠共同參與貢獻,促進了產(chǎn)業(yè)合作與發(fā)展。隨著2018年OpenBMC被Linux基金會接納,行業(yè)對其認可程度逐年提升。"

同時,借助OpenBMC,服務器、部件等領域的固件創(chuàng)新也在加強,三星電子西安電子研究所資深高級工程師李寧分享了三星和浪潮信息合作的SSD帶外管理創(chuàng)新項目。三星通過優(yōu)化SSD內(nèi)部架構(gòu),設計獨立的帶外管理控制器監(jiān)控SSD的主控部件,將SSD的管理和主控分離,管理控制器獨立供電,不僅帶來更強大的帶外管理能力,控制邏輯也更加可靠。同時浪潮信息基于OpenBMC實現(xiàn)BMC與SSD的帶外管理信息交互,實現(xiàn)了資產(chǎn)信息獲取、SSD健康狀態(tài)監(jiān)控、運行日志抓取、主動告警等功能特性,相比傳統(tǒng)BMC,明顯提升協(xié)同開發(fā)調(diào)試效率,縮短了開發(fā)周期,加快了產(chǎn)品落地進度。

智算崛起 數(shù)據(jù)中心管理固件開放成為剛需

如果說數(shù)據(jù)中心的規(guī)?;l(fā)展點燃了BMC固件管理開源開放的"星星之火",那么數(shù)據(jù)中心算力的多元化將讓開放的BMC管理固件形成"燎原之勢"。劉凌云指出,通用服務器BMC需管理的硬件主要有CPU、存儲、網(wǎng)絡、散熱風扇等,但在AIGC平臺上,BMC需要管理的硬件不但數(shù)量多,類型也百花齊放,從之前的單一的GPU卡到現(xiàn)在新興的GPGPU卡、AI加速卡、FPGA卡等各種異構(gòu)加速器,以及其他的通用計算平臺。面對眾多的芯片,需要定義更加開放的BMC管理接口標準,以實現(xiàn)數(shù)據(jù)中心高效管理。

王興隆進一步解釋說:傳統(tǒng)BMC固件架構(gòu)落后,可擴展性差,無法快速適配兼容不同的處理器、加速器。開放的OpenBMC固件基于分層解耦的軟件架構(gòu),功能模塊之間通過一致的系統(tǒng)總線接口協(xié)議進行交互,擴展性高,能夠?qū)崿F(xiàn)靈活的模塊化開發(fā),同一套OpenBMC固件代碼能夠同時兼容多種處理器平臺、多種異構(gòu)加速器等關鍵部件,對于新增部件能夠快速適配兼容,大幅縮短迭代周期,提升開發(fā)效率。

除了多元算力對BMC固件擴展性、定制化的需求,劉凌云還表示,高算力帶來的高功耗也在推動數(shù)據(jù)中心散熱體系變革,風冷式、冷板式、浸沒式液冷方案持續(xù)并存,這些都需要BMC的統(tǒng)一管理調(diào)度。面對超大型互聯(lián)網(wǎng)、人工智能等應用場景,新興服務器硬件種類繁多、快速迭代,OpenBMC已經(jīng)不是錦上添花,而是"非你莫屬"了。

王興隆指出,在異構(gòu)多元算力需求不斷提升的背景下,算力縱向擴展瓶頸越來越明顯,橫向擴展成為趨勢,為提升算力資源協(xié)同利用率,浪潮信息設計實現(xiàn)融合架構(gòu)3.0原型系統(tǒng),將通用計算、異構(gòu)加速計算、內(nèi)存、存儲、I/O等資源池化,實現(xiàn)硬件解耦,同時面向不同應用場景需要通過軟件定義進行硬件資源重構(gòu),形成適用于不同應用負載的服務器系統(tǒng),而OpenBMC為軟硬件協(xié)同承擔了更多軟件定義的角色。

傳統(tǒng)BMC or OpenBMC,企業(yè)何去何從

OpenBMC勢不可擋,但是否意味著傳統(tǒng)BMC走向末路了呢?對此,劉凌云認為傳統(tǒng)的BMC和OpenBMC當前是兩條技術(shù)路線,適應于不同的應用場景。中小規(guī)模的數(shù)據(jù)中心用戶關注業(yè)務穩(wěn)定性,關注管理固件的兼容性,對定制化要求不高,固件管理的技術(shù)投入資源有限,對技術(shù)類別不敏感,傳統(tǒng)的BMC在這種場景仍然有著廣闊空間。而對于大型、超大型互聯(lián)網(wǎng)客戶,快速響應,更高性能、更精細化的管理、定制化等訴求則更適合采用OpenBMC。目前處理器廠商正在圍繞帶外管理,運用OpenBMC更精細的管理數(shù)據(jù)中心設備,在故障診斷、預警、安全等方面進行固件技術(shù)創(chuàng)新,以保證較高可用性、可靠性和可管理性。

OpenBMC經(jīng)過近十年的發(fā)展,已經(jīng)形成較為穩(wěn)定的基礎代碼,國內(nèi)大型CSP已發(fā)布OpenBMC方案,服務器廠商也在持續(xù)開發(fā)OpenBMC相關產(chǎn)品和配套解決方案,在剛剛結(jié)束的ODCC開放數(shù)據(jù)中心產(chǎn)業(yè)峰會上,浪潮信息發(fā)布了基于OpenBMC的最新服務器管理固件解決方案,面向通用客戶實現(xiàn)OpenBMC落地應用。

產(chǎn)業(yè)界上下游攜手,加速OpenBMC發(fā)展

出席"大咖來了"的三位嘉賓一致認為OpenBMC是大勢所趨,數(shù)據(jù)中心管理固件的開源開放將推動和強化服務器、部件、處理器等多方面的協(xié)同,并為數(shù)據(jù)中心高效管理提供更優(yōu)的解決方案。從部件角度,三星未來將聚焦于存儲部件帶外管理,基于OpenBMC開源代碼進行固件創(chuàng)新,提供增強的帶外管理能力,比如產(chǎn)品內(nèi)部各組件監(jiān)控,設備壽命預測,智能化故障分析,異?;謴秃驮O備認證數(shù)據(jù)加密等方面。同時,基于OpenBMC的設備帶外管理標準化對推動產(chǎn)業(yè)上下游協(xié)同至關重要,三星攜手浪潮信息在近期的ODCC峰會中發(fā)布了《服務器插入式設備帶外管理白皮書》,希望通過定義部件管理的軟硬件接口,加速部件與主機BMC適配效率。

從英特爾角度來看,OpenBMC最重要的功能就是帶外監(jiān)控和管理,未來管理會更加智能化、細粒度和更安全,從而提升數(shù)據(jù)中心SLA降低TCO。例如內(nèi)存故障預測隔離,能顯著降低服務器故障率;在線無縫的固件升級,還有對CPU狀態(tài)性能監(jiān)測功耗的優(yōu)化管理會也更加精細,以及對硬件的保護提升安全性等等。此外OpenBMC做為開源開放平臺,在GPU卡、節(jié)能散熱等方面建立標準化管理接口也是未來英特爾研究的方向。

浪潮信息則認為OpenBMC的發(fā)展會更加開放,更廣泛的產(chǎn)品應用和更穩(wěn)定的社區(qū)基礎代碼,將吸引更多的上下游廠商參與到社區(qū)的建設當中。同時OpenBMC將會更加標準化,當前面向用戶側(cè)的管理接口已通過Redfish規(guī)范進行了標準化,但在服務器內(nèi)部的部件管理標準化程度還不夠,相信OpenBMC將推動內(nèi)部管理接口標準化。目前,為了滿足數(shù)據(jù)中心多元化的算力需求,浪潮信息開發(fā)了基于OpenBMC的服務器管理固件平臺InBry,并對接數(shù)據(jù)中心集群管理平臺InManage,推動形成從部件到服務器到數(shù)據(jù)中心的全生命周期精細化管理。

未來,OpenBMC產(chǎn)品化應用更為廣泛,更多用戶將會從OpenBMC受益,OpenBMC持續(xù)健康發(fā)展將為數(shù)據(jù)中心產(chǎn)業(yè)的綠色高質(zhì)量發(fā)展創(chuàng)造更大價值。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection