北京2024年9月5日 /美通社/ -- 近年來(lái)隨著云計(jì)算、大數(shù)據(jù)特別是大模型的快速發(fā)展,數(shù)據(jù)中心規(guī)模不斷擴(kuò)張,產(chǎn)生了更多的服務(wù)器管理需求。傳統(tǒng)BMC雖然可以實(shí)現(xiàn)部分管理,但是在快速迭代的當(dāng)今尤其是在AI技術(shù)的驅(qū)動(dòng)下,存在開(kāi)發(fā)周期長(zhǎng)、交付困難、應(yīng)用單一等難題,并且由于其代碼閉源也會(huì)導(dǎo)致隱藏的安全漏洞無(wú)法及時(shí)識(shí)別,限制了用戶定制開(kāi)發(fā)。OpenBMC憑借領(lǐng)先的開(kāi)源理念、可擴(kuò)展的軟件架構(gòu),被大型互聯(lián)網(wǎng)廠商廣泛應(yīng)用,并帶動(dòng)了產(chǎn)業(yè)連上下游共同探索,逐步成為服務(wù)器固件發(fā)展的"事實(shí)標(biāo)準(zhǔn)"。
在日前召開(kāi)的2024開(kāi)放計(jì)算中國(guó)峰會(huì)上,來(lái)自阿里云、字節(jié)跳動(dòng)、浪潮信息、英特爾以及電子標(biāo)準(zhǔn)院的專家,從自身探索和實(shí)踐的角度,現(xiàn)身說(shuō)法各家在OpenBMC方面的最新進(jìn)展及未來(lái)規(guī)劃。
OpenBMC大幅降低采購(gòu)成本 阿里云新增修改10萬(wàn)+行自研代碼庫(kù)
隨著云計(jì)算、大數(shù)據(jù)、AI等技術(shù)的發(fā)展,阿里云服務(wù)器規(guī)模已經(jīng)達(dá)到數(shù)百萬(wàn)臺(tái),如何有效管理是擺在阿里云面前的現(xiàn)實(shí)問(wèn)題。
而傳統(tǒng)的BMC無(wú)法滿足新興運(yùn)維需求,首先是龐大的服務(wù)器數(shù)量涵蓋了多個(gè)品牌不同廠家,各廠家都基于某個(gè)IBV建立基礎(chǔ)BMC能力再在上層定制開(kāi)發(fā),因此日常問(wèn)題的解決需要拉通多方BMC軟件規(guī)格和能力,帶來(lái)時(shí)間和資源的大量浪費(fèi),效率低下;其次,不同品牌的服務(wù)器BMC代碼也不盡相同,存在巨大的適配成本;第三是應(yīng)用成本問(wèn)題,傳統(tǒng)BMC基礎(chǔ)軟件源代碼和授權(quán)l(xiāng)icense都需要購(gòu)買(mǎi),后續(xù)還需要軟件維護(hù)升級(jí)費(fèi)用,成本較高。
OpenBMC迎合了當(dāng)下軟件質(zhì)量發(fā)展和行業(yè)趨勢(shì),2020年左右OpenBMC軟件逐步走向成熟,在北美一些CSP率先采用。阿里云服務(wù)器研發(fā)固件團(tuán)隊(duì)負(fù)責(zé)人李羿介紹,阿里云自2020年逐步采用OpenBMC產(chǎn)品,經(jīng)過(guò)4年時(shí)間的探索與實(shí)踐,已經(jīng)形成行業(yè)一支領(lǐng)先的專業(yè)OpenBMC技術(shù)開(kāi)發(fā)和交付團(tuán)隊(duì),不僅可以在完成交付任務(wù)的同時(shí)結(jié)合云業(yè)務(wù)自身特點(diǎn),還不斷的回饋社區(qū)、貢獻(xiàn)伙伴,在多個(gè)層面實(shí)現(xiàn)了行業(yè)領(lǐng)先。
如今,阿里云已經(jīng)成功在x86、ARM等主流平臺(tái)中實(shí)現(xiàn)了OpenBMC的替代,未來(lái)也將探索基于RISC-V等多元芯片平臺(tái)的可能性。得益于OpenBMC的平臺(tái)化優(yōu)勢(shì),不同架構(gòu)下的代碼絕大部分都是相同的,只是針對(duì)不同平臺(tái)略有微調(diào)。李羿表示,阿里云已經(jīng)在實(shí)現(xiàn)代碼的歸一化,目前已經(jīng)提交超過(guò)10萬(wàn)行代碼,未來(lái)有望針對(duì)不同產(chǎn)品形態(tài)實(shí)現(xiàn)全面支持。
字節(jié)跳動(dòng)打造OpenBMC應(yīng)用新范式 問(wèn)題分析定位效率大幅提升
從抖音到新晉AI工具"豆包",隨著應(yīng)用覆蓋范圍的進(jìn)一步擴(kuò)大、用戶群體的持續(xù)增多,字節(jié)跳動(dòng)需要維護(hù)的服務(wù)器數(shù)量已達(dá)百萬(wàn)級(jí)別,并且仍有不斷增長(zhǎng)的態(tài)勢(shì)。如何高效、穩(wěn)定且安全的管理服務(wù)器,成為運(yùn)維團(tuán)隊(duì)面臨的首要問(wèn)題。
字節(jié)跳動(dòng)固件架構(gòu)師郟春輝介紹,傳統(tǒng)BMC在解決固件運(yùn)維難題上存在局限性,難以在服務(wù)器需求多樣化的情況下滿足快速交付的需求。開(kāi)源OpenBMC能夠吸納先進(jìn)理念和應(yīng)用,提供了架構(gòu)靈活、兼容性強(qiáng)的新選擇,非常適合當(dāng)下互聯(lián)網(wǎng)與數(shù)字化的應(yīng)用需求。
為了更好地解決固件運(yùn)維的問(wèn)題,字節(jié)跳動(dòng)在OpenBMC固件運(yùn)維能力基礎(chǔ)上,不斷進(jìn)行技術(shù)創(chuàng)新,致力于提升OpenBMC固件的可觀測(cè)性,對(duì)固件的運(yùn)行狀態(tài)、性能表現(xiàn)及內(nèi)部各種活動(dòng)進(jìn)行全方位的監(jiān)控和解析。通過(guò)加強(qiáng)對(duì)固件運(yùn)行時(shí)軟硬件狀態(tài)的深入觀察和理解,能夠更快速地捕捉問(wèn)題發(fā)生時(shí)的細(xì)節(jié),從而實(shí)現(xiàn)高效精準(zhǔn)的問(wèn)題定位和處理。這種深入的可觀測(cè)性不僅有助于提升系統(tǒng)的穩(wěn)定性與可靠性,也為業(yè)務(wù)優(yōu)化提供了寶貴的數(shù)據(jù)支持。
事實(shí)證明,這種方法非常有效。在引入了Perfetto和Kernel trace以后,問(wèn)題定位分析時(shí)間,由原有的數(shù)小時(shí)乃至數(shù)天,降低至平均1小時(shí)以下;問(wèn)題一次定位分析準(zhǔn)確率,由40%提升至80%以上,效率提升非常明顯。未來(lái)字節(jié)還計(jì)劃在問(wèn)題分析定位層面更進(jìn)一步,借助AI技術(shù)和大數(shù)據(jù)分析,細(xì)化不同場(chǎng)景下的問(wèn)題定位,充分發(fā)揮自動(dòng)化優(yōu)勢(shì),讓故障無(wú)處遁形。
浪潮信息提供差異化方案滿足不同需求 下一代產(chǎn)品全面切換OpenBMC
當(dāng)然,并非所有的企業(yè)都有阿里云、字節(jié)這樣的技術(shù)積淀,對(duì)于中國(guó)市場(chǎng)來(lái)說(shuō),絕大部分企業(yè)用戶并沒(méi)有自研的能力,更傾向于選擇表現(xiàn)穩(wěn)定、安全的商業(yè)版本。對(duì)于這些企業(yè)來(lái)說(shuō),浪潮信息就是不錯(cuò)的合作伙伴。
去年,浪潮信息就發(fā)布了基于OpenBMC的InBry管理固件平臺(tái),采用更先進(jìn)、更高效、更開(kāi)放的創(chuàng)新架構(gòu)和開(kāi)發(fā)模式,快速適配各種算力場(chǎng)景,為用戶提供開(kāi)放、穩(wěn)定、可靠的BMC管理固件,支撐多元算力時(shí)代的各類(lèi)創(chuàng)新應(yīng)用。"如果說(shuō)前兩年OpenBMC還只是一個(gè)趨勢(shì),現(xiàn)在則已經(jīng)是大行其道了",浪潮信息服務(wù)器固件研發(fā)負(fù)責(zé)人王興隆表示。
除了功能更豐富、應(yīng)用更高效之外,開(kāi)源版本的優(yōu)勢(shì)還在于開(kāi)放性以及由此產(chǎn)生的安全性,后者也是當(dāng)下企業(yè)關(guān)注的重點(diǎn)。對(duì)此,王興隆表示,首先,開(kāi)源社區(qū)采用的是最先進(jìn)的Linux版本,相比傳統(tǒng)BMC應(yīng)用來(lái)說(shuō)在代碼上更完善,成熟性更高。其次,開(kāi)源社區(qū)的代碼上傳需要多為行業(yè)專家的聯(lián)合評(píng)審,接受更多社區(qū)參與者隨時(shí)的監(jiān)督與審查,所以質(zhì)量更高。第三,基于開(kāi)源和可擴(kuò)展的軟件架構(gòu),用戶也可以將自身使用的安全模型、軟件庫(kù)移植到OpenBMC,這樣就能打造符合自身需求的業(yè)務(wù)安全模型,所以更安全。
如今,浪潮信息更提出了"分層解耦"的理念,在技術(shù)上通過(guò)硬件層、中間層、應(yīng)用層的劃分實(shí)現(xiàn)自動(dòng)適配、自動(dòng)識(shí)別,達(dá)到技術(shù)賦能的多元化。此外,浪潮信息也正在與英特爾、英偉達(dá)、AMD等業(yè)界領(lǐng)軍企業(yè)合作,實(shí)現(xiàn)多元化平臺(tái)的適配,為產(chǎn)業(yè)界提供更低成本、更高效的選擇。
"在技術(shù)上,我們要基于OpenBMC實(shí)現(xiàn)創(chuàng)新,讓更多企業(yè)享受開(kāi)源應(yīng)用的技術(shù)紅利;產(chǎn)品上,我們將逐步在下一代平臺(tái)全面切換到OpenBMC,打造更好的商業(yè)化版本;社區(qū)層面,我們也要建設(shè)更好的生態(tài)環(huán)境,讓更多伙伴參與其中達(dá)成貢獻(xiàn),打造多元化的服務(wù)",王興隆表示。
英特爾社區(qū)貢獻(xiàn)名列前茅 持續(xù)推動(dòng)OpenBMC技術(shù)創(chuàng)新
作為平臺(tái)公司,英特爾也在推動(dòng)OpenBMC發(fā)展中扮演了重要角色。每一代英特爾處理器平臺(tái)的升級(jí)對(duì)于BMC固件適配來(lái)說(shuō)都是不小的變革,而這些變革都朝著更便捷、更優(yōu)化的方向來(lái)發(fā)展。從最初創(chuàng)立OpenBMC到今天,英特爾對(duì)于組織的貢獻(xiàn)一直排在前列,每一代產(chǎn)品都會(huì)經(jīng)歷一年甚至更長(zhǎng)時(shí)間的測(cè)試,以保證在性能、可靠性、穩(wěn)定性等多方面的品質(zhì)。
針對(duì)不同的應(yīng)用場(chǎng)景,英特爾也會(huì)為客戶提供接口實(shí)現(xiàn)功能上的定制化需求,這樣可以通過(guò)代碼或者軟件的微調(diào)更適配于客戶業(yè)務(wù)。同時(shí),英特爾也提供了PFR固件保護(hù)功能(Platform Firmware Resilience),為保護(hù)企業(yè)服務(wù)器固件提供了一種全新的方法,可全面防止對(duì)服務(wù)器所有固件的攻擊。
除了安全性的優(yōu)化之外,如何有效降低服務(wù)器能耗也是OpenBMC固件優(yōu)化的重點(diǎn)。從傳統(tǒng)BMC到OpenBMC,其實(shí)服務(wù)器節(jié)能會(huì)變得更精準(zhǔn)、更低碳。對(duì)此,英特爾在節(jié)點(diǎn)管理中就提供了能耗管理,并可以根據(jù)不同部件進(jìn)行精細(xì)化運(yùn)維。
從OpenBMC的投入上可以看出,這不僅僅是硬件層面的創(chuàng)新,更多需要融合軟件、AI、生態(tài)等多個(gè)維度,而英特爾也需要扮演行業(yè)引領(lǐng)者的角色,為更多生態(tài)伙伴提供平臺(tái)化、系統(tǒng)化的支持。
AI為OpenBMC發(fā)展注入活力 正在成為服務(wù)器固件"事實(shí)標(biāo)準(zhǔn)"
AI技術(shù)的出現(xiàn)帶來(lái)了計(jì)算架構(gòu)的變化,而B(niǎo)MC就勢(shì)必需要針對(duì)這些多元異構(gòu)的應(yīng)用變化進(jìn)行調(diào)整。與此同時(shí),AI技術(shù)的出現(xiàn)也讓大量傳統(tǒng)的數(shù)據(jù)監(jiān)測(cè)、分析變得更加高效,配合數(shù)據(jù)模型的構(gòu)建,可以為未來(lái)的智能化管理提供技術(shù)支持,這也是AI對(duì)于OpenBMC帶來(lái)的全新改變。
"事實(shí)上,OpenBMC正在解決傳統(tǒng)BMC的瓶頸問(wèn)題,包括兼容性問(wèn)題、存在隱藏的代碼故障、定制化需求等,已逐步成為了服務(wù)器固件的'事實(shí)標(biāo)準(zhǔn)'。" 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院技術(shù)總監(jiān)、固件產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟標(biāo)測(cè)組組長(zhǎng)鐘偉軍表示。
如今,OpenBMC在國(guó)內(nèi)的應(yīng)用生產(chǎn)已經(jīng)初具雛形。在相關(guān)社區(qū)中,已經(jīng)形成了比較完備和穩(wěn)定的基礎(chǔ)代碼,包括阿里云、浪潮信息等30多家公司也在不斷提交代碼貢獻(xiàn)。
未來(lái),希望能夠有更多的產(chǎn)業(yè)界的伙伴參與到社區(qū)建設(shè)當(dāng)中,把自身的優(yōu)勢(shì)、經(jīng)驗(yàn)貢獻(xiàn)到社區(qū),讓社區(qū)擁有更加完備的基礎(chǔ)代碼,讓產(chǎn)業(yè)界上下游共享社區(qū)成果,有助于產(chǎn)業(yè)鏈生態(tài)的繁榮,形成合作共贏的局面。