omniture

浪潮云海聯(lián)合多方共同發(fā)布《一云多芯算力調(diào)度研究報(bào)告》

2025-01-07 11:50 1275

1顆X處理器相當(dāng)幾顆Y處理器?一云多芯算力評估計(jì)算器來了!

北京2025年1月6日 /美通社/ -- 近日,浪潮云海聯(lián)合中國軟件評測中心、騰訊云等10余家核心機(jī)構(gòu)、廠商共同發(fā)布了《一云多芯算力調(diào)度研究報(bào)告》(以下簡稱報(bào)告)。報(bào)告指出,當(dāng)前一云多芯正從混合部署、資源統(tǒng)管的第一階段,向業(yè)務(wù)牽引、分層解耦、架構(gòu)升級的第二階段過渡,為保障應(yīng)用高效適配、自由遷移與性能調(diào)優(yōu),算力量化調(diào)度成為當(dāng)下重要關(guān)注點(diǎn)。因此,報(bào)告從算力調(diào)度架構(gòu)維度,對一云多芯實(shí)際落地過程中存在的挑戰(zhàn)進(jìn)行詳細(xì)剖析,針對算力等價調(diào)度難題設(shè)計(jì)了量化方法,推出算力評估計(jì)算器,并提出一云多芯算力調(diào)度整體參考設(shè)計(jì),為行業(yè)用戶實(shí)現(xiàn)應(yīng)用的跨架構(gòu)遷移提供重要的評估依據(jù)。

1中國軟件評測中心、浪潮云海等聯(lián)合發(fā)布
1中國軟件評測中心、浪潮云海等聯(lián)合發(fā)布

一云多芯走向第二階段 算力量化調(diào)度成為關(guān)注重點(diǎn)

當(dāng)前,隨著行業(yè)"上云用數(shù)賦智"進(jìn)程的不斷加速和深化,應(yīng)用場景呈現(xiàn)多樣化趨勢,尤其是近幾年AIGC大模型、跨學(xué)科科學(xué)計(jì)算等興起,數(shù)據(jù)中心的計(jì)算場景呈現(xiàn)計(jì)算精度橫向擴(kuò)展與數(shù)據(jù)的數(shù)量級縱向增長相交織的態(tài)勢,實(shí)時性要求不斷提升。為更好地滿足當(dāng)前多元異構(gòu)算力場景需求,越來越多的數(shù)據(jù)中心開始采用一云多芯架構(gòu),以確保多元異構(gòu)算力即便在功能、性能和可靠性等方面存在差異,依然可以高效穩(wěn)定地實(shí)現(xiàn)應(yīng)用跨處理器低成本或自由切換,保障關(guān)鍵業(yè)務(wù)長期穩(wěn)定運(yùn)行。

一云多芯并非一蹴而就,而是跟隨用戶需求的動態(tài)調(diào)整來持續(xù)演進(jìn)。一云多芯需要基于以系統(tǒng)設(shè)計(jì)為核心的思維,采用以場景驅(qū)動的"硬件重構(gòu)+軟件定義"的融合架構(gòu),通過"三步走"實(shí)現(xiàn)最終的目標(biāo)。當(dāng)前第一階段混合部署、資源統(tǒng)管的階段目標(biāo)基本實(shí)現(xiàn),一云多芯正在向第二階段過渡,圍繞業(yè)務(wù)牽引、分層解耦、架構(gòu)升級,實(shí)現(xiàn)應(yīng)用跨架構(gòu)平滑切換和線性彈性伸縮。

一云多芯發(fā)展到當(dāng)前階段,用戶已經(jīng)不再滿足于資源池的納管,而是開始關(guān)注一云多芯場景下的算力如何更高效、高質(zhì)量的使用,從而使得算力量化調(diào)度能力成為重要關(guān)注點(diǎn)。然而,在真實(shí)生產(chǎn)環(huán)境中,由于異構(gòu)芯片在指令集上各有千秋,在性能上也存在較大差異,導(dǎo)致應(yīng)用在跨架構(gòu)切換時仍面臨一些棘手難題。比如說,當(dāng)應(yīng)用跨架構(gòu)遷移時,性能可能會出現(xiàn)較大波動,導(dǎo)致服務(wù)質(zhì)量降低,無法達(dá)到預(yù)期;在新老副本切換流量過程中可能引發(fā)短暫的延遲、中斷或錯誤,造成應(yīng)用響應(yīng)異常等等。

2一云多芯發(fā)展路線圖
2一云多芯發(fā)展路線圖

報(bào)告指出,應(yīng)從算力調(diào)度出發(fā),建立多層次的算力衡量體系,實(shí)現(xiàn)應(yīng)用性能的精確衡量,從而確保應(yīng)用可以跨架構(gòu)平滑切換及線性彈性伸縮,同時通過構(gòu)建標(biāo)準(zhǔn)化的算力調(diào)度架構(gòu),提升整體系統(tǒng)的靈活與可擴(kuò)展性。

算力量化調(diào)度:從"等價"開始

算力量化調(diào)度針對用戶目前普遍面臨的應(yīng)用遷移效果難以預(yù)估的問題,希望通過對算力的精確衡量以及架構(gòu)感知的算力有向調(diào)度等手段,實(shí)現(xiàn)應(yīng)用的跨架構(gòu)等價運(yùn)行,從而確保應(yīng)用的一致性體驗(yàn)并降低運(yùn)維復(fù)雜度。

應(yīng)用的跨架構(gòu)等價運(yùn)行中的"等價性"主要體現(xiàn)在功能的等價性和性能的等價性,其目的是保障應(yīng)用的跨架構(gòu)高效穩(wěn)定運(yùn)行,從而實(shí)現(xiàn)用戶體驗(yàn)的一致性。功能的等價性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間指令集的差異,對于操作系統(tǒng)及應(yīng)用程序的跨架構(gòu)可運(yùn)行性提出了更高的要求;性能的等價性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間性能的差異,通過建立科學(xué)、全面的算力量化評估模型,準(zhǔn)確分析不同架構(gòu)的處理能力、運(yùn)算速度等方面的特性,為應(yīng)用在跨架構(gòu)運(yùn)行時提供資源分配(例如CPU、內(nèi)存、副本數(shù)等)的依據(jù),成為保障其在不同架構(gòu)下性能等價的有效方法。

報(bào)告指出,算力量化是實(shí)現(xiàn)應(yīng)用等價遷移的基礎(chǔ),可使用兩類算力量化方法,分別為基于測評反饋的算力量化方法和基于性能模型的算力量化方法。其中,基于性能模型的算力量化方法可通過建立典型應(yīng)用性能模型的方式,避免在線測評的開銷,實(shí)現(xiàn)跨架構(gòu)資源封裝規(guī)格的快速推理。

同時由于不同芯片架構(gòu)性能差異較大,為保障創(chuàng)新架構(gòu)云平臺與之前利舊平臺保持相同的算力水平,保障整個遷移適配過程中業(yè)務(wù)、用戶無感,浪潮云海創(chuàng)新自研了算力評估平臺工具,初步實(shí)現(xiàn)基于性能模型的規(guī)格算力評估。該平臺內(nèi)置了整機(jī)性能模型,并使用智能化的計(jì)算工作流對影響整機(jī)性能的因子進(jìn)行綜合計(jì)算,定義了通用性能調(diào)度指數(shù)(GIPS,Generic Index for Performance Based Scheduler),實(shí)現(xiàn)了支持一云多芯算力調(diào)度場景的整機(jī)性能評估。

3浪潮云海算力評估工具
3浪潮云海算力評估工具

發(fā)布首個一云多芯算力調(diào)度架構(gòu)參考設(shè)計(jì)

為保障客戶應(yīng)用跨架構(gòu)平滑遷移,構(gòu)建標(biāo)準(zhǔn)化的算力調(diào)度架構(gòu)也至關(guān)重要。報(bào)告圍繞多芯場景下的資源可管理性、程序可運(yùn)行性及狀態(tài)可遷移性三個核心方面開展最佳實(shí)踐的探索,提出了一種一云多芯算力調(diào)度參考設(shè)計(jì),涵蓋基礎(chǔ)設(shè)施層、服務(wù)器操作系統(tǒng)層、云操作系統(tǒng)層、基礎(chǔ)應(yīng)用層、業(yè)務(wù)應(yīng)用層。

4一云多芯算力調(diào)度參考設(shè)計(jì)
4一云多芯算力調(diào)度參考設(shè)計(jì)

報(bào)告強(qiáng)調(diào),基礎(chǔ)設(shè)施層需要強(qiáng)化性能及RAS設(shè)計(jì),提升性能、穩(wěn)定性及可靠性,推動生態(tài)繁榮并構(gòu)建整機(jī)開放標(biāo)準(zhǔn);服務(wù)器操作系統(tǒng)是異構(gòu)硬件與多樣化的軟件之間重要的橋梁,需要解決跨架構(gòu)可運(yùn)行性問題,并提供場景化的算力測算分析方法,指導(dǎo)應(yīng)用的調(diào)優(yōu);云操作系統(tǒng)層作為把不同垂直技術(shù)棧拉通的核心層級,需要通過運(yùn)行時的資源封裝及架構(gòu)感知的有向調(diào)度,實(shí)現(xiàn)應(yīng)用的跨架構(gòu)分發(fā),并且提供層次化算力分析方法,實(shí)現(xiàn)應(yīng)用跨架構(gòu)等價調(diào)度;應(yīng)用層則需要重點(diǎn)考慮有狀態(tài)負(fù)載的數(shù)據(jù)狀態(tài)同步及無狀態(tài)負(fù)載的跨架構(gòu)流量分發(fā)等問題。基于如上參考設(shè)計(jì),實(shí)現(xiàn)基礎(chǔ)設(shè)施層至應(yīng)用層的各層級高效協(xié)同、廣泛兼容。

概括而言,一云多芯算力調(diào)度強(qiáng)調(diào)構(gòu)建分層解耦、開放標(biāo)準(zhǔn)的整體架構(gòu),確保從基礎(chǔ)設(shè)施至應(yīng)用層的各層級能夠獨(dú)立運(yùn)行、獨(dú)立演化,同時通過標(biāo)準(zhǔn)化、規(guī)范化的協(xié)議、標(biāo)準(zhǔn)實(shí)現(xiàn)層間協(xié)同,并且兼容多樣化的硬件平臺,從而提升整體系統(tǒng)的靈活性與可擴(kuò)展性。

一云多芯是多元算力變革下的云基礎(chǔ)設(shè)施演化的必經(jīng)之路。不同的芯片技術(shù)與復(fù)雜的生態(tài)環(huán)境相交織,對云操作系統(tǒng)廠商的技術(shù)實(shí)力、實(shí)施能力與生態(tài)牽引力均提出了更高的要求,必須要依靠原始創(chuàng)新實(shí)現(xiàn)技術(shù)突破,以生態(tài)開放協(xié)同實(shí)現(xiàn)產(chǎn)品技術(shù)融合,通過產(chǎn)業(yè)鏈上下游協(xié)同,生態(tài)共建,形成完善的一云多芯行業(yè)標(biāo)準(zhǔn),實(shí)現(xiàn)真正的應(yīng)用跨架構(gòu)自由切換,推動"一云多芯"向第三階段邁進(jìn)。

消息來源:浪潮云海
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection