omniture

浪潮參加第十三屆國際性能工程學大會 以性能優(yōu)化應(yīng)對數(shù)據(jù)挑戰(zhàn)

2022-04-18 10:59 5492

北京2022年4月18日 /美通社/ -- 4月9日-13日,第十三屆國際性能工程學大會(ICPE2022)在線召開,大會由國際計算機協(xié)會ACM和標準性能評估組織SPEC聯(lián)合舉辦,高效能服務(wù)器和存儲技術(shù)國家重點實驗室承辦。此次大會吸引了300余位專家、學者報名參與,共收到各類投稿290余篇,涉及AI建模及算法、算力提升、能效測量、新型計算架構(gòu)、體系結(jié)構(gòu)研究等多個主題。其中專業(yè)論文70余篇,包含優(yōu)秀論文58篇,論文集收錄22篇。會議期間還舉辦了6場專題研討會,涵蓋基準測試、存儲管理、軟件開發(fā)等多個領(lǐng)域。


首次引入數(shù)據(jù)挑戰(zhàn)專題,評估數(shù)據(jù)算法優(yōu)化對服務(wù)器性能的提升情況

相對于傳統(tǒng)應(yīng)用來講,在云、邊、AI等新興領(lǐng)域,數(shù)據(jù)中心的首要性能挑戰(zhàn)主要來自不斷增長的數(shù)據(jù)規(guī)模,系統(tǒng)內(nèi)的數(shù)據(jù)流動制約了大規(guī)模、超大規(guī)模系統(tǒng)計算的效能,提高了系統(tǒng)部署及維護的復(fù)雜度和成本。根據(jù)國際權(quán)威機構(gòu)Statista的統(tǒng)計和預(yù)測,2020年全球數(shù)據(jù)產(chǎn)生量預(yù)計達到47ZB,而到2035年這一數(shù)字將達到2142ZB。數(shù)據(jù)挑戰(zhàn)帶來的直觀問題是超大規(guī)模系統(tǒng)的協(xié)同,即如何解決數(shù)據(jù)流動、系統(tǒng)模塊之間的通信問題。為此,ICPE2022首次引入數(shù)據(jù)挑戰(zhàn)專題,針對數(shù)據(jù)集形成算法并進行優(yōu)化,同時優(yōu)化服務(wù)器的性能。

來自沃爾茨堡大學的André Bauer教授介紹了一種性能改變點的自動分類方法,通過應(yīng)用時間序列分析和機器學習方法,開發(fā)一個可以對潛在的性能變化點進行分類的模型,以評估不同機器學習模型的性能,并將生成的模型應(yīng)用于其他未標記的數(shù)據(jù)集,以自動對性能變化點進行分類和檢測,從而節(jié)省人力及設(shè)備資源,提升部署速度。

專家分享研究實踐成果,從邊緣到集群的性能優(yōu)化

在大會Keynote演講環(huán)節(jié),來自維也納理工大學、谷歌及浪潮信息的三位演講嘉賓,分別從邊緣故障預(yù)測、數(shù)據(jù)中心管理、多層數(shù)據(jù)訪問優(yōu)化的角度介紹了應(yīng)對數(shù)據(jù)挑戰(zhàn)所采取的方案。

維也納理工大學教授Ivona Brandic(IEEE 云計算雜志、IEEE TPDS 和 IEEE TCC 編委),在題為《面向可持續(xù)和容錯邊緣系統(tǒng)的數(shù)據(jù)科學驅(qū)動方法》演講中,揭示了邊緣系統(tǒng)與物聯(lián)網(wǎng)相結(jié)合的挑戰(zhàn):由于時效性、高度異構(gòu)性和資源稀缺,云計算或通用分布式系統(tǒng)設(shè)計的故障恢復(fù)機制無法應(yīng)用于邊緣系統(tǒng)。因此,Ivona Brandic和她的團隊設(shè)計了一種基于機器學習的新機制,可以評估在邊緣基礎(chǔ)設(shè)施上冗余部署的服務(wù)故障恢復(fù)能力。該方法利用動態(tài)貝葉斯網(wǎng)絡(luò)(dbn)的概念,學習邊緣服務(wù)器故障之間的時空相關(guān)性,并將其與拓撲信息相結(jié)合,以合并鏈路故障。最后,可推斷出在服務(wù)運行時,某一組服務(wù)器發(fā)生故障或并發(fā)斷開連接的概率。 

SOSP、FAST、EuroSys和HotCloud的程序委員會主席,John Wilkes,長期從事谷歌計算基礎(chǔ)設(shè)施集群管理工作,發(fā)表主題為《構(gòu)建倉庫規(guī)模的計算機》的演講,他介紹谷歌內(nèi)部面對幾個月內(nèi)增加100000 個 CPU 內(nèi)核 + RAM + 閃存 + 加速器 + 磁盤的需求,可以動態(tài)地將資源分配給最迫切需要它們的產(chǎn)品組,準確地反映所有機器和基礎(chǔ)設(shè)施的成本(運營支出/資本支出),并監(jiān)控、控制數(shù)據(jù)中心的電源和冷卻系統(tǒng)以實現(xiàn)最小的開銷。

浪潮信息人工智能與高性能應(yīng)用軟件部高性能應(yīng)用架構(gòu)師,李龍翔博士發(fā)表主題為《多層數(shù)據(jù)訪問優(yōu)化》的演講。隨著近年CPU核心數(shù)增加及性能的不斷增強,在超大規(guī)模系統(tǒng)并行計算時,越來越多的應(yīng)用運行性能主要受數(shù)據(jù)訪問速度限制。針對超大規(guī)模集群的數(shù)據(jù)存儲特點,他介紹了一種多層數(shù)據(jù)訪問 (Multi-Layered Data Access,MLDA) 優(yōu)化方法,可以快速對超大規(guī)模并行計算性能瓶頸進行分析,通過對存儲、網(wǎng)絡(luò)、訪存、CPU等設(shè)備數(shù)據(jù)訪問過程優(yōu)化,提升超大規(guī)模集群并行計算效率。這只是浪潮信息解決超大規(guī)模系統(tǒng)挑戰(zhàn)多種技術(shù)之一,在中文巨量模型"源1.0"的訓練過程中,浪潮信息采用了多種面向超大規(guī)模并行計算技術(shù)的軟硬件協(xié)同優(yōu)化手段,通過流水線并行、張量并行等手段自動地將模型多層數(shù)據(jù)切分到不同的節(jié)點中實現(xiàn)并行。"源1.0"模型包含的參數(shù)總量達 2457 億,是 GPT-3 的 1.404 倍。

除主題演講之外,分論壇內(nèi)容同樣精彩

學術(shù)論文獲獎?wù)?,來自猶他大學的Richard Li表示,對于基于分布式微服務(wù)的應(yīng)用程序來說,性能故障排除是出了名的困難。分析人員對性能異常的典型根源診斷首先是縮小慢速服務(wù)的范圍,調(diào)查慢速組件中的高級性能指標或可用日志,最后深入到實際原因。由于缺乏領(lǐng)域知識和實際操作經(jīng)驗,這個過程可能會很長、很乏味,有時還會漫無目的。在本次大會中,他介紹了一種新的由機器學習驅(qū)動的性能分析系統(tǒng),該系統(tǒng)可自動化與延遲相關(guān)的性能異常的故障排除過程,以方便診斷和解釋根本原因。

來自于IBM的Lixiang Luo為本次大會的產(chǎn)業(yè)論文獲獎?wù)?,他提出的三種NVMe存儲虛擬化方法(PCI設(shè)備直通法、虛擬塊設(shè)備法和SPDK虛擬主機目標法)通過虛擬機提供NVMe存儲,同一主機上的多個虛擬機可以共用一個物理NVMe設(shè)備,以滿足現(xiàn)代工作負載不斷增長的I/O吞吐量和延遲需求。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection