北京2022年4月18日 /美通社/ -- 4月9日-13日,第十三屆國際性能工程學(xué)大會(ICPE2022)在線召開,大會由國際計算機協(xié)會ACM和標(biāo)準(zhǔn)性能評估組織SPEC聯(lián)合舉辦,高效能服務(wù)器和存儲技術(shù)國家重點實驗室承辦。此次大會吸引了300余位專家、學(xué)者報名參與,共收到各類投稿290余篇,涉及AI建模及算法、算力提升、能效測量、新型計算架構(gòu)、體系結(jié)構(gòu)研究等多個主題。其中專業(yè)論文70余篇,包含優(yōu)秀論文58篇,論文集收錄22篇。會議期間還舉辦了6場專題研討會,涵蓋基準(zhǔn)測試、存儲管理、軟件開發(fā)等多個領(lǐng)域。
首次引入數(shù)據(jù)挑戰(zhàn)專題,評估數(shù)據(jù)算法優(yōu)化對服務(wù)器性能的提升情況
相對于傳統(tǒng)應(yīng)用來講,在云、邊、AI等新興領(lǐng)域,數(shù)據(jù)中心的首要性能挑戰(zhàn)主要來自不斷增長的數(shù)據(jù)規(guī)模,系統(tǒng)內(nèi)的數(shù)據(jù)流動制約了大規(guī)模、超大規(guī)模系統(tǒng)計算的效能,提高了系統(tǒng)部署及維護(hù)的復(fù)雜度和成本。根據(jù)國際權(quán)威機構(gòu)Statista的統(tǒng)計和預(yù)測,2020年全球數(shù)據(jù)產(chǎn)生量預(yù)計達(dá)到47ZB,而到2035年這一數(shù)字將達(dá)到2142ZB。數(shù)據(jù)挑戰(zhàn)帶來的直觀問題是超大規(guī)模系統(tǒng)的協(xié)同,即如何解決數(shù)據(jù)流動、系統(tǒng)模塊之間的通信問題。為此,ICPE2022首次引入數(shù)據(jù)挑戰(zhàn)專題,針對數(shù)據(jù)集形成算法并進(jìn)行優(yōu)化,同時優(yōu)化服務(wù)器的性能。
來自沃爾茨堡大學(xué)的André Bauer教授介紹了一種性能改變點的自動分類方法,通過應(yīng)用時間序列分析和機器學(xué)習(xí)方法,開發(fā)一個可以對潛在的性能變化點進(jìn)行分類的模型,以評估不同機器學(xué)習(xí)模型的性能,并將生成的模型應(yīng)用于其他未標(biāo)記的數(shù)據(jù)集,以自動對性能變化點進(jìn)行分類和檢測,從而節(jié)省人力及設(shè)備資源,提升部署速度。
專家分享研究實踐成果,從邊緣到集群的性能優(yōu)化
在大會Keynote演講環(huán)節(jié),來自維也納理工大學(xué)、谷歌及浪潮信息的三位演講嘉賓,分別從邊緣故障預(yù)測、數(shù)據(jù)中心管理、多層數(shù)據(jù)訪問優(yōu)化的角度介紹了應(yīng)對數(shù)據(jù)挑戰(zhàn)所采取的方案。
維也納理工大學(xué)教授Ivona Brandic(IEEE 云計算雜志、IEEE TPDS 和 IEEE TCC 編委),在題為《面向可持續(xù)和容錯邊緣系統(tǒng)的數(shù)據(jù)科學(xué)驅(qū)動方法》演講中,揭示了邊緣系統(tǒng)與物聯(lián)網(wǎng)相結(jié)合的挑戰(zhàn):由于時效性、高度異構(gòu)性和資源稀缺,云計算或通用分布式系統(tǒng)設(shè)計的故障恢復(fù)機制無法應(yīng)用于邊緣系統(tǒng)。因此,Ivona Brandic和她的團(tuán)隊設(shè)計了一種基于機器學(xué)習(xí)的新機制,可以評估在邊緣基礎(chǔ)設(shè)施上冗余部署的服務(wù)故障恢復(fù)能力。該方法利用動態(tài)貝葉斯網(wǎng)絡(luò)(dbn)的概念,學(xué)習(xí)邊緣服務(wù)器故障之間的時空相關(guān)性,并將其與拓?fù)湫畔⑾嘟Y(jié)合,以合并鏈路故障。最后,可推斷出在服務(wù)運行時,某一組服務(wù)器發(fā)生故障或并發(fā)斷開連接的概率。
SOSP、FAST、EuroSys和HotCloud的程序委員會主席,John Wilkes,長期從事谷歌計算基礎(chǔ)設(shè)施集群管理工作,發(fā)表主題為《構(gòu)建倉庫規(guī)模的計算機》的演講,他介紹谷歌內(nèi)部面對幾個月內(nèi)增加100000 個 CPU 內(nèi)核 + RAM + 閃存 + 加速器 + 磁盤的需求,可以動態(tài)地將資源分配給最迫切需要它們的產(chǎn)品組,準(zhǔn)確地反映所有機器和基礎(chǔ)設(shè)施的成本(運營支出/資本支出),并監(jiān)控、控制數(shù)據(jù)中心的電源和冷卻系統(tǒng)以實現(xiàn)最小的開銷。
浪潮信息人工智能與高性能應(yīng)用軟件部高性能應(yīng)用架構(gòu)師,李龍翔博士發(fā)表主題為《多層數(shù)據(jù)訪問優(yōu)化》的演講。隨著近年CPU核心數(shù)增加及性能的不斷增強,在超大規(guī)模系統(tǒng)并行計算時,越來越多的應(yīng)用運行性能主要受數(shù)據(jù)訪問速度限制。針對超大規(guī)模集群的數(shù)據(jù)存儲特點,他介紹了一種多層數(shù)據(jù)訪問 (Multi-Layered Data Access,MLDA) 優(yōu)化方法,可以快速對超大規(guī)模并行計算性能瓶頸進(jìn)行分析,通過對存儲、網(wǎng)絡(luò)、訪存、CPU等設(shè)備數(shù)據(jù)訪問過程優(yōu)化,提升超大規(guī)模集群并行計算效率。這只是浪潮信息解決超大規(guī)模系統(tǒng)挑戰(zhàn)多種技術(shù)之一,在中文巨量模型"源1.0"的訓(xùn)練過程中,浪潮信息采用了多種面向超大規(guī)模并行計算技術(shù)的軟硬件協(xié)同優(yōu)化手段,通過流水線并行、張量并行等手段自動地將模型多層數(shù)據(jù)切分到不同的節(jié)點中實現(xiàn)并行。"源1.0"模型包含的參數(shù)總量達(dá) 2457 億,是 GPT-3 的 1.404 倍。
除主題演講之外,分論壇內(nèi)容同樣精彩
學(xué)術(shù)論文獲獎?wù)?,來自猶他大學(xué)的Richard Li表示,對于基于分布式微服務(wù)的應(yīng)用程序來說,性能故障排除是出了名的困難。分析人員對性能異常的典型根源診斷首先是縮小慢速服務(wù)的范圍,調(diào)查慢速組件中的高級性能指標(biāo)或可用日志,最后深入到實際原因。由于缺乏領(lǐng)域知識和實際操作經(jīng)驗,這個過程可能會很長、很乏味,有時還會漫無目的。在本次大會中,他介紹了一種新的由機器學(xué)習(xí)驅(qū)動的性能分析系統(tǒng),該系統(tǒng)可自動化與延遲相關(guān)的性能異常的故障排除過程,以方便診斷和解釋根本原因。
來自于IBM的Lixiang Luo為本次大會的產(chǎn)業(yè)論文獲獎?wù)?,他提出的三種NVMe存儲虛擬化方法(PCI設(shè)備直通法、虛擬塊設(shè)備法和SPDK虛擬主機目標(biāo)法)通過虛擬機提供NVMe存儲,同一主機上的多個虛擬機可以共用一個物理NVMe設(shè)備,以滿足現(xiàn)代工作負(fù)載不斷增長的I/O吞吐量和延遲需求。