浪潮參加第十三屆國際性能工程學(xué)大會以性能優(yōu)化應(yīng)對數(shù)據(jù)挑戰(zhàn)

浪潮

2022-04-18 10:59 5698

北京2022年4月18日 /美通社/ -- 4月9日-13日，第十三屆國際性能工程學(xué)大會（ICPE2022）在線召開，大會由國際計算機協(xié)會ACM和標(biāo)準(zhǔn)性能評估組織SPEC聯(lián)合舉辦,高效能服務(wù)器和存儲技術(shù)國家重點實驗室承辦。此次大會吸引了300余位專家、學(xué)者報名參與，共收到各類投稿290余篇，涉及AI建模及算法、算力提升、能效測量、新型計算架構(gòu)、體系結(jié)構(gòu)研究等多個主題。其中專業(yè)論文70余篇，包含優(yōu)秀論文58篇，論文集收錄22篇。會議期間還舉辦了6場專題研討會，涵蓋基準(zhǔn)測試、存儲管理、軟件開發(fā)等多個領(lǐng)域。

首次引入數(shù)據(jù)挑戰(zhàn)專題，評估數(shù)據(jù)算法優(yōu)化對服務(wù)器性能的提升情況

相對于傳統(tǒng)應(yīng)用來講，在云、邊、AI等新興領(lǐng)域，數(shù)據(jù)中心的首要性能挑戰(zhàn)主要來自不斷增長的數(shù)據(jù)規(guī)模，系統(tǒng)內(nèi)的數(shù)據(jù)流動制約了大規(guī)模、超大規(guī)模系統(tǒng)計算的效能，提高了系統(tǒng)部署及維護(hù)的復(fù)雜度和成本。根據(jù)國際權(quán)威機構(gòu)Statista的統(tǒng)計和預(yù)測，2020年全球數(shù)據(jù)產(chǎn)生量預(yù)計達(dá)到47ZB，而到2035年這一數(shù)字將達(dá)到2142ZB。數(shù)據(jù)挑戰(zhàn)帶來的直觀問題是超大規(guī)模系統(tǒng)的協(xié)同，即如何解決數(shù)據(jù)流動、系統(tǒng)模塊之間的通信問題。為此，ICPE2022首次引入數(shù)據(jù)挑戰(zhàn)專題，針對數(shù)據(jù)集形成算法并進(jìn)行優(yōu)化，同時優(yōu)化服務(wù)器的性能。

來自沃爾茨堡大學(xué)的André Bauer教授介紹了一種性能改變點的自動分類方法，通過應(yīng)用時間序列分析和機器學(xué)習(xí)方法，開發(fā)一個可以對潛在的性能變化點進(jìn)行分類的模型，以評估不同機器學(xué)習(xí)模型的性能，并將生成的模型應(yīng)用于其他未標(biāo)記的數(shù)據(jù)集，以自動對性能變化點進(jìn)行分類和檢測，從而節(jié)省人力及設(shè)備資源，提升部署速度。

專家分享研究實踐成果，從邊緣到集群的性能優(yōu)化

在大會Keynote演講環(huán)節(jié)，來自維也納理工大學(xué)、谷歌及浪潮信息的三位演講嘉賓，分別從邊緣故障預(yù)測、數(shù)據(jù)中心管理、多層數(shù)據(jù)訪問優(yōu)化的角度介紹了應(yīng)對數(shù)據(jù)挑戰(zhàn)所采取的方案。

維也納理工大學(xué)教授Ivona Brandic（IEEE 云計算雜志、IEEE TPDS 和 IEEE TCC 編委），在題為《面向可持續(xù)和容錯邊緣系統(tǒng)的數(shù)據(jù)科學(xué)驅(qū)動方法》演講中，揭示了邊緣系統(tǒng)與物聯(lián)網(wǎng)相結(jié)合的挑戰(zhàn)：由于時效性、高度異構(gòu)性和資源稀缺，云計算或通用分布式系統(tǒng)設(shè)計的故障恢復(fù)機制無法應(yīng)用于邊緣系統(tǒng)。因此，Ivona Brandic和她的團(tuán)隊設(shè)計了一種基于機器學(xué)習(xí)的新機制，可以評估在邊緣基礎(chǔ)設(shè)施上冗余部署的服務(wù)故障恢復(fù)能力。該方法利用動態(tài)貝葉斯網(wǎng)絡(luò)(dbn)的概念，學(xué)習(xí)邊緣服務(wù)器故障之間的時空相關(guān)性，并將其與拓?fù)湫畔⑾嘟Y(jié)合，以合并鏈路故障。最后，可推斷出在服務(wù)運行時，某一組服務(wù)器發(fā)生故障或并發(fā)斷開連接的概率。

SOSP、FAST、EuroSys和HotCloud的程序委員會主席，John Wilkes，長期從事谷歌計算基礎(chǔ)設(shè)施集群管理工作，發(fā)表主題為《構(gòu)建倉庫規(guī)模的計算機》的演講，他介紹谷歌內(nèi)部面對幾個月內(nèi)增加100000 個 CPU 內(nèi)核 + RAM + 閃存 + 加速器 + 磁盤的需求，可以動態(tài)地將資源分配給最迫切需要它們的產(chǎn)品組，準(zhǔn)確地反映所有機器和基礎(chǔ)設(shè)施的成本（運營支出/資本支出），并監(jiān)控、控制數(shù)據(jù)中心的電源和冷卻系統(tǒng)以實現(xiàn)最小的開銷。

浪潮信息人工智能與高性能應(yīng)用軟件部高性能應(yīng)用架構(gòu)師，李龍翔博士發(fā)表主題為《多層數(shù)據(jù)訪問優(yōu)化》的演講。隨著近年CPU核心數(shù)增加及性能的不斷增強，在超大規(guī)模系統(tǒng)并行計算時，越來越多的應(yīng)用運行性能主要受數(shù)據(jù)訪問速度限制。針對超大規(guī)模集群的數(shù)據(jù)存儲特點，他介紹了一種多層數(shù)據(jù)訪問 (Multi-Layered Data Access，MLDA) 優(yōu)化方法，可以快速對超大規(guī)模并行計算性能瓶頸進(jìn)行分析，通過對存儲、網(wǎng)絡(luò)、訪存、CPU等設(shè)備數(shù)據(jù)訪問過程優(yōu)化，提升超大規(guī)模集群并行計算效率。這只是浪潮信息解決超大規(guī)模系統(tǒng)挑戰(zhàn)多種技術(shù)之一，在中文巨量模型"源1.0"的訓(xùn)練過程中，浪潮信息采用了多種面向超大規(guī)模并行計算技術(shù)的軟硬件協(xié)同優(yōu)化手段，通過流水線并行、張量并行等手段自動地將模型多層數(shù)據(jù)切分到不同的節(jié)點中實現(xiàn)并行。"源1.0"模型包含的參數(shù)總量達(dá) 2457 億，是 GPT-3 的 1.404 倍。

除主題演講之外，分論壇內(nèi)容同樣精彩

學(xué)術(shù)論文獲獎?wù)?，來自猶他大學(xué)的Richard Li表示，對于基于分布式微服務(wù)的應(yīng)用程序來說，性能故障排除是出了名的困難。分析人員對性能異常的典型根源診斷首先是縮小慢速服務(wù)的范圍，調(diào)查慢速組件中的高級性能指標(biāo)或可用日志，最后深入到實際原因。由于缺乏領(lǐng)域知識和實際操作經(jīng)驗，這個過程可能會很長、很乏味，有時還會漫無目的。在本次大會中，他介紹了一種新的由機器學(xué)習(xí)驅(qū)動的性能分析系統(tǒng)，該系統(tǒng)可自動化與延遲相關(guān)的性能異常的故障排除過程，以方便診斷和解釋根本原因。

來自于IBM的Lixiang Luo為本次大會的產(chǎn)業(yè)論文獲獎?wù)?，他提出的三種NVMe存儲虛擬化方法（PCI設(shè)備直通法、虛擬塊設(shè)備法和SPDK虛擬主機目標(biāo)法）通過虛擬機提供NVMe存儲，同一主機上的多個虛擬機可以共用一個物理NVMe設(shè)備，以滿足現(xiàn)代工作負(fù)載不斷增長的I/O吞吐量和延遲需求。

消息來源：浪潮