omniture

浪潮AI服務(wù)器NF5288M5獲年度創(chuàng)新產(chǎn)品獎(jiǎng)

2018-03-24 00:00 8072
3月22日,浪潮AI服務(wù)器NF5288M5在2018中國(guó)IT市場(chǎng)年會(huì)暨賽迪生態(tài)伙伴大會(huì)上榮獲2017年度創(chuàng)新產(chǎn)品獎(jiǎng)。浪潮NF5288M5是目前業(yè)界唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計(jì)算的AI服務(wù)器。

北京2018年3月24日電 /美通社/ -- 2018年3月22日,浪潮AI服務(wù)器NF5288M5在2018中國(guó)IT市場(chǎng)年會(huì)暨賽迪生態(tài)伙伴大會(huì)上榮獲2017年度創(chuàng)新產(chǎn)品獎(jiǎng)。浪潮NF5288M5是目前業(yè)界唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計(jì)算的AI服務(wù)器,能滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各類AI應(yīng)用場(chǎng)景對(duì)計(jì)算架構(gòu)性能、功耗的不同需求。

2017年是人工智能應(yīng)用元年,從“阿爾法狗”以3比0戰(zhàn)勝了圍棋天才柯潔,到仿真機(jī)器人Sophia被授予國(guó)籍,人工智能正全面進(jìn)入人類生活。無(wú)人超市、自動(dòng)駕駛等技術(shù)應(yīng)用正在深刻改變這個(gè)世界。以人工智能、大數(shù)據(jù)為代表的新技術(shù)不斷應(yīng)用于工業(yè)、金融、物流、商貿(mào)、能源、教育、農(nóng)業(yè)等行業(yè),AI計(jì)算的需求量將呈爆發(fā)式增長(zhǎng)。然而當(dāng)前市場(chǎng)上的AI計(jì)算平臺(tái)卻普遍面臨著通訊效率低下、平臺(tái)架構(gòu)僵化、計(jì)算密度低等問題。

AI計(jì)算平臺(tái)的瓶頸 -- 效率、彈性和密度

在AI訓(xùn)練中,通常采用CPU+GPU異構(gòu)計(jì)算架構(gòu),CPU和GPU之間需要頻繁的通訊,分擔(dān)整個(gè)計(jì)算任務(wù)中不同的部分,而一旦通訊頻次過(guò)高,CPU和GPU就需要花費(fèi)大量的時(shí)間進(jìn)行相互通訊,嚴(yán)重影響整個(gè)計(jì)算架構(gòu)的效率。

目前市面上成熟的AI框架有十多種,像標(biāo)準(zhǔn)的圖像、語(yǔ)音、語(yǔ)意理解等神經(jīng)模型的數(shù)量非常龐大。不同的AI框架包含了不同的模型和算法,產(chǎn)生不同規(guī)模的訓(xùn)練數(shù)據(jù),對(duì)CPU和GPU計(jì)算架構(gòu)的多樣化需求。

普通的AI訓(xùn)練通常需要幾十萬(wàn)個(gè)樣本進(jìn)行十幾萬(wàn)次訓(xùn)練迭代,為了保證模型能在有限的時(shí)間內(nèi)做到足夠收斂,某些模型甚至需要超過(guò)200片GPU卡以AI服務(wù)器集群的方式并行,這就需要部署更多的AI服務(wù)器,而數(shù)據(jù)中心空間是有限的,更高密度的服務(wù)器成為趨勢(shì)。

浪潮NF5288M5 -- AI計(jì)算加速器

為了提升計(jì)算效率、滿足多樣化AI場(chǎng)景需求,浪潮NF5288M5另辟蹊徑,變異構(gòu)為同構(gòu),消除了異構(gòu)通信帶來(lái)計(jì)算效率降低的煩惱。在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA® Tesla® P100 GPU,可以在不依賴CPU的前提下,實(shí)現(xiàn)機(jī)內(nèi)點(diǎn)到點(diǎn)通訊,減少了異構(gòu)通訊的次數(shù);在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA® Tesla®系列GPU,可以實(shí)現(xiàn)GPU間高達(dá)300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過(guò)60%。將GPU同構(gòu),把NF5288M5的并行計(jì)算效率盡可能推到極限。

浪潮AI服務(wù)器NF5288M5可在2U空間內(nèi)支持8顆GPU,在超大規(guī)模AI訓(xùn)練集群或HPC集群引用時(shí),可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源,更有利于數(shù)據(jù)中心的空間分配。

浪潮NF5288M5采用PCIe線纜的方式連接CPU和GPU資源,可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量,在應(yīng)對(duì)不同的AI應(yīng)用時(shí),更好的做到PCIe資源按需分配,彈性的異構(gòu)平臺(tái),足以支撐多樣化的AI場(chǎng)景。

創(chuàng)新設(shè)計(jì)應(yīng)對(duì)極限挑戰(zhàn)

浪潮AI服務(wù)器NF5288M5在實(shí)現(xiàn)性能、靈活性和密度多維度增強(qiáng)的同時(shí),也面臨著互連、供電和散熱設(shè)計(jì)的三大極限挑戰(zhàn)。如何在一個(gè)系統(tǒng)中實(shí)現(xiàn)GPU卡的靈活配置,滿足高達(dá)3000W的供電需求,并在有限的空間內(nèi)解決散熱,成為了開發(fā)這款產(chǎn)品的三大難題。

有別于業(yè)界異構(gòu)服務(wù)器CPU和GPU緊耦合的互連方式,浪潮NF5288M5采用解耦式設(shè)計(jì),參考刀片服務(wù)器的設(shè)計(jì)思路,把組件緊湊的布局到2U空間中,同時(shí)確保NVLink?的走線長(zhǎng)度、信號(hào)都處在較佳狀態(tài),以保證GPU的性能發(fā)揮。

8塊功耗高達(dá)300W的GPU,以及服務(wù)器內(nèi)其他的計(jì)算、存儲(chǔ)和I/O資源,使整機(jī)的功耗達(dá)到3000W,供電如何走線成為較大的挑戰(zhàn)。NF5288M5借鑒了浪潮在整機(jī)柜服務(wù)器的供電設(shè)計(jì)方式,對(duì)單服務(wù)器內(nèi)部采用無(wú)線纜供電設(shè)計(jì),減少了供電線纜對(duì)空間的占用以及對(duì)散熱氣流的影響。

3000W的供電,意味著3000W的峰值發(fā)熱量,6倍于傳統(tǒng)的2U服務(wù)器,散熱成為一個(gè)繞不過(guò)的難題。把低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點(diǎn),讓空氣在服務(wù)器的內(nèi)部均衡的升溫,再通過(guò)高速風(fēng)扇將熱量快速帶出服務(wù)器,保障了NF5288M5可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運(yùn)行。

浪潮NF5288M5作為一款高密度、高性能的AI服務(wù)器,無(wú)論是在面向人工智能訓(xùn)練還是HPC應(yīng)用時(shí),都能為用戶提供極致性能體驗(yàn)。

消息來(lái)源:浪潮集團(tuán)
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection