亞馬遜云科技自研硬件加速數(shù)字化升級(jí)，助企業(yè)實(shí)現(xiàn)高質(zhì)量發(fā)展

亞馬遜云科技

2023-03-16 12:36 4073

北京2023年3月16日 /美通社/ -- 延續(xù)長(zhǎng)達(dá)半個(gè)世紀(jì)的"摩爾定律"，讓不少人難免產(chǎn)生這樣的錯(cuò)覺(jué)：同樣的成本，總能不斷獲得更強(qiáng)的計(jì)算資源。事實(shí)上，摩爾定律僅僅來(lái)自戈登·摩爾在上世紀(jì)60年代得出的經(jīng)驗(yàn)之談，并非自然定律。隨著企業(yè)數(shù)字化轉(zhuǎn)型的提速，企業(yè)對(duì)算力性能需求的高漲致使芯片制程不斷逼近物理極限，通用型芯片日益高漲的成本讓摩爾定律舉步維艱。

因此，那些提前預(yù)見(jiàn)到"后摩爾時(shí)代"的企業(yè)紛紛探索可行的技術(shù)路線，在確保高質(zhì)量發(fā)展的前提下，維系能促進(jìn)數(shù)字化轉(zhuǎn)型的性能與成本關(guān)系。早在十多年前，亞馬遜云科技就開始意識(shí)到通用芯片在云基礎(chǔ)設(shè)施中的無(wú)效性能和能源損耗等問(wèn)題，并將注意力轉(zhuǎn)向?qū)樵朴?jì)算定制的芯片和硬件。基于對(duì)云環(huán)境復(fù)雜性的深刻理解以及底層技術(shù)對(duì)上層應(yīng)用影響的深刻洞見(jiàn)，亞馬遜云科技走上了自研芯片的創(chuàng)"芯"之路。

"足夠好，還遠(yuǎn)遠(yuǎn)不夠好"

關(guān)于開發(fā)云計(jì)算自研芯片的意義，亞馬遜云科技首席技術(shù)官Werner Vogels在2022 re:Invent全球大會(huì)上表示："足夠好，還遠(yuǎn)遠(yuǎn)不夠好。"比如，當(dāng)開發(fā)者使用參數(shù)強(qiáng)大的GPU來(lái)執(zhí)行機(jī)器學(xué)習(xí)模型從構(gòu)建到訓(xùn)練、推理的全過(guò)程時(shí)，由于GPU并未進(jìn)行過(guò)針對(duì)不同任務(wù)的優(yōu)化，因此性能損耗往往超出想象，并且開發(fā)者還要負(fù)擔(dān)高昂的硬件和能耗成本。

云計(jì)算用戶必然不斷追求更強(qiáng)的算力，但沒(méi)有用戶愿意看到"量?jī)r(jià)齊升"。為此，亞馬遜云科技在本世紀(jì)初就開始進(jìn)行云計(jì)算定制硬件的開發(fā)，并在2006年推出第一個(gè)Amazon Elastic Compute Cloud（Amazon EC2）實(shí)例。此后，隨著云端業(yè)務(wù)多樣性與復(fù)雜性加劇，以及用戶對(duì)降本增效的需求提升，亞馬遜云科技意識(shí)到底層技術(shù)的定制化創(chuàng)新必然成為云計(jì)算高速發(fā)展不可或缺的一塊拼圖。

2013年，亞馬遜云科技推出云服務(wù)器虛擬化引擎Amazon Nitro系統(tǒng)，由此開始了在云計(jì)算底層技術(shù)賽道上領(lǐng)跑行業(yè)的十年。2015年在收購(gòu)Annapurna Labs之后，亞馬遜云科技自研芯片駛?cè)肟燔嚨溃?017年就已開發(fā)了多個(gè)自研芯片，包括虛擬化系統(tǒng)、云原生處理器和機(jī)器學(xué)習(xí)訓(xùn)練及推理芯片。亞馬遜云科技自研芯片助推了Amazon EC2實(shí)例數(shù)量的快速增長(zhǎng)，現(xiàn)在Amazon EC2實(shí)例已多達(dá)600余種，幾乎覆蓋了全部操作系統(tǒng)和應(yīng)用，讓數(shù)百萬(wàn)客戶都能在亞馬遜云科技上找到最合適的方案，應(yīng)對(duì)極端的業(yè)務(wù)需求。

抹平虛擬化的性能損耗

Nitro系列虛擬化定制芯片是亞馬遜云科技自主創(chuàng)"芯"的起點(diǎn)。虛擬化作為云計(jì)算的"基石"，所占用的計(jì)算資源曾一度高達(dá)30%，即是說(shuō)用戶所購(gòu)買算力中有近三分之一成了"門票"而并未獲得實(shí)質(zhì)性算力回報(bào)。

Nitro誕生的重要目標(biāo)之一，就是從底層技術(shù)上解決虛擬化性能損耗難題。通過(guò)定制芯片和獨(dú)立的模塊化設(shè)計(jì)，讓Nitro專門承擔(dān)云計(jì)算系統(tǒng)的所有虛擬化功能，將虛擬化帶來(lái)的性能損耗控制在1%以下，幾乎可以忽略不計(jì)，讓用戶所購(gòu)買的實(shí)例算力能夠近乎100%地服務(wù)于業(yè)務(wù)。同時(shí)，Nitro的安全芯片為用戶提供了硬件級(jí)別的安全機(jī)制，不但實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)隔離的獨(dú)立安全通道，還在數(shù)據(jù)傳輸?shù)乃协h(huán)節(jié)都可以實(shí)現(xiàn)硬件級(jí)別加密，用戶可獲得更強(qiáng)的數(shù)據(jù)安全性。

從2013年到2020年，亞馬遜云科技已陸續(xù)將Nitro更新至第四代，而且Nitro的升級(jí)仍在持續(xù)。在去年2022 re:Invent全球大會(huì)上，亞馬遜云科技又推出了全新的第五代Nitro，進(jìn)一步提升了數(shù)據(jù)處理能力并降低延遲。如果將性能上的提升換算成能耗比，第五代 Nitro將每瓦性能提高了40%，從另一個(gè)維度給用戶帶去更高的性價(jià)比。

相應(yīng)地，由第五代 Nitro 支持的新實(shí)例Amazon EC2 C7gn也一同發(fā)布。在最新一代Nitro的加持下，C7gn與當(dāng)前一代C6gn相比，具有更強(qiáng)的網(wǎng)絡(luò)處理能力，這也讓C7gn成為所有Amazon EC2網(wǎng)絡(luò)優(yōu)化型實(shí)例中，能提供最高網(wǎng)絡(luò)帶寬和數(shù)據(jù)包轉(zhuǎn)發(fā)性能的實(shí)例。C7gn實(shí)例還提高了多達(dá)25%的計(jì)算性能及多達(dá)2倍的加密性能，為用戶優(yōu)化在Amazon EC2上要求最嚴(yán)苛的網(wǎng)絡(luò)密集型工作負(fù)載的成本，并提供更強(qiáng)大的擴(kuò)展性能。

Amazon EC2 C7gn實(shí)例

自研芯片持續(xù)升級(jí)及規(guī)?；瘧?yīng)用為用戶帶來(lái)更高性價(jià)比

Nitro幫助用戶告別了算力損耗，那么用戶已到手的這部分算力，又該如何跑贏摩爾定律？

亞馬遜云科技首席執(zhí)行官 Adam Selipsky 曾表示："如果希望針對(duì)所有可能的工作負(fù)載徹底變革計(jì)算的性價(jià)比，還需要徹底重新思考實(shí)例。為了實(shí)現(xiàn)這個(gè)目標(biāo)，我們需要深入底層技術(shù)直達(dá)芯片。"最終亞馬遜云科技交出的答卷，是基于ARM架構(gòu)的通用型云原生處理器Graviton。

相比X86架構(gòu)，Graviton低成本和高核心密度的特性在高計(jì)算密度領(lǐng)域更具優(yōu)勢(shì)，能耗表現(xiàn)也更佳，但在當(dāng)時(shí)ARM架構(gòu)并未在基于云計(jì)算的企業(yè)級(jí)應(yīng)用領(lǐng)域取得突破。采用ARM架構(gòu)，意味著亞馬遜云科技要開拓一個(gè)幾乎沒(méi)有用戶基礎(chǔ)的賽道。

亞馬遜云科技在2018年推出首代Graviton處理器，隨后在2020年推出Graviton 2并實(shí)現(xiàn)規(guī)?；瘧?yīng)用，開創(chuàng)了ARM處理器企業(yè)級(jí)應(yīng)用的標(biāo)桿。同時(shí)，每一代Graviton都保持著大幅度的性能提升，其中2021年宣布推出的Graviton 3相比上一代單核性能提升25％，浮點(diǎn)性能提升2倍，并且由于采用ARM架構(gòu)，還實(shí)現(xiàn)相比x86實(shí)例多達(dá)60%的能耗下降。

近年來(lái)，隨著人工智能和自動(dòng)駕駛等新興應(yīng)用對(duì)高性能計(jì)算優(yōu)化實(shí)例的負(fù)載與性價(jià)比需求出現(xiàn)倍數(shù)級(jí)提升，亞馬遜云科技在2022 re:Invent全球大會(huì)上發(fā)布了專門對(duì)浮點(diǎn)和向量指令運(yùn)算進(jìn)行了優(yōu)化的Graviton 3E，以及由其提供支持的高性能計(jì)算優(yōu)化實(shí)例Hpc7g。Hpc7g相比當(dāng)前一代Hpc6a實(shí)例性能提升達(dá)20%，讓用戶能夠在多達(dá)數(shù)萬(wàn)個(gè)內(nèi)核的高性能計(jì)算集群中進(jìn)行復(fù)雜計(jì)算，為計(jì)算流體動(dòng)力學(xué)、天氣模擬、基因組學(xué)和分子動(dòng)力學(xué)等高性能計(jì)算工作負(fù)載提供超高的性價(jià)比，進(jìn)一步解決難度系數(shù)持續(xù)增加的問(wèn)題并降低高性能計(jì)算工作負(fù)載的成本。

為了讓用戶獲得更高性價(jià)比，方便用戶采用Graviton實(shí)例，亞馬遜云科技已將20多種托管服務(wù)運(yùn)行在Graviton之上，并且這一數(shù)字還在持續(xù)增加。這些服務(wù)包括用戶經(jīng)常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服務(wù)大幅降低了客戶將應(yīng)用遷移到 Graviton的復(fù)雜度，時(shí)間可以從幾天降低到幾分鐘，而且轉(zhuǎn)移到Graviton實(shí)例上即可實(shí)現(xiàn)高達(dá)40%的性價(jià)比提升。

專"芯"應(yīng)對(duì)機(jī)器學(xué)習(xí)各環(huán)節(jié)

隨著機(jī)器學(xué)習(xí)逐漸步入超大模型時(shí)代，十億級(jí)參數(shù)模型比比皆是，已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業(yè)不堪重負(fù)。

雖然被廣泛應(yīng)用于機(jī)器學(xué)習(xí)的通用芯片差不多每?jī)赡昃湍軐?shí)現(xiàn)性能翻倍，但仍然難以跟上訓(xùn)練模型復(fù)雜度的提升速度。亞馬遜云科技認(rèn)為，未專門針對(duì)機(jī)器學(xué)習(xí)優(yōu)化的GPU將難以長(zhǎng)期勝任云上機(jī)器學(xué)習(xí)任務(wù)，唯一的解決方法是通過(guò)分布式多處理器，將一個(gè)模型通過(guò)網(wǎng)絡(luò)協(xié)同計(jì)算處理。為此，亞馬遜云科技針對(duì)機(jī)器學(xué)習(xí)的兩個(gè)環(huán)節(jié)，分別推出了用于訓(xùn)練的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。

2022年10月，亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實(shí)例，專為云中高性能模型搭建，最多可搭載16顆Trainium芯片，擁有512GB高帶寬內(nèi)存和800Gbps網(wǎng)絡(luò)帶寬。亞馬遜云科技在2022 re:Invent全球大會(huì)上，發(fā)布了增強(qiáng)的Trn1n實(shí)例，網(wǎng)絡(luò)帶寬躍升至1.6Tbps，可將萬(wàn)余個(gè)Trainium芯片構(gòu)建在一個(gè)超大規(guī)模集群上，實(shí)現(xiàn)對(duì)超大模型進(jìn)行并行訓(xùn)練。

亞馬遜云科技針對(duì)推理的Inferentia芯片則在2018年發(fā)布，并在次年推出對(duì)應(yīng)的Amazon EC2 Inf1實(shí)例，能夠幫助用戶實(shí)現(xiàn)低延時(shí)低成本的推理。亞馬遜云科技在2022 re:Invent全球大會(huì)上，又發(fā)布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2實(shí)例，以應(yīng)對(duì)深度學(xué)習(xí)模型規(guī)模和復(fù)雜度的指數(shù)級(jí)增長(zhǎng)。Inf2實(shí)例是唯一一個(gè)專為大型Transformer模型的分布式推理所構(gòu)建的實(shí)例。與Inf1實(shí)例相比，Inf2實(shí)例吞吐量提升4倍，延時(shí)只有1/10，每瓦性能提升45%。Inf2實(shí)例可以運(yùn)行高達(dá)1,750億參數(shù)的大模型，足以勝任諸如GPT-3、Mask R-CNN、ViT等超大型復(fù)雜模型。

十年領(lǐng)跑，硬件創(chuàng)新進(jìn)入加速期

美國(guó)計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者Alan Kay曾經(jīng)說(shuō)過(guò)："真正認(rèn)真對(duì)待軟件的人應(yīng)該制造自己的硬件。"亞馬遜云科技十年創(chuàng)"芯"與這一論斷不謀而合，通過(guò)長(zhǎng)年深耕自研芯片和硬件，在底層技術(shù)層面建立起顯著的差異化優(yōu)勢(shì)。

近年來(lái)，定制硬件創(chuàng)新對(duì)于云計(jì)算的重要性已得到越來(lái)越多企業(yè)的關(guān)注和認(rèn)可。亞馬遜云科技首席技術(shù)官Werner Vogels預(yù)測(cè)"2023年，專用芯片的使用將迅速增加，工作負(fù)載利用硬件優(yōu)化帶來(lái)最大化性能，同時(shí)降低能耗和成本。"這也意味著定制硬件將成為云端算力最可靠的增長(zhǎng)引擎之一，幫助用戶以更優(yōu)的成本和性能回報(bào)，獲得支持企業(yè)高質(zhì)量發(fā)展的數(shù)字化能力。

消息來(lái)源：亞馬遜云科技