亞馬遜云科技宣布由自研芯片Trainuim支持的Amazon EC2 Trn1實例正式可用

亞馬遜云科技

2022-11-16 12:16 4021

Amazon EC2 Trn1實例由Amazon Trainium芯片提供支持，在對亞馬遜云科技上流行的機器學(xué)習(xí)模型進行深度學(xué)習(xí)訓(xùn)練方面具備超高性能，比基于GPU的同類實例節(jié)省高達50%的訓(xùn)練成本
PyTorch、Helixon和Money Forward等客戶與合作伙伴已在使用Trn1實例

北京2022年11月16日 /美通社/ -- 日前，亞馬遜云科技宣布，由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud（Amazon EC2）Trn1實例正式可用。Trn1 實例專為在云中進行高性能機器學(xué)習(xí)模型訓(xùn)練而構(gòu)建，與基于 GPU 的同類實例相比，可節(jié)省高達 50% 的訓(xùn)練成本。Trn1實例能夠以超快的速度在亞馬遜云科技上訓(xùn)練機器學(xué)習(xí)模型，助力客戶縮短訓(xùn)練時間，快速迭代模型以提升準(zhǔn)確性，提高自然語言處理、語音和圖像識別、語義搜索、推薦引擎、欺詐檢測和預(yù)測等工作負載的運行效率。使用Trn1實例無需最低消費承諾或預(yù)付費用，客戶只需為使用的計算量付費。欲開始使用Trn1實例，請訪問：aws.amazon.com/cn/ec2/instance-types/trn1/。

越來越多客戶正在構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)模型，以支撐有望重塑其業(yè)務(wù)和客戶體驗的應(yīng)用程序。這些機器學(xué)習(xí)模型變得越來越復(fù)雜，需要越來越多的訓(xùn)練數(shù)據(jù)提高準(zhǔn)確性。因此，客戶必須將其模型擴展到數(shù)千個加速器上，致使訓(xùn)練成本越來越高。這會直接影響研發(fā)團隊試驗和訓(xùn)練不同模型的能力，限制客戶將創(chuàng)新推向市場的速度。亞馬遜云科技此前已經(jīng)為機器學(xué)習(xí)提供了廣泛且深入的硬件加速器計算產(chǎn)品選擇，包括由亞馬遜云科技自研芯片Amazon Inferentia支持的Inf1實例、G5實例、P4d實例和DL1實例。但是，即便使用當(dāng)前最快的加速實例，訓(xùn)練日益復(fù)雜的機器學(xué)習(xí)模型仍然非常昂貴和耗時。

由Amazon Trainium芯片支持的全新Trn1實例為在亞馬遜云科技上運行的機器學(xué)習(xí)模型訓(xùn)練提供超高性價比和超快速度。與最新的、基于GPU的P4d實例相比，針對深度學(xué)習(xí)模型訓(xùn)練的成本可降低多達50%。借助針對Trn1實例的軟件開發(fā)工具包（SDK）Amazon Neuron，客戶幾乎不需要更改代碼。并且，Amazon Neuron與PyTorch和TensorFlow等流行的機器學(xué)習(xí)框架集成。Trn1實例配有多達16顆專為部署深度學(xué)習(xí)模型而構(gòu)建的Amazon Trainium加速器。Trn1是首個提供高達800 Gbps的網(wǎng)絡(luò)帶寬的實例，延遲更低，比最新的基于GPU的EC2實例快2倍。它采用了亞馬遜云科技第二代Elastic Fabric Adapter（EFA）網(wǎng)絡(luò)接口來提高擴展效率。Trn1實例還使用高速的實例內(nèi)聯(lián)技術(shù)NeuronLink加速訓(xùn)練?？蛻艨梢栽贏mazon EC2 UltraClusters超大規(guī)模集群中部署包含數(shù)以萬計Trainium加速器的Trn1實例，快速訓(xùn)練包含數(shù)萬億個參數(shù)的超復(fù)雜深度學(xué)習(xí)模型。憑借EC2 UltraClusters，客戶能夠使多達3萬個Trainium加速器與EFA PB級網(wǎng)絡(luò)實現(xiàn)互連，擴展機器學(xué)習(xí)模型訓(xùn)練，按需獲取超算級性能，將訓(xùn)練時間從數(shù)月縮短至數(shù)日。每個Trn1實例支持高達8TB的本地NVMe SSD存儲，可快速訪問大型數(shù)據(jù)集。Amazon Trainium支持多種數(shù)據(jù)類型（FP32、TF32、BF16、FP16 和可配置的 FP8）和隨機舍入。隨機舍入是一種概率舍入的方法，與深度學(xué)習(xí)訓(xùn)練中經(jīng)常使用的傳統(tǒng)舍入模式相比，性能更強，準(zhǔn)確度更高。Amazon Trainium還支持動態(tài)張量形狀和自定義運算符，交付靈活的基礎(chǔ)設(shè)施，旨在隨客戶的訓(xùn)練需求而演進。

亞馬遜云科技Amazon EC2副總裁David Brown表示："近年來，我們見證了機器學(xué)習(xí)從大型企業(yè)使用的小眾技術(shù)發(fā)展成為許多客戶的業(yè)務(wù)核心。我們預(yù)計機器學(xué)習(xí)訓(xùn)練將迅速占據(jù)其大量的計算需求。在高性能機器學(xué)習(xí)芯片Amazon Inferentia成功的基礎(chǔ)上，我們推出專為高性能訓(xùn)練而構(gòu)建的第二代機器學(xué)習(xí)芯片Amazon Trainium。由Amazon Trainium支持的Trn1實例可幫助客戶將訓(xùn)練時間從數(shù)月縮短至數(shù)日，同時更具成本效益。"

Trn1實例基于Amazon Nitro系統(tǒng)構(gòu)建，該系統(tǒng)是亞馬遜云科技自研硬件和軟件創(chuàng)新的集大成者，可簡化隔離式多租戶、專用網(wǎng)絡(luò)和快速本地存儲的交付。Amazon Nitro系統(tǒng)將CPU虛擬化、存儲和網(wǎng)絡(luò)功能卸載至專用硬件和軟件，交付近乎裸機的性能。Trn1實例將通過其他亞馬遜云科技服務(wù)提供，包括Amazon SageMaker、Amazon Elastic Kubernetes Service（Amazon EKS）、Amazon Elastic Container Service（Amazon ECS）和Amazon Batch。Trn1實例可以作為按需實例購買，支持節(jié)省計劃（Saving Plans），也可以按預(yù)留實例或Spot實例購買。Trn1實例現(xiàn)已在美國東部（弗吉尼亞北部）和美國西部（俄勒岡）區(qū)域可用，其他區(qū)域也將很快推出。欲了解更多Trn1實例相關(guān)信息，請訪問：aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available。

亞馬遜的產(chǎn)品搜索引擎索引了數(shù)十億種產(chǎn)品，每天提供數(shù)以十億計的客戶查詢，是全球頻繁使用的服務(wù)之一。Amazon Search高級首席科學(xué)家Trishul Chilimbi表示："我們正在訓(xùn)練大型語言模型，這些模型是多模式、多語言、多地區(qū)、基于多任務(wù)預(yù)訓(xùn)練的，跨多個維度（產(chǎn)品、查詢、品牌、評論等）改善客戶的購物體驗。與其他加速機器學(xué)習(xí)解決方案相比，Amazon EC2 Trn1實例可提供更高的性能功耗比，為訓(xùn)練大型語言模型提供了一種更可持續(xù)的方式，并以超低成本提供了高性能。我們計劃探索新的、可配置的FP8數(shù)據(jù)類型和硬件加速隨機舍入，進一步提高訓(xùn)練效率和開發(fā)速度。"

PyTorch是一個開源機器學(xué)習(xí)框架，可加速從研究原型設(shè)計到生產(chǎn)部署的過程。"PyTorch希望加速將機器學(xué)習(xí)從研究原型設(shè)計到實際生產(chǎn)就緒、可供客戶使用的進程。我們與亞馬遜云科技進行了廣泛的合作，為由Amazon Trainium支持的全新Trn1實例提供原生PyTorch支持。構(gòu)建PyTorch模型的開發(fā)人員只需少量代碼更改，即可在Trn1實例上開啟訓(xùn)練。" PyTorch應(yīng)用人工智能工程經(jīng)理Geeta Chauhan表示，"此外，我們還與OpenXLA社區(qū)合作，啟用PyTorch分布式庫，以便輕松地將模型從基于GPU的實例遷移至Trn1實例。Trn1實例為PyTorch社區(qū)帶來的創(chuàng)新包括更高效的數(shù)據(jù)類型、動態(tài)形狀、自定義運算符、硬件優(yōu)化的隨機舍入和快速調(diào)試模式，我們對此倍感興奮。所有這些功能讓Trn1實例非常適合PyTorch開發(fā)人員廣泛采用。未來，我們期待共同為PyTorch做出貢獻，進一步優(yōu)化訓(xùn)練性能。"

Helixon為蛋白質(zhì)療法構(gòu)建下一代人工智能（AI）解決方案，開發(fā)AI工具，幫助科學(xué)家破譯蛋白質(zhì)功能和交互方式，查詢大規(guī)?；蚪M數(shù)據(jù)集以進行靶標(biāo)鑒別，設(shè)計抗體和細胞療法等治療方法。"當(dāng)前，我們使用像全分片數(shù)據(jù)并行（Fully Sharded Data Parallel）等方式訓(xùn)練分布式庫，即通過許多基于GPU的服務(wù)器并行訓(xùn)練模型。但即便如此，訓(xùn)練單個模型仍需花費數(shù)周時間。" Helixon首席執(zhí)行官Jian Peng表示，"我們很高興能夠利用Amazon EC2 Trn1實例，它擁有亞馬遜云科技上超高的可用網(wǎng)絡(luò)帶寬，可以提高分布式訓(xùn)練作業(yè)性能，縮短模型訓(xùn)練時間，同時也降低成本。"

Money Forward公司為企業(yè)和個人提供開放和公平的金融平臺。Money Forward首席技術(shù)官Takuya Nakade表示："我們基于Amazon EC2 Inf1實例推出了大規(guī)模AI聊天機器人服務(wù)，與基于GPU的同類實例相比，推理延遲降低了97%，同時還降低了成本。我們會定期微調(diào)定制的自然語言處理模型，因此減少模型訓(xùn)練時間和成本很重要。根據(jù)我們在Inf1實例上成功遷移推理工作負載的經(jīng)驗，以及采用基于Amazon Trainium的EC2 Trn1實例所開展的初始工作，我們預(yù)計Trn1實例將在提高端到端機器學(xué)習(xí)性能和降低成本方面提供額外價值。"

Magic是一家集生產(chǎn)和研究于一體的公司，它開發(fā)的人工智能就像身邊的同事一樣，能夠幫助你提高生產(chǎn)效率。"訓(xùn)練基于大型自回歸變換器（large autoregressive transformer）的模型是我們工作的重要組成部分。由Amazon Trainium支持的Trn1實例專為此類工作負載設(shè)計，提供近乎無限的可擴展性、快速的節(jié)點互聯(lián)以及對 16 位和 8 位數(shù)據(jù)類型的高級支持。"Magic聯(lián)合創(chuàng)始人兼首席執(zhí)行官Eric Steinberger表示，"Trn1實例將幫助我們以更低成本更快速地訓(xùn)練大型模型。Trainium對BF16隨機舍入的原生支持功能特別令人興奮，不僅提高了性能，同時讓數(shù)值準(zhǔn)確性與全精度幾乎無異。"

消息來源：亞馬遜云科技