在一家大型電商公司中,有一個名為"星辰"的產(chǎn)品推薦團隊。他們的任務是為每一個用戶尋找屬于他們的那顆“星”——最適合他們的產(chǎn)品。
在尋找產(chǎn)品的過程中,最大的挑戰(zhàn)就是如何在億萬商品中,找到最符合每個用戶需求和喜好的那一款。他們嘗試過各種方法,但總是無法達到理想的效果。于是,他們決定嘗試使用大模型。
隨著大模型的階段性部署,"星辰"搭建起一座連接用戶和商品的橋梁,幫助用戶在繁雜的商品海洋中找到他們的寶藏。同時星辰團隊也收獲了他們的成果.....近年來,大模型的發(fā)展取得了巨大的突破,許多"星辰"這樣的企業(yè)都因大模型收獲了成功。然而,AI入局帶來的算力需求“跳變”,為AI的算力供給提出了新的要求——AI時代,應用正倒逼著AI算力加速擴展。
目前,支持AI計算的硬件多種多樣,CPU、GPU、FPGA、ASIC都在在AI領域中都扮演著至關重要的角色,在AI領域,它們的作用就像是一場接力賽中不同賽道的選手。GPU主要負責“沖刺”,而CPU則是起跑選手,負責啟動和協(xié)調(diào)整個比賽。
然而,隨著AI進一步優(yōu)化計算,對CPU的性能提出了更高的要求。
AMD EPYC處理器恰恰就可以滿足這一要求。甚至,AMD EPYC新一代處理器正逐步突破數(shù)據(jù)中心的極限,提供更強大的性能、效率和可擴展性進一步為AI賦能。
現(xiàn)在,CPU在AI計算中的作用越來越大。在業(yè)內(nèi),一群AI研究人員得出了結(jié)論——“是時候讓CPU再次攻克AI了”。
AMD攜EPYC 爭霸“AI江山”
AMD很早就推出了擁有超高性能的EPYC系列處理器,如今它又在AI計算領域展現(xiàn)出新的活力。
EPYC堪稱AMD歷史上最成功的產(chǎn)品系列之一,經(jīng)歷了初代Naples(那不勒斯),二代Rome(羅馬),三代Milan(米蘭)的潮流風暴后,四代Genoa(熱那亞)等系列的相繼推出,則將EPYC一副“壯麗之城”的圖景展現(xiàn)在人們面前。
2022年,AMD發(fā)布了Zen 4架構(gòu)的AMD EPYC處理器“Genoa”,采用了先進的5nm工藝,最多可達到96核心192線程,配備了12通道DDR5內(nèi)存和160條PCIe 5.0總線。更大的內(nèi)存總線,可以令更多數(shù)據(jù)在內(nèi)存中進行快速加載,從而有效減少因數(shù)據(jù)傳輸而造成的時延;更多的PCIe總線意味著在單臺服務器上可以接入更多AI計算板卡,意味著在更小數(shù)據(jù)中心空間內(nèi)可以提供出更高密度的AI算力。
在今年6月份舉辦的“數(shù)據(jù)中心與AI技術首映”上,AMD針對云原生負載進行性了優(yōu)化,帶來了以吞吐量為導向,擁有最高終端密度和效率的AMD EPYC 9704處理器“Bergamo”。
如果說Genoa是專注于通用的工作負載,Bergamo則專注于云服務器和數(shù)據(jù)中心,適用于云原生工作負載。搭載了820億顆晶體管的Bergamo,能夠最高支持 128 個 Zen 4c 核心,兼容x86 ISA 指令,可相對滿足深度云計算的應用需求。針對云原生應用,從數(shù)據(jù)上看,與至強鉑金8490H相比,Bergamo的性能優(yōu)勢更是最高達到驚人的2.6倍。事實上,更多的核心數(shù)量,對AI應用的處理能力更強。更高的加速主頻,則為AI計算提供了更高的管理和控制能力。
Bergamo EPYC 9704系列處理器包括EPYC 9754、EPYC 9754S、EPYC 9734三個型號。其中,EPYC 9754和EPYC 9754S兩款擁有高達128核心,前者256路線程,后者則為128路線程,熱功耗均為360W,默頻2.25GHz,最高可加速至3.1GHz。EPYC 9734則擁有112個核心,224路線程,熱功耗為320W,默頻和加速頻率也降至2.2GHz和3.0GHz,三款產(chǎn)品的L3緩存均為256MB。
同樣在本次活動上,AMD還帶來了針對更高性能計算的“Genoa-X”,它將每個CCD上額外堆疊了64MB 3D緩存,那么12個CCD就是768MB,總的三級緩存達到了驚人的1152MB,這也是處理器緩存史上第一次突破1GB,如果算上6MB一級緩存(每核心獨享64KB)、96MB二級緩存(每核心獨享1MB),Genoa-X的緩存總量達到了1254MB,性能堪稱恐怖!
Genoa-X配備了3D V-Cache技術,能夠使其在更加繁重的工作負載中釋放出更高性能,讓更多數(shù)據(jù)以更高的效能在CPU中傳遞,從而有效提升AI以及需要更多緩存處理計算的能力。3D V-Cache技術采用業(yè)界首創(chuàng)的Hybrid bond加穿透硅通孔技術(TSV)工藝,可以讓L3緩存垂直堆疊,在不改變處理器面積的前提下,可使L3緩存(SRAM)總數(shù)增加三倍。
同時,更高的Cache能在更短的時鐘周期內(nèi),對AI應用進行有效處理。資料顯示,采用3D V-Cache的Genoa-X 系列可以在Ansys CFX中每天完成更多的設計任務,從而大幅加速產(chǎn)品開發(fā)。
擁有這樣性能的第四代AMD EPYC處理器,幾乎都是當前技術條件下所能達到的極致。
第四代AMD EPYC處理器 處處透著“領先”
第四代AMD EPYC處理器性能卓越的主要原因之一體現(xiàn)在Zen 4及Zen 4c架構(gòu)方面。
AMD Zen架構(gòu)誕生于2017年,迄今已經(jīng)先后有了14nm Zen、12nm Zen+、7nm Zen 2、7nm Zen 3,以及5nm Zen 4 Genoa處理器產(chǎn)品。Genoa擁有先進的5nm工藝、Zen 4架構(gòu),憑借成熟的Chiplet布局,做到最多96核心192線程,還有12通道DDR5內(nèi)存、160條PCIe 5.0總線。
技術的持續(xù)突破和迭代,使得AMD處理器在近年來得到了“井噴式”的增長,無論是產(chǎn)品性能,還是產(chǎn)品的功耗,AMD處理器都做到了空前的高度。
隨著AMD沿襲對創(chuàng)新和品質(zhì)的追求,在“Zen”架構(gòu)的強勢加持下,AMD走出了一條近乎完美的處理器之路。
Zen 4c架構(gòu)的Bergamo讓我們看到了AMD“Zen”架構(gòu)“再下一城”。Bergamo首次采用Zen 4c核心,它與Zen 4都基于同樣的ISA指令集和IPC性能,幾乎所有的微架構(gòu)指標都一模一樣。
Zen 4c核心的專用L2緩存,大小與Zen 4核心相同,這意味著L2 SRAM單元占用著相同的面積,而AMD通過讓L2控制邏輯電路更緊湊來減少L2緩存的區(qū)域面積,而在不包含L2和相關電路的區(qū)域,核心面積極大程度縮小。相比Zen4, Zen 4c設計面積縮小了35%,每瓦性能顯著提高。Zen 4c核心針對性能和功耗的最佳平衡點進行了優(yōu)化,這為我們提供了更好的密度和能效。
第四代AMD EPYC處理器的強大性能不言而喻,但AMD并未滿足于此,正進一步拓展EPYC處理器生態(tài),與其他廠商的硬件配合,展現(xiàn)出無與倫比的強大效果。
NVIDIA的DGX高性能計算平臺,就一直在使用頂級的EPYC處理器,可以加速各種類型的AI工作負載,如數(shù)據(jù)分析、訓練和推理等。
第四代AMD EPYC處理器強大的性能已領先業(yè)界一步,無疑已經(jīng)成為AI計算領域綜合能力最強的選擇之一。這個充滿變數(shù)的AI時代,在提升算力的未來道路上,第四代AMD EPYC處理器必將顛覆市場格局!