北京2022年9月13日 /美通社/ -- 隨著數(shù)據(jù)的爆炸式增長和算力需求的急劇攀升,由開放計算引領(lǐng)的數(shù)據(jù)中心基礎(chǔ)設(shè)施創(chuàng)新,正影響著越來越多的公司爭相學(xué)習(xí)和效仿。在近日舉行的OCP China Day 2022(開放計算中國技術(shù)峰會)上,OCP中國社區(qū)負(fù)責(zé)人、浪潮信息首席架構(gòu)師葉毓睿分享了開放計算如何實(shí)現(xiàn)協(xié)作創(chuàng)新、傳統(tǒng)行業(yè)如何利用開放計算技術(shù)、開放計算目前重要的創(chuàng)新成果以及未來的發(fā)展方向等話題。
開放計算,"寬進(jìn)嚴(yán)出"的全球化協(xié)作模式
"以O(shè)CP為代表的開放計算項(xiàng)目,其實(shí)是‘寬進(jìn)嚴(yán)出'的一個全球化協(xié)作平臺。"葉毓睿提到,CSP(Cloud Service Provider,云服務(wù)提供商)、系統(tǒng)廠商、零部件供應(yīng)商、傳統(tǒng)行業(yè)等各類公司,都可以自由在OCP官網(wǎng)上獲取標(biāo)準(zhǔn)、規(guī)范,觀看演講視頻和下載材料。產(chǎn)業(yè)鏈上下游的合作伙伴,能通過全球化協(xié)作的模式來消除技術(shù)壁壘,加快硬件創(chuàng)新的速度。然而加入OCP成為會員之后,想要影響標(biāo)準(zhǔn)的制定,則需要做出實(shí)質(zhì)性貢獻(xiàn),并具備前瞻性;滿足這些要求并非易事,即使是想?yún)⑴c例行會議的工作組討論,也有一定門檻。
OCP是一個開放的技術(shù)平臺,各個成員公司可以通過知識共享、技術(shù)共享,掌握云邊端的創(chuàng)新技術(shù),并形成相關(guān)產(chǎn)品或方案。引用OCP標(biāo)準(zhǔn),幾乎沒有門檻,因?yàn)檫@些標(biāo)準(zhǔn)基本都是公開的,可供任何人下載和使用。
雖然OCP對成員的加入持歡迎的態(tài)度,但是涉及到具體的工作組,則會要求項(xiàng)目參與者在專業(yè)領(lǐng)域具備深厚積累,否則無法取得參加內(nèi)部會議的資格。例如,浪潮信息準(zhǔn)備參與DC-SCM(Datacenter Secure Control Module,數(shù)據(jù)中心安全控制管理模塊)標(biāo)準(zhǔn)制定之前,做了大量的準(zhǔn)備工作,包括技術(shù)研發(fā)和實(shí)現(xiàn)等方面,然后由項(xiàng)目組的已有成員進(jìn)行投票表決,最終獲準(zhǔn)加入該項(xiàng)目。DC-SCM標(biāo)準(zhǔn)定義了一種與主板解耦的安全控制管理模塊,實(shí)現(xiàn)計算單元和安全管理單元解耦,能夠簡化主板設(shè)計,加快計算組件的迭代。
"雖然成為標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者、參與者需要投入很多的人、財、物等資源。但這些投入是值得的,因?yàn)槔顺毙畔⒆鳛槿虻诙蠓?wù)器廠商,要逐漸參與到更多的全球標(biāo)準(zhǔn)的制定中,盡量通過先進(jìn)技術(shù)的標(biāo)準(zhǔn)化、規(guī)?;?、產(chǎn)業(yè)化、生態(tài)化來促進(jìn)全行業(yè)的降本增效,普及深化ESG可持續(xù)發(fā)展理念,貫徹實(shí)現(xiàn)中國的‘雙碳'戰(zhàn)略目標(biāo)。" 葉毓睿表示。
目前,浪潮信息已積極參與面向AI、邊緣計算、整機(jī)柜、通用服務(wù)器、硬件管理、固件、液冷等國內(nèi)外標(biāo)準(zhǔn)規(guī)范的建立,并牽頭服務(wù)器全部國標(biāo)、OAM(OCP Accelerator Module,OCP加速器模塊)規(guī)范、天蝎標(biāo)準(zhǔn)、OTII(Open Telecom IT Infrastructure,開放電信IT基礎(chǔ)設(shè)施)規(guī)范等。同時,浪潮信息也在推動技術(shù)標(biāo)準(zhǔn)產(chǎn)品化,率先向社區(qū)貢獻(xiàn)了多款產(chǎn)品,可供其他廠商借鑒,如全球唯一符合三大開放組織標(biāo)準(zhǔn)的整機(jī)柜產(chǎn)品;全球首款A(yù)I開放加速計算系統(tǒng)MX1;全球首款面向云基礎(chǔ)架構(gòu)優(yōu)化的四路服務(wù)器參考設(shè)計NF8260M5、全球首款OTII邊緣計算服務(wù)器、首款通過國內(nèi)開放數(shù)據(jù)中心認(rèn)證的天蝎多節(jié)點(diǎn)服務(wù)器等等。
我們發(fā)現(xiàn),OCP包含不少自下而上的項(xiàng)目組。隨著市場需求不斷涌現(xiàn),項(xiàng)目的評判標(biāo)準(zhǔn)主要看市場的認(rèn)可度,需求多了,這個標(biāo)準(zhǔn)就漸漸有機(jī)會成為全行業(yè)的標(biāo)準(zhǔn)。但需要注意的是,有些標(biāo)準(zhǔn)或者項(xiàng)目組可能會無疾而終。這種"物競天擇"的演化機(jī)制,也確保了每個可持續(xù)的項(xiàng)目組都是有生命力、具備市場前景的,是能夠不斷迭代的。
規(guī)模決定方向,領(lǐng)域決定特性
"開放計算的創(chuàng)新與應(yīng)用,實(shí)際上是由兩個因素決定的:規(guī)模決定方向,領(lǐng)域決定特性。"在葉毓??磥?,開放計算最初從超大規(guī)模數(shù)據(jù)中心興起,再逐漸滲透到其他領(lǐng)域,在這個過程中,開放計算的各類產(chǎn)品各有其相對應(yīng)的適用場景。
"規(guī)模決定方向"簡單來說,就是數(shù)據(jù)中心規(guī)模的大小,決定了宏觀尺度上開放計算的發(fā)展大方向,例如Google、Meta的應(yīng)用分別是超大型的搜索網(wǎng)站和社交網(wǎng)站,由此催生了支撐它的IT硬件基礎(chǔ)架構(gòu),朝著數(shù)據(jù)中心即計算機(jī)(Datacenter as a Server)的方向重構(gòu),即在擁有數(shù)萬臺服務(wù)器的數(shù)據(jù)中心里,站在整個數(shù)據(jù)中心的角度進(jìn)行集中管理(包含供電、冷卻等)和CPU、內(nèi)存、存儲的全局資源調(diào)度。目前我們能看到,與之相關(guān)并仍在發(fā)展的技術(shù)有CDI(Composable Disaggregated Infrastructure)、NoF(NVMe Over Fabrics)、CXL(Compute Express Link)等標(biāo)準(zhǔn)。參與這些標(biāo)準(zhǔn)的制定者當(dāng)中不乏全球云計算或者互聯(lián)網(wǎng)巨頭這類用戶,例如Microsoft、Google、Meta、阿里云、騰訊、百度、字節(jié)等,這些用戶本身服務(wù)器的使用量巨大,容易通過大規(guī)模采用攤銷成本,助力相關(guān)技術(shù)和組件推廣、普及。我們注意到,字節(jié)近年來致力推動云固件,并在OCP China Day 2022分享《超大規(guī)模數(shù)據(jù)中心內(nèi)存性能故障的監(jiān)控》,有望成為好的例子。
另外,由數(shù)據(jù)中心即計算機(jī)引發(fā),并可能進(jìn)行組件推廣及可進(jìn)一步觀察的有網(wǎng)卡、連接器、存儲部件、OAM、DC-SCM、硬件管理等產(chǎn)品或規(guī)范。硬件重構(gòu)的方向是"一切皆計算機(jī)",不僅體現(xiàn)在數(shù)據(jù)中心即計算機(jī)、機(jī)柜即計算機(jī)(Rack as a Server)上,也體現(xiàn)在設(shè)備即計算機(jī)(Device as a Server)上,例如智能網(wǎng)卡SmartNIC、DPU(Data Processing Unit,數(shù)據(jù)處理器)、CSD(Computational Storage Drive,即可計算型SSD,包含持久存儲和計算模塊)或 SmartSSD等。
對于中小型數(shù)據(jù)中心用戶來說,他們更關(guān)注安全性、可靠性、業(yè)務(wù)連續(xù)性,對設(shè)備部署效率、運(yùn)維管理方面的要求并不苛刻。而對于大型和超大型數(shù)據(jù)中心用戶而言,如何將資源利用率提高到80%,甚至接近100%?如何將數(shù)據(jù)中心的運(yùn)維從以人為本到以智為本,通過算法和數(shù)據(jù)模型、歷史使用的特點(diǎn),實(shí)現(xiàn)自動化運(yùn)維甚至無人值守?如何在成本可控范圍內(nèi),盡可能讓PUE值趨近于1?……這些是他們首要考慮的問題。這種差異導(dǎo)致了不同規(guī)模的數(shù)據(jù)中心用戶,對技術(shù)創(chuàng)新和應(yīng)用實(shí)踐的思考和設(shè)計有所不同。
"這是從量到質(zhì)的變化。"葉毓睿強(qiáng)調(diào)說,當(dāng)數(shù)據(jù)中心的規(guī)模擴(kuò)張到一定程度之后,數(shù)據(jù)中心的產(chǎn)品交付模式、部署方式、能耗與效率、運(yùn)維管理模式等等,都會發(fā)生與傳統(tǒng)模式截然不同的改變,開放計算項(xiàng)目從早期成立開始,到當(dāng)前發(fā)展的主流部分,較多的是面向超大規(guī)模數(shù)據(jù)中心展開創(chuàng)新的。但這并不意味著,傳統(tǒng)行業(yè)用戶無法利用開放計算來降本增效,實(shí)現(xiàn)可持續(xù)發(fā)展。
葉毓睿指出,開放計算項(xiàng)目在做硬件重構(gòu)的創(chuàng)新過程中,也產(chǎn)生了不少組件級或者設(shè)備級的創(chuàng)新技術(shù)和產(chǎn)品,這些技術(shù)和產(chǎn)品經(jīng)過了大型和超大型數(shù)據(jù)中心用戶的實(shí)際驗(yàn)證,已經(jīng)成為開放計算生態(tài)當(dāng)中的標(biāo)準(zhǔn)組件,中等規(guī)?;蛐∫?guī)模用戶可以直接使用。
NIC 3.0(Network Interface Card,網(wǎng)絡(luò)接口卡)項(xiàng)目是目前OCP最成功的項(xiàng)目之一。迄今為止,該項(xiàng)目在物理形態(tài)和電氣性能上,定義了一種免開箱維護(hù)且尺寸適中、性能優(yōu)秀的網(wǎng)卡,獲得了業(yè)界絕大部分服務(wù)器廠家的支持,成為服務(wù)器新的標(biāo)準(zhǔn)配置項(xiàng)。此外,針對特定領(lǐng)域?qū)S眉軜?gòu)(DSA,Domain Specific Architecture)設(shè)計,支持多元AI芯片標(biāo)準(zhǔn)化接入的OAM規(guī)范,可滿足全球范圍內(nèi)AI加速器的爆炸式增長需求,而用于Chiplet(芯粒)互連的線束(BoW,Bunch of Wires)規(guī)范,則允許芯片制造商混合和匹配使用不同制造工藝技術(shù)的芯片,實(shí)現(xiàn)跨各種工藝制程的高性能芯片設(shè)計。這些項(xiàng)目的持續(xù)發(fā)展,可以讓大型CSP和傳統(tǒng)行業(yè)用戶,能夠更方便的利用飛速發(fā)展的多元化AI技術(shù)。
"領(lǐng)域決定特性"是指開放計算從超大規(guī)模數(shù)據(jù)中心逐步推廣的過程中,不同的場景和應(yīng)用領(lǐng)域會衍生出不同的特性。以國內(nèi)某電商為例,從它的實(shí)際業(yè)務(wù)需求來分析,并沒有音視頻、AI計算和海量冷數(shù)據(jù)的需求。因此,在其整機(jī)柜的設(shè)計初期,就聚焦更好的支持高CPU通用算力,以及熱數(shù)據(jù)和溫數(shù)據(jù)的存儲,忽略異構(gòu)計算和冷存儲的需求,以獲取更高的性價比。
類似的,開放計算在走出互聯(lián)網(wǎng)領(lǐng)域,走向更多傳統(tǒng)行業(yè)的過程中,也將逐漸和該行業(yè)的領(lǐng)域特性相匹配。葉毓睿提到:"因?yàn)槌叽纭⒅亓?、供電、兼容性等問題,OCP整機(jī)柜部署到非互聯(lián)網(wǎng)行業(yè)的傳統(tǒng)數(shù)據(jù)中心時需要進(jìn)行調(diào)整。"近段時間以來,浪潮信息聯(lián)合各大合作伙伴商討標(biāo)準(zhǔn)機(jī)柜+標(biāo)準(zhǔn)服務(wù)器的整機(jī)柜的設(shè)計。
以電信行業(yè)為例,OCP當(dāng)前超過12大類的項(xiàng)目中,包含Telco(電信)這個類別,其下設(shè)有Edge(邊緣計算)子類。在電信這個領(lǐng)域,邊緣計算有其自身的特性,應(yīng)該以集成的方式,將通用計算、存儲、網(wǎng)絡(luò)、異構(gòu)計算等融為一體,滿足該領(lǐng)域所處的物理環(huán)境對于空間、溫度、震動、防水、防塵等的嚴(yán)格要求。
當(dāng)然,邊緣計算應(yīng)用的場景包羅萬象,包括但不限于物聯(lián)網(wǎng) 、MEC(Multi-access Edge Computing,多接入邊緣計算) 和NFV(Network Functions Virtualization,網(wǎng)絡(luò)功能虛擬化)等 5G 應(yīng)用場景。值得一提的是,浪潮信息邊緣計算產(chǎn)品線推出的ECOM(Edge Computing Optional Modular)系統(tǒng),為適應(yīng)智能邊緣網(wǎng)關(guān)產(chǎn)品復(fù)雜多變的應(yīng)用場景做出了有意義的探索和實(shí)踐,通過將系統(tǒng)進(jìn)行模塊化拆解,能最大限度的復(fù)用各個組件,也使產(chǎn)品設(shè)計更加多樣、靈活、易于實(shí)現(xiàn),適應(yīng)室內(nèi)室外多種應(yīng)用場景;通過將核心計算平臺、異構(gòu)加速平臺、IO模組、管理功能等模組進(jìn)行架構(gòu)解耦,實(shí)現(xiàn)標(biāo)準(zhǔn)化、模塊化,平臺模組及功能模組多重復(fù)用,基于不同的場景和應(yīng)用進(jìn)行環(huán)境適應(yīng)型設(shè)計,以實(shí)現(xiàn)短、平、快的產(chǎn)品開發(fā)模式,高質(zhì)量的滿足各類用戶的產(chǎn)品需求。
葉毓睿坦承道:"我們希望有更多傳統(tǒng)行業(yè)的用戶加入到開放計算組織中來。這樣在未來發(fā)展的過程中,有更多機(jī)會發(fā)掘一些OCP產(chǎn)品面向特定領(lǐng)域的特性,這也是我們一直在思考并努力踐行的。"
以金融行業(yè)為例,隨著人工智能、5G、大數(shù)據(jù)等技術(shù)在金融行業(yè)的深度應(yīng)用,刷臉支付、在線開戶、線上貸款等"非接觸式"金融服務(wù)越來越普及。但金融創(chuàng)新業(yè)務(wù)的發(fā)展也帶來了系統(tǒng)數(shù)量繁多,數(shù)據(jù)類型多元化,需要在有限的數(shù)據(jù)中心空間內(nèi),兼容各種不同的需求。銀行客戶在采用開放計算解決方案后,相較傳統(tǒng)解決方案,部署密度提升6倍,通過RMC(Rack Management Controller )集中管理單元實(shí)現(xiàn)整個系統(tǒng)資源的實(shí)時監(jiān)控。
隨著開放計算生態(tài)的發(fā)展,其所致力的全球化協(xié)作與創(chuàng)新,將會帶來更多的開放接口、開放組件、開放管理和自動化運(yùn)維,實(shí)現(xiàn)包括數(shù)據(jù)中心在內(nèi)的,云邊端低碳、高效的可持續(xù)發(fā)展。未來,開放計算還有巨大的潛力有待挖掘。