北京2021年11月16日 /美通社/ -- 10月6日,OpenStack社區(qū)發(fā)布第24個(gè)版本 Xena(簡(jiǎn)稱X版本),浪潮云海在Nova、Cyborg、Cinder、Masakari、Manila等核心項(xiàng)目的技術(shù)貢獻(xiàn)排名再次獲得“中國(guó)第一”、全球前三,已連續(xù)4個(gè)版本榮登社區(qū)技術(shù)貢獻(xiàn)國(guó)內(nèi)榜首,引領(lǐng)OpenStack重要技術(shù)發(fā)展。
其中,浪潮云海OS技術(shù)團(tuán)隊(duì)向OpenStack社區(qū)貢獻(xiàn)的可視化日志管理項(xiàng)目 -- Venus,是國(guó)內(nèi)首個(gè)在智能運(yùn)維領(lǐng)域貢獻(xiàn)的開(kāi)源項(xiàng)目。
在此版本中,浪潮云海團(tuán)隊(duì)分別從以下四個(gè)方面做了大量技術(shù)貢獻(xiàn):
一、GPU高級(jí)虛擬化功能增強(qiáng)及優(yōu)化
二、加密卷、文件等存儲(chǔ)場(chǎng)景增強(qiáng)優(yōu)化
三、云平臺(tái)上穩(wěn)定性和持久內(nèi)存的易用性增強(qiáng)
四、基于Kolla的Venus項(xiàng)目集成實(shí)踐,實(shí)現(xiàn)生產(chǎn)級(jí)鏡像加速部署
一、GPU高級(jí)虛擬化功能增強(qiáng)及優(yōu)化
AI技術(shù)快速發(fā)展,市場(chǎng)上對(duì)深度學(xué)習(xí)、圖形圖像處理及科學(xué)計(jì)算等多種場(chǎng)景的需求不斷增加,但GPU價(jià)格昂貴,對(duì)云平臺(tái)來(lái)說(shuō),如果一個(gè)GPU設(shè)備只能提供給一個(gè)虛擬機(jī)或物理機(jī)使用,GPU的利用率會(huì)大大降低。為滿足客戶多臺(tái)虛擬機(jī)同時(shí)使用一個(gè)物理GPU,浪潮云海OS團(tuán)隊(duì)基于硬件加速設(shè)備管理項(xiàng)目Cyborg實(shí)現(xiàn)了對(duì)GPU/vGPU資源的精細(xì)化調(diào)度和管理功能,支持根據(jù)vGPU顯存大小進(jìn)行調(diào)度創(chuàng)建vGPU虛擬機(jī),極大程度上提升GPU資源利用率。
浪潮云海OS可支持GPU高級(jí)虛擬化(vGPU)功能,以支持一個(gè)GPU設(shè)備(即GPU:vGPU = 1: n(n≥1))啟動(dòng)多個(gè)高性能虛擬機(jī),此時(shí)一個(gè)物理GPU設(shè)備可支持多臺(tái)虛擬機(jī)運(yùn)行,提升GPU對(duì)用戶業(yè)務(wù)的并行處理能力。浪潮云海OS操作系統(tǒng)集云計(jì)算、大數(shù)據(jù)和人工智能于一體,作為云數(shù)據(jù)中心的“中樞神經(jīng)系統(tǒng)”,實(shí)現(xiàn)了數(shù)據(jù)中心資源融合,資源管理及服務(wù)交付,同時(shí)支持GPU設(shè)備細(xì)粒度、精細(xì)化調(diào)度;支持根據(jù)GPU廠商、產(chǎn)品號(hào)、名稱等屬性調(diào)度所需的GPU或vGPU設(shè)備。
浪潮云海OS通過(guò)GPU或vGPU設(shè)備為虛擬機(jī)提供了無(wú)與倫比的圖形性能和應(yīng)用程序兼容性,同時(shí)在多個(gè)工作負(fù)載之間共享GPU以帶來(lái)成本效益和可擴(kuò)展性。
二、加密卷、文件等存儲(chǔ)場(chǎng)景增強(qiáng)優(yōu)化
隨著云平臺(tái)規(guī)模的增大,如何保障云平臺(tái)的高可用性成為了各個(gè)云廠商關(guān)注的熱點(diǎn)話題。浪潮云海OS從真實(shí)客戶需求出發(fā),綜合虛擬機(jī)、物理機(jī)等多種應(yīng)用場(chǎng)景,為客戶提供多平面感知的高可用能力,以下是在X版本貢獻(xiàn)的多項(xiàng)核心技術(shù):
云海OS團(tuán)隊(duì)在文件存儲(chǔ)Manila組件方面貢獻(xiàn)了多個(gè)高級(jí)功能。例如增加文件存儲(chǔ)回收站功能,通過(guò)軟刪除方式將Share放入回收站,回收站中的Share默認(rèn)在七天之后被徹底刪除,進(jìn)一步提升文件安全性。支持用戶對(duì)回收站內(nèi)的Share進(jìn)行查看、恢復(fù)以及徹底刪除(暫不支持對(duì)Share更新、擴(kuò)容、遷移等操作);管理員和普通用戶默認(rèn)支持使用回收站功能,在一定程度上提升了用戶使用云平臺(tái)的安全性,降低由于操作不規(guī)范、誤刪文件等帶來(lái)經(jīng)濟(jì)損失的可能。
以O(shè)penStack平臺(tái)為例,浪潮云海技術(shù)團(tuán)隊(duì)優(yōu)化了核心項(xiàng)目Cinder加密卷的處理邏輯,并將此優(yōu)化推送到社區(qū)。具體來(lái)說(shuō),卷加密功能是基于LinuxLUKS架構(gòu),在卷掛載到虛擬機(jī)之前首先判斷卷的數(shù)據(jù)格式。如果卷數(shù)據(jù)格式非LUKS格式,會(huì)將目標(biāo)卷格式化為L(zhǎng)UKS之后再映射給虛擬機(jī)使用。此種情況下,如果納管存儲(chǔ)上已經(jīng)存在數(shù)據(jù)的卷,就可能出現(xiàn)數(shù)據(jù)丟失風(fēng)險(xiǎn)。另外如果目標(biāo)卷是加密類(lèi)型的,納管時(shí)需要有密鑰支持,無(wú)密鑰則無(wú)法解析加密卷。
在對(duì)接iSCSI協(xié)議的存儲(chǔ)時(shí),卷映射虛擬機(jī)后,在宿主機(jī)上會(huì)生成SCSI相關(guān)協(xié)議的鏈路信息(Multipath、SCSI設(shè)備映射等)。在融合部署cinder-volume服務(wù)與nova-compute服務(wù)時(shí),卷上傳鏡像操作在讀取卷所使用的鏈路信息時(shí),會(huì)與虛擬機(jī)使用的鏈路信息保持一致。如果上傳鏡像操作處理完時(shí)需要解除卷與虛擬機(jī)的映射信息,此時(shí)也會(huì)解除虛擬機(jī)所使用的鏈接映射,并造成虛擬機(jī)故障。
針對(duì)此問(wèn)題,浪潮云海針對(duì)此問(wèn)題進(jìn)行了深入研究,設(shè)計(jì)修復(fù)方案并完成開(kāi)發(fā),完成了對(duì)云海OS產(chǎn)品的優(yōu)化,并將針對(duì)此問(wèn)題的技術(shù)實(shí)現(xiàn)推送到OpenStack開(kāi)源社區(qū),得到了眾多開(kāi)源項(xiàng)目維護(hù)者及社區(qū)開(kāi)發(fā)者的認(rèn)可。
三、云平臺(tái)上穩(wěn)定性和持久內(nèi)存的易用性增強(qiáng)
當(dāng)計(jì)算集群發(fā)生大規(guī)模故障時(shí),計(jì)算資源急劇收縮,可能存在資源不足的情況,此時(shí)疏散可能給云平臺(tái)造成更大的傷害。另外,計(jì)算節(jié)點(diǎn)上云主機(jī)根據(jù)承載的業(yè)務(wù)不同,有的業(yè)務(wù)應(yīng)用實(shí)例價(jià)值高,有的就可能沒(méi)那么重要。
如何保障高價(jià)值的業(yè)務(wù)優(yōu)先恢復(fù)?
這就需要通過(guò)定義用戶業(yè)務(wù)實(shí)例的優(yōu)先級(jí),然后通過(guò)排隊(duì)、熔斷、限流、降級(jí)重試等策略保障用戶業(yè)務(wù)的可用性,從而保障云平臺(tái)業(yè)務(wù)的穩(wěn)定性。
浪潮云海技術(shù)團(tuán)隊(duì)和英特爾中國(guó)CESG ESS部門(mén)及英特爾中國(guó)OpenStack社區(qū)研發(fā)團(tuán)隊(duì)共同合作,對(duì)持久化內(nèi)存(PMEM)進(jìn)行了深入研究,完善并深度優(yōu)化PMEM設(shè)備虛擬機(jī)的相關(guān)功能,例如支持PMEM設(shè)備虛擬機(jī)離線遷移,支持將已有的PMEM數(shù)據(jù)的虛擬機(jī)遷移到目標(biāo)PMEM服務(wù)器節(jié)點(diǎn)上。
為了更進(jìn)一步實(shí)現(xiàn)異構(gòu)加速器設(shè)備的管理,浪潮云海技術(shù)團(tuán)隊(duì)編寫(xiě)了PMEM設(shè)備的驅(qū)動(dòng)程序,并將其貢獻(xiàn)到OpenStack Cyborg社區(qū),以支持通過(guò)智能加速器設(shè)備管理項(xiàng)目統(tǒng)一管理PMEM設(shè)備,支持PMEM設(shè)備的自動(dòng)發(fā)現(xiàn)、自動(dòng)上報(bào)、Nova創(chuàng)建虛擬機(jī)智能調(diào)度,更好支持虛擬機(jī)在創(chuàng)建時(shí)請(qǐng)求PMEM設(shè)備。
四、基于Kolla的Venus項(xiàng)目集成實(shí)踐,實(shí)現(xiàn)生產(chǎn)級(jí)鏡像加速部署
作為OpenStack平臺(tái)部署項(xiàng)目,Kolla通過(guò)構(gòu)建OpenStack容器化組件鏡像,將不同的組件根據(jù)角色配置部署到不同的節(jié)點(diǎn)上,實(shí)現(xiàn)了生產(chǎn)級(jí)別的鏡像加速部署,最大程度簡(jiǎn)化OpenStack部署和運(yùn)維成本。
Venus是浪潮云海技術(shù)團(tuán)隊(duì)提出的基于OpenStack云平臺(tái)的可視化日志管理項(xiàng)目,且已成為OpenStack社區(qū)官方項(xiàng)目,提供了一站式日志采集、清洗、索引、分析、警告、可視化等能力。浪潮云海技術(shù)團(tuán)隊(duì)在Kolla項(xiàng)目中率先集成了Venus,通過(guò)Kolla項(xiàng)目分層模式實(shí)現(xiàn)Venus鏡像構(gòu)建,Kolla-ansible容器化實(shí)現(xiàn)Venus配置文件自動(dòng)生成、數(shù)據(jù)注冊(cè)、創(chuàng)建數(shù)據(jù)及啟動(dòng)容器化服務(wù)等,從而提升Venus項(xiàng)目的部署效率及后期運(yùn)維能力。
一直以來(lái),浪潮云海通過(guò)在架構(gòu)優(yōu)化、權(quán)威基準(zhǔn)測(cè)試、規(guī)模化應(yīng)用、社區(qū)貢獻(xiàn)、生態(tài)完善等方面的持續(xù)創(chuàng)新,構(gòu)建了開(kāi)放、融合、敏捷、智能的云操作系統(tǒng),為各行各業(yè)提供數(shù)字轉(zhuǎn)型、智能升級(jí)、融合創(chuàng)新的云基礎(chǔ)設(shè)施;同時(shí)持續(xù)推動(dòng)OpenStack等開(kāi)源技術(shù)在中國(guó)及世界范圍的發(fā)展,為打造創(chuàng)新技術(shù)引擎不懈努力著。
未來(lái),浪潮云海在不斷推進(jìn)OpenStack創(chuàng)新發(fā)展的同時(shí),會(huì)努力為更多新興業(yè)務(wù)提供安全可靠的云基礎(chǔ)設(shè)施,為構(gòu)筑云數(shù)智融合的智算底座不懈努力。