北京2020年9月17日 /美通社/ -- “申耀的科技觀察”近期發(fā)表了標(biāo)題為《【觀察】百度智能云:釋放“傲騰上云”紅利,重新定義歸檔存儲(chǔ)服務(wù)》的文章,原文如下:
在數(shù)字經(jīng)濟(jì)時(shí)代,海量的數(shù)據(jù)成為數(shù)字經(jīng)濟(jì)的重要生產(chǎn)要素,特別是受今年疫情的影響,線下的生產(chǎn)和生活迅速地轉(zhuǎn)移到了線上,相應(yīng)的數(shù)據(jù)也再次迎來(lái)了新一波快速增長(zhǎng)。
對(duì)于百度智能云這樣的云服務(wù)商來(lái)說(shuō),海量的數(shù)據(jù)既是資產(chǎn)也是壓力,尤其是大量冷數(shù)據(jù)的產(chǎn)生讓存儲(chǔ)分層變得“迫在眉睫”。在此背景下,磁帶庫(kù)因性價(jià)比較高且能夠快速寫(xiě)入,成為了百度智能云快速存檔冷數(shù)據(jù)的理想之選。
但在實(shí)際應(yīng)用中,百度智能云發(fā)現(xiàn)磁帶庫(kù)雖然可以快速寫(xiě)入數(shù)據(jù),但數(shù)據(jù)首先需要在緩存盤(pán)上進(jìn)行序列化,這就需要一款快速的緩存盤(pán)作為載體化解這一難題?;诖?,百度智能云創(chuàng)新的引入了英特爾傲騰固態(tài)盤(pán),借助其速度和耐用性兼?zhèn)涞奶匦?,不僅大大提升了磁帶庫(kù)備份的速度,也滿足了歸檔存儲(chǔ)應(yīng)用中繁重的讀/寫(xiě)混合型工作負(fù)載的要求。
毫無(wú)疑問(wèn),百度智能云與英特爾的成功合作,不僅為數(shù)據(jù)歸檔和備份的優(yōu)化和升級(jí)提供了重要的參考和借鑒方向,也讓更多的行業(yè)和用戶享受到了云存儲(chǔ)服務(wù)所帶來(lái)的好處,真正實(shí)現(xiàn)了冷數(shù)據(jù)在更長(zhǎng)久周期內(nèi)的可用性、可回溯性和可審計(jì)性。
冷數(shù)據(jù)帶來(lái)的挑戰(zhàn)
今天,海量數(shù)據(jù)的增長(zhǎng)正在成為一種“新常態(tài)”,而保存和管理這些海量數(shù)據(jù)也變得日益困難,特別是把所有數(shù)據(jù)保存在同一個(gè)存儲(chǔ)介質(zhì)中更是不切實(shí)際的。
因此,業(yè)內(nèi)通常的做法是,將數(shù)據(jù)根據(jù)類(lèi)型的不同劃分為三個(gè)分層,即熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。其中,最“冷”的數(shù)據(jù)十分適合存儲(chǔ)到磁帶庫(kù)這種價(jià)格便宜的長(zhǎng)期存儲(chǔ)介質(zhì)之中。
得益于光纖通道和串行連接 SCSI(SAS)等技術(shù)的發(fā)展,如今磁帶庫(kù)的順序讀寫(xiě)性能也得以不斷提升。然而,磁帶庫(kù)本身的寫(xiě)入速度雖快,但是基于磁帶庫(kù)的備份架構(gòu)卻存在一個(gè)常常會(huì)妨礙數(shù)據(jù)以其最大速率寫(xiě)入磁帶庫(kù)的技術(shù)障礙。
具體來(lái)說(shuō),在將數(shù)據(jù)備份到磁帶庫(kù)上之前,首先需要將數(shù)據(jù)收集到緩存層的數(shù)據(jù)節(jié)點(diǎn)上,以便為寫(xiě)入磁帶介質(zhì)做準(zhǔn)備(進(jìn)行序列化)。對(duì)于此類(lèi)數(shù)據(jù)節(jié)點(diǎn)中的SAS RAID緩存層磁盤(pán),其讀取和寫(xiě)入操作通常無(wú)法達(dá)到讓磁帶庫(kù)管道飽和的速度,進(jìn)而導(dǎo)致出現(xiàn)備份速度緩慢等挑戰(zhàn),無(wú)法發(fā)揮磁帶庫(kù)的高速潛能。
以百度智能云此前使用的機(jī)械硬盤(pán)(HDD)為例,其讀取速度僅為200 MB/s,不但難以滿足磁帶庫(kù)寫(xiě)入速度為每秒600 MB/s的要求,還把磁帶庫(kù)的備份速度降低了三分之二,使得大量數(shù)據(jù)存儲(chǔ)歸檔和備份工作變得效率低下。
例如,通過(guò)安裝在車(chē)隊(duì) 300 輛車(chē)上的物聯(lián)網(wǎng)(IoT)傳感器,百度的自動(dòng)駕駛汽車(chē)解決方案生成了大量數(shù)據(jù),且已記錄超過(guò)200萬(wàn)公里,這些物聯(lián)網(wǎng)數(shù)據(jù)大部分被歸類(lèi)為“冷”數(shù)據(jù),并通過(guò)數(shù)據(jù)節(jié)點(diǎn)發(fā)送到磁帶上以進(jìn)行長(zhǎng)期存儲(chǔ),但由于緩存層磁盤(pán)速度較慢,使得這個(gè)工作變得十分的緩慢。
再如,百度的數(shù)據(jù)保留政策要求每3-6年就要將存儲(chǔ)在磁帶庫(kù)上的數(shù)據(jù)轉(zhuǎn)移至新磁帶庫(kù),這就需要使用緩存盤(pán),而這種超負(fù)荷的緩存工作負(fù)載(不斷寫(xiě)入和讀取越來(lái)越多的存檔數(shù)據(jù)),同樣也暴露出系統(tǒng)的低效率問(wèn)題。
由此可見(jiàn),快速的磁帶庫(kù)離不開(kāi)快速緩存盤(pán),緩存盤(pán)的性能之于數(shù)據(jù)備份速度的重要性不言而喻。為了打破緩存層磁盤(pán)帶來(lái)的“瓶頸”,百度智能云希望通過(guò)尋找到一種更好的緩存驅(qū)動(dòng)替代方案,以進(jìn)一步提升磁帶庫(kù)備份的速度。
緩存盤(pán)選型的難題
根據(jù)自身的實(shí)際業(yè)務(wù)情況,百度智能云團(tuán)隊(duì)在考慮其緩存驅(qū)動(dòng)的替代方案時(shí),提出了以下數(shù)據(jù)層要求:
一是,讀取速度要求方面,希望在寫(xiě)入壓力很大的情況下,替代的緩存盤(pán)也需具備600 MB/s的讀取性能,以匹配磁帶庫(kù)600 MB/s的寫(xiě)入速度。
二是,寫(xiě)速度要求方面,為了保持磁帶寫(xiě)入速度飽和以提高成本效益,磁盤(pán)將新數(shù)據(jù)寫(xiě)入緩存盤(pán)的速度應(yīng)至少與緩存數(shù)據(jù)寫(xiě)入磁帶的速度相等,即600 MB/s。
三是,耐用性要求方面,磁帶庫(kù)的存儲(chǔ)容量為16PB,而百度智能云團(tuán)隊(duì)希望緩 存盤(pán)能夠持續(xù)服務(wù)三代磁帶,為了實(shí)現(xiàn)此目標(biāo),緩存盤(pán)需支持總寫(xiě)入量為48 PBW (硬盤(pán)理論壽命所對(duì)應(yīng)的總寫(xiě)入數(shù)據(jù)量)的耐用性。
為此,百度智能云團(tuán)隊(duì)首先研究了使用基于NAND的SSD替代數(shù)據(jù)節(jié)點(diǎn)上基于HDD的緩存盤(pán)。但是研究顯示,基于NAND的SSD的局限在于,隨機(jī)寫(xiě)入操作需要大量的后臺(tái)介質(zhì)管理,這會(huì)大大降低每個(gè)磁盤(pán)的吞吐量并縮短磁盤(pán)壽命。
在此基礎(chǔ)上,百度的團(tuán)隊(duì)又評(píng)估多個(gè) NAND 驅(qū)動(dòng)器的兩種配置,包括16盤(pán) RAID0 的標(biāo)準(zhǔn)耐用性配置,以及6盤(pán) RAID0+1的中等耐用性配置,雖然這兩種配置方案都能滿足600 MB/s的讀取和寫(xiě)入要求,但卻需要過(guò)多的NVMe插槽才能達(dá)到所需的吞吐率,這將使得維護(hù)工作變得更加復(fù)雜。
此外,根據(jù)設(shè)備規(guī)格進(jìn)行的計(jì)算還表明,這兩種配置方案也都不能滿足耐用性要求,其PBW分別為30.72和36.75,顯然和百度智能云所確定的48 PBW目標(biāo)“相距甚遠(yuǎn)”。
不難看出,無(wú)論是傳統(tǒng)的HDD還是基于NAND的SSD,都難以滿足百度智能云希望實(shí)現(xiàn)的性能和耐用性要求,通過(guò)多方的對(duì)比,最終百度智能云團(tuán)隊(duì)將目標(biāo)鎖定在了英特爾傲騰固態(tài)盤(pán)上。
速度和耐用性兼?zhèn)?/b>
測(cè)試顯示,百度智能云通過(guò)采用英特爾傲騰固態(tài)盤(pán)作為數(shù)據(jù)節(jié)點(diǎn)上的緩存盤(pán),該解決方案可在600 MB/s (隨機(jī))寫(xiě)入工作負(fù)載下,實(shí)現(xiàn) 600 MB/s 的讀取性能。與基于 NAND 的固態(tài)盤(pán)不同,英特爾傲騰固態(tài)盤(pán)的優(yōu)勢(shì)還在于,無(wú)論其寫(xiě)入壓力如何,都能保持讀取響應(yīng)時(shí)間不變。
將英特爾傲騰固態(tài)盤(pán)的鏡像用作緩存盤(pán),滿足了百度的備份解決方案要求。
不僅如此,英特爾傲騰固態(tài)盤(pán)的高耐用性(164 PBW 和每日整盤(pán)寫(xiě)入次數(shù)為 60 DWPD),遠(yuǎn)遠(yuǎn)超出了48 PBW的耐用性要求,通過(guò)這一全新解決方案,百度可以在 相同時(shí)間內(nèi)備份三倍的數(shù)據(jù)量。
可以看到,借助英特爾傲騰固態(tài)盤(pán),百度智能云不僅實(shí)現(xiàn)了出色耐用性的同時(shí),也滿足繁重的讀/寫(xiě)混合型工作負(fù)載帶寬要求,而通過(guò)此解決方案,百度現(xiàn)在備份相同數(shù)據(jù)量所需的時(shí)間比之前的解決方案減少了67%。
對(duì)此,百度智能云相關(guān)人士表示:“英特爾傲騰固態(tài)盤(pán)憑借其高帶寬、高耐用性、低延遲和易于維護(hù)的優(yōu)勢(shì),為百度帶來(lái)了高價(jià)值,并幫助我們加快創(chuàng)新磁帶庫(kù)解決方案,同時(shí)降低成本、提高效率?!?/p>
值得一提的是,百度智能云還進(jìn)一步發(fā)揮其產(chǎn)品及技術(shù)優(yōu)勢(shì),將英特爾傲騰方案推上云端,以智能云虛擬化塊存儲(chǔ) CDS、云原生數(shù)據(jù)庫(kù) GaiaDB 等產(chǎn)品為出口,打造云上多樣解決方案。而傲騰方案在較大的寫(xiě)入壓力下依然能保持?jǐn)?shù)據(jù)的快速響應(yīng)及高性能讀寫(xiě),讓百度智能云為客戶提供超低成本及便攜的數(shù)據(jù)管理能力,輸出持續(xù)先進(jìn)的云服務(wù),豐富云端存儲(chǔ)產(chǎn)品和體驗(yàn)打下了堅(jiān)實(shí)的基礎(chǔ)。
總的來(lái)看,今天數(shù)據(jù)的生命周期正變得越來(lái)越長(zhǎng),特別是過(guò)去幾年國(guó)家出臺(tái)了信息安全和個(gè)人隱私的相關(guān)法律,而被合規(guī)、數(shù)據(jù)保護(hù)等痛點(diǎn)困擾的企業(yè)也不在少數(shù);再加上企業(yè)對(duì)數(shù)據(jù)越來(lái)越重視,特別是某些關(guān)鍵領(lǐng)域的企業(yè)甚至要求生產(chǎn)環(huán)境下的數(shù)據(jù),需要有五年、十年,甚至數(shù)個(gè)十年的保存,由此也讓數(shù)據(jù)歸檔變得更加重要。
目前,類(lèi)似的需求在視頻監(jiān)控、生命科學(xué)、金融服務(wù)、媒體和娛樂(lè)、政府、醫(yī)療等行業(yè)特別明顯。所以,未來(lái)如何保障數(shù)據(jù)在更長(zhǎng)久周期內(nèi)的可用性、可回溯性、可審計(jì)性,無(wú)疑今天用戶最為關(guān)注的話題。
而在此過(guò)程中,百度智能云通過(guò)將英特爾傲騰固態(tài)盤(pán)作為緩存數(shù)據(jù)提升磁帶庫(kù)備份速度,不僅破解了海量數(shù)據(jù)增長(zhǎng)帶來(lái)的歸檔和備份的壓力,也為眾多用戶提供了更為豐富的產(chǎn)品體驗(yàn)。