浪潮存儲產(chǎn)品經(jīng)理:宗崗崗
浪潮SSD架構(gòu)師:殷軍博
北京2021年9月16日 /美通社/ -- MTBF(Mean time between failures,平均無故障時間)作為SSD閃存盤一個非常重要的可靠性參數(shù)指標(biāo),當(dāng)前市場主流企業(yè)級產(chǎn)品指標(biāo)值基本在200萬小時,浪潮自研SSD經(jīng)過一系列內(nèi)置創(chuàng)新算法加持,MTBF可以達(dá)到260萬小時以上,比業(yè)界標(biāo)準(zhǔn)提升30%以上。
什么是MTBF?
在解讀MTBF之前,我們先了解下浴盆曲線概念,浴盆曲線又稱失效率曲線,指產(chǎn)品從投入到報廢為止的整個生命周期內(nèi)的可靠性變化規(guī)律,左邊斜線部分為早期失效期,其故障率一般較高且隨著時間推移很快下降。曲線中部為隨機失效期,其故障率一般很低且基本固定。最右部為磨損失效期,失效率急速升高。
電子產(chǎn)品的壽命一般都符合浴盆曲線,可分為三個階段:
其一早期失效期,失效率迅速遞減并趨于穩(wěn)定,由于設(shè)計,原材料,生產(chǎn)等原因?qū)е碌母呤孰A段,可通過環(huán)境應(yīng)力篩選加以剔除。
其二,隨機失效期,失效率近似一個常數(shù),只有隨機失效產(chǎn)生,MTBF即是這一階段的壽命。
其三磨損失效期,硬件故障期,產(chǎn)品已達(dá)設(shè)計壽命,進(jìn)入報廢階段。
MTBF,即平均故障間隔時間,英文全稱是“Mean Time Between Failure”,是指相鄰兩次故障之間的平均工作時間,是衡量一個產(chǎn)品的可靠性指標(biāo),單位為“小時”。MTBF越長表示可靠性越高,保持正確工作能力越強。它反映了產(chǎn)品的時間質(zhì)量,是體現(xiàn)產(chǎn)品在規(guī)定時間內(nèi)保持功能的一種能力。它僅適用于可維修產(chǎn)品,當(dāng)產(chǎn)品的壽命服從指數(shù)分布時,失效率的倒數(shù)表示兩個失效之間的時間間隔(λ=1/MTBF)。
MTBF測算方法
MTBF主要通過實證法采用加速應(yīng)力方式來證明產(chǎn)品長期可靠度,RDT(Reliability Demonstration Test,可靠度驗證測試)測試主要通過高溫加速測試計算評估,從測試深度、廣度、持久度三個方向進(jìn)行測驗。
深度測試是Endurance測試,使用JEDEC標(biāo)準(zhǔn)固態(tài)硬盤耐久性工作負(fù)載,PE(Program/Erase,擦寫)值從開始到預(yù)允許最大值驗證耐久度,即從生命周期開始到生命周期結(jié)束,浪潮自研SSD投入上百塊數(shù)量持續(xù)測試時間達(dá)到1600小時以上。
廣度測試是Quality測試,主要通過讀、寫、數(shù)據(jù)校驗、Trim、Format以及正常和異常上下電等所有用戶可能的操作,驗證各種操作Case下的穩(wěn)定性,浪潮自研SSD共計投入上千塊樣品持續(xù)測試時間高達(dá)1600小時以上。
持久度測試是Retention測試,在SSD閃存盤生命末期,壽命PE次數(shù)達(dá)到允許的最大值之后,投入上百塊SSD進(jìn)行Power loss retention測試以驗證掉電后的數(shù)據(jù)保持能力。
MTBF數(shù)學(xué)公式表示為MTBF=∑(downtime-uptime)/failure times,公式中的失效時間是指上一次設(shè)備恢復(fù)正常狀態(tài)(公式中的up time)起,到設(shè)備此次失效那一刻(公式中的down time)之間間隔的時間。浪潮自研SSD經(jīng)第三方機構(gòu)測評計算MTBF可以達(dá)到260萬小時以上,PE可達(dá)到10K級別,壽命和可靠性都得到了大幅提升。
核心技術(shù)引擎
浪潮自研SSD憑借NAND特性算法、SRR(Smart Read Retry,智能重讀算法)、LDPC(Low-Density Parity-Check Codes,低密度奇偶校驗)、可變條帶RAID5四大核心算法技術(shù)引擎支撐,使得MTBF輕松達(dá)到260萬小時。
第一,NAND特性自學(xué)習(xí)算法模型。
基于浪潮自研NAND測試平臺精準(zhǔn)獲取最佳NAND特性數(shù)據(jù),創(chuàng)新設(shè)計NAND特性自學(xué)習(xí)算法模型,針對擦除次數(shù)、讀計數(shù)、溫度、保持時間不同場景下獲取NAND最佳讀電壓,使得PE提升40%,固態(tài)盤可靠性和Qos大幅提高。
第二,智能重讀算法SRR。
受限NAND閃存特性會出現(xiàn)正常讀發(fā)生錯誤的現(xiàn)象,為了能夠讀取到正確數(shù)據(jù),浪潮SSD內(nèi)部使用了智能重讀算法,當(dāng)讀取數(shù)據(jù)錯誤時,會自動觸發(fā)智能重讀,根據(jù)不同page狀態(tài),選擇合適的shift電壓,全生命周期內(nèi)保證正確讀取和優(yōu)質(zhì)的Qos。
第三,低密度奇偶校驗LDPC。
目前市場主流SSD主要采用3D eTLC NAND 閃存作為主要存儲介質(zhì),受限NAND閃存物理結(jié)構(gòu)會存在讀寫干擾、高溫、輻射、壽命減少等問題,RBER(原始比特出錯率)會隨著磨損次數(shù)、Retention和讀干擾增加而逐漸變大。為了保證數(shù)據(jù)準(zhǔn)確性,浪潮自研SSD采用軟硬協(xié)同的LDPC作為糾錯方案,憑借增強型LLR(Log Likelihood Ratio,對數(shù)似然率) table,能夠顯著降低UBER(Uncorrectable Bit Error Rate,不可修復(fù)比特率),增強 ECC(Error Correction Code,糾錯碼)碼的糾錯能力。
第四,可變條帶RAID5。
浪潮自研SSD設(shè)計了針對Block的健康狀況進(jìn)行嚴(yán)密的監(jiān)控和記錄的可變條帶RAID5保護(hù)機制,采用N+1個Block組成RAID條帶,其中N用于存放用戶數(shù)據(jù),1個Block用于存放校驗值。當(dāng)出現(xiàn)壞塊時,RAID條帶在下次寫入時將自動將為(N-1)-1,這種優(yōu)化大大提升了RAID保護(hù)的靈活性,增強了數(shù)據(jù)保護(hù)的可靠性。
浪潮自研SSD通過底層一些關(guān)鍵核心算法的創(chuàng)新,產(chǎn)品可靠性和安全性不斷實現(xiàn)突破。未來,浪潮存儲將持續(xù)秉承“云存智用 運籌新數(shù)據(jù)”理念,加速推進(jìn)底層存儲介質(zhì)研發(fā)和創(chuàng)新,掌握底層硬件關(guān)鍵核心技術(shù),以領(lǐng)先技術(shù)助力關(guān)鍵行業(yè)實現(xiàn)突破應(yīng)用,全面釋放數(shù)據(jù)價值,加速數(shù)字化轉(zhuǎn)型。
更多浪潮自研SSD相關(guān)信息,請查看:https://www.inspur.com/lcjtww/2526546/index.html