北京2023年4月21日 /美通社/ -- "一花一世界",這句話在蛋白質(zhì)、DNA所在的微觀世界里體現(xiàn)得淋漓盡致,大到動(dòng)植物、小到細(xì)菌,都蘊(yùn)含著獨(dú)特的DNA,例如人體內(nèi)就包含著23對(duì)染色體、30億個(gè)堿基對(duì)的數(shù)據(jù)量。探索這些堿基對(duì)蘊(yùn)藏的"生命密碼",對(duì)于腫瘤早篩、罕見(jiàn)病診治、靶向藥物研制、遺傳演化和精準(zhǔn)醫(yī)學(xué)研究等方面有重大助益。近期,北京英信未來(lái)科技有限公司(以下簡(jiǎn)稱北京英信)聯(lián)合浪潮信息,為求臻醫(yī)學(xué)的高通量測(cè)序平臺(tái)提供了分布式存儲(chǔ)平臺(tái),為全國(guó)數(shù)百家醫(yī)院的腫瘤患者提供了精準(zhǔn)、高效的腫瘤基因檢測(cè)服務(wù)。
腫瘤基因檢測(cè) 為何要跑在大數(shù)據(jù)上
基因檢測(cè)作為醫(yī)療領(lǐng)域的新應(yīng)用,不僅需要基于大數(shù)據(jù)平臺(tái),利用極為精密的測(cè)序系統(tǒng)將基因序列解讀出來(lái),還要通過(guò)大數(shù)據(jù)分析、比對(duì),精確地了解每個(gè)基因片段發(fā)揮的作用。在這方面,求臻醫(yī)學(xué)擁有專業(yè)、豐富的經(jīng)驗(yàn)。
求臻醫(yī)學(xué)成立于2017年,以新一代基因測(cè)序和先進(jìn)信息挖掘技術(shù)為基礎(chǔ),依托《中國(guó)腫瘤基因圖譜計(jì)劃》和《腫瘤精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺(tái)》項(xiàng)目,深度融合基因檢測(cè)和人工智能,致力于腫瘤液態(tài)活檢領(lǐng)域診斷產(chǎn)品的開(kāi)發(fā)及智能迭代升級(jí),業(yè)務(wù)涵蓋腫瘤早篩、伴隨診斷、動(dòng)態(tài)監(jiān)測(cè)、預(yù)后評(píng)估等多場(chǎng)景應(yīng)用領(lǐng)域,同時(shí)不斷探索發(fā)現(xiàn)中國(guó)人腫瘤基線及特異的生物標(biāo)志物,助力抗腫瘤藥物的研發(fā)。
然而,隨著業(yè)務(wù)高速發(fā)展,求臻醫(yī)學(xué)服務(wù)的醫(yī)院、患者越來(lái)越多,數(shù)據(jù)量也相應(yīng)的急速增長(zhǎng),原有的數(shù)據(jù)存儲(chǔ)系統(tǒng)常常因巨量訪問(wèn)而超過(guò)性能閾值,存儲(chǔ)系統(tǒng)也存在容量空間嚴(yán)重不足的情況。在這種情況下,求臻醫(yī)學(xué)計(jì)劃對(duì)原有的數(shù)據(jù)存儲(chǔ)平臺(tái)進(jìn)行升級(jí),新建的數(shù)據(jù)存儲(chǔ)平臺(tái)將主要支持腫瘤精準(zhǔn)診療的生物醫(yī)學(xué)信息化平臺(tái)。
此平臺(tái)涵蓋了知識(shí)數(shù)據(jù)庫(kù)、臨床信息采集系統(tǒng)、數(shù)據(jù)注釋接口(API)等模塊系統(tǒng),可以基于大數(shù)據(jù)分析為基因檢測(cè)客戶生成個(gè)體化的檢測(cè)報(bào)告。整個(gè)信息平臺(tái)數(shù)據(jù)存儲(chǔ)的基礎(chǔ)設(shè)施有著較大的挑戰(zhàn)和要求:
首先,是存儲(chǔ)數(shù)據(jù)量的需求。一個(gè)完整的基因測(cè)序樣本會(huì)產(chǎn)生千萬(wàn)量級(jí)的文件。據(jù)了解,目前一臺(tái)先進(jìn)的測(cè)序儀、分析儀等設(shè)備每天捕捉的測(cè)序數(shù)據(jù)平均水平已達(dá)到4TB,加之基因信息分析過(guò)程一般會(huì)產(chǎn)生原始數(shù)據(jù)量5倍左右的中間文件及結(jié)果,PB級(jí)別存儲(chǔ)空間已經(jīng)成為存儲(chǔ)設(shè)備的基本要求。
其次,是數(shù)據(jù)可靠性的需求。腫瘤基因檢測(cè)數(shù)據(jù)作為腫瘤精準(zhǔn)診療核心數(shù)據(jù),檢測(cè)數(shù)據(jù)通常需要長(zhǎng)期保存多年,通過(guò)合理的生命周期管理系統(tǒng)進(jìn)行歸檔保留,數(shù)據(jù)的自動(dòng)化遷移歸檔、數(shù)據(jù)的安全性、存儲(chǔ)的易擴(kuò)展性是數(shù)據(jù)歸檔存儲(chǔ)考慮的重要因素。
最后,基因測(cè)序訪問(wèn)實(shí)時(shí)性要求高。基因測(cè)序過(guò)程是一個(gè)超高并發(fā)的文件轉(zhuǎn)換過(guò)程,整個(gè)生產(chǎn)過(guò)程有非常密集的文件讀取和寫(xiě)入。整個(gè)生物樣本的導(dǎo)入過(guò)程對(duì)文件存儲(chǔ)的性能有著極高的要求,滿足科研任務(wù)對(duì)不同文件高帶寬的存儲(chǔ)需求,既要文件系統(tǒng)必須提供超大文件數(shù)量的支持,同時(shí)必須在有限的時(shí)間內(nèi)完成海量小文件的導(dǎo)入。
分布式存儲(chǔ):為基因測(cè)序構(gòu)建數(shù)據(jù)基座
針對(duì)求臻醫(yī)學(xué)基因測(cè)序應(yīng)用數(shù)據(jù)量增長(zhǎng)快、性能和可靠性要求高的業(yè)務(wù)特點(diǎn),浪潮信息攜手合作伙伴北京英信為求臻醫(yī)學(xué)提供了專業(yè)化的存儲(chǔ)解決方案。方案采用AS13000高密分布式存儲(chǔ),節(jié)點(diǎn)間管理網(wǎng)絡(luò)采用千兆交換機(jī),通過(guò)100GB高速IB網(wǎng)絡(luò)連接前端并行計(jì)算業(yè)務(wù)集群,為前端業(yè)務(wù)構(gòu)建了一套大容量、高可靠、高性能、低延遲的數(shù)據(jù)存儲(chǔ)平臺(tái)。
在容量方面,AS13000分布式存儲(chǔ)集群由5個(gè)節(jié)點(diǎn)組成,每節(jié)點(diǎn)采用35塊8T大容量硬盤配置,可提供PB級(jí)存儲(chǔ)容量,滿足海量數(shù)據(jù)存儲(chǔ)需求。值得一提的是,該解決方案可實(shí)現(xiàn)分鐘級(jí)擴(kuò)充,最大可擴(kuò)展至5120節(jié)點(diǎn),在擴(kuò)容同時(shí)可保障業(yè)務(wù)性能無(wú)明顯波動(dòng),性能與容量隨著節(jié)點(diǎn)的擴(kuò)展而線性增長(zhǎng),避免對(duì)現(xiàn)有計(jì)算任務(wù)讀寫(xiě)訪問(wèn)性能造成影響,使得存儲(chǔ)系統(tǒng)的容量、性能在未來(lái)可隨時(shí)按需擴(kuò)展。
在可靠性方面,浪潮信息分布式存儲(chǔ)平臺(tái)AS13000提供副本和糾刪碼兩種數(shù)據(jù)保護(hù)方式,為用戶提供多層級(jí)的數(shù)據(jù)保護(hù)及容災(zāi)功能,充分保證檢測(cè)任務(wù)以及前端計(jì)算任務(wù)7x24小時(shí)的連續(xù)讀寫(xiě)訪問(wèn)。結(jié)合信息平臺(tái)檢測(cè)數(shù)據(jù)需要長(zhǎng)期保存的業(yè)務(wù)特點(diǎn),浪潮信息采用三副本的數(shù)據(jù)冗余保護(hù)方式,同時(shí),還可搭配InView智能統(tǒng)一存儲(chǔ)管理平臺(tái),對(duì)基因測(cè)序數(shù)據(jù)中心的設(shè)備進(jìn)行管理,提供容量、性能、故障的智能化預(yù)測(cè)性分析,幫助運(yùn)維人員預(yù)防硬件潛在故障,降低了存儲(chǔ)的復(fù)雜性,同時(shí)也有效地降低了運(yùn)維成本。
在性能方面,浪潮信息分布式存儲(chǔ)解決方案針對(duì)基因測(cè)序數(shù)據(jù)特點(diǎn)采用冷熱數(shù)據(jù)分級(jí)存儲(chǔ)搭配全局緩存技術(shù),實(shí)現(xiàn)熱數(shù)據(jù)快速響應(yīng),延遲降低40%。對(duì)于對(duì)象類型數(shù)據(jù),采用對(duì)象聚合技術(shù),來(lái)提升單次落盤的對(duì)象大小,降低落盤操作次數(shù),單節(jié)點(diǎn)恒定聚合帶寬達(dá)2GB/s以上,確?;驕y(cè)序任務(wù)的讀寫(xiě)性能。
目前,基因測(cè)序應(yīng)用范圍在大幅擴(kuò)展,從科研服務(wù)的基因圖譜、遺傳多樣性,到醫(yī)療服務(wù)的疾病早篩和治療都能涵蓋,這對(duì)未來(lái)提升醫(yī)療智慧水平意義重大。浪潮信息始終堅(jiān)持通過(guò)數(shù)據(jù)的力量,為基因測(cè)序基礎(chǔ)研究?jī)?chǔ)能,驅(qū)動(dòng)精準(zhǔn)醫(yī)療應(yīng)用加速發(fā)展。