浪潮服務(wù)器支撐快遞企業(yè)運單圖片存儲和分析系統(tǒng)
北京2018年3月26日電 /美通社/ -- 隨著電商的快速發(fā)展,快遞行業(yè)的運單量也隨之大幅攀升。據(jù)統(tǒng)計,中國每天的運單量超過1億,如何提升快遞的效率,成為各大快遞公司的爭奪市場的重要手段。浪潮推薦采用服務(wù)器NF5288M5和SA5224M4組建的運單圖片存儲和識別分析系統(tǒng),讓廢棄的運單圖片成為加速快遞行業(yè)效率的基礎(chǔ)。
每當快遞寄出或者收到后,我們都會拿到一張快遞的底單,作為簽收的憑據(jù),同時也將作為快遞公司的留底。而這些底單最終將去向何處?大部分的運單都將被掃描、電子化,存儲到快遞公司數(shù)據(jù)中心去。
如何用更低的成本存儲更多的運單圖片
據(jù)國家郵政局數(shù)據(jù),目前中國單日的快遞運單量已經(jīng)超過1億,那么同樣也需要有一樣多的底單圖片被掃描并存儲。即使經(jīng)過先進的壓縮算法進行圖片壓縮,每天需要存儲的數(shù)據(jù)也十分驚人。通常來說,大型快遞公司的運單圖片存儲系統(tǒng)每次擴容都需要新增PB級的容量,這需要付出極高的采購和運營成本。
通常,數(shù)據(jù)中心的分布式存儲系統(tǒng)是基于2U雙路12盤的服務(wù)器。計算能力和存儲能力比較均衡,也具有更廣的適用性。但是對于運單圖片這種偏存儲的應用而言,存儲的密度不足和計算部件成本過高問題就會比較明顯。
目前,市場上高密度的存儲服務(wù)器有4U36盤或者72盤甚至更高密度,相比之下,72盤甚至更高盤數(shù)的服務(wù)器會造成運維困難,同時單機功耗過高也將導致機架的供電不足和空間浪費。因此4U36盤位的服務(wù)器是目前比較合適的存儲配置。同時,雙路Intel E5系列CPU的功耗偏高、計算能力過剩的問題也讓溫冷數(shù)據(jù)存儲成本居高不下。因此我們可以得出一個結(jié)論,快遞運單圖片存儲服務(wù)器需要一款高存儲密度、低能源消耗的服務(wù)器產(chǎn)品。
相比市面上的高密存儲服務(wù)器,浪潮的一款基于Intel Xeon-D系列CPU的SA5224M4顯得格外與眾不同。在存儲能力上,SA5224M4可同時支持36塊3.5寸硬盤,相比傳統(tǒng)存儲機型存儲密度提升50%,所需設(shè)備數(shù)量降低50%,可提高數(shù)據(jù)中心機柜空間利用率,能夠為海量運單數(shù)據(jù)提供大容量存儲。
而功耗上,浪潮服務(wù)器SA5224M4相比傳統(tǒng)E5存儲服務(wù)器降低35W以上。一般服務(wù)器的生命周期為三年,這樣算下來,1000臺的存儲服務(wù)器集群就能節(jié)省下至少1050萬的電費。
由于快遞的運單數(shù)據(jù)來源可能通過快遞員的掃碼槍、用戶的網(wǎng)絡(luò)下單,也可能來自各網(wǎng)點的電腦錄入,這就要求存儲系統(tǒng)有一定的并發(fā)數(shù)據(jù)處理能力。而浪潮SA5224M4在低能耗的基礎(chǔ)上,仍保持較好性能表現(xiàn)。運單圖片存儲應用在傳統(tǒng)E5 CPU存儲服務(wù)器上的負載率約為30%,而使用浪潮SA5224M4時CPU的負載率約在40%,滿足應用計算性能需求的同時,保留足夠的性能冗余,防止出現(xiàn)短時數(shù)據(jù)流量驟增帶來的計算壓力。
即使有一款高效低耗的存儲服務(wù)器,運單圖片的存儲成本仍是不低。那么快遞企業(yè)為什么需要存儲這些看似無用的數(shù)據(jù)?如此龐大的訂單數(shù)據(jù),成為壓在數(shù)據(jù)中心身上的一座大山,但是這座大山里卻有著無窮無盡的資源。當有了足夠多的數(shù)據(jù)積累后,快遞公司能夠挖掘著這部分資源,并以此讓快遞更快。
昨天廢棄的底單數(shù)據(jù)如何讓今天的快遞更快?
運單圖片中什么樣的資源?有真實的人物信息、購物頻次、發(fā)貨和收貨地址等等。當積累足夠的數(shù)據(jù)時,就可以根據(jù)數(shù)據(jù),決定網(wǎng)點的設(shè)置位置、派送時間、快遞的運輸/轉(zhuǎn)運路徑等,從而讓快遞的時效性得到更好地保障。
但是由于運單數(shù)據(jù)量極大,且傳統(tǒng)手寫體的運單圖片不易識別,導致以往積累的運單大部分成為無效數(shù)據(jù)。傳統(tǒng)的運單數(shù)據(jù)識別是人工跟單,要去識別各種各樣的字體,識別率在60%左右。現(xiàn)在完成第一輪的翻譯后,結(jié)合AI技術(shù)和現(xiàn)有的技術(shù)庫歷史數(shù)據(jù)進行識別,識別率可能能夠達到90%。效率提升的代價是激增的并行計算量。
圖片識別屬于“計算密集型業(yè)務(wù)”,因此單機密度和多機集群規(guī)模將直接影響人工智能應用的上線和運行效率。目前,單機4GPU卡已經(jīng)成為標配,8卡正在成為主流。以浪潮NF5288M5為例,在2U空間內(nèi)就能夠支持部署8塊NVLink或PCI-E 接口的GPU卡,單機即可提供單精度120 TFLOPs的峰值計算能力。并且可以在不依賴CPU的前提下,實現(xiàn)機內(nèi)點到點通訊,減少了異構(gòu)通訊的次數(shù)。同時,NF5288M5還可以掛接GPU擴展箱,支持在雙路服務(wù)器系統(tǒng)中擴展到16片GPU卡, 實現(xiàn)更低的GPU并行通信延遲。
目前,浪潮服務(wù)器已經(jīng)應用于國內(nèi)主流快遞公司。未來,通過浪潮SA5224M4和NF5288M5的運單圖片存儲和識別分析系統(tǒng)方案,能夠讓數(shù)據(jù)成為優(yōu)化快遞配送時效及未來決策的依據(jù)。