據(jù)統(tǒng)計(jì),我國(guó)“十一五”末館藏檔案已達(dá)到39264萬(wàn)卷(件)。隨著社會(huì)活動(dòng)快速加強(qiáng)、網(wǎng)絡(luò)信息化日益普遍,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了網(wǎng)絡(luò)的疆界和應(yīng)用領(lǐng)域,悄無(wú)聲息,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。我國(guó)的檔案數(shù)據(jù)廣泛存在于政府、企業(yè)的各行各業(yè)。我們正走向我國(guó)的檔案大數(shù)據(jù)時(shí)代。
一、什么是檔案大數(shù)據(jù)
檔案大數(shù)據(jù)是在檔案方面涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的信息。
我們通常理解為大量非結(jié)構(gòu)化數(shù)據(jù)(包含所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等)和半結(jié)構(gòu)化數(shù)據(jù)(結(jié)構(gòu)方面缺少統(tǒng)一規(guī)律的數(shù)據(jù)),這些數(shù)據(jù)在獲取并用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。
檔案大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些有較高價(jià)值的飽含歷史意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。也就是我們不僅要擁有一座礦山,還要通過(guò)各種手段發(fā)掘、開(kāi)采、提煉出高價(jià)值的產(chǎn)品。方法和手段不一樣,產(chǎn)出的價(jià)值是不同的。
檔案大數(shù)據(jù)的特點(diǎn):數(shù)據(jù)量巨大、數(shù)據(jù)類(lèi)型繁多、價(jià)值密度低、處理速度快。
數(shù)據(jù)量巨大:以“十一五末”我國(guó)的館藏檔案量已達(dá)到近4億卷,以每卷3厘米厚度。我國(guó)的館藏檔案能把長(zhǎng)江從源頭至入海口碼個(gè)來(lái)回。根據(jù)估算我國(guó)檔案正以每5年40%速度遞增。
數(shù)據(jù)類(lèi)型繁多:檔案涉及政府機(jī)關(guān)、集團(tuán)企業(yè)、金融、通信、建筑、房產(chǎn)、教育、軍工、法院等行業(yè)。這些行業(yè)運(yùn)行不同的業(yè)務(wù),產(chǎn)生檔案數(shù)據(jù)是各不相同的。如文檔、設(shè)計(jì)圖、照片、錄音材料、視頻、GIS信息、水文氣象信息等。這些不同的文檔又存在一定的關(guān)聯(lián)性。比如城市建設(shè)的平面圖、設(shè)計(jì)圖可以和GIS數(shù)據(jù)信息關(guān)聯(lián),同時(shí)還要關(guān)聯(lián)政府建設(shè)規(guī)劃文件、批復(fù)與施工文件等。這些不同類(lèi)型的數(shù)據(jù)不同程度上對(duì)數(shù)據(jù)的處理能力提出了更高的要求。
價(jià)值密度低:價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。如保險(xiǎn)檔案,我們會(huì)把保險(xiǎn)單逐一存檔,但發(fā)生理賠的概率是極低的。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
處理速度快:這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。在海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。檔案大數(shù)據(jù)也是如此。
檔案大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有著相同的特點(diǎn),從檔案本身屬性看其特點(diǎn)還表現(xiàn)在一方面可以提供政府企業(yè)運(yùn)行的依據(jù),支持核心生產(chǎn)力與應(yīng)用,另一方面檔案仍對(duì)合規(guī)、電子取證、安全、診斷以及其他支持性應(yīng)用程序有相當(dāng)大的價(jià)值。
二、檔案大數(shù)據(jù)的產(chǎn)生
過(guò)去,檔案檢索主要依靠手工著錄、卡片檢索。隨著信息技術(shù)的進(jìn)步、數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,計(jì)算機(jī)輔助檔案管理使檔案管理變得更為快捷和方便。檔案數(shù)據(jù)主要來(lái)源于兩個(gè)方面:1、各業(yè)務(wù)部門(mén)通過(guò)業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)為檔案數(shù)據(jù);2、檔案部門(mén)通過(guò)人工填寫(xiě)、錄入、搜集歸類(lèi)后轉(zhuǎn)為檔案數(shù)據(jù)。
新形勢(shì)下業(yè)務(wù)系統(tǒng)產(chǎn)生的檔案數(shù)據(jù)具有及時(shí)、廣泛、數(shù)據(jù)量大、內(nèi)容繁雜的特點(diǎn)。較為智能的業(yè)務(wù)系統(tǒng)能夠隨時(shí)將業(yè)務(wù)數(shù)據(jù)輸送至檔案部門(mén)存檔,如辦公系統(tǒng)、財(cái)務(wù)系統(tǒng),當(dāng)文件辦畢時(shí),數(shù)據(jù)(文件)可立刻轉(zhuǎn)為檔案數(shù)據(jù)。不同職能的業(yè)務(wù)部門(mén)產(chǎn)生的檔案更具有廣泛性,如法院卷宗、醫(yī)院病歷、人事檔案等,不同的立檔部門(mén)產(chǎn)生不同的業(yè)務(wù)檔案。我們的業(yè)務(wù)系統(tǒng)時(shí)刻運(yùn)行,意味著每時(shí)每刻都會(huì)產(chǎn)生檔案數(shù)據(jù),因此檔案數(shù)據(jù)量會(huì)大得驚人。即便是同一個(gè)業(yè)務(wù)部門(mén)產(chǎn)生檔案數(shù)據(jù),也會(huì)由于檔案門(mén)類(lèi)、信息元不同,形成的檔案數(shù)據(jù)不同。
檔案部門(mén)除了采用業(yè)務(wù)系統(tǒng)收集檔案數(shù)據(jù)以外,還采用人工方式生成檔案數(shù)據(jù)。最常見(jiàn)的是將館藏的實(shí)體檔案通過(guò)數(shù)字化技術(shù)轉(zhuǎn)為檔案數(shù)據(jù),如掃描、拍照等。我國(guó)的檔案信息化在未來(lái)幾年將得到快速發(fā)展,信息化將呈幾何級(jí)增長(zhǎng),形成真正意義上的檔案大數(shù)據(jù)。如圖:
因此,我們應(yīng)從檔案大數(shù)據(jù)的源頭充分考慮未來(lái)的應(yīng)用范圍,把握檔案數(shù)據(jù)“快、廣、大、亂”的特點(diǎn),把來(lái)得“快”的檔案數(shù)據(jù)及時(shí)處理,把產(chǎn)生“廣”的檔案數(shù)據(jù)各個(gè)擊破,把存量“大”的檔案數(shù)據(jù)化整為零,把內(nèi)容“亂”的檔案數(shù)據(jù)有序歸類(lèi)。
三、檔案大數(shù)據(jù)的存儲(chǔ)
檔案大數(shù)據(jù)給傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)帶來(lái)了一系列的沖擊和挑戰(zhàn),僅從存儲(chǔ)層面來(lái)審視,倉(cāng)儲(chǔ)的構(gòu)建者不得不面對(duì)來(lái)自?xún)煞矫娴慕箲]:一是數(shù)據(jù)規(guī)模急速增長(zhǎng),現(xiàn)有的共享磁盤(pán)架構(gòu)能否適應(yīng)海量數(shù)據(jù)的存儲(chǔ);二是數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,現(xiàn)有的基于結(jié)構(gòu)化數(shù)據(jù)為主體的存儲(chǔ)方案能否兼容無(wú)模式的非結(jié)構(gòu)化數(shù)據(jù)。
面對(duì)大數(shù)據(jù)的挑戰(zhàn),在技術(shù)上航星科技將如何解決大數(shù)據(jù)的問(wèn)題呢?從現(xiàn)有數(shù)據(jù)庫(kù)存儲(chǔ)架構(gòu)來(lái)和實(shí)踐研究看,一個(gè)大而全的存儲(chǔ)架構(gòu)似乎不能完美的解決大數(shù)據(jù)的存儲(chǔ)。大部分企業(yè)更應(yīng)該偏向于讓不同種類(lèi)的數(shù)據(jù)存儲(chǔ)在最適合他們的存儲(chǔ)系統(tǒng)里,再將不同類(lèi)型的數(shù)據(jù)進(jìn)行融合,最后在融合的數(shù)據(jù)基礎(chǔ)上做商業(yè)分析。
首先,必須有足夠的空間存儲(chǔ)數(shù)據(jù)。對(duì)于大數(shù)據(jù),當(dāng)企業(yè)在快速增長(zhǎng)數(shù)據(jù)的背景下要保持?jǐn)?shù)據(jù)的一種平衡狀態(tài)并實(shí)現(xiàn)易擴(kuò)展,應(yīng)采用分而治之的思想,即構(gòu)建分布式存儲(chǔ)系統(tǒng),方便增加節(jié)點(diǎn)實(shí)現(xiàn)穩(wěn)步處理。
其次,兼有多種結(jié)構(gòu)的存儲(chǔ)引擎。大數(shù)據(jù)的結(jié)構(gòu)復(fù)雜多樣使數(shù)據(jù)倉(cāng)庫(kù)面臨的源數(shù)據(jù)太過(guò)繁雜,此時(shí)應(yīng)改變目前以結(jié)構(gòu)化為主體的單一存儲(chǔ)方案,對(duì)非結(jié)構(gòu)化數(shù)據(jù)采用分布式文件系統(tǒng)進(jìn)行存儲(chǔ),對(duì)結(jié)構(gòu)松散無(wú)模式的半結(jié)構(gòu)化數(shù)據(jù)采用面向文檔的分布式key/value存儲(chǔ)引擎是最適合的解決方案。
最后,航星科技建立連接多種存儲(chǔ)引擎的“連接器”。通過(guò)這個(gè)“連接”來(lái)建立分布式存儲(chǔ)與分布式文件系統(tǒng)之間的關(guān)系。我們存儲(chǔ)多元化的數(shù)據(jù)主要是為了集成分析,而多種結(jié)構(gòu)的孤立存儲(chǔ)顯然不是集成分析的最佳選擇。通過(guò)構(gòu)建連接器,使得非結(jié)構(gòu)化數(shù)據(jù)在處理成結(jié)構(gòu)化信息后,能快速融通和分布式數(shù)據(jù)庫(kù)中的關(guān)系型數(shù)據(jù),達(dá)到對(duì)大數(shù)據(jù)敏捷分析。
四、檔案大數(shù)據(jù)的應(yīng)用
傳統(tǒng)的檔案信息管理一直停留于檔案目錄管理、分類(lèi)、歸檔、存儲(chǔ)及簡(jiǎn)單的統(tǒng)計(jì)查詢(xún),檔案大數(shù)據(jù)的關(guān)鍵信息需通過(guò)一定的技術(shù)方法進(jìn)行提取,并針對(duì)提取出的有效信息根據(jù)一定的規(guī)律進(jìn)行挖掘。只有滿足不同檔案用戶(hù)的信息需求,數(shù)據(jù)挖掘技術(shù)才會(huì)發(fā)揮巨大作用。在海量的檔案信息挖掘中主要采用文本數(shù)據(jù)挖掘技術(shù),這相當(dāng)于文字分析,一般指文本處理過(guò)程中產(chǎn)生高質(zhì)量的信息。
文本數(shù)據(jù)挖掘的基礎(chǔ)領(lǐng)域,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、自然語(yǔ)言處理;在此基礎(chǔ)上是文本數(shù)據(jù)挖掘的基本技術(shù),包括文本信息抽取、文本分類(lèi)、文本聚類(lèi)、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘有兩個(gè)主要應(yīng)用領(lǐng)域,信息訪問(wèn)和知識(shí)發(fā)現(xiàn),信息訪問(wèn)包括信息檢索、信息瀏覽、信息過(guò)濾、信息報(bào)告,知識(shí)發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預(yù)測(cè)。如圖所示:
總之,我們可以把對(duì)文本數(shù)據(jù)的分類(lèi)、融合、壓縮、摘要以及從文本中抽取發(fā)現(xiàn)知識(shí)與信息都看作是文本數(shù)據(jù)挖掘。通過(guò)這些技術(shù)使得我們?cè)谒阉鳈n案時(shí)從大數(shù)據(jù)范圍變成從小范圍,從而提高其效率和準(zhǔn)確度。
在檔案信息化領(lǐng)域,知識(shí)管理的發(fā)展主要包括認(rèn)知、信息積累、知識(shí)挖掘、知識(shí)運(yùn)用、規(guī)范化發(fā)展五個(gè)步驟。通常結(jié)合信息檢索、分析及挖掘技術(shù),將信息進(jìn)行適當(dāng)?shù)姆诸?lèi)及抽取或形成一組問(wèn)答序列,并將這些信息進(jìn)行提取,形成解決某一問(wèn)題域的數(shù)據(jù)集市,挖掘出一定的專(zhuān)門(mén)知識(shí),作為決策的依據(jù)。
檔案知識(shí)的輸出和評(píng)價(jià)還需要高效快速的輔助智能檢索技術(shù)。
(1)基于語(yǔ)義檢索。提供計(jì)算機(jī)可以理解人類(lèi)語(yǔ)言后的一種搜索模式。
(2)基于音視頻內(nèi)容檢索??梢灾苯訉?duì)音視頻內(nèi)容進(jìn)行檢索,自動(dòng)識(shí)別關(guān)鍵幀,能夠區(qū)分定位出一個(gè)視頻中的不同的兩段內(nèi)容,減輕人工打點(diǎn)的工作量,提高視頻處理的能力。
(3)檔案智能化輔助分類(lèi)??蓮臍v史分類(lèi)中智能提取檔案分類(lèi),提高用戶(hù)整編效率,實(shí)現(xiàn)文獻(xiàn)的自動(dòng)分類(lèi);系統(tǒng)可自主根據(jù)已有檔案分類(lèi)進(jìn)行學(xué)習(xí),促進(jìn)以后輔助分類(lèi)的準(zhǔn)確度;支持多維度的動(dòng)態(tài)分類(lèi);支持用戶(hù)自定義分類(lèi)展示。
因此,檔案大數(shù)據(jù)系統(tǒng)平臺(tái)總體架構(gòu)應(yīng)按照實(shí)際內(nèi)容應(yīng)用的流程實(shí)現(xiàn),即從數(shù)據(jù)的采集、智能處理、數(shù)據(jù)挖掘與智能搜索應(yīng)用平臺(tái)三個(gè)層次實(shí)現(xiàn)。通過(guò)多類(lèi)型數(shù)據(jù)采集平臺(tái)進(jìn)行數(shù)據(jù)采集,在智能數(shù)據(jù)處理平臺(tái)上對(duì)這些非結(jié)構(gòu)化信息、多媒體信息和用戶(hù)信息進(jìn)行分析,最后在應(yīng)用平臺(tái)上提供數(shù)據(jù)挖掘結(jié)果的搜索平臺(tái)和多媒體自動(dòng)編研平臺(tái)。
管理檔案大數(shù)據(jù)較傳統(tǒng)的檔案數(shù)據(jù),需要去改變管理流程與文化,很多企業(yè)不愿意改變傳統(tǒng)的方式。形勢(shì)已經(jīng)來(lái)臨,競(jìng)爭(zhēng)對(duì)手可能已捷足先登,保守必將錯(cuò)失機(jī)會(huì)。