上海2023年12月14日 /美通社/ -- 在大模型訓(xùn)練過程中,許多專業(yè)領(lǐng)域知識是基于書籍等紙質(zhì)文檔的形式記錄的,常見于教材、期刊論文、特定學(xué)科研究等。例如工業(yè)、教育等涉及到專業(yè)領(lǐng)域的行業(yè)應(yīng)用,大量需要訓(xùn)練的數(shù)據(jù)沉淀在紙質(zhì)版上亟待利用。
澳鵬Appen全新推出文檔智能識別接口,可將圖片、不可編輯的PDF等文檔一鍵識別轉(zhuǎn)換成可編輯的Word或Markdown格式,方便對其中數(shù)據(jù)作進(jìn)一步利用。接口支持識別文檔中不同模態(tài)的數(shù)據(jù),如文本、插圖、公式、表格等,并支持對不同版面進(jìn)行識別和還原。
在大模型的訓(xùn)練過程中,許多企業(yè)或行業(yè)數(shù)據(jù)沉淀在不可編輯的PDF、甚至是紙質(zhì)文檔中。若要將這些數(shù)據(jù)利用起來,無論是用作基礎(chǔ)大模型的訓(xùn)練數(shù)據(jù),還是用于RAG或微調(diào),都需要先轉(zhuǎn)化成可編輯的文檔格式。
這些文檔包含的內(nèi)容有文本、表格、公式、插圖等內(nèi)容,現(xiàn)有的內(nèi)容識別技術(shù)大多只能識別文字,而對其他形態(tài)的內(nèi)容無法進(jìn)行識別和轉(zhuǎn)換。若要開發(fā)一個能識別所有格式內(nèi)容的算法,其研發(fā)成本往往較高,識別速度和準(zhǔn)確率亦無法得以保證。
澳鵬一站式文檔智能識別解決方案集成了多種算法能力:首先使用版面識別算法,可識別出PDF中每一頁的內(nèi)容類型,包括文本、表格、公式、插圖等;如頁面中包含多種內(nèi)容,則將每個獨(dú)立的內(nèi)容塊截取出來;再根據(jù)內(nèi)容塊的內(nèi)容類型,調(diào)用不同的識別算法,包括文本識別算法、表格識別算法、公式識別算法等。
識別完成后再將內(nèi)容拼接到一個文檔中,可還原成原始版面。同時,澳鵬也提供人工復(fù)核服務(wù),進(jìn)一步提升識別準(zhǔn)確率。
在實(shí)際應(yīng)用中,澳鵬一站式文檔智能識別解決方案的優(yōu)勢主要包括:
-高效率低成本:使用澳鵬文檔智能識別處理文檔時,一個上百頁的PDF只需耗時數(shù)分鐘即可完成,遠(yuǎn)快于人工轉(zhuǎn)寫;可批量處理大量文件,降低人力成本。
-高安全性:無需企業(yè)外部人員參與文檔內(nèi)容轉(zhuǎn)寫過程,降低了敏感數(shù)據(jù)泄露的風(fēng)險。
-易于集成:澳鵬文檔智能識別方案可與企業(yè)現(xiàn)有的業(yè)務(wù)流程和系統(tǒng)集成,自動輸入、輸出數(shù)據(jù)。
助力高科技企業(yè)開發(fā)行業(yè)大模型,澳鵬一站式文檔智能識別解決方案能夠?qū)I(yè)細(xì)分學(xué)科數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,將沉淀在紙質(zhì)版、PDF等形態(tài)的數(shù)據(jù)應(yīng)用于大模型訓(xùn)練中,幫助企業(yè)自動化地將各種類型的文檔轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),為高效訓(xùn)練行業(yè)大模型賦能。