澳鵬一站式文檔智能識(shí)別，為大模型訓(xùn)練數(shù)據(jù)準(zhǔn)備賦能

2023-12-14 19:06 4403

上海2023年12月14日 /美通社/ -- 在大模型訓(xùn)練過程中，許多專業(yè)領(lǐng)域知識(shí)是基于書籍等紙質(zhì)文檔的形式記錄的，常見于教材、期刊論文、特定學(xué)科研究等。例如工業(yè)、教育等涉及到專業(yè)領(lǐng)域的行業(yè)應(yīng)用，大量需要訓(xùn)練的數(shù)據(jù)沉淀在紙質(zhì)版上亟待利用。

澳鵬Appen全新推出文檔智能識(shí)別接口，可將圖片、不可編輯的PDF等文檔一鍵識(shí)別轉(zhuǎn)換成可編輯的Word或Markdown格式，方便對(duì)其中數(shù)據(jù)作進(jìn)一步利用。接口支持識(shí)別文檔中不同模態(tài)的數(shù)據(jù)，如文本、插圖、公式、表格等，并支持對(duì)不同版面進(jìn)行識(shí)別和還原。

澳鵬全新推出一站式文檔智能識(shí)別解決方案，為大模型訓(xùn)練數(shù)據(jù)準(zhǔn)備賦能

在大模型的訓(xùn)練過程中，許多企業(yè)或行業(yè)數(shù)據(jù)沉淀在不可編輯的PDF、甚至是紙質(zhì)文檔中。若要將這些數(shù)據(jù)利用起來，無論是用作基礎(chǔ)大模型的訓(xùn)練數(shù)據(jù)，還是用于RAG或微調(diào)，都需要先轉(zhuǎn)化成可編輯的文檔格式。

這些文檔包含的內(nèi)容有文本、表格、公式、插圖等內(nèi)容，現(xiàn)有的內(nèi)容識(shí)別技術(shù)大多只能識(shí)別文字，而對(duì)其他形態(tài)的內(nèi)容無法進(jìn)行識(shí)別和轉(zhuǎn)換。若要開發(fā)一個(gè)能識(shí)別所有格式內(nèi)容的算法，其研發(fā)成本往往較高，識(shí)別速度和準(zhǔn)確率亦無法得以保證。

澳鵬一站式文檔智能識(shí)別解決方案集成了多種算法能力：首先使用版面識(shí)別算法，可識(shí)別出PDF中每一頁的內(nèi)容類型，包括文本、表格、公式、插圖等；如頁面中包含多種內(nèi)容，則將每個(gè)獨(dú)立的內(nèi)容塊截取出來；再根據(jù)內(nèi)容塊的內(nèi)容類型，調(diào)用不同的識(shí)別算法，包括文本識(shí)別算法、表格識(shí)別算法、公式識(shí)別算法等。

識(shí)別完成后再將內(nèi)容拼接到一個(gè)文檔中，可還原成原始版面。同時(shí)，澳鵬也提供人工復(fù)核服務(wù)，進(jìn)一步提升識(shí)別準(zhǔn)確率。

在實(shí)際應(yīng)用中，澳鵬一站式文檔智能識(shí)別解決方案的優(yōu)勢主要包括：

-高效率低成本：使用澳鵬文檔智能識(shí)別處理文檔時(shí)，一個(gè)上百頁的PDF只需耗時(shí)數(shù)分鐘即可完成，遠(yuǎn)快于人工轉(zhuǎn)寫；可批量處理大量文件，降低人力成本。

-高安全性：無需企業(yè)外部人員參與文檔內(nèi)容轉(zhuǎn)寫過程，降低了敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

-易于集成：澳鵬文檔智能識(shí)別方案可與企業(yè)現(xiàn)有的業(yè)務(wù)流程和系統(tǒng)集成，自動(dòng)輸入、輸出數(shù)據(jù)。

助力高科技企業(yè)開發(fā)行業(yè)大模型，澳鵬一站式文檔智能識(shí)別解決方案能夠?qū)I(yè)細(xì)分學(xué)科數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，將沉淀在紙質(zhì)版、PDF等形態(tài)的數(shù)據(jù)應(yīng)用于大模型訓(xùn)練中，幫助企業(yè)自動(dòng)化地將各種類型的文檔轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，為高效訓(xùn)練行業(yè)大模型賦能。

消息來源：澳鵬數(shù)據(jù)科技（上海）有限公司