大批量多格式文件信息提取方法、存儲介質與流程
1.本技術涉及文件信息處理領域,具體涉及一種大批量多格式文件信息提取方法、存儲介質。
背景技術:
2.如今是數據洪流的時代,企事業單位,特別是一些具有信息安全性要求的企事業單位,都具有大批量多格式文件信息處理和結構化統一存儲的需求。然而,現有技術中針對大批量多格式文件信息的統一處理和存儲技術尚不成熟,大批量不同數據結構和不同數據格式的文件信息給上述企業事業的信息管理帶來了阻礙,進而導致了數據無法實現快速、高效應用,數據應用價值低,阻礙了數據的有效利用。
技術實現要素:
3.鑒于上述問題,本技術提供了一種大批量多格式文件信息提取方法、存儲介質,能夠高效而準確地將非結構化的數據文件轉化為結構化數據。
4.為實現上述目的,發明人提供了一種大批量多格式文件信息提取方法,包括:
5.逐一獲取大批量多格式文件集中的文件;
6.若所獲取的文件為pdf文件或ppt文件,則判斷其形式內容;
7.若所述pdf文件或ppt文件為純文本信息,則提取其中的文本信息;
8.若所述pdf文件或ppt文件為掃描件或圖片,則先經過圖片處理和圖片識別,再經過ocr識別提取其中的信息。
9.區別于現有技術,上述技術方案能夠針對目前存在較高信息提取難度的pdf文件和ppt文件,根據其形式內容自動切換不同的識別路徑采用相適宜的信息提取方式進行信息識別和提取,將其轉換為結構化信息進行存儲,大大提高信息提取的準確性和識別效率。
10.在一些實施例中,優選地,所述逐一獲取大批量多格式文件集中的文件,之后,還包括:
11.若所獲取的文件為純文本文件,則提取其中的文本信息;
12.若所獲取的文件為ofd文件,則將所述ofd文件解析為xml文件,提取所述xml文件中的文本信息。
13.優選地,所述圖片處理包括:模糊圖片清晰化處理、圖片中扭曲文字糾正處理、圖片蓋章水印處理、壓縮處理和多圖片拼接處理中的一種或多種;
14.所述圖片識別包括:表格識別、蓋章識別、無效信息識別和模糊圖片識別中的一種或多種。
15.優選地,所述蓋章識別包括:
16.逐頁識別所述pdf文件或ppt文件是否包含蓋章;
17.若當前頁識別到蓋章,則停止對下一頁進行蓋章識別。
18.優選地,所述方法還包括:
19.預設矯正庫,所述矯正庫包括錯誤詞語與正確詞語的對應關系;
20.依據矯正庫對所提取的文字信息進行矯正。
21.優選地,所述方法還包括:
22.對提取的文字信息和/或信息進行風險評估,得出評估結果。
23.優選地,所述評估結果包括是否存在蓋章及蓋章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置。
24.優選地,所述經過ocr識別提取其中的信息,包括:
25.若所獲取的pdf文件為印刷體文件或企業章程文件,則使用paddleocr模型識別提取其中的信息;
26.若所獲取的pdf文件為合同文件,則使用trocr模型識別提取其中的信息;
27.若系統為arm架構的cpu處理器,則使用pytesseract模型識別提取其中的信息。
28.優選地,若所述pdf文件或ppt文件為純文本信息,則使用pdf2txt函數或ppt2txt函數轉換得到文字信息;
29.若所獲取的文件為純文本結構文件,則使用word2txt函數轉換得到文字信息。
30.上述這些實施例不僅能夠針對不同文件格式自動切換不同識別路徑進行信息結構化提取和保存,實現高效精確地識別和提取信息;而且針對pdf文件和ppt文件的形式內容包含圖片或掃描件的情況,將先經過圖片質量優化后再使用ocr識別,以此進一步提高信息識別和提取的準確性;再有,在使用ocr識別時,還支持針對不同業務場景靈活切換所使用的ocr模型,以實現更具針對性、更高效、更精準地識別特定文件內容;進一步地,還能批量識別文件中的多種風險,以便更好地用于國資監管中對各類風險文件的識別。
31.發明人還提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序在被處理器執行時,能夠實現如上述大批量多格式文件信息提取方法所包含的步驟。
32.上述發明內容相關記載僅是本技術技術方案的概述,為了讓本領域普通技術人員能夠更清楚地了解本技術的技術方案,進而可以依據說明書的文字及附圖記載的內容予以實施,并且為了讓本技術的上述目的及其它目的、特征和優點能夠更易于理解,以下結合本技術的具體實施方式及附圖進行說明。
附圖說明
33.附圖僅用于示出本技術具體實施方式以及其他相關內容的原理、實現方式、應用、特點以及效果等,并不能認為是對本技術的限制。
34.在說明書附圖中:
35.圖1為一實施例所述一種大批量多格式文件信息提取方法的流程示意圖;
36.圖2為一具體實施方式所述一種大批量多格式文件信息提取方法的流程示意圖;
37.圖3為一具體實施方式所述多格式文件分類處理流程示意圖;
38.圖4為一具體實施方式所述針對pdf文件的形式內容為圖片或掃描件時的信息提取流程示意圖。
具體實施方式
39.為詳細說明本技術可能的應用場景,技術原理,可實施的具體方案,能實現目的與
效果等,以下結合所列舉的具體實施例并配合附圖詳予說明。本文所記載的實施例僅用于更加清楚地說明本技術的技術方案,因此只作為示例,而不能以此來限制本技術的保護范圍。
40.在本文中提及“實施例”意味著,結合實施例描述的特定特征、結構或特性可以包含在本技術的至少一個實施例中。在說明書中各個位置出現的“實施例”一詞并不一定指代相同的實施例,亦不特別限定其與其它實施例之間的獨立性或關聯性。原則上,在本技術中,只要不存在技術矛盾或沖突,各實施例中所提到的各項技術特征均可以以任意方式進行組合,以形成相應的可實施的技術方案。
41.除非另有定義,本文所使用的技術術語的含義與本技術所屬技術領域的技術人員通常理解的含義相同;本文中對相關術語的使用只是為了描述具體的實施例,而不是旨在限制本技術。
42.在本技術的描述中,用語“和/或”是一種用于描述對象之間邏輯關系的表述,表示可以存在三種關系,例如a和/或b,表示:存在a,存在b,以及同時存在a和b這三種情況。另外,本文中字符“/”一般表示前后關聯對象是一種“或”的邏輯關系。
43.在本技術中,諸如“第一”和“第二”之類的用語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何實際的數量、主次或順序等關系。
44.在沒有更多限制的情況下,在本技術中,語句中所使用的“包括”、“包含”、“具有”或者其他類似的表述,意在涵蓋非排他性的包含,這些表述并不排除在包括所述要素的過程、方法或者產品中還可以存在另外的要素,從而使得包括一系列要素的過程、方法或者產品中不僅可以包括那些限定的要素,而且還可以包括沒有明確列出的其他要素,或者還包括為這種過程、方法或者產品所固有的要素。
45.與《審查指南》中的理解相同,在本技術中,“大于”、“小于”、“超過”等表述理解為不包括本數;“以上”、“以下”、“以內”等表述理解為包括本數。此外,在本技術實施例的描述中“多個”的含義是兩個以上(包括兩個),與之類似的與“多”相關的表述亦做此類理解,例如“多組”、“多次”等,除非另有明確具體的限定。
46.在本技術實施例的描述中,所使用的與空間相關的表述,諸如“中心”“縱向”“橫向”“長度”“寬度”“厚度”“上”“下”“前”“后”“左”“右”“豎直”“水平”“垂直”“頂”“底”“內”“外”“順時針”“逆時針”“軸向”“徑向”“周向”等,所指示的方位或位置關系是基于具體實施例或附圖所示的方位或位置關系,僅是為了便于描述本技術的具體實施例或便于讀者理解,而不是指示或暗示所指的裝置或部件必須具有特定的位置、特定的方位、或以特定的方位構造或操作,因此不能理解為對本技術實施例的限制。
47.除非另有明確的規定或限定,在本技術實施例的描述中,所使用的“安裝”“相連”“連接”“固定”“設置”等用語應做廣義理解。例如,所述“連接”可以是固定連接,也可以是可拆卸連接,或成一體設置;其可以是機械連接,也可以是電連接,也可以是通信連接;其可以是直接相連,也可以通過中間媒介間接相連;其可以是兩個元件內部的連通或兩個元件的相互作用關系。對于本技術所屬技術領域的技術人員而言,可以根據具體情況理解上述用語在本技術實施例中的具體含義。
48.本技術的最關鍵技術構思在于,能根據不同文件格式切換不同識別路徑處理多格
式文件,特別是pdf文件和ppt文件,還能進一步依據其形式內容切換不同識別路徑進行處理,從而轉換為結構化信息進行保存。
49.請參閱圖1至圖3,本技術的實施例一提供一種大批量多格式文件信息提取方法,如圖2所示,可以包括以下步驟:
50.s1:批量文件輸入系統;
51.大批量多格式文件輸入至系統,文件格式包括:pdf、word、txt、ofd、ppt等。
52.s2:依據文件格式分類處理;
53.作為一具體實施方式,該步驟具體可以包括:
54.s201:逐一獲取大批量多格式文件集中的各個文件,然后判斷其文件格式;
55.可參閱圖3,分類處理流程如下:
56.s202:若所獲取的文件為純文本文件,如word、txt格式,則直接進行文件轉文字處理,提取其中的文本信息;可選的,若為word文件,可以使用word2txt函數進行處理。
57.s203:若所述獲取的文件為ofd文件,則將所述ofd文件解析為xml文件,再提取所述xml文件中的文本信息,即根據xml結構與規則提取相關信息。
58.可參閱圖1和圖4,針對pdf文件或ppt文件的處理流程如下:
59.s204:若所獲取的文件為pdf文件或ppt文件,則判斷其形式內容;其中,所述形式內容包括純文本信息、掃描件、圖片等;作為一具體實施方式,可以通過文本形式內容判斷函數判斷文件的形式內容。
60.s205:若所述pdf文件或ppt文件的形式內容為純文本信息,則提取其中的文本信息;具體通過文件轉文字處理,如通過pdf2txt函數或ppt2txt函數轉換得到文字信息;
61.s206:若所述pdf文件或ppt文件的形式內容為掃描件或圖片,則文件將先經過圖片處理和圖片識別,再經過ocr識別提取其中的信息,然后執行s3;
62.在一些具體實施方式中,所述圖片處理包括:模糊圖片清晰化處理、圖片中扭曲文字糾正處理、圖片蓋章水印處理、壓縮處理和多圖片拼接處理中的一種或多種;所述圖片識別包括:表格識別、蓋章識別、無效信息識別和模糊圖片識別中的一種或多種。
63.通過圖片處理(特指進行模糊圖片清晰化處理、圖片中扭曲文字糾正處理、圖片蓋章水印處理)能夠優化圖片質量,提高信息識別的準確度;通過圖片處理(特指進行壓縮處理和多圖片拼接處理),還能夠提高圖片識別的效率。其中,所述多圖片拼接處理即將一份文件中的所有圖片拼接起來再進行ocr識別,可以避免逐頁識別的低效率;所述壓縮處理即將文件的圖片進行壓縮處理后再輸入系統中進行ocr識別。上述兩種圖片處理方式均能一定程度上提高識別運算的效率。
64.通過圖片識別,能夠具有針對性的對特定信息進行精準識別,做到準確、全面且高效地識別文件信息。
65.特別地,所述蓋章識別包括:逐頁識別所述pdf文件或ppt文件是否包含蓋章;若當前頁識別到蓋章,則停止對下一頁進行蓋章識別。即言,在識別到蓋章頁后,將立即停止蓋章識別流程,因為一般是在文末蓋章且蓋章頁只有一頁,如此,便可以避免無效識別,節省資源;同時,蓋章識別也是批量識別,即批量圖片以張量的形式輸入至蓋章識別模型中進行識別。
66.由上述可知,通過圖片處理和圖片識別,能夠顯著提高識別運算效率和識別準確
性。
67.在另外一些具體實施方式中,如圖3所示,在執行所述經過ocr識別提取其中的信息步驟時,還將根據業務需求的不同,即文件業務類型的不同切換不同的ocr識別模型進行更高效且準確地識別。
68.具體而言,可以預先設定不同文件業務類型與ocr識別模型的對應關系,包括:印刷體文件或企業章程文件對應paddleocr模型;合同文件對應trocr模型。則在進行ocr識別提取信息時,便可以依據當前所獲取的pdf文件的業務類型,使用更具針對性的ocr模型進行更精準的識別。
69.具體的ocr識別過程可以包括:
70.若所獲取的pdf文件為印刷體文件或企業章程文件,則根據所述對應關系,使用paddleocr模型識別提取其中的信息;
71.若所獲取的pdf文件為合同文件,則根據所述對應關系,使用trocr模型識別提取其中的信息。
72.特別地,針對系統為arm架構的cpu處理器,則可以使用與系統更加匹配的pytesseract模型進行ocr識別,以獲取更穩定和更高效的ocr識別效果。
73.在一些具體實施方式中,如圖3所示,本實施例的方法在將多格式文件的信息提取出來以后,還將對所提取的文字信息進行矯正,以進一步提高識別的準確率。
74.具體而言,首先將預設矯正庫,所述矯正庫包括錯誤詞語與正確詞語的對應關系。作為一具體示例,所述錯誤詞語可以是在識別過程中收集到的容易識別錯誤的詞語,即歷史識別錯誤詞語;當然,也可以是依據經驗自定義設置的容易識別錯誤的詞語。然后,在提取出不同格式文件的文本信息之后,還包括:
75.s3:依據矯正庫對所提取的文字信息進行矯正。
76.通過預先將所述對應關系入庫管理,而在提取多格式文件的文本信息后,能夠與所述對應關系逐一進行對比,判斷所提取的文本信息中是否存在對應關系中的錯誤詞語,如果是則將錯誤詞語替換成矯正庫中與其對應的正確詞語以實現文本信息糾錯。
77.當然,也可以直接利用bilstm-crf模型進行文本信息糾錯。
78.作為本實施例的一些具體實施方式中,所述方法還將對所提取的文本信息在結構上做優化處理,更方便管理和運用。
79.s4:文本信息處理。
80.文本信息處理過程將采用文本分段技術,識別換行空格等特征,進行標記,通過識別段落標記進行分段。不同頁面的信息處理采用語句斷句拼接技術,可以通過多頁逐一識別,進行文本集中拼接,再采用文本分段技術進行分段處理。
81.在本實施例的另外一些實施方式中,所述方法還包括:
82.s5:風險識別輸出結果。
83.即對從多格式文件中提取的文字信息和/或信息(若包括上一步驟的文本信息處理,則未經過文本信息處理后的信息)進行風險評估,得出評估結果。
84.所述評估結果包括是否存在蓋章及蓋章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置等其他風險累類型。
85.作為上述實施方式的一些具體示例,針對不同風險類型,系統將通過相似度匹配
算法處理后返回給用戶需要的結果,例如返回相應的文字段落詳情,這段文字所屬的章節、文件是否存在蓋章、文件ocr識別結果、文件是否存在重要信息不存在的風險等。
86.本實施例通過支持對批量多格式文件的識別結果進行風險評估,從而擴展了信息安全性檢測功能,可以更好地用于具有安全性要求的文件數據管理,特別是可以更好地用于國資監管中對文件各類風險的識別。
87.作為本實施例的優選實施方式,將在效率方面采用深度學習mkldnn底層庫來提升神經網絡在intel cpu以及gpu下的推理速度。
88.具體而言,在使用mkldnn進行訓練或者推理時,可以使用jit(just in time)代碼生成技術,根據神經網絡op的參數以及后端硬件支持的指令集,生成優化后的代碼,來提高神經網絡在硬件上的執行速度。而目前paddleocr里面已經集成了mkldnn加速技術功能,因此只需在編譯時加入編譯選項,便能使用該庫對深度神經網絡的訓練以及推理進行加速。
89.作為本技術的另外一個實施例,其提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序在被處理器執行時,能夠實現如上述實施例任一具體實施方式所述一種大批量多格式文件信息提取方法所包含的步驟。具體的步驟內容在此不進行復述,詳細請參閱上述實施例的記載。
90.本技術提供一種大批量多格式文件信息提取方法,可根據不同文件格式切換不同的識別路徑處理多格式文件,并能夠針對不同業務場景實現ocr模型的切換,以此實現高效且準確地處理不同格式的文件信息。進一步地,本技術將先經過圖片處理和圖片識別之后再進行ocr識別,通過優化圖片質量,提高ocr識別的準確率和運算效率;更進一步地,本技術還將通過文本處理技術進行信息結構化提取與保存,以優化管理和便于運用;同時,在文件風險識別效率方面將采用深度學習mkldnn底層庫來提升神經網絡在intel cpu以及gpu下的推理速度。由此可見,本技術能夠極好地用于國資監管中批量處理多種格式文件,批量識別文件中的多種風險,并提高識別效率。
91.最后需要說明的是,盡管在本技術的說明書文字及附圖中已經對上述各實施例進行了描述,但并不能因此限制本技術的專利保護范圍。凡是基于本技術的實質理念,利用本技術說明書文字及附圖記載的內容所作的等效結構或等效流程替換或修改產生的技術方案,以及直接或間接地將以上實施例的技術方案實施于其他相關的技術領域等,均包括在本技術的專利保護范圍之內。
技術特征:
1.一種大批量多格式文件信息提取方法,其特征在于,包括:逐一獲取大批量多格式文件集中的文件;若所獲取的文件為pdf文件或ppt文件,則判斷其形式內容;若所述pdf文件或ppt文件為純文本信息,則提取其中的文本信息;若所述pdf文件或ppt文件為掃描件或圖片,則先經過圖片處理和圖片識別,再經過ocr識別提取其中的信息。2.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,所述逐一獲取大批量多格式文件集中的文件,之后,還包括:若所獲取的文件為純文本文件,則提取其中的文本信息;若所獲取的文件為ofd文件,則將所述ofd文件解析為xml文件,提取所述xml文件中的文本信息。3.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,所述圖片處理包括:模糊圖片清晰化處理、圖片中扭曲文字糾正處理、圖片蓋章水印處理、壓縮處理和多圖片拼接處理中的一種或多種;所述圖片識別包括:表格識別、蓋章識別、無效信息識別和模糊圖片識別中的一種或多種。4.如權利要求3所述的一種大批量多格式文件信息提取方法,其特征在于,所述蓋章識別包括:逐頁識別所述pdf文件或ppt文件是否包含蓋章;若當前頁識別到蓋章,則停止對下一頁進行蓋章識別。5.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,所述方法還包括:預設矯正庫,所述矯正庫包括錯誤詞語與正確詞語的對應關系;依據矯正庫對所提取的文字信息進行矯正。6.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,所述方法還包括:對提取的文字信息和/或信息進行風險評估,得出評估結果。7.如權利要求6所述的一種大批量多格式文件信息提取方法,其特征在于,所述評估結果包括是否存在蓋章及蓋章所在位置、是否存在敏感文字及敏感文字所在位置、是否存在重要信息及重要信息所在位置。8.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,所述經過ocr識別提取其中的信息,包括:若所獲取的pdf文件為印刷體文件或企業章程文件,則使用paddleocr模型識別提取其中的信息;若所獲取的pdf文件為合同文件,則使用trocr模型識別提取其中的信息;若系統為arm架構的cpu處理器,則使用pytesseract模型識別提取其中的信息。9.如權利要求1所述的一種大批量多格式文件信息提取方法,其特征在于,若所述pdf文件或ppt文件為純文本信息,則使用pdf2txt函數或ppt2txt函數轉換得到文字信息;若所獲取的文件為純文本結構文件,則使用word2txt函數轉換得到文字信息。
10.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述程序在被處理器執行時,能夠實現如上述權利要求1至9任意一項所述一種大批量多格式文件信息提取方法所包含的步驟。
技術總結
本申請提供大批量多格式文件信息提取方法、存儲介質,方法包括:逐一獲取大批量多格式文件集中的文件;若所獲取的文件為pdf文件或ppt文件,則判斷其形式內容;若所述pdf文件或ppt文件為純文本信息,則提取其中的文本信息;若所述pdf文件或ppt文件為掃描件或圖片,則先經過圖片處理和圖片識別,再經過OCR識別提取其中的信息。本申請能夠高效而準確地將非結構化的數據文件轉化為結構化數據,大大提高信息提取的準確性和識別效率。提取的準確性和識別效率。提取的準確性和識別效率。
