本文作者:kaifamei

基于文本結構的數據自動提取處理方法、裝置及系統

更新時間:2025-12-26 15:25:55 0條評論

基于文本結構的數據自動提取處理方法、裝置及系統



1.本發明屬于電數字數據處理技術領域,具體涉及一種基于文本結構的數據自動提取處理方法、裝置及系統。


背景技術:

2.web of science是獨立于出版商的全球著名引文數據庫,索引和存檔記錄可以追溯至1900年,收錄了21100多種經過同行評審的高質量期刊,內容涵蓋250多個自然科學、技術、社會科學、生物醫學、化學、人文藝術等領域。其sci-e數據庫被國內很多學校、醫院等單位作為個人或機構科研評價的重要參考數據來源,通過sci-e數據庫統計并分析論文發表情況是圖情人員或科研管理工作者的重要工作內容。單位人才聘用、科研考核及獎勵,同時精準定位重點學科/優勢學科,發展潛力學科,挖掘高影響力、高潛力研究人員等,均需要以第一作者或通訊作者為論文為分析基礎,但是web of science數據庫檢索后無法直接進行篩選,需要人工對檢索結果進行篩選后統計,費時費力且不準確。
3.因此,現階段需設計一種基于文本結構的數據自動提取處理方法、裝置及系統,來解決以上問題。


技術實現要素:

4.本發明目的在于提供一種基于文本結構的數據自動提取處理方法、裝置及系統,用于解決上述現有技術中存在的技術問題,web of science數據庫檢索后無法直接進行篩選,需要人工對檢索結果進行篩選后統計,費時費力且不準確。本發明在web of science檢索得到的文本數據基礎上實現文本數據讀取、自動提取、統一存儲與展示,精準呈現發表的論文情況,形成結構化數據庫。
5.為實現上述目的,本發明的技術方案是:基于文本結構的數據自動提取處理方法,包括以下步驟:s1、文本數據讀?。焊鶕z索目的設定檢索策略后對數據庫進行檢索,將檢索到的文獻信息導出,形成純文本文件,并以行方式讀取數據,將行原文存儲至臨時空間;s2、文本數據自動提?。菏褂藐P鍵字識別對存儲至臨時空間的文本內容進行處理;根據數據結構的定義自動提取數據字段值,將自動提取的數據字段值加入預設結構的識別字符后重新組合,形成帶有結構化標識的數據集合;s3、統一存儲與展示:最后將自動提取的關鍵數據、數據集合集中存儲,形成sci論文結構化數據庫,實現對第一作者或通訊作者為論文精準統計及分析管理。
6.進一步的,步驟s1中文獻信息導出項包括但不限于:作者、標題、來源出版物、地址、文獻類型、所屬機構、wos類別。
7.進一步的,步驟s1中具體如下:按照檢索目的生成純文本文件,純文本文件內容包括“標題、作者、來源出版物、地址、通訊作者地址、文獻類型、入藏號、wos類別”,確定一篇完整文章的最后一行為“wos類別”;定義自動提取的結果數據結構,論文數據集合為:、論文作者集合為:、作者地址集合為:、上述三者關系為:;并按文本文件的行方式讀取數據,將行原文存儲至臨時空間等待數據分析處理。
8.進一步的,步驟s2中的使用關鍵字識別對存儲至臨時空間的文本內容進行處理包括但不限于:定義關鍵字符、分析內容數據、識別文本數據特征、分類處理文本數據。
9.進一步的,步驟s2中帶有結構化標識的數據集合包括但不限于:文章作者集、作者地址集、通訊作者集合、通訊作者地址。
10.進一步的,步驟s2具體如下:根據自動提取數據結構的值定義文本處理識別字符集為,定義文本內容識別字符集為,定義文本內容類別識別字符集為分別用來識別多行作者地址與多行通訊作者地址;讀取的文本行按定義的文本內容類別為以下四種方式識別處理,并統一至數據集合按時間存儲;(1)文本行中包含標題、來源出版物、文獻類型、入藏號、wos類別的內容,使用識別后,存儲至對應的字段;(2)文本行中包含“作者”的內容,使用識別處理后的內容再使用識別得到帶用的臨時作者集合,集合中第一個為第一作者,存儲至對應的第一作者字段,然后遍歷臨時作者集合過程中使用識別符格式化作者名稱,將作者結果集合存儲至作者集合中;(3)文本行中首個包含“地址”的內容,使用識別處理后增加識別字符用于對“地址”內容后的多行含有作者地址內容識別處理,再使用識別得到作者地址,存儲至對應的第一作者地址字段中,同時存儲至作者地址集合中,并使用集合值與作者地址內容比較,若包含則將對應的字段值置為true,否則為false;若文本行中不包含集合中的值則使用集合的值來識別,包含集合值則說明該行是作者地址內容,并按前面的步驟處理;從中獲取第一作者,再使用集合識別判斷是否為第一作者地址并處理;
(4)文本行中包含“通訊作者地址”的內容,使用識別處理后的內容存儲至對應的字段的值,再使用集合值與作者地址內容比較若包含則將對應的字段值置為true,否則為false;并存儲至對應的字段中。
11.進一步的,步驟s3具體如下:完成文本文件的讀取與處理后將存儲在、、三個結構化存儲集合中的數據統一存儲至數據庫中,并將數據集中每個字段的含義結構化輸出,展示自動提取與統計后的結果內容。
12.基于文本結構的數據自動提取處理裝置,用于采用如上述的基于文本結構的數據自動提取處理方法進行數據自動提取處理。
13.基于圖像識別的食品包裝實時檢測系統,包括如上述的基于文本結構的數據自動提取處理裝置,還包括云計算服務器,所述數據自動提取處理裝置與所述云計算服務器之間進行數據交互。
14.與現有技術相比,本發明所具有的有益效果為:本方案其中一個有益效果在于,本發明開發了一種基于web of science文獻信息文本結構的數據自動提取和處理方法,首先按行處理模式讀取數據,在定義文本內容識別字符集、文本內容類別識別字符集及識別字符集基礎上自動提取數據字段值,加入了預設結構的識別字符識別多行作者地址用以確定第一作者的所有地址,對自動提取的數據字段值重新組合以形成結構化的數據集合并統一存儲展示。本發明突破了web of science平臺無法篩選所屬機構第一作者或通訊作者的限制,通過開發一種數據自動提取和處理方法,有效解決了人工處理費時費力且不準確的問題,同時構建了所屬單位精準的論文數據庫以便后續分析與管理。
附圖說明
15.圖1為本技術實施例的步驟流程示意圖。
具體實施方式
16.為了使本發明的目的,技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,并不用于限定本發明,即所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發明實施例的組件可以以各種不同的配置來布置和設計。
17.因此,以下對在附圖中提供的本發明的實施例的詳細描述并非旨在限制要求保護的本發明的范圍,而是僅僅表示本發明的選定實施例?;诒景l明的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。需要說明的是,術語“第一”和“第二”等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。
18.而且,術語“包括”,“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程,方法,物品或者設備不僅包括那些要素,而且還包括沒有明確列
出的其他要素,或者是還包括為這種過程,方法,物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個
……”
限定的要素,并不排除在包括所述要素的過程,方法,物品或者設備中還存在另外的相同要素。
19.以下結合實施例對本發明的特征和性能作進一步的詳細描述。
20.web of science數據庫檢索后無法直接進行篩選,需要人工對檢索結果進行篩選后統計,費時費力且不準確。本發明在web of science檢索得到的文本數據基礎上實現文本數據讀取、自動提取、統一存儲與展示,精準呈現發表的論文情況,形成結構化數據庫。
21.如圖1所示,提出一種基于web of science文本結構的數據自動提取處理方法,包括文本數據讀取、文本數據處理自動提取關鍵數據、統一存儲與展示。
22.文本數據讀取是根據檢索目的設定檢索策略后對數據庫進行檢索,將檢索到的文獻信息導出,文獻信息導出項主要包括“作者、標題、來源出版物、地址、文獻類型、所屬機構、wos類別”等,形成純文本文件,并以行方式讀取數據,將行原文存儲至臨時空間。
23.文本數據處理是使用關鍵字識別對存儲至臨時空間的文本內容進行處理,主要包括定義關鍵字符、分析內容數據、識別文本數據特征、分類處理文本數據。
24.根據數據結構的定義自動提取數據字段值,將自動提取的數據字段值加入預設結構的識別字符后重新組合,形成文章作者集、作者地址集、通訊作者集合、通訊作者地址等帶有結構化標識的數據集合。最后將自動提取的關鍵數據、數據集合集中存儲,形成sci論文結構化數據庫,實現對第一作者或通訊作者為論文精準統計及分析管理。
25.第一步:文本數據讀取按照檢索目的生成純文本文件,純文本文件內容包括“標題、作者、來源出版物、地址、通訊作者地址、文獻類型、入藏號、wos類別”,確定一篇完整文章的最后一行為“wos類別”;定義自動提取的結果數據結構,論文數據集合為:、論文作者集合為:、作者地址集合為:、上述三者關系為:;并按文本文件的行方式讀取數據,將行原文存儲至臨時空間等待數據分析處理。
26.第二步:文本數據自動提取根據自動提取數據結構的值定義文本處理識別字符集為,定義文本內容識別字符集為,定義文本內容類別識別字符集為分別用來識別多行作者地址與多行通訊作者地址;讀取的文本行按定義的文本內容類別為以下四種方式識別處理,并統一至數據集合按時間存儲;(1)文本行中包含標題、來源出版物、文獻類型、入藏號、wos類別的內容,使用識別后,存儲至對應的字段;
(2)文本行中包含“作者”的內容,使用識別處理后的內容再使用識別得到帶用的臨時作者集合,集合中第一個為第一作者,存儲至對應的第一作者字段,然后遍歷臨時作者集合過程中使用識別符格式化作者名稱,將作者結果集合存儲至作者集合中;(3)文本行中首個包含“地址”的內容,使用識別處理后增加識別字符用于對“地址”內容后的多行含有作者地址內容識別處理,再使用識別得到作者地址,存儲至對應的第一作者地址字段中,同時存儲至作者地址集合中,并使用集合值與作者地址內容比較,若包含則將對應的字段值置為true,否則為false;若文本行中不包含集合中的值則使用集合的值來識別,包含集合值則說明該行是作者地址內容,并按前面的步驟處理;從中獲取第一作者,再使用集合識別判斷是否為第一作者地址并處理;(4)文本行中包含“通訊作者地址”的內容,使用識別處理后的內容存儲至對應的字段的值,再使用集合值與作者地址內容比較若包含則將對應的字段值置為true,否則為false;并存儲至對應的字段中。
27.第三步:統一存儲與展示完成文本文件的讀取與處理后將存儲在、、三個結構化存儲集合中的數據統一存儲至數據庫中,并將數據集中每個字段的含義結構化輸出,展示自動提取與統計后的結果內容。
28.綜上所述,本發明開發了一種基于web of science文獻信息文本結構的數據自動提取和處理方法,首先按行處理模式讀取數據,在定義文本內容識別字符集、文本內容類別識別字符集及識別字符集基礎上自動提取數據字段值,加入了預設結構的識別字符識別多行作者地址用以確定第一作者的所有地址,對自動提取的數據字段值重新組合以形成結構化的數據集合并統一存儲展示。本發明突破了web of science平臺無法篩選所屬機構第一作者或通訊作者的限制,通過開發一種數據自動提取和處理方法,有效解決了人工處理費時費力且不準確的問題,同時構建了精準的論文數據庫以便后續分析與管理。
29.以上是本發明的較佳實施例,凡依本發明技術方案所作的改變,所產生的功能作用未超出本發明技術方案的范圍時,均屬于本發明的保護范圍。


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-1135-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-11-27 21:24:40

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
,2人圍觀
參與討論