本文作者:kaifamei

一種基于LP技術的企業自動打標簽模型生成方法、系統、設備以及存儲介質與流程

更新時間:2025-12-25 19:02:31 0條評論

一種基于LP技術的企業自動打標簽模型生成方法、系統、設備以及存儲介質與流程


一種基于nlp技術的企業自動打標簽模型生成方法、系統、設備以及存儲介質
技術領域
1.本發明涉及人工智能技術領域,具體涉及一種基于nlp技術的企業自動打標簽模型生成方法、系統、設備以及存儲介質。


背景技術:

2.目前對于企業進行分類、打標簽通常都依賴于傳統人工選擇的方式,利用業務專家的經驗進行打標簽。存在效率低、人工成本高以及專家主觀因素占比過高等缺點。并且隨著時代的發展,越來越多的企業會出現多個標簽的情況,而人工選擇的方式非常容易出現遺漏、誤判等情況的出現。而且目前需要打標簽的企業數據越來越多,這就對傳統的人工打標簽方式造成了很大的困難。
3.綜上所述,現有打標簽方式存在的缺陷為:由于依賴于人工,存在效率低、正確率低、人工成本高以及專家主觀因素占比過高。


技術實現要素:

4.本發明解決了現有打標簽方式由于依賴于人工,存在效率低、正確率低、人工成本高以及專家主觀因素占比過高的問題。
5.本發明所述的一種基于nlp技術的企業自動打標簽模型生成方法,包括以下步驟:
6.步驟s1,抓取互聯網企業信息,將其形成基礎數據源;
7.步驟s2,對基礎數據源進行相應處理,利用nlp技術從處理后的基礎數據源中提取企業關鍵信息;
8.步驟s3,結合企業原有的標簽數據,將企業關鍵信息和標簽數據進行模型訓練;
9.步驟s4,結合模型訓練結果,調整模型參數和變更輸入數據,對模型進行多次迭代,生成訓練模型;
10.步驟s5,結合實際情況進行補充模型規則,生成自動打標簽模型。
11.進一步地,在本發明的一個實施例中,所述的步驟s1中,所述的抓取互聯網企業信息的方式包括網絡爬蟲采集和歷史企業標簽庫數據。
12.進一步地,在本發明的一個實施例中,所述的步驟s2中,所述的基礎數據源進行相應處理,包括以下步驟:
13.步驟s201,將基礎數據源中的數據進行數據清洗,去除數據中的干擾項;
14.步驟s202,將清洗后的基礎數據源中的數據進行分詞;
15.步驟s203,根據步驟s202分詞結果進行專業詞匯和停用詞匯的管理補充。
16.進一步地,在本發明的一個實施例中,所述的步驟s2中,所述的利用nlp技術從處理后的基礎數據源中提取企業關鍵信息的部分專業詞匯進行權重調整。
17.進一步地,在本發明的一個實施例中,所述的步驟s3中,所述的模型訓練采用xgboost算法。
18.進一步地,在本發明的一個實施例中,所述的步驟s3中,所述的將企業標簽數據進行模型訓練,包括以下步驟:
19.步驟s301,將企業標簽數據作為結果集,利用nlp技術提取企業標簽數據的向量化數據;
20.步驟s302,結合結果集進行訓練集、驗證集和交叉驗證集的切割后,進行模型訓練。
21.本發明所述的一種基于nlp技術的企業自動打標簽模型生成系統,所述系統包括以下模塊:
22.抓取模塊,抓取互聯網企業信息,將其形成基礎數據源;
23.處理模塊,對基礎數據源進行相應處理,利用nlp技術從處理后的基礎數據源中提取企業關鍵信息;
24.模型模塊,結合企業原有的標簽數據,將企業關鍵信息和標簽數據進行模型訓練;
25.迭代模塊,結合模型訓練結果,調整模型參數和變更輸入數據,對模型進行多次迭代,生成訓練模型;
26.生成模塊,結合實際情況進行補充模型規則,生成自動打標簽模型。
27.本發明所述的一種電子設備,、包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
28.存儲器,用于存放計算機程序;
29.處理器,用于執行存儲器上所存放的程序時,實現上述方法中任一所述的方法步驟。
30.本發明所述的一種計算機可讀存儲介質,所述計算機可讀存儲介質內存儲有計算機程序,所述計算機程序被處理器執行時實現上述方法中任一所述的方法步驟。
31.本發明解決了現有打標簽方式由于依賴于人工,存在效率低、正確率低、人工成本高以及專家主觀因素占比過高的問題。具體有益效果包括:
32.1、本發明所述的一種基于nlp技術的企業自動打標簽模型生成方法,首先通過抓取企業基本信息,形成企業基本信息數據庫,通過數據清洗以及迭代的分詞方式,使用nlp技術進行關鍵數據提取,并且在中文文本向量化之前引入和專業詞匯加權的方式,使得數據模型計算更為精準。同時采用效果最好的模型計算方法,反復迭代訓練數據模型,最后增加業務規則模型,提供更滿足業務需求也更加精準的企業自動打標簽服務,從而有效的解決了現有打標簽方式由于依賴于人工,存在效率低、正確率低、人工成本高以及專家主觀因素占比過高的問題。
33.2、本發明所述的一種基于nlp技術的企業自動打標簽模型生成方法,企業基本信息數據進行數據清洗,去除數據中的干擾項,刪除部分不適合參與模型的數據字段,提高了數據的準確度。
34.3、本發明所述的一種基于nlp技術的企業自動打標簽模型生成方法,生成的訓練模型結合業務數據以及專家建議,建立規則模型,進行補充訓練模型,保證使用模型輸出的結果是滿足業務相關需要的。
附圖說明
35.本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
36.圖1是具體實施方式所述的一種基于nlp技術的企業自動打標簽模型生成方法流程圖。
37.圖2是具體實施方式所述的基礎數據模塊圖。
38.圖3是具體實施方式所述的企業基本信息數據處理流程圖。
具體實施方式
39.下面結合附圖將對本發明的多種實施方式進行清楚、完整地描述。通過參考附圖描述的實施例是示例性的,旨在用于解釋本發明,而不能理解為對本發明的限制。
40.本實施方式所述的一種基于nlp技術的企業自動打標簽模型生成方法,包括以下步驟:
41.步驟s1,抓取互聯網企業信息,將其形成基礎數據源;
42.步驟s2,對基礎數據源進行相應處理,利用nlp技術從處理后的基礎數據源中提取企業關鍵信息;
43.步驟s3,結合企業原有的標簽數據,將企業關鍵信息和標簽數據進行模型訓練;
44.步驟s4,結合模型訓練結果,調整模型參數和變更輸入數據,對模型進行多次迭代,生成訓練模型;
45.步驟s5,結合實際情況進行補充模型規則,生成自動打標簽模型。
46.本實施方式中,所述的步驟s1中,所述的抓取互聯網企業信息的方式包括網絡爬蟲采集和歷史企業標簽庫數據。
47.本實施方式中,所述的步驟s2中,所述的基礎數據源進行相應處理,包括以下步驟:
48.步驟s201,將基礎數據源中的數據進行數據清洗,去除數據中的干擾項;
49.步驟s202,將清洗后的基礎數據源中的數據進行分詞;
50.步驟s203,根據步驟s202分詞結果進行專業詞匯和停用詞匯的管理補充。
51.本實施方式中,所述的步驟s2中,所述的利用nlp技術從處理后的基礎數據源中提取企業關鍵信息的部分專業詞匯進行權重調整。
52.本實施方式中,所述的步驟s3中,所述的模型訓練采用xgboost算法。
53.本實施方式中,所述的步驟s3中,所述的將企業標簽數據進行模型訓練,包括以下步驟:
54.步驟s301,將企業標簽數據作為結果集,利用nlp技術提取企業標簽數據的向量化數據;
55.步驟s302,結合結果集進行訓練集、驗證集和交叉驗證集的切割后,進行模型訓練。
56.本實施方式所述的一種基于nlp技術的企業自動打標簽模型生成系統,所述系統包括以下模塊:
57.抓取模塊,抓取互聯網企業信息,將其形成基礎數據源;
58.處理模塊,對基礎數據源進行相應處理,利用nlp技術從處理后的基礎數據源中提取企業關鍵信息;
59.模型模塊,結合企業原有的標簽數據,將企業關鍵信息和標簽數據進行模型訓練;
60.迭代模塊,結合模型訓練結果,調整模型參數和變更輸入數據,對模型進行多次迭代,生成訓練模型;
61.生成模塊,結合實際情況進行補充模型規則,生成自動打標簽模型。
62.本實施方式所述的一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
63.存儲器,用于存放計算機程序;
64.處理器,用于執行存儲器上所存放的程序時,實現上述實施方式中任一所述的方法步驟。
65.本實施方式所述的一種計算機可讀存儲介質,所述計算機可讀存儲介質內存儲有計算機程序,所述計算機程序被處理器執行時實現上述實施方式中任一所述的方法步驟。
66.本實施方式基于本發明所述的一種基于nlp技術的企業自動打標簽模型生成方法,結合圖1能更好的理解本實施方式,提供一種實際的實施方式:
67.步驟s1:建立基礎數據源:抓取互聯網企業信息,形成基礎數據源;
68.步驟s2:提取關鍵信息:利用nlp技術進行企業關鍵信息提取;
69.步驟s3:初級模型訓練:結合標簽數據,進行模型訓練;
70.步驟s4:迭代模型:結合模型參數以及數據情況,對模型進行迭代;
71.步驟s5:補充模型規則:結合業務專家建議,補充模型規則;
72.步驟s6:生成最終自動打標簽模型。
73.基礎數據主要分為兩部分,第一是通過網絡爬蟲采集的企業基本信息數據,第二是歷史企業標簽庫數據。如圖2所示,然后通過nlp技術對相關企業基本信息進行分詞、關鍵信息提取以及向量化;結合公司原有的相關企業標簽數據,將相關關鍵信息和標簽數據訓練成模型;
74.企業基本信息數據是不能直接輸入到模型訓練的,如圖3所示,首先需要進行數據清洗,去除數據中的干擾項,刪除部分不適合參與模型的數據字段,提高數據的準確度;然后進行分詞,該部分是一個迭代的過程,需要根據分詞結果進行專業詞匯以及停用詞匯的管理補充;然后通過nlp技術提取各個行業的關鍵信息;然后適當調節部分專業詞匯的權重,使得數據更適用于模型計算,然后通過相關算法進行中文文本向量化。
75.企業信息打標簽本質上是一個多分類任務,所以這里采用xgboost算法進行模型訓練。將企業標簽數據作為結果集,利用nlp模塊提取的向量化數據,結合結果集進行訓練集、驗證集、交叉驗證集的切割,然后進行模型訓練;通過模型訓練結果,適當調參以及變更輸入數據,進行模型迭代,生成訓練模型。
76.結合業務數據以及專家建議,建立規則模型,進行補充訓練模型,保證使用模型輸出的結果是滿足業務相關需要的。最后提供模型服務,輸入是企業基本信息,輸出是企業標簽,完成企業自動化打標簽。
77.綜上,本發明首先是抓取企業基本信息,形成企業基本信息數據庫;通過數據清洗以及迭代的分詞方式,使用nlp技術進行關鍵數據提取,并且在中文文本向量化之前引入和
專業詞匯加權的方式,使得數據模型計算更為精準。同時采用效果最好的模型計算方法,反復迭代訓練數據模型;最后增加業務規則模型,提供更滿足業務需求也更加精準的企業自動打標簽服務。
78.以上對本發明所提出的一種基于nlp技術的企業自動打標簽模型生成方法、系統、設備以及存儲介質進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-14-1124-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-11-27 21:27:48

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
2人圍觀
參與討論