基于隨機森林算法的網絡入侵檢測系統的制作方法
1.本發明屬于網絡安全技術領域,具體的,涉及一種基于隨機森林算法的網絡入侵檢測系統。
背景技術:
2.隨著現代網絡技術的快速發展,網絡入侵帶來的風險與損失也在逐漸變大,為了保護網絡信息安全,對網絡入侵進行檢測是一項非常重要的技術,其能夠降低網絡入侵帶來的損失,有利于網絡安全性的提升。
3.現有技術中,影響網絡入侵檢測的關鍵因素是檢測效率與檢測的準確率,如何提升網絡入侵檢測的效率與準確率是目前網絡安全技術的重要研究項目,為了解決上述問題,提供一種在保證檢測準確率的同時能夠顯著提升網絡檢測效率的方法,本發明提供了以下技術方案。
技術實現要素:
4.本發明的目的在于提供一種基于隨機森林算法的網絡入侵檢測系統,解決現有技術中網絡檢測效率與網絡入侵檢測準確度難以兼顧,影響網絡安全準確性的問題。
5.本發明的目的可以通過以下技術方案實現:
6.基于隨機森林算法的網絡入侵檢測系統,包括:
7.預處理單元,用于獲取網絡攻擊數據,并對其進行預處理,提取網絡攻擊數據的特征;
8.標簽對照單元,用于存儲更新個子數據集的特征標簽數據,還用于接收實時的測試數據的特征標簽,并對測試數據的特征標簽與子數據集的特征標簽進行對照分析,獲取兩者的重合度;
9.上述的基于隨機森林算法的網絡入侵檢測系統的工作方法包括步驟:
10.第一步,通過預處理單元獲取最近的z個網絡攻擊數據,并將采集的網絡攻擊數據作為訓練集,提取其中的特征后,根據特征不同生成若干個子數據集;
11.第二步,利用隨機森林模型對將上一步驟中處理得到的若干個子數據集分別進行訓練,從而得到對應的若干個網絡入侵檢測模型;
12.第三步,將目標數據輸入上一步驟中得到的對應網絡入侵檢測模型中對應的網絡入侵檢測模型進行網絡入侵檢測。
13.作為本發明的進一步方案,第三步中將目標數據輸入上一步驟中得到的對應網絡入侵檢測模型中對應的網絡入侵檢測模型進行網絡入侵檢測的具體方法為:首先確定測試數據所對應的網絡入侵檢測模型,然后將測試數據導入對應的網絡入侵檢測模型中進行測試,網絡入侵檢測模型預測其召回率與準確率,然后再根據召回率與準確率判斷是否存在網絡入侵。
14.作為本發明的進一步方案,第二步與第三步中確定測試數據所對應網絡入侵檢測
模型的方法為:
15.s1、將若干個子數據集依次標記為s1、s2、
……
、sk,其中k為子數據集的數量;
16.s2、獲取各子數據集的特征標簽,并將獲取的特征標簽存儲至標簽對照單元;
17.s3、當導入測試數據時,獲取測試數據的特征標簽,將該特征標簽導入標簽對照單元進行對比,獲取測試數據與各子數據集特征標簽的重合度c,所述重合度c的計算方法為c=c1/c2,其中c1為測試數據與各子數據集特征標簽的重合數量,c2為測試數據中的特征標簽的數量;
18.s4、根據公式p=|c-1|計算得到重合偏差值p,從而獲取各子數據集與測試數據之間的重合偏差值p,將各子數據集對應的重合偏差度按照從小到大的順序進行排序,從而得到p1、p2、
……
、pk;
19.若p1≥py,則認為對應測試數據不存在網絡入侵,py為預設值。
20.作為本發明的進一步方案,若p1<py,則按照p1至pk的順序選用對應子數據集對應的網絡入侵檢測模型來對測試數據進行測試,直至根據計算得到的召回率與準確率判斷對應測試數據不存在網絡入侵或者
21.測試所用網絡入侵檢測模型對應的pk1≥py成立時或者
22.根據計算得到的召回率與準確率判斷對應測試數據存在網絡入侵時,停止測試過程。
23.作為本發明的進一步方案,所述py取值為40%。
24.本發明的有益效果:
25.(1)本發明相較于現有技術中的測試方法,能夠對不同類型的網絡攻擊數據進行分別處理,簡化數據處理模型中樹的數量,提升處理效率,并且能夠對測試數據進行初步的識別,避免大量數據一一被導入網絡入侵檢測模型中進行測試過程,從而進一步有效的提升了數據處理效率。
具體實施方式
26.下面將對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
27.基于隨機森林算法的網絡入侵檢測系統,包括:
28.預處理單元,用于獲取網絡攻擊數據,并對其進行預處理,提取網絡攻擊數據的特征;
29.標簽對照單元,用于存儲更新個子數據集的特征標簽數據,還用于接收實時的測試數據的特征標簽,并對測試數據的特征標簽與子數據集的特征標簽進行對照分析,獲取兩者的重合度;
30.上述的基于隨機森林算法的網絡入侵檢測系統的工作方法包括步驟:
31.第一步,通過預處理單元獲取最近的z個網絡攻擊數據,并將采集的網絡攻擊數據作為訓練集,提取其中的特征后,根據特征不同生成若干個子數據集;
32.第二步,利用隨機森林模型對將上一步驟中處理得到的若干個子數據集分別進行
訓練,從而得到對應的若干個網絡入侵檢測模型;
33.第三步,將目標數據輸入上一步驟中得到的若干個網絡入侵檢測模型中對應的網絡入侵檢測模型進行網絡入侵檢測;
34.具體的,首先確定測試數據所對應的網絡入侵檢測模型,然后將測試數據導入上一步驟中得到的對應的網絡入侵檢測模型中進行測試,網絡入侵檢測模型預測其召回率與準確率,然后再根據召回率與準確率判斷是否存在網絡入侵。
35.在本發明的一個實施例中,第二步與第三步中確定測試數據所對應網絡入侵檢測模型的方法為:
36.s1、將若干個子數據集依次標記為s1、s2、
……
、sk,其中k為子數據集的數量,獲取各子數據集中網絡攻擊數據的數量,進而獲取各子數據集中網絡攻擊數據的數量占據網絡攻擊數據總量z的百分比b,將其依次表示為b1、b2、
……
、bk;
37.s2、獲取各子數據集的特征標簽,并將獲取的特征標簽存儲至標簽對照單元,需要注意的是,各子數據集的特征標簽可以重復,且一個子數據集具有多個特征標簽;
38.s3、當導入測試數據時,獲取測試數據的特征標簽,將該特征標簽導入標簽對照單元進行對比,獲取測試數據與各子數據集特征標簽的重合度c,所述重合度c的計算方法為c=c1/c2,其中c1為測試數據與各子數據集特征標簽的重合數量,c2為測試數據中的特征標簽的數量;
39.s4、根據公式p=|c-1|計算得到重合偏差值p,從而獲取各子數據集與測試數據之間的重合偏差值p,將各子數據集對應的重合偏差度按照從小到大的順序進行排序,從而得到p1、p2、
……
、pk;
40.若p1≥py,則認為對應測試數據不存在網絡入侵;
41.若p1<py,則進入步驟s5進行進一步判斷;
42.其中py為預設值,在本發明的一個實施例中,所述py取值為40%;
43.s5、按照p1至pk的順序選用對應子數據集對應的網絡入侵檢測模型來對測試數據進行測試,直至根據計算得到的召回率與準確率判斷對應測試數據不存在網絡入侵或者
44.測試所用網絡入侵檢測模型對應的pk1≥py成立時或者
45.根據計算得到的召回率與準確率判斷對應測試數據存在網絡入侵時,停止測試過程。
46.本發明相較于現有技術中的測試方法,能夠對不同類型的網絡攻擊數據進行分別處理,簡化數據處理模型中樹的數量,提升處理效率,并且能夠對測試數據進行初步的識別,避免大量數據一一被導入網絡入侵檢測模型中進行測試過程,從而進一步有效的提升了數據處理效率。
47.在說明書的描述中,參考術語“一個實施例”、“示例”、“具體示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
48.以上內容僅僅是對本發明所作的舉例和說明,所屬本技術領域的技術人員對所描述的具體實施例做各種各樣的修改或補充或采用類似的方式替代,只要不偏離發明或者超
越本權利要求書所定義的范圍,均應屬于本發明的保護范圍。
技術特征:
1.基于隨機森林算法的網絡入侵檢測系統,其特征在于,包括:預處理單元,用于獲取網絡攻擊數據,并對其進行預處理,提取網絡攻擊數據的特征;標簽對照單元,用于存儲更新個子數據集的特征標簽數據,還用于接收實時的測試數據的特征標簽,并對測試數據的特征標簽與子數據集的特征標簽進行對照分析,獲取兩者的重合度;上述的基于隨機森林算法的網絡入侵檢測系統的工作方法包括步驟:第一步,通過預處理單元獲取最近的z個網絡攻擊數據,并將采集的網絡攻擊數據作為訓練集,提取其中的特征后,根據特征不同生成若干個子數據集;第二步,利用隨機森林模型對將上一步驟中處理得到的若干個子數據集分別進行訓練,從而得到對應的若干個網絡入侵檢測模型;第三步,將目標數據輸入上一步驟中得到的對應網絡入侵檢測模型中對應的網絡入侵檢測模型進行網絡入侵檢測。2.根據權利要求1所述的基于隨機森林算法的網絡入侵檢測系統,其特征在于,第三步中將目標數據輸入上一步驟中得到的對應網絡入侵檢測模型中對應的網絡入侵檢測模型進行網絡入侵檢測的具體方法為:首先確定測試數據所對應的網絡入侵檢測模型,然后將測試數據導入對應的網絡入侵檢測模型中進行測試,網絡入侵檢測模型預測其召回率與準確率,然后再根據召回率與準確率判斷是否存在網絡入侵。3.根據權利要求2所述的基于隨機森林算法的網絡入侵檢測系統,其特征在于,第二步與第三步中確定測試數據所對應網絡入侵檢測模型的方法為:s1、將若干個子數據集依次標記為s1、s2、
……
、sk,其中k為子數據集的數量;s2、獲取各子數據集的特征標簽,并將獲取的特征標簽存儲至標簽對照單元;s3、當導入測試數據時,獲取測試數據的特征標簽,將該特征標簽導入標簽對照單元進行對比,獲取測試數據與各子數據集特征標簽的重合度c,所述重合度c的計算方法為c=c1/c2,其中c1為測試數據與各子數據集特征標簽的重合數量,c2為測試數據中的特征標簽的數量;s4、根據公式p=|c-1|計算得到重合偏差值p,從而獲取各子數據集與測試數據之間的重合偏差值p,將各子數據集對應的重合偏差度按照從小到大的順序進行排序,從而得到p1、p2、
……
、pk;若p1≥py,則認為對應測試數據不存在網絡入侵,py為預設值。4.根據權利要求3所述的基于隨機森林算法的網絡入侵檢測系統,其特征在于,若p1<py,則按照p1至pk的順序選用對應子數據集對應的網絡入侵檢測模型來對測試數據進行測試,直至根據計算得到的召回率與準確率判斷對應測試數據不存在網絡入侵或者測試所用網絡入侵檢測模型對應的pk1≥py成立時或者根據計算得到的召回率與準確率判斷對應測試數據存在網絡入侵時,停止測試過程。5.根據權利要求4所述的基于隨機森林算法的網絡入侵檢測系統,其特征在于,所述py取值為40%。
技術總結
本發明公開了一種基于隨機森林算法的網絡入侵檢測系統,屬于網絡安全技術領域,該系統包括預處理單元,用于獲取網絡攻擊數據,并對其進行預處理,提取網絡攻擊數據的特征;還包括標簽對照單元,用于存儲更新個子數據集的特征標簽數據,接收實時的測試數據的特征標簽,并對測試數據的特征標簽與子數據集的特征標簽進行對照分析,獲取兩者的重合度。相較于現有技術中的測試方法,能夠對不同類型的網絡攻擊數據進行分別處理,簡化數據處理模型中樹的數量,提升處理效率,并且能夠對測試數據進行初步的識別,避免大量數據一一被導入網絡入侵檢測模型中進行測試過程,從而進一步有效的提升了數據處理效率。提升了數據處理效率。
