一種域名收集方法、裝置、設備及計算機可讀存儲介質與流程
1.本發明涉及通信技術領域,尤其是涉及一種域名收集方法、裝置、設備及計算機可讀存儲介質。
背景技術:
2.域名系統(domain name system)用于命名從組織到域等層次結構中的計算機和網絡服務。dns服務器可以為客戶端提供域名解析服務,將客戶端輸入的域名解析為該域名對應的ip地址,進而客戶端可以利用所述ip地址訪問所述域名對應的網站。
3.相關技術中,通常利用域名采集爬蟲對域名進行收集,網絡爬蟲是捜索引擎抓取系統的重要組成部分,爬蟲的主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份,在收集域名時,域名采集爬蟲能夠根據網頁內容將相關域名或子域名抓取存儲在本地。
4.針對上述中的相關技術,發明人發現:利用網絡爬蟲抓取域名容易出現遺漏的情況,對于未開放網頁,域名采集爬蟲無法獲取數據,也就無法進行域名的收集,導致了對域名收集時存在局限。
技術實現要素:
5.為了便于較為全面的收集域名,本技術提供了一種域名收集方法、裝置、設備及計算機可讀存儲介質。
6.第一方面,本技術提供的一種域名收集方法,采用如下的技術方案:一種域名收集方法,包括實時接收初始域名信息;對初始域名信息進行擴充,得到一個或多個相關域名;逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁,則獲取開放網頁的頁面響應信息,并將頁面響應信息儲存至數據存儲區;若為未開放網頁,則對相關域名進行解析,得到ip地址,并綁定相關域名與ip地址,將相關域名與ip地址的綁定關系儲存至數據存儲區。
7.通過采用上述技術方案,在對初始域名信息進行擴充后,逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁則能夠直接從開放網頁中獲取頁面響應信息,對頁面響應信息進行儲存,若為未開放網頁,則解析出相關域名對應的ip,將相關域名與ip地址的綁定關系進行儲存;從而對于相關域名真實存在,但未開放網頁的這部分相關域名,不會直接丟棄,而是綁定ip地址與相關域名進行儲存,進而實現了對初始域名信息的相關域名收集較為全面的效果。
8.可選的,所述將頁面響應信息儲存至數據存儲區之后還包括:判斷所述頁面響應信息中是否包含頁面域名信息,若是,則將頁面域名信息設置為初始域名信息。
9.通過采用上述技術方案,若頁面響應信息中包含頁面域名信息,將頁面域名信息
設置為初始域名信息,對頁面域名信息進行再一次的擴充、儲存,從而便于再次收集與初始域名信息相關的所有域名。
10.可選的,所述綁定相關域名與ip地址,將相關域名與ip地址的綁定關系儲存至數據存儲區具體包括:判斷ip地址是否存在開放的端口;若是,將相關域名與ip地址的端口綁定,并將相關域名與ip地址端口的綁定關系儲存至數據存儲區;若否,將相關域名與ip地址綁定,并將相關域名與ip地址的綁定關系儲存至數據存儲區。
11.通過采用上述技術方案,若與相關域名對應的ip地址中存在開放的端口,將相關域名與ip地址的端口綁定,并將相關域名與ip地址的綁定關系儲存在數據存儲區中,若與相關域名對應的ip地址中沒有開放的端口,則直接將相關域名與ip地址的綁定關系儲存至數據存儲區中,實現了對未開放網頁的相關域名進行儲存。
12.可選的,所述將相關域名與ip地址的端口綁定,并將相關域名與ip地址端口的綁定關系儲存至數據存儲區之后還包括:獲取ip地址端口的協議響應信息;判斷協議響應信息中是否存在協議域名信息,若存在,則將協議域名信息設置為初始域名信息。
13.通過采用上述技術方案,對于有開放端口的ip地址,獲取協議響應信息并判斷協議響應信息中是否存在協議域名信息,若存在,則將協議域名信息設置為初始域名信息,對協議域名信息進行擴充、儲存,從而使得對初始域名信息的相關域名進行了進一步的收集,從而使得收集的域名更加全面。
14.可選的,所述對初始域名信息進行擴充,得到一個或多個相關域名具體包括:將初始域名信息輸入至域名服務器、域名爆破工具或域名搜索引擎,查詢得到相關域名。
15.通過采用上述技術方案,通過域名服務器、域名爆破工具或域名搜索引擎多種工具,實現了對相關域名的查詢。
16.可選的,所述實時接收初始域名信息之后還包括:判斷初始域名信息是否有效,若否,丟棄初始域名數據。
17.通過采用上述技術方案,對初始域名信息進行篩選,對于無效的初始域名信息及時丟棄,節約程序運行時間。
18.可選的,所述對初始域名信息進行擴充,得到一個或多個相關域名之后還包括:判斷所述相關域名中是否存在泛域名,若存在,判斷所述泛域名的數量是否大于預設數量,若大于預設數量,則隨機選取預設數量的所述泛域名進行保留,若小于或等于預設數量,則保留全部所述泛域名;判斷相關域名中是否存在無效域名,若存在,則丟棄無效域名。
19.通過采用上述技術方案,對相關域名中泛域名進行選擇性地保留,對相關域名中無效域名進行舍棄,一方面減小了存儲至數據存儲區的數據量,另一方面,能夠為用戶篩選出有價值的信息。
20.第二方面,本技術提供的一種域名收集裝置,采用如下技術方案:一種域名收集裝置,包括數據接收單元、域名擴充單元、域名處理單元以及儲存單
元;所述數據接收單元,用于實時接收初始域名信息;所述域名擴充單元,用于對初始域名信息進行擴充,得到一個或多個相關域名;所述域名處理單元,用于逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁,則獲取開放網頁的頁面響應信息;若為未開放網頁,則對相關域名進行解析,得到ip地址,并綁定相關域名與ip地址;所述儲存單元,用于儲存頁面響應信息以及綁定的相關域名與ip地址。
21.通過采用上述技術方案,對初始域名信息進行擴充后,判斷得到的相關域名對應的網頁是否為開放網頁,若為開放網頁則儲存頁面響應信息,若為未開放網頁,則儲存相關域名與ip地址的對應關系,并且若ip地址有開放端口,還能夠獲取協議響應信息,對協議響應信息進行儲存,從而實現了較為全面的收集了初始域名信息的相關域名,不易由于相關域名對應的網頁未開放而丟棄、遺漏域名。
22.第三方面,本技術提供了一種計算機設備,采用如下技術方案:一種計算機設備,包括存儲器、處理器以及儲存在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行如第一方面中任一所述的一種域名收集方法。
23.第四方面,本技術提供了一種計算機可讀存儲介質,采用如下技術方案:一種計算機可讀存儲介質,包括存儲有能夠被處理器加載并執行如第一方面中任一種方法的計算機程序。
24.綜上所述,本技術包括以下有益技術效果:對初始域名信息進行擴充后,判斷得到的相關域名對應的網頁是否為開放網頁,對于開放網頁儲存頁面響應信息,對于未開放網頁儲存該相關域名與ip地址的對應關系,從而不易由于域名對應的網頁未開放而丟棄、遺漏域名,既能夠收集開放網頁的相關域名,也能夠收集到未開放網頁的相關域名,實現了較為全面收集與初始域名信息有關的域名的效果。
附圖說明
25.圖1是本技術其中一實施例域名收集方法的流程示意圖。
26.圖2是本技術其中一實施例對于開放網頁域名收集方法的流程示意圖。
27.圖3是本技術其中一實施例對于未開放網頁域名收集方法的流程示意圖。
28.圖4是本技術其中一實施例篩選相關域名的方法流程示意圖。
29.圖5是本技術實施例其中一實施例收集裝置的結構框圖。
30.附圖標記說明:1、數據接收單元;2、域名擴充單元;3、域名處理單元;4、儲存單元。
具體實施方式
31.為了使本技術的目的、技術方案及優點更加清楚明白,以下結合附圖1-5及實施例,對本技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本技術,并不用于限定本技術。
32.本技術實施例公開一種域名收集方法。參照圖1,一種域名收集方法包括:步驟s101:實時接收初始域名信息;
其中,初始域名信息可由用戶導入或系統自動導入。
33.步驟s102:對初始域名信息進行擴充,得到一個或多個相關域名。
34.其中,相關域名包括初始域名信息的子域名以及其他關聯域名。
35.步驟s103:逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁,執行步驟s104;若為未開放網頁,執行步驟s105。
36.其中,開放網頁是指輸入網址能夠正常顯示頁面的網頁。
37.步驟s104:獲取開放網頁的頁面響應信息,并將頁面響應信息儲存至數據存儲區。
38.其中,頁面響應信息至少包括ip地址、ip地址開放的端口、網頁響應頭信息、網頁響應體信息以及網頁證書。
39.具體地,網頁響應頭信息包括date(標識響應產生的時間)、last-modified(指定資源的最后修改時間)、content-encoding(指定響應內容的編碼)、server(服務器的名稱、版本號等信息)、content-type(返回數據的類型)以及expires(指定響應的過期時間)等;網頁響應體信息包括響應的正文數據,例如,請求網頁時,響應體為網頁的html代碼,請求圖片時,響應體為圖片的二進制數據。
40.步驟s105:對相關域名進行解析,得到ip地址,并綁定相關域名與ip地址,將相關域名與ip地址的綁定關系儲存至數據存儲區。
41.其中,數據存儲區中儲存的數據用于進行顯示,以便用戶查閱所需信息。
42.上述實施方式中,在對初始域名信息進行擴充后,逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁則能夠直接從開放網頁中獲取頁面響應信息,對頁面響應信息進行儲存即可,若為未開放網頁,則解析出相關域名對應的ip,將相關域名與ip地址的綁定關系進行儲存;對于相關域名真實存在,但未開放網頁的這部分數據,不會直接丟棄,而是綁定ip地址與相關域名進行儲存,從而實現了對初始域名信息的相關域名的收集較為全面的效果。
43.作為步驟s102的一種實施方式,步驟s102具體包括:將初始域名信息輸入至域名服務器、域名爆破工具或域名搜索引擎,查詢得到相關域名。
44.參照圖2,作為域名收集方法的進一步實施方式,在步驟s104之后還包括:步驟s1041:判斷頁面響應信息中是否包含頁面域名信息,若是,則執行步驟s1042,若否,則不執行操作。
45.步驟s1042:將頁面域名信息設置為初始域名信息。
46.其中,頁面域名信息包含在頁面響應信息中的網頁響應頭信息以及網頁響應體信息中,從網頁響應頭信息以及網頁響應體信息中進行搜索即可。
47.上述實施方式中,若頁面響應信息中包含頁面域名信息,將頁面域名信息設置為初始域名信息,此時頁面域名信息作為系統自動導入的初始域名信息重復執行步驟s101-步驟s105,對頁面域名信息中的相關域名進行收集,從而便于再次收集與初始域名信息相關的所有域名。
48.參照圖3,綁定相關域名與ip地址,將相關域名與ip地址的綁定關系儲存至數據存儲區具體包括,步驟s1051:判斷ip地址是否存在開放的端口;若是,執行步驟s1052,若否,執行步驟s1053。
49.步驟s1052:將相關域名與ip地址的端口綁定,并將相關域名與ip地址端口的綁定關系儲存至數據存儲區;需要說明的是,若相關域名對應的ip地址存在多個開放的端口,則將多個端口均與該相關域名進行綁定。
50.步驟s1053:將相關域名與ip地址綁定,并將相關域名與ip地址的綁定關系儲存至數據存儲區。
51.作為域名收集方法的進一步實施方式,在步驟s1052之后還包括:步驟s1054:獲取ip地址端口的協議響應信息;其中,協議響應信息包括證書和/或端口banner信息,banner信息包括軟件開發商、軟件名稱、服務類型、版本號等信息。
52.另外,將協議響應信息儲存至數據存儲區。
53.步驟s1055:判斷協議響應信息中是否存在協議域名信息,若存在,則執行步驟s1056。
54.步驟s1056:將協議域名信息設置為初始域名信息。
55.上述實施方式中,若與相關域名對應的ip地址中存在開放的端口,獲取ip地址端口的協議響應信息,將相關域名與ip地址的端口綁定,并將相關域名與ip地址的綁定關系和協議響應信息均儲存在數據存儲區中,便于對初始域名信息的未開放網頁的相關域名進行收集;判斷協議響應信息中是否存在協議域名信息,若存在,則將協議域名信息設置為初始域名信息,重復執行步驟s101-步驟s105,對初始域名信息的相關域名進行進一步收集,從而使得對初始域名信息收集的更加全面。
56.作為域名收集方法的進一步實施方式,步驟s101之后還包括:判斷初始域名信息是否有效,若否,丟棄初始域名數據。
57.其中,可通過域名存活測試檢測初始域名信息是否存活,若存活,則認為初始域名信息為有效,繼續執行下一步驟;否則,丟棄初始域名數據。
58.上述實施方式中,對初始域名信息進行篩選,對于無效的初始域名信息及時丟棄,節約程序運行時間。
59.參照圖4,作為域名收集方法的進一步實施方式,步驟s102之后還包括:步驟s1021:判斷相關域名中是否存在泛域名,若存在,執行步驟s1022。
60.其中,泛域名是指同一個根域名下,添加任意前綴都可以解析到相同的ip地址的域名,所以在判斷是否存在泛域名時,可采用任意添加次級域名的方式進行測試,或利用通配符*(星號)來做次級域名進行解析。
61.步驟s1022:判斷泛域名的數量是否大于預設數量,若是,則執行步驟s1023;若否,則執行步驟s1024。
62.其中,由于泛域名解析后,同一根域名下的泛域名對應的ip地址均相同,保留的預設數量的泛域名作為示例即可,預設數量可以是兩個、三個、四個或四個以上。
63.需要說明的是,在判斷泛域名的數量時,應分別判斷不同根域名下的泛域名數量是否大于預設數量,即每個根域名下,都至多保留預設數量個泛域名。
64.步驟s1023:隨機選取預設數量的泛域名進行保留。
65.步驟s1024:保留全部泛域名。
66.步驟s1025:判斷相關域名中是否存在無效域名,若存在,則執行步驟s1026。
67.步驟s1026:丟棄無效域名。
68.其中,無效域名是指不存活的域名。
69.上述實施方式中,對相關域名中泛域名進行選擇性的保留,對相關域名中無效域名進行舍棄,一方面減小了存儲至數據存儲區的數據量,減少可后續步驟的運算量,另一方面,能夠為用戶篩選出有價值的信息。
70.本技術實施例一種域名收集方法的實施原理為:對初始域名信息進行擴充后,判斷得到的相關域名對應的網頁是否為開放網頁,若為開放網頁則儲存頁面響應信息,若為未開放網頁,則儲存相關域名與ip地址的對應關系,并且若ip地址有開放端口,還能夠獲取協議響應信息,對協議響應信息進行儲存,從而實現了較為全面的收集了與初始域名信息有關的域名,不易由于域名對應的網頁未開放而丟棄、遺漏域名。
71.本技術實施例還公開一種域名收集裝置。
72.參照圖5,一種域名收集裝置還包括數據接收單元、域名擴充單元、域名處理單元以及儲存單元;數據接收單元1,用于實時接收初始域名信息;域名擴充單元2,用于對初始域名信息進行擴充,得到一個或多個相關域名;域名處理單元3,用于逐個判斷相關域名對應的網頁是否為開放網頁,若為開放網頁,則獲取開放網頁的頁面響應信息;若為未開放網頁,則對相關域名進行解析,得到ip地址,并綁定相關域名與ip地址;儲存單元4,用于儲存頁面響應信息以及綁定的相關域名與ip地址。
73.上述實施方式中,利用數據接收單元接收初始域名信息,利用域名擴充單元對域名進行擴充,利用域名處理單元對擴充得到的相關域名進行判斷,判斷相關域名是否為開放網頁,若為開放網頁,則儲存頁面響應信息,若為未開放網頁,則儲存相關域名與ip地址的綁定關系,從而使得開放網頁與未開放網頁相對應的相關域名均能夠得到保存,不易發生遺漏等情況,使得對初始域名信息的相關域名的查詢更加全面。
74.本發明實施例的一種域名收集裝置能夠實現上述收集方法的任一種方法,且一種域名收集裝置的具體工作過程可參考上述收集方法實施例中的對應過程。
75.本技術實施例還公開一種計算機設備。
76.一種計算機設備包括存儲器、處理器以及儲存在存儲器上并可在處理器上運行的計算機程序,處理器執行如上述一種域名收集方法。
77.本技術實施例還公開一種計算機可讀存儲介質。
78.一種計算機可讀存儲介質包括存儲有能夠被處理器加載并執行上述任一種域名收集方法的計算機程序。
79.在本發明所提供的幾個實施例中,應該理解到,所提供的方法和裝置,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的;例如,某個模塊的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。
80.以上均為本技術的較佳實施例,并非依此限制本技術的保護范圍,本說明書(包括摘要和附圖)中公開的任一特征,除非特別敘述,均可被其他等效或者具有類似目的的替代
特征加以替換。即,除非特別敘述,每個特征只是一系列等效或類似特征中的一個例子而已。
