基于眼動注意力的視覺信息識別方法、系統、介質及設備
1.本發明涉及視覺分析技術領域,尤其涉及一種基于眼動注意力的視覺信息識別方法、系統、介質及設備。
背景技術:
2.本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
3.隨著社會的逐漸發展,對視覺信息的分析帶來的巨大信息量在各個領域均得到了利用,因此對于視覺信息的準確性判別尤為重要。其中,眼動數據是視覺信息的一種重要來源。人的眼動數據可以體現出多種信息,通過對眼動數據的分析可以對包括抑郁癥在內的多種疾病提供幫助。抑郁癥是一種常見的精神疾病,它發作時會嚴重影響到患者的日常生活,甚至會導致自殺。而目前抑郁癥診斷方式大多很主觀,對于醫生的要求很高,且醫生的水平良莠不齊,抑郁癥誤判的可能就大幅上升。因此通過提取眼動數據里的特征,識別其表示的視覺信息,可以大大降低抑郁癥的誤判機率。
4.然而發明人發現,對眼動數據的提取通常的檢測方法是對數據直接進行預測。而因眼動數據數據量小但特征屬性又多,導致特征提取困難,或者提取的特征不能準確反應其含有的視覺信息,降低了檢測的準確度。
技術實現要素:
5.針對現有技術存在的不足,本發明的目的是提供一種基于眼動注意力的視覺信息識別方法、系統、介質及設備,可以提取眼動信息的注意力特征,并進一步在空間上提取空間注意力特征,在眼動數據有限的情況下,最大限度獲取特征中的重點信息,提高視覺信息識別的準確率。
6.為了實現上述目的,本發明是通過如下的技術方案來實現:
7.本發明第一方面提供了一種基于眼動注意力的視覺信息識別方法,包括以下步驟:
8.根據所需視覺信息確定眼動數據的特征屬性;
9.通過眼跳實驗獲得眼動數據,并對眼動數據進行篩選、配準和擬合;
10.基于注意力機制構建視覺信息識別模型,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估;
11.將待檢測數據輸入評估后的視覺信息識別模型,輸出視覺信息識別結果。
12.進一步的,眼跳實驗開始前采用九點校正法進行視線追蹤系統的校正。
13.進一步的,確定眼動數據的特征屬性具體步驟為,通過隨機森林選擇眼動數據的部分特征,根據隨機森林基尼系數進行排序,去除對所需目標分類影響較小或沒有影響的屬性。
14.進一步的,眼跳實驗分為正向眼跳和反向眼跳,正向眼跳為:首先,中央注視點顯
示在屏幕上,然后注視點點消失,目標刺激出現在中央注視點的左側或右側,要求受試者立即看向目標刺激出現的位置;
15.反向眼跳類似于正向眼跳實驗,但要求受試者向目標刺激出現的方向相反的方向看去。
16.進一步的,眼動數據進行篩選、配準和擬合的過程為:將每條實驗記錄空值超30%的數據刪除,并對剩余數據進行配準,經過數據配準后,將每次獨立實驗都看作為一個樣本,把每次獨立實驗的數據記錄的特征擬合成一條多維數據。
17.進一步的,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估的具體過程為:將眼動數據集分為訓練,測試,驗證數據集,全輸入到模型中去,用訓練集訓練模型,用驗證集驗證模型,不斷調整模型并選擇出其中最好的模型,再用訓練集和驗證集數據訓練出一個最終的模型,最后用測試集評估最終的模型。
18.進一步的,視覺信息識別模型包括多頭注意力單元,局部注意力(sa)單元以及加和(add)單元,多頭注意力單元由多個自注意力層堆疊而成,局部注意力單元將從多頭注意力單元獲取的輸出數據,輸入到一維卷積網絡,捕捉局部特征;加和單元用于將局部注意力單元輸出的注意力矩陣直接相加,得到最終的注意力矩陣,然后通過一個全連接層得到模型的結果。
19.本發明第二方面提供了一種基于眼動注意力的視覺信息識別系統,包括:
20.特征屬性模塊,被配置為根據所需視覺信息確定眼動數據的特征屬性;
21.數據獲取模塊,被配置為通過眼跳實驗獲得眼動數據,并對眼動數據進行篩選、配準和擬合;
22.模型構建模塊,被配置為基于注意力機制構建視覺信息識別模型,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估;
23.信息識別模塊,被配置為將待檢測數據輸入評估后的視覺信息識別模型,輸出視覺信息識別結果。
24.本發明第三方面提供了一種介質,其上存儲有程序,該程序被處理器執行時實現如本發明第一方面所述的基于眼動注意力的視覺信息識別方法中的步驟。
25.本發明第四方面提供了一種設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執行所述程序時實現如本發明第一方面所述的基于眼動注意力的視覺信息識別方法中的步驟。
26.以上一個或多個技術方案存在以下有益效果:
27.本技術方案提出了設置正向和反向眼跳實驗來檢測人們的反應,從而獲取眼動數據,并且提出了基于眼動注意力的視覺信息識別新方法。在此方法中將每個獨立實驗都作為一個樣本數據來處理。在本發明中,眼動數據經過處理后先進入多頭注意力單元計算眼動數據的自注意力權重執行第一階段的特征選擇,然后進入局部注意力單元,進一步提取局部注意力特征,獲取眼動數據重點信息,再通過加和單元加和數據信息,使得提取的特征更為全面更為準確,在眼動數據有限的情況下,最大限度獲取特征中的重點信息,更準確的進行視覺信息的檢測,該方法在實驗階段表現良好,在醫學等各個領域有著良好的應用前景。
28.本發明附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得
明顯,或通過本發明的實踐了解到。
附圖說明
29.構成本發明的一部分的說明書附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。
30.圖1為本發明實施例一中視覺信息識別的流程圖。
31.圖2為本發明實施例一中眼跳實驗示意圖;
32.圖3為本發明實施例一中構建視覺信息識別模型的流程圖;
具體實施方式
33.應該指出,以下詳細說明都是示例性的,旨在對本技術提供進一步的說明。除非另有指明,本文使用的所有技術和科學術語具有與本技術所屬技術領域的普通技術人員通常理解的相同含義。
34.需要注意的是,這里所使用的術語僅是為了描述具體實施方式,而非意圖限制根據本技術的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數形式也意圖包括復數形式,此外,還應當理解的是,當在本說明書中使用術語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合;
35.術語解釋:
36.注意力:源于對人類視覺的研究。在認知科學中,由于信息處理的瓶頸,人類會選擇性地關注所有信息的一部分,同時忽略其他可見的信息。為了合理利用有限的視覺信息處理資源,人類需要選擇視覺區域中的特定部分,然后集中關注它。例如,人們在閱讀時,通常只有少量要被讀取的詞會被關注和處理。在計算機領域,注意力核心重點就是讓學習網絡關注到它更需要關注的地方,是聚焦于局部信息的機制。
37.實施例一:
38.本發明實施例一提供了一種基于眼動注意力的視覺信息識別方法,本實施例以抑郁癥為例,對抑郁癥患者的視覺信息進行識別,如圖1所示,包括以下步驟:
39.根據所需視覺信息確定眼動數據的特征屬性,具體的,通過眼動儀提取的眼動數據包含瞳孔大小,位置,注視位置,角膜反射位置等50幾個數值特征,通過隨機森林選擇眼動數據的部分特征,根據隨機森林基尼系數進行排序,去除對所需目標分類影響較小或沒有影響的屬性。以抑郁癥患者的視覺信息為例,根據隨機森林基尼系數進行排序,去除對抑郁癥分類影響較小或沒有影響的屬性。
40.作為進一步的技術方案,眼跳實驗開始前采用九點校正法進行視線追蹤系統的校正,以獲取更為準確的實驗結果,采用時九點校正法時,在x和y軸的偏差小于0.5度視角。
41.先利用眼動儀獲取被試者在正向眼跳和反向眼跳實驗中的數據,眼跳實驗分為正向眼跳和反向眼跳,如圖1所示,正向眼跳為:首先,中央凝視點(白“+”)顯示在屏幕上,然后凝視點消失,目標刺激(綠點)出現在中心凝視點的左側或右側,要求受試者立即看向目標刺激出現的位置;
42.反向眼跳類似于正向眼跳實驗,但要求受試者向目標刺激出現的方向相反的方向看去。
43.通過眼跳實驗獲得眼動數據,并對眼動數據進行篩選、配準和擬合,將擬合后的數據作為數據集進行訓練評估。將每條實驗記錄空值超30%的數據刪除,并對剩余數據進行配準,經過數據配準后,將每次獨立實驗都看作為一個樣本,把每次獨立實驗的數據記錄的特征擬合成一條多維數據。
44.具體的,每次正反眼跳實驗會得到100條的眼動數據記錄,將每條實驗記錄空值超30%的數據刪除。經過數據配準后,正反眼跳分別得到2018個實驗記錄,又因為每人每次實驗都是一次獨立實驗,將每次獨立實驗都看作為一個樣本,把每次獨立實驗的100條數據記錄全部特征通過均值、最大值、最小值、方差、中位數、四分位(1/4,3/4)等方法擬合成一條162維的數據。最終,正反眼跳實驗分別得到2018*162的眼動數據。
45.基于注意力機制構建視覺信息識別模型,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估;將待檢測數據輸入評估后的視覺信息識別模型,輸出視覺信息識別結果。
46.作為進一步的技術方案,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估的具體過程為:將眼動數據集按6:2:2的比例分為訓練,測試,驗證數據集。全輸入到模型中去,用訓練集訓練模型,用驗證集驗證模型,根據情況不斷調整模型,選擇出其中最好的模型,再用訓練集和驗證集數據訓練出一個最終的模型,最后用測試集評估最終的模型。
47.視覺信息識別模型包括多頭注意力單元,局部注意力單元以及加和單元,多頭注意力單元由多個自注意力層堆疊而成,局部注意力單元將從多頭注意力單元獲取的輸出數據,輸入到一維卷積網絡,捕捉局部特征;加和單元用于將局部注意力單元輸出的注意力矩陣直接相加,得到最終的注意力矩陣,然后通過一個全連接層得到模型的結果。
48.作為進一步的技術方案,多頭注意力單元(multihead):顧名思義,它由多個自注意力層堆疊而成。其中自注意力就是就是把一個查詢q(query),一個k鍵和v值(key-value)的集合映射成一個輸出,輸出就是v的加權求和,其中分配給每個值的權重通過一個相關函數計算q與當前k的相關程度。
49.局部注意力單元:此單元的作用主要是提取空間上局部表達能力更強的特征。將從multihead單元獲取的輸出數據,輸入到兩層一維卷積網絡,捕捉局部特征。眼動注意力特征輸入到第一層卷積網絡后,輸出維度按比率縮小,經過relu函數激活后,再經過一層卷積變換為原來的維度。隨后對卷積過的的數據,每個特征點上的通道取最大值和平均值,壓縮通道獲取空間信息,將兩份數據進行堆疊,再經過一層一維卷積網絡學習空間注意力權重,最后通過sigmoid函數激活注意力權值。獲取注意力權值后,我們在這個基礎上再乘上原輸入特征,得到需要的注意力矩陣。此單元的表達式如下:其中,conv1、conv2和conv3分別表示第一、第二和第三層的一維卷積層。
50.cvs((mh)=conv2(relu(conv1(mh)))
51.catm=sigmoid(conv3(concat(mean(cvs),max(cvs))))
52.sa(mh)=mh*catm
53.加和單元:用于對編碼器(encoder)進行加和。將每個encoder單元輸出的注意力矩陣直接相加,得到最終的注意力矩陣,然后通過一個全連接層得到模型的結果。
54.實施例二:
55.本發明實施例二提供了一種基于眼動注意力的視覺信息識別系統,包括:
56.特征屬性模塊,被配置為根據所需視覺信息確定眼動數據的特征屬性;
57.數據獲取模塊,被配置為通過眼跳實驗獲得眼動數據,并對眼動數據進行篩選、配準和擬合;
58.模型構建模塊,被配置為基于注意力機制構建視覺信息識別模型,將擬合后的數據作為數據集對視覺信息識別模型進行訓練評估;
59.信息識別模塊,被配置為將待檢測數據輸入評估后的視覺信息識別模型,輸出視覺信息識別結果。
60.實施例三:
61.本發明實施例三提供了一種介質,其上存儲有程序,該程序被處理器執行時實現如本發明實施例一所述的基于眼動注意力的視覺信息識別方法中的步驟。
62.實施例四:
63.本發明實施例四提供了一種設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執行所述程序時實現如本發明實施例一所述的基于眼動注意力的視覺信息識別方法中的步驟。
64.以上實施例二、三和四的裝置中涉及的各步驟與方法實施例一相對應,具體實施方式可參見實施例一的相關說明部分。術語“計算機可讀存儲介質”應該理解為包括一個或多個指令集的單個介質或多個介質;還應當被理解為包括任何介質,所述任何介質能夠存儲、編碼或承載用于由處理器執行的指令集并使處理器執行本發明中的任一方法。
65.本領域技術人員應該明白,上述本發明的各模塊或各步驟可以用通用的計算機裝置來實現,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。本發明不限制于任何特定的硬件和軟件的結合。
66.上述雖然結合附圖對本發明的具體實施方式進行了描述,但并非對本發明保護范圍的限制,所屬領域技術人員應該明白,在本發明的技術方案的基礎上,本領域技術人員不需要付出創造性勞動即可做出的各種修改或變形仍在本發明的保護范圍以內。
