本文作者:kaifamei

抑郁情緒狀態數據獲取裝置、系統、方法和存儲介質與流程

更新時間:2025-12-28 03:05:50 0條評論

抑郁情緒狀態數據獲取裝置、系統、方法和存儲介質與流程



1.本技術涉及計算機數據處理技術領域,特別是涉及一種抑郁情緒狀態數據獲取裝置、系統、方法和存儲介質。


背景技術:



2.抑郁癥為一種常見心理疾病。根據世界衛生組織于2017年發布的《抑郁癥及其它常見精神障礙》(《depression and other common mental disorders》),全球有大概3.22億人受到抑郁癥干擾。根據2019年黃悅勤教授等發表的文章《中國精神疾病的流行:橫斷面流行病學研究》(《prevalence of mental disorders in china:across-sectional epidemiological study》),估計當前我國有超過9000萬人受到抑郁癥的影響。抑郁癥是全世界范圍內致殘的主要因素,并且是全球范圍內疾病負擔的主要因素。抑郁癥嚴重影響個人生活質量、精神狀態,但是當前環境下,誤診率高、復發率高,且缺乏足夠的經過充分訓練的相關醫師進行診斷、。
3.當前對抑郁癥的診斷主要根據臨床問卷、心理醫生的詢問觀察和測試者主觀描述,容易受到醫生的偏見和臨床經驗的影響,影響診斷的準確性;同時需要心理醫生付出大量時間進行診斷,效率較低。


技術實現要素:



4.基于此,有必要針對上述技術問題,提供一種高效率、能準確獲取目標用戶的抑郁情緒狀態數據的裝置、系統、方法和存儲介質。
5.一種抑郁情緒狀態數據獲取裝置,包括:總語音數據獲取模塊,用于獲取目標用戶朗讀指定語句形成的語音數據,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;總語音特征識別模塊,用于將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據;第一相似度確定模塊,用于根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。
6.在其中一個實施例中,所述裝置還包括模型訓練模塊,所述訓練模塊包括:訓練數據獲取單元,用于獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;特征預測單元,用于將所述兩個抑郁癥用戶的語音數據和所述兩個健康用戶的語音數據分別輸入至原始總語音特征識別模型,輸出對應的各總語音特征預測結果;計算單元,用于將各所述總語音特征預測結果代入預設的第一目標損失函數,得到第一損失函數值;參數調整單元,用于在所述第一損失函數值不滿足預設訓練停止條件時,調整所述原始總語音特征識別模型的模型參數,指示所述第一訓練數據獲取單元重新獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;訓練停止單元,用于在所述第一損失函數值滿足所述預設訓練停止
條件時,得到所述總語音特征識別模型。
7.在其中一個實施例中,所述裝置還包括第一特征參考數據獲取模塊,所述第一特征參考數據獲取模塊包括:第一總語音處理單元,用于將多個抑郁癥用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據;第一總均值計算單元,用于通過對所述多個抑郁癥用戶的總語音特征數據計算平均值的方式獲得所述抑郁癥用戶的總語音特征參考數據;第二總語音處理單元,用于將多個健康用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個健康用戶的總語音特征數據;第二總均值計算單元,用于通過對所述多個健康用戶的總語音特征數據計算平均值的方式獲得所述健康用戶的總語音特征參考數據。
8.在其中一個實施例中,所述裝置還包括第二特征參考數據獲取模塊,所述第二特征參考數據獲取模塊包括:第一向量集合確定單元,用于將多個抑郁癥用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據,以所述多個抑郁癥用戶的總語音特征數據作為第一向量集合;第一中間向量確定單元,用于確定在目標坐標系中,位于所述第一向量集合中所有向量的中間位置的第一標準向量,以所述第一標準向量作為所述抑郁癥用戶的總語音特征參考數據;第二向量集合確定單元,用于將多個健康用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個健康用戶的總語音特征數據,以所述多個健康用戶的總語音特征數據作為第二向量集合;第二中間向量確定單元,用于確定在目標坐標系中,位于所述第二向量集合中所有向量的中間位置的第二標準向量,以所述第二標準向量作為所述健康用戶的總語音特征參考數據。
9.在其中一個實施例中,所述第一相似度確定模塊根據確定所述第一相似度值;其中,alls表示所述第一相似度值,patternda表示所述抑郁癥用戶的總語音特征參考數據,patternha表示所述健康用戶的總語音特征參考數據,patterns表示所述目標用戶的總語音特征數據。
10.在其中一個實施例中,多個所述指定語句所具有的情緒刺激類型包括悲傷情緒刺激類型、中性情緒刺激類型和正性情緒刺激類型。
11.在其中一個實施例中,所述裝置還包括:細分語音特征識別模塊,用于按照所述指定語句所具有的情緒刺激類型將所述語音數據輸入對應的分語音特征識別模型,輸出所述目標用戶的與各情緒刺激類型對應的分語音特征數據;第二相似度確定模塊,用于分別根據相同情緒刺激類型對應的所述目標用戶的分語音特征數據和所述抑郁癥用戶的分語音特征參考數據,確定第二相似度值,所述第二相似度值為所述目標用戶的分語音特征數據和所述抑郁癥用戶的分語音特征參考數據的相似度值;第三相似度確定模塊,用于根據相同情緒刺激類型對應的所述目標用戶的分語音特征數據和所述健康用戶的分語音特征參考數據,確定第三相似度值,所述第三相似度值為所述目標用戶的分語音特征數據和所述健康用戶的分語音特征參考數據的相似度值;所述抑郁情緒狀態數據還包括所述第二相似度值和所述第三相似度值,或者還根據所述第二相似度值和第三相似度值確定。
12.在其中一個實施例中,所述特征預測單元還用于將所述兩個抑郁癥用戶的同類語音數據和所述兩個健康用戶的同類語音數據分別輸入至原始分語音特征識別模型,輸出對
應的各分語音特征預測結果;所述計算單元還用于將各所述分語音特征預測結果代入預設的第二目標損失函數,得到第二損失函數值;所述參數調整單元在所述第一損失函數值或者所述第二損失函數值不滿足預設訓練停止條件時,調整所述原始總語音特征識別模型的模型參數或者所述原始分語音特征識別模型的模型參數,指示所述第二訓練數據獲取單元重新獲取兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據;所述訓練停止單元在所述第一損失函數值和所述第二損失函數值均滿足預設訓練停止條件時,得到所述總語音特征識別模型和所述分語音特征識別模型。
13.在其中一個實施例中,所述裝置還包括第三特征參考數據獲取模塊,所述第三特征參考數據獲取模塊包括:抑郁癥用戶總語音特征獲取單元,用于將抑郁癥用戶的語音數據輸入所述總語音特征識別模型,輸出抑郁癥用戶的總語音特征數據;抑郁癥用戶分語音特征獲取單元,用于將對應于不同情緒刺激類型的抑郁癥用戶的語音數據輸入對應的分語音特征識別模型,輸出抑郁癥用戶的分語音特征數據;健康用戶總語音特征獲取單元,用于將健康用戶的語音數據輸入所述總語音特征識別模型,輸出健康用戶的總語音特征數據;健康用戶分語音特征獲取單元,用于將對應于不同情緒刺激類型的健康用戶的語音數據輸入對應的分語音特征識別模型,輸出健康用戶的分語音特征數據;全連接網絡模型訓練單元,用于將所述抑郁癥用戶的總語音特征數據、所述健康用戶的總語音特征數據、所述抑郁癥用戶的分語音特征數據和所述健康用戶的分語音特征數據作為訓練輸入值,訓練全連接網絡模型,獲得訓練完成的全連接網絡模型;模型參數提取單元,用于獲取所述訓練完成的全連接網絡模型的模型參數,根據所述模型參數,確定所述抑郁癥用戶的總語音特征參考數據、所述健康用戶的總語音特征參考數據、所述抑郁癥用戶的分語音特征參考數據和所述健康用戶的分語音特征參考數據。
14.一種抑郁情緒狀態數據獲取系統,包括服務器和終端;所述終端用于采集目標用戶朗讀指定語句形成的語音數據,將所述語音數據發送至所述服務器,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;所述服務器用于獲取終端發送的所述語音數據,將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據,根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。
15.一種抑郁情緒狀態數據獲取方法,包括:獲取目標用戶朗讀指定語句形成的語音數據,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據;根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。
16.一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:獲取目標用戶朗讀指定語句形成的語音數據,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;將所述語音數據輸入預設的總語
音特征識別模型,輸出所述目標用戶的總語音特征數據;根據所述目標用戶的總語音特征數據、預設的第一情緒狀態用戶的總語音特征參考數據和預設的第二情緒狀態用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述第一情緒狀態用戶的總語音特征參考數據的相似度值,所述目標用戶的情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。
17.上述抑郁情緒狀態數據獲取裝置、系統、方法和存儲介質,以目標用戶的語音數據作為總語音特征識別模型的輸入值,由于語音數據對應的指定語句具有不同的、確定的情緒刺激類型,具有先驗的、確定的語句內容,因此輸入目標用戶朗讀指定語句形成的語音數據能有效避免無意義的語音信息和環境噪音給神經網絡模型在進行特征提取的帶來影響,根據目標用戶的總語音特征數據與抑郁癥用戶的總語音特征參考數據、健康用戶的總語音特征參考數據綜合確定第一相似度值,由于數據處理過程不受人為判斷經驗的偏差影響,能準確地獲得目標用戶的抑郁情緒狀態數據,有利于提升抑郁癥診斷結果的準確度,且可以節省人工處理時間。
附圖說明
18.圖1為一個實施例中抑郁情緒狀態數據獲取裝置的功能模塊示意圖;
19.圖2為一個實施例中涉及模型訓練模塊的功能單元示意圖;
20.圖3為一個實施例中涉及第一特征參考數據獲取模塊的功能單元示意圖;
21.圖4為一個實施例中涉及細分語音特征識別模塊的示意圖;
22.圖5為一個實施例中涉及第二特征參考數據獲取模塊的功能單元示意圖;
23.圖6為一個實施例中涉及第三特征參考數據獲取模塊的功能單元示意圖;
24.圖7為一個實施例中抑郁情緒狀態數據獲取系統的示意圖;
25.圖8為一個實施例中計算機設備的內部結構圖。
具體實施方式
26.為了使本技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本技術進行進一步詳細說明。應當理解,此處描述的具體實施例僅僅用以解釋本技術,并不用于限定本技術。
27.本技術提供的抑郁情緒狀態數據獲取裝置,可以具有如圖1所示的功能模塊。在圖1中,抑郁情緒狀態數據獲取裝置100包括:
28.總語音數據獲取模塊101,用于獲取目標用戶朗讀指定語句形成的語音數據,指定語句的數量為多個,至少兩個指定語句具有不同的情緒刺激類型;
29.總語音特征識別模塊102,用于將語音數據輸入預設的總語音特征識別模型,輸出目標用戶的總語音特征數據;
30.第一相似度確定模塊103,用于根據目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,第一相似度值為目標用戶的總語音特征數據和抑郁癥用戶的總語音特征參考數據的相似度值,抑郁情緒狀態數據包括第一相似度值或者根據第一相似度值確定。
31.關于目標用戶、抑郁癥用戶和健康用戶。目標用戶是指待獲取抑郁情緒狀態數據
的用戶。在一些情況下,他人或者目標用戶自己可能希望借助抑郁情緒狀態數據了解目標用戶是否患上抑郁癥或具有抑郁癥傾向。抑郁癥用戶則是指被診斷出具有抑郁癥的人,健康用戶是指診斷結果為不具有抑郁癥的人。
32.關于目標用戶朗讀指定語句形成的語音數據。該語音數據與目標用戶朗讀的指定語句相對應,一般來說,目標用戶朗讀完一個指定語句后,便可以得到一段或一份音頻信息。在一些更具體的實施例中,可以將這些音頻信息直接作為語音數據,輸入預設的總語音特征識別模型;在另一些實施例中,則可以對音頻信息執行背景噪聲去除等預處理,進而得到預處理后的音頻信息作為語音數據,然后再輸入預設的總語音特征識別模型。需要注意的是,本文所說的朗讀,指的是通過發音來傳達指定語句的內容的動作。
33.關于指定語句和情緒刺激類型。指定語句是指具有固定內容和信息的語句,這些語句具有固定的、對應的情緒刺激類型,一個指定語句并不一定指其對應的文本內容只具有一個句號,也可以具有多個句號的。在一些更具體的實施例中,一個指定語句,可以指一段具有完整語義的語句。一般來說,指定語句的內容是預設的,目標用戶可以通過觀看界面或者聽取聲音等方式,獲得指定語句的內容。另外,一個指定語句,具有一種情緒刺激類型。情緒刺激類型,一般可以包括負性情緒刺激類型、正性情緒刺激類型和中性情緒刺激類型三種。具有不同的情緒刺激類型,一般指具有這三種類型中的兩種或更多。具有負性情緒刺激類型的指定語句,可以對普通人產生負性情緒的刺激效果,例如,當負性情緒刺激類型是悲傷情緒刺激類型時,對應的指定語句可以產生悲傷情緒的刺激效果,當負性情緒刺激類型是恐懼情緒刺激類型時,對應的指定語句可以產生恐懼情緒的刺激效果。具有正性情緒刺激類型的指定語句,可以對普通人產生正性情緒的刺激效果,例如當正性情緒刺激類型是高興情緒刺激類型時,對應的指定語句可以產生高興情緒的刺激效果。而具有中性情緒刺激類型的指定語句,則對普通人既不產生負性情緒的刺激效果,也不產生正性情緒的刺激效果。
34.為便于理解,在此列舉簡單示例,具有負性情緒刺激類型(如悲傷情緒刺激類型) 的指定語句的內容,可以是“剛剛,他不小心把自己最喜歡的花瓶給打碎了,在整理花瓶碎片的時候,又把手給割傷,出門去花店的路上,又突然下起了雷陣雨。”具有正性情緒刺激類型的指定語句的內容,可以是“今天天氣晴朗、陽光燦爛,我和幾個好友一起去踏青,路上遇到的人都言笑晏晏。”而具有中性情緒刺激類型的指定語句的內容,可以是“今天我看了一本書。”35.當然,情緒刺激類型也可以根據需要,按照科學的方法另行定義,其對應的指定語句內容也可以采用其他指定語句,在此不作特別限制。
36.本技術的方案,通過指定語句來限定語音數據的內容,可以使目標用戶朗讀的時長可控,進而使語音數據的大小可控;通過指定語句來限定語音數據的內容,也可以使內容質量可控。考慮到如果采取讓目標用戶回答問題或者聊天的方式來形成語音數據,則會由于用戶說話內容及時長具有不確定性而給語音數據大小及質量帶來不確定的影響,最終影響抑郁情緒狀態數據的準確性,因此本技術方案采取了讓目標用戶朗讀指定句子的方式形成語音數據。另外,具有不同情緒刺激類型的指定語句對應的語音數據具有較低的相關度,也有利于提升獲取抑郁情緒狀態數據的準確性。
37.關于總語音特征識別模型。總語音特征識別模型本質是一種神經網絡模型,它的
作用主要是從輸入的語音數據中,提取出能從總體上表示目標用戶的語音特征的數據,它的輸出值是總語音特征數據。不同情緒狀態的用戶,其語速、聲調等方面語音特征會有所不同,通過輸出總語音特征數據,便可以比較目標用戶的語音特征值與抑郁癥用戶的語音特征值或/和健康用戶的語音特征值之間的區別,從而有利于判斷目標用戶在抑郁情緒狀態方面的傾向。
38.關于第一相似度值。第一相似度值用于判斷目標用戶的情緒狀態的傾向。通過總語音特征識別模型,可以獲得目標用戶的總語音特征數據,根據目標用戶的總語音特征數據與預設的抑郁癥用戶的總語音特征參考數據、預設的健康用戶的總語音特征參考數據,可以確定第一相似度值,它能量化反映目標用戶的情緒狀態與抑郁癥用戶的情緒狀態的偏差。補充說明,預設的抑郁癥用戶的總語音特征參考數據、預設的健康用戶的總語音特征參考數據是兩組參考數據,它們分別用于量化抑郁癥用戶的情緒狀態和健康用戶的情緒狀態。這兩組參考數據的來源可以是多樣的,一般可以通過將抑郁癥用戶的語音數據、將健康用戶的語音數據輸入總語音特征識別模型而得到,但也不排除根據經驗進行設置、調整而得到的情況。
39.關于抑郁情緒狀態數據。本技術方案中,抑郁情緒狀態數據用于量化或反映目標用戶的情緒狀態與抑郁癥用戶的情緒狀態的偏差。在一些更具體的實施例中,可以對第一相似度值進行映射處理,確定目標用戶是否具有抑郁癥;當然,在一些實施例中,也可以根據第一相似度,判斷目標用戶的抑郁癥傾向程度。
40.上述抑郁情緒狀態數據獲取裝置,以具有不同的情緒刺激類型的指定語句對應的語音數據作為總語音特征識別模型的輸入值,使不同的輸入值具有較低關聯度,且不同情緒刺激類型的指定語句使使得輸入值的文件大小可控、內容質量可控,總體有利于獲得能準確反映出目標用戶語音特征的數據(即目標用戶的總語音特征數據);通過目標用戶的總語音特征數據與抑郁癥用戶的總語音特征參考數據、健康用戶的總語音特征參考數據確定第一相似度值,由于數據處理過程不受人為判斷經驗的偏差影響,能獲得準確的抑郁情緒狀態數據。
41.在一些實施例中,如圖2所示,抑郁情緒狀態數據獲取裝置100還包括模型訓練模塊201,模型訓練模塊201可以用于獲得總語音特征識別模型,模型訓練模塊201包括:
42.訓練數據獲取單元2011,用于獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;
43.特征預測單元2012,用于將兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據分別輸入至原始總語音特征識別模型,輸出對應的各總語音特征預測結果;
44.計算單元2013,用于將各總語音特征預測結果代入預設的第一目標損失函數,得到第一損失函數值;
45.參數調整單元2014,用于在第一損失函數值不滿足預設訓練停止條件時,調整原始總語音特征識別模型的模型參數,指示訓練數據獲取單元2011重新獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;
46.訓練停止單元2015,用于在第一損失函數值滿足預設訓練停止條件時,得到總語音特征識別模型。
47.上文中,“對應的各總語音特征預測結果”,是指抑郁癥用戶對應的總語音特征預
測結果和健康用戶對應的總語音特征預測結果。
48.第一目標損失函數,在不與本技術方案其他技術點沖突的前提下,可以采用現有技術中的一些損失函數,也可以采用下文特別列舉的損失函數。
49.預設訓練停止條件,包括第一損失函數值大于預設的第一損失閾值,第一損失閾值的具體取值,可以根據實際需要進行確定。
50.下文將以兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據對應的訓練語句具有三種情緒刺激類型的情況為例,進一步說明總語音特征識別模型的訓練過程。
51.當兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據對應的訓練語句具有三種情緒刺激類型時,這三種情緒刺激類型可以是正性情緒刺激類型、負性情緒刺激類型和中性情緒刺激類型。此時,第一損失函數值為la,第一損失函數值可以根據公式 (1)計算得到:
[0052][0053]
公式(1)中,α1可以取值-0.5,β1可以取值0.5,當然α1和β1也可以根據需要取其他的值。cosine()表示計算輸入值之間的余弦相似度值,例如 cosine(modela1(dp1,dn1,dz1),modela1(dp2,dn2,dz2))表示以modela1(dp1,dn1,dz1)和 modela1(dp2,dn2,dz2)作為輸入值,計算它們之間的余弦相似度值。dp1、dn1和 dz1分別表示第一個抑郁癥用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據;dp2、dn2和dz2分別表示第二個抑郁癥用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據;hp1、hn1和hz1分別表示第一個健康用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據;hp2、hn2和hz2分別表示第二個健康用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據。在訓練結束時,具有最新模型參數的原始總語音特征識別模型即被視為總語音特征識別模型。modela1()表示原始總語音特征識別模型,該模型的輸出值為對應的各總語音特征預測結果,具體地, modela1(dp1,dn1,dz1)表示以dp1、dn1和dz1作為輸入值,原始總語音特征識別模型輸出的第一個抑郁癥用戶的總語音特征預測結果;modela1(dp2,dn2,dz2)表示以dp2、 dn2和dz2作為輸入值,原始總語音特征識別模型輸出的第二個抑郁癥用戶的總語音特征預測結果;modela1(hp1,hn1,hz1)表示以hp1、hn1和hz1作為輸入值,原始總語音特征識別模型輸出的第一個健康用戶的總語音特征預測結果;modela1(hp2,hn2,hz2) 表示以hp2、hn2和hz2作為輸入值,原始總語音特征識別模型輸出的第二個健康用戶的總語音特征預測結果。
[0054]
需要注意,上下文提及的訓練語句,可以與目標用戶朗讀的指定語句內容一致,也可以不一致。訓練語句本質上也是一種具有特定內容的句子,供抑郁癥用戶或者健康用戶朗讀,這種句子也具有對應的情緒刺激類型。
[0055]
在其他一些實施例中,本領域技術人員可以依照相同原理,采用兩種情緒刺激類
型或者更多種情緒刺激類型的訓練語句所對應的語音數據進行訓練,即不排除其他一些實施例中,可以改變modela1()輸入值的種類或者數量來對總語音特征識別模型進行訓練。
[0056]
在一些實施例中,如圖3所示,抑郁情緒狀態數據獲取裝置100還包括第一特征參考數據獲取模塊301。第一特征參考數據獲取模塊301用于獲取抑郁癥用戶的總語音特征參考數據和健康用戶的總語音特征參考數據。第一特征參考數據獲取模塊301 包括:
[0057]
第一總語音處理單元3011,用于將多個抑郁癥用戶的語音數據,分別輸入總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據;
[0058]
第一總均值計算單元3012,用于通過對多個抑郁癥用戶的總語音特征數據計算平均值的方式獲得抑郁癥用戶的總語音特征參考數據;
[0059]
第二總語音處理單元3013,用于將多個健康用戶的語音數據,分別輸入總語音特征識別模型,輸出多個健康用戶的總語音特征數據;
[0060]
第二總均值計算單元3014,用于通過對多個健康用戶的總語音特征數據計算平均值的方式獲得健康用戶的總語音特征參考數據。
[0061]
第一特征參考數據獲取模塊301能獲取具有代表性的、能體現抑郁癥用戶總體語音特征的數據和健康用戶的總體語音特征的數據,這些數據即可以作為抑郁癥用戶的總語音特征參考數據和健康用戶的總語音特征參考數據。下文將以兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據對應的訓練語句具有三種情緒刺激類型的情況為例,進行展開說明。
[0062]
當抑郁癥用戶的語音數據和健康用戶的語音數據對應的訓練語句具有三種情緒刺激類型時,這三種情緒刺激類型可以是正性情緒刺激類型、負性情緒刺激類型和中性情緒刺激類型。此時,用patternda表示抑郁癥用戶的總語音特征參考數據,用 patternha表示健康用戶的總語音特征參考數據,patternda和patternha具體分別可以根據公式(2)和公式(3)計算得到。
[0063][0064][0065]
n為預設的正整數,m為預設的正整數,mean()表示對輸入值求取均值所得的結果,例如表示以作為輸入值,對該輸入值求取均值所得的結果。dpi、dni和dzi表示抑郁癥用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據;hpj、hnj和hzj表示健康用戶分別朗讀具有正性情緒刺激類型的訓練語句、具有負性情緒刺激類型的訓練語句和具有中性情緒刺激類型的訓練語句而形成的三個語音數據。modela()表示總語音特征識別模型;i、j分別表示當下輸入modela()的語音數據的批次。modela(dpi,dni,dzi)表示將dpi、dni 和dzi作為輸入值輸入總語音特征識別模型而得到的第i批次的抑郁癥用戶的總語音特征數據。modela(hpj,hnj,hzj)表示將hpj、hnj和hzj作為輸入值輸入總語音特征識別模型而得到的第j批次的健康用戶的總語音特征數據。
[0066]
在其他一些實施例中,本領域技術人員可以依照相同原理,采用兩種情緒刺激類型或者更多種情緒刺激類型的訓練語句所對應的語音數據進行訓練,即不排除其他一些實施例中,可以根據modela1()的輸入值的種類或者數量來確定modela()的輸入值的種類或者數量。
[0067]
在一些實施例中,第一相似度確定模塊103根據公式(4)確定第一相似度值:
[0068][0069]
其中,alls表示第一相似度值,patternda表示抑郁癥用戶的總語音特征參考數據,patternha表示健康用戶的總語音特征參考數據,patterns表示目標用戶的總語音特征數據。
[0070]
在一些實施例中,patterns=modela(sp,sn,sz),sp、sn和sz分別表示具有正性情緒刺激類型的目標用戶的語音數據、具有負性情緒刺激類型的目標用戶的語音數據和具有中性情緒刺激類型的目標用戶的語音數據。modela(sp,sn,sz)表示將sp、sn和sz 作為輸入值輸入總語音特征識別模型而得到的目標用戶的總語音特征數據。
[0071]
在一些實施例中,如圖4所示,抑郁情緒狀態數據獲取裝置100還包括:
[0072]
細分語音特征識別模塊401,用于按照指定語句所具有的情緒刺激類型將語音數據輸入對應的分語音特征識別模型,輸出目標用戶的與各情緒刺激類型對應的分語音特征數據;
[0073]
第二相似度確定模塊402,用于分別根據相同情緒刺激類型對應的目標用戶的分語音特征數據和抑郁癥用戶的分語音特征參考數據,確定第二相似度值,第二相似度值為目標用戶的分語音特征數據和抑郁癥用戶的分語音特征參考數據的相似度值;
[0074]
第三相似度確定模塊403,用于分別根據相同情緒刺激類型對應的目標用戶的分語音特征數據和健康用戶的分語音特征參考數據,確定第三相似度值,第三相似度值為目標用戶的分語音特征數據和健康用戶的分語音特征參考數據的相似度值;
[0075]
抑郁情緒狀態數據還包括第二相似度值和第三相似度值,或者還根據第二相似度值和第三相似度值確定。
[0076]
根據上文說明可知,抑郁情緒狀態數據獲取裝置除了獲取第一相似度值以外,還可以獲取第二相似度值和第三相似度值。第二相似度值和第三相似度值的意義在于,可以從具體方面的語音特征的角度,判斷目標用戶的情緒狀態的傾向。在這樣的前提下,目標用戶的抑郁情緒狀態數據可以同時包括第一相似度值、第二相似度值和第三相似度值,也可以是根據第一相似度值、第二相似度值和第三相似度值進行運算,得到的其他數值。在情緒刺激類型包括負性情緒刺激類型、正性情緒刺激類型和中性情緒刺激類型三種時,分語音特征識別模型將會有對應的三個類型,即下文提及的 modelb()、modelc()和modeld(),其中,modelb()用于表示以具有負性情緒刺激類型的語音數據為輸入值的分語音特征識別模型;modelc()用于表示以具有正性情緒刺激類型的語音數據作為輸入值的分語音特征識別模型;modeld()用于表示以具有中性情緒刺激類型的語音數據作為輸入值的分語音特征識別模型。
[0077]
在一些實施例中,多個指定語句所具有的情緒刺激類型包括悲傷情緒刺激類型、中性情緒刺激類型和正性情緒刺激類型。
[0078]
在一些實施例中,特征預測單元2012還用于將兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據分別輸入至原始分語音特征識別模型,輸出對應的各分語音特征預測結果;計算單元2013還用于將各分語音特征預測結果代入預設的第二目標損失函數,得到第二損失函數值;參數調整單元2014在第一損失函數值或者第二損失函數值不滿足預設訓練停止條件時,調整原始總語音特征識別模型的模型參數或者原始分語音特征識別模型的模型參數,指示第二訓練數據獲取單元重新獲取兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據;訓練停止單元2015在第一損失函數值和第二損失函數值均滿足預設訓練停止條件時,得到總語音特征識別模型和分語音特征識別模型。
[0079]
同類語音數據表示具有一種相同的情緒刺激類型的語音數據。當情緒刺激類型包括負性情緒刺激類型、正性情緒刺激類型和中性情緒刺激類型三種時,同類語音數據也對應地為三種。
[0080]
各分語音特征預測結果指的是各自的分語音特征預測結果。
[0081]
需要說明的是,分語音特征識別模型的訓練和前文描述的總語音特征識別模型的訓練在原理上可以是相同的,不同點在于,總語音特征識別模型的輸入值是兩種以上情緒刺激類型對應的語音數據,例如dpi、dni、dzi,而某一類的分語音特征識別模型的輸入值則是一種情緒刺激類型的語音數據。預設訓練停止條件,包括:第一損失函數值大于預設的第一損失閾值,且第二損失函數值大于預設的第二損失閾值。第一損失閾值和第二損失閾值的具體取值,可以根據實際需要進行確定。
[0082]
具體地,當兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據對應的訓練語句具有一種情緒刺激類型時,這一種情緒刺激類型可以是正性情緒刺激類型、負性情緒刺激類型或中性情緒刺激類型。此時,第二損失函數值為lx,可以根據公式(5)計算得到:
[0083][0084]
α2可以取值-0.5,β2可以取值0.5,當然α2和β2也可以根據需要取其他的值。 cosine()表示計算輸入值之間的余弦相似度值。dx1表示第一個抑郁癥用戶朗讀對應于某一種情緒刺激類型的訓練語句而形成的語音數據;dx2表示第二個抑郁癥用戶朗讀對應于上述的一種情緒刺激類型的訓練語句而形成的語音數據;hx1表示第一個健康用戶朗讀對應于上述的一種情緒刺激類型的訓練語句而形成的語音數據;hx2表示第二個健康用戶朗讀對應于上述的一種情緒刺激類型的訓練語句而形成的語音數據。由此可見,dx1與dx2屬于同類語音數據,hx1與hx2屬于同類語音數據。modelx1() 表示原始分語音特征識別模型,該模型的輸出值為對應的各分語音特征預測結果,具體地,modelx1(dx1)表示將dx1作為輸入值輸入原始分語音特征識別模型后,輸出的第一個抑郁癥用戶的分語音特征預測結果;modelx1(dx2)表示將dx2作為輸入值輸入原始分語音特征識別模型后,輸出的第二個抑郁癥用戶的分語音特征預測結果; modelx1(hx1)表示將hx1作為輸入值輸入原始分語音特征識別模型后,輸出的第一個健康用戶的分語音特征預測結果;modelx1(hx2)表示將hx2作為輸入值輸入原始分語音特征識別模型后,輸出的第二個健康用戶的分語音特征預測結果。
[0085]
在訓練結束時,具有最新模型參數的原始分語音特征識別模型即被視為分語音特征識別模型。
[0086]
更具體地,當上述的一種情緒刺激類型為負性情緒刺激類型時,對應的原始分語
音特征識別模型modelx1()為modelb1(),對應的第二損失函數值lx具體為lb,dx1、 dx2、hx1和hx2具體分別是dn1、dn2、hn1和hn2;當上述的一種情緒刺激類型為正性情緒刺激類型時,對應的原始分語音特征識別模型modelx1()為modelc1(),對應的第二損失函數值lx具體為lc,dx1、dx2、hx1和hx2具體分別是dp1、dp2、 hp1和hp2。當上述的一種情緒刺激類型為中性情緒刺激類型時,對應的原始分語音特征識別模型modelx1()為modeld1(),對應的第二損失函數值lx具體為ld,dx1、 dx2、hx1和hx2具體分別是dz1、dz2、hz1和hz2。
[0087]
當同類語音數據與負性情緒刺激類型的指定語句相對應時,抑郁癥用戶的分語音特征參考數據為patternnd,目標用戶的分語音特征數據為patternns,第二相似度值為 nds;當同類語音數據與負性情緒刺激類型的指定語句相對應時,抑郁癥用戶的分語音特征參考數據為patternpd,目標用戶的分語音特征數據為patternps,第二相似度值為pds;當同類語音數據與負性情緒刺激類型的指定語句相對應時,抑郁癥用戶的分語音特征參考數據為patternzd,目標用戶的分語音特征數據為patternzs,第二相似度值為zds。則可以根據公式(6)、公式(7)和公式(8)分別計算得到nds、pds和zds。
[0088]
nds=cosine(patternnd,patternns)
????????????
(6)
[0089]
pds=cosine(patternpd,patternps)
???????????????????
(7)
[0090]
zds=cosine(patternzd,patternzs)
????????????????????
(8)
[0091]
而patternnd、patternpd和patternzd則可以分別根據公式(9)、公式(10)和公式 (11)計算得到。
[0092][0093][0094][0095]
modelb()表示同類語音數據與負性情緒刺激類型的指定語句相對應時的分語音特征識別模型,也與modelb1()相對應;modelc()表示同類語音數據與正性情緒刺激類型的指定語句相對應時的分語音特征識別模型,也與modelc1()相對應。modeld() 表示同類語音數據與中性情緒刺激類型的指定語句相對應時的分語音特征識別模型,也與modeld1()相對應。modelb(dni)表示以dni作為輸入值輸入以具有負性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的抑郁癥用戶的分語音特征數據;modelc(dpi)表示以dpi作為輸入值輸入以具有正性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的抑郁癥用戶的分語音特征數據;modeld(dzi)表示以dzi作為輸入值輸入以具有中性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的抑郁癥用戶的分語音特征數據。關于cosine()、mean()以及dni等符號含義,可參見前文描述。在一些實施例中,patternns、patternps和patternzd則可以分別根據公式(12)、公式(13)和公式(14)計算得到。
[0096]
patternns=modelb(sn)
???????????????????????
(12)
[0097]
patternps=modelc(sp)
???????????????????????
(13)
[0098]
patternzs=modeld(sz)
????????????????????????
(14)
[0099]
關于sn、sp以及sz的含義,可參見前文描述。modelb(sn)表示以sn作為輸入值輸入以具有負性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的目標用戶的分語音特征數據;modelc(sp)表示以sp作為輸入值輸入以具有正性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的目標用戶的分語音特征數據; modeld(sz)表示以sz作為輸入值輸入以具有中性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的目標用戶的分語音特征數據。
[0100]
對應地,在一些實施例中,當同類語音數據與負性情緒刺激類型的指定語句相對應時,健康用戶的分語音特征參考數據為patternnh,目標用戶的分語音特征數據為 patternns,第三相似度值為nhs;當同類語音數據與負性情緒刺激類型的指定語句相對應時,健康用戶的分語音特征參考數據為patternph,目標用戶的分語音特征數據為patternps,第三相似度值為phs;當同類語音數據與負性情緒刺激類型的指定語句相對應時,健康用戶的分語音特征參考數據為patternzh,目標用戶的分語音特征數據為patternzs,第三相似度值為zhs。則可以根據公式(15)、公式(16)和公式(17)分別計算得到nhs、phs和zhs。
[0101]
nhs=cosine(patternnh,patternns)
???????????????????
(15)
[0102]
phs=cosine(patternph,patternps)
???????????????????
(16)
[0103]
zhs=cosine(patternzh,patternzs)
???????????????????
(17)
[0104]
而patternnh、patternph和patternzh則可以分別根據公式(18)、公式(19)和公式 (20)計算得到。
[0105][0106][0107][0108]
modelb(hnj)表示以hnj作為輸入值輸入以具有負性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的健康用戶的分語音特征數據;modelc(hpj)表示以hpj作為輸入值輸入以具有正性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的健康用戶的分語音特征數據;modeld(hzj)表示以hzj作為輸入值輸入以具有中性情緒刺激類型的語音數據為輸入值的分語音特征識別模型而輸出的健康用戶的分語音特征數據。關于其他參數、符號的含義,可參見前文描述。
[0109]
在一些實施例中,如圖5所示,抑郁情緒狀態數據獲取裝置100還包括第二特征參考數據獲取模塊501,第二特征參考數據獲取模塊501包括:
[0110]
第一向量集合確定單元5011,用于將多個抑郁癥用戶的語音數據,分別輸入總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據,以多個抑郁癥用戶的總語音特征數據作為第一向量集合;
[0111]
第一中間向量確定單元5012,用于確定在目標坐標系中,位于第一向量集合中所有向量的中間位置的第一標準向量,以第一標準向量作為抑郁癥用戶的總語音特征參考數據;
[0112]
第二向量集合確定單元5013,用于將多個健康用戶的語音數據,分別輸入總語音特征識別模型,輸出多個健康用戶的總語音特征數據,以多個健康用戶的總語音特征數據作為第二向量集合;
[0113]
第二中間向量確定單元5014,用于確定在目標坐標系中,位于第二向量集合中所有向量的中間位置的第二標準向量,以第二標準向量作為健康用戶的總語音特征參考數據。
[0114]
對應于圖5所示的實施例,patternda、patternha、patternnd、patternpd、 patternzd、patternnh、patternph和patternzh等參考數據的獲取方式是:在獲取抑郁癥用戶的總語音特征參考數據時,可以通過計算modela(dpi,dni,dzi),獲得多個抑郁癥用戶的總語音特征數據,以多個抑郁癥用戶的總語音特征數據作為第一向量集合,然后確定在目標坐標系中,位于第一向量集合中所有向量的中間位置的第一標準向量,以第一標準向量作為patternda。具體地,提供一個命名為compress()的函數, patternda可以根據公式(21)計算得到。
[0115]
patternda=compress({x|x=modela(dpi,dni,dzi)})
????
(21)
[0116]
compress()的原理是:以u作為第一向量集合進行輸入,在u中的每個向量元素長度相等,假設u的維數為v維。另外,提供一個標準正交基集合b,也是具有v維的向量,每個向量僅有一個位置為1,其余為0。提供一個用于表示目標向量在每個基向量組成的高維平面上的投影組成的集合r,假設x和y是u中所有向量在向量a和b 組成的高維平面上的投影的最外層的兩個投影向量,通過執行for(a,b)in b
×
b,a!= b,以及r

(x/|x|)+(y/|y|)與t=∑
a∈r
(a/|a|),以t/|t|作為compress()的返回值。其中,

表示把右邊的向量加入左邊的集合中。由此可知,patternha也可以根據上述原理求得,即:
[0117]
在獲取健康用戶的總語音特征參考數據時,可以通過計算modela(hpj,hnj,hzj),獲得多個健康用戶的總語音特征數據,以多個健康用戶的總語音特征數據作為第二向量集合,然后確定在目標坐標系中,位于第二向量集合中所有向量的中間位置的第二標準向量,以第二標準向量作為patternha,此時根據公式(22)可計算得到patternha。
[0118]
patternha=compress({x|x=modela(hpj,hnj,hzj)})
?????????
(22)
[0119]
依照該原理,可以根據公式(23)-公式(28)獲得其他的參考數據。
[0120]
patternnh=compress({x|x=modelb(hnj)})
?????????????????
(23)
[0121]
patternph=compress({x|x=modelc(hpj)})
?????????????????
(24)
[0122]
patternzh=compress({x|x=modeld(hzj)})
?????????????????
(25)
[0123]
patternnd=compress({x|x=modelb(dni)})
?????????????????
(26)
[0124]
patternpd=compress({x|x=modelc(dpi)})
?????????????????
(27)
[0125]
patternzd=compress({x|x=modeld(dzi)})
?????????????????
(28)
[0126]
在一些實施例中,如圖6所示,抑郁情緒狀態數據獲取裝置100還包括第三特征參考數據獲取模塊601,第三特征參考數據獲取模塊601用于獲取抑郁癥用戶的總語音特征參考數據、健康用戶的總語音特征參考數據、抑郁癥用戶的分語音特征參考數據和健康用戶的分語音特征參考數據。第三特征參考數據獲取模塊601包括:
[0127]
抑郁癥用戶總語音特征獲取單元6011,用于將抑郁癥用戶的語音數據輸入總語音特征識別模型,輸出抑郁癥用戶的總語音特征數據;
[0128]
抑郁癥用戶分語音特征獲取單元6012,用于將對應于不同情緒刺激類型的抑郁癥用戶的語音數據輸入對應的分語音特征識別模型,輸出抑郁癥用戶的分語音特征數據;
[0129]
健康用戶總語音特征獲取單元6013,用于將健康用戶的語音數據輸入總語音特征識別模型,輸出健康用戶的總語音特征數據;
[0130]
健康用戶分語音特征獲取單元6014,用于將對應于不同情緒刺激類型的健康用戶的語音數據輸入對應的分語音特征識別模型,輸出健康用戶的分語音特征數據;
[0131]
全連接網絡模型訓練單元6015,用于將抑郁癥用戶的總語音特征數據、健康用戶的總語音特征數據、抑郁癥用戶的分語音特征數據和健康用戶的分語音特征數據作為訓練輸入值,訓練全連接網絡模型,獲得訓練完成的全連接網絡模型;
[0132]
模型參數提取單元6016,用于獲取訓練完成的全連接網絡模型的模型參數,根據模型參數,確定抑郁癥用戶的總語音特征參考數據、健康用戶的總語音特征參考數據、抑郁癥用戶的分語音特征參考數據和健康用戶的分語音特征參考數據。
[0133]
此時,具體可以將modela(dpi,dni,dzi)、modela(hpj,hnj,hzj)、modelb(hnj)、 modelc(hpj)、modeld(hzj)、modelb(dni)、modelc(dpi)、modeld(dzi)八種類型的數據作為訓練輸入值,輸入到為全連接網絡模型,以訓練全連接網絡模型。前述八種類型的數據中,modela(dpi,dni,dzi)表示抑郁癥用戶的總語音特征數據, modela(hpj,hnj,hzj)表示健康用戶的總語音特征數據,modelb(hnj)、modelc(hpj)、 modeld(hzj)分別表示不同類型的健康用戶的分語音特征數據,modelb(dni)、 modelc(dpi)、modeld(dzi)分別表示不同類型的抑郁癥用戶的分語音特征數據。
[0134]
在完成全連接網絡模型訓練后,獲取模型參數;在模型參數中,提取出patternda、 patternha、patternnd、patternpd、patternzd、patternnh、patternph和patternzh 等八個參考數據。具體地,可以將訓練輸入值標準化,得到標準化后的向量,假設標準化后的向量有v維,則全連接網絡模型的模型參數m為v行8列的張量,因此可以采用函數softmax(q*m)進行分類,q為標準化后的向量所對應的類型,這些類型與前述八個參考數據相對應。分類目標為判斷訓練輸入值分別與哪個參考數據相對應。通過交叉熵函數作為損失函數進行反向梯度傳播計算,更新模型參數m,具體是使用 m/|m|來替換模型參數m,經過多輪訓練后,提取最新的模型參數m,其每一列數據即與為八個參考數據中的一個參考數據相對應。
[0135]
在一些實施例中,總語音特征識別模塊將語音數據輸入預設的總語音特征識別模型,獲得初始總語音特征數據,將初始總語音特征數據的尺寸值調整至預設尺寸值后,獲得目標用戶的總語音特征數據并輸出目標用戶的總語音特征數據。具體地,可以通過在總語音特征識別模型中設置自適應池化層對初始總語音特征數據的尺寸值進行調整。同理,細分語音特征識別模塊將指定語句所具有的情緒刺激類型將語音數據輸入對應的分語音特征識別模型,獲得目標用戶的與各情緒刺激類型對應的原始分語音特征數據,將各個原始分語音特征數據的尺寸值調整至預設尺寸值后,獲得目標用戶的與各情緒刺激類型對應的分語音特征數據,輸出目標用戶的與各情緒刺激類型對應的分語音特征數據。這樣,可以保證輸出的目標用戶的總語音特征數據和目標用戶的分語音特征數據的尺寸值保持一致。
[0136]
上述抑郁情緒狀態數據獲取裝置中的各個模塊可全部或部分通過軟件、硬件及其組合來實現。上述各模塊可以硬件形式內嵌于或獨立于計算機設備中的處理器中,也可以以軟件形式存儲于計算機設備中的存儲器中,以便于處理器調用執行以上各個模塊對應的
操作。
[0137]
在一些實施例中,提供了一種抑郁情緒狀態數據獲取系統,包括圖7所示的服務器701和終端702。其中,服務器701與終端702可通過網絡進行通信,終端702可以采集目標用戶的語音數據,然后發送給服務器701。其中,終端702可以但不限于是各種個人計算機、筆記本電腦、智能手機、平板電腦和便攜式可穿戴設備,服務器 701可以用獨立的服務器或者是多個服務器組成的服務器集來實現。
[0138]
在一些實施例中,終端702用于采集目標用戶朗讀指定語句形成的語音數據,將語音數據發送至服務器,其中,指定語句的數量為多個,至少兩個指定語句具有不同的情緒刺激類型;服務器701用于獲取終端發送的語音數據,將語音數據輸入預設的總語音特征識別模型,輸出目標用戶的總語音特征數據,根據目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,第一相似度值為目標用戶的總語音特征數據和抑郁癥用戶的總語音特征參考數據的相似度值,抑郁情緒狀態數據包括第一相似度值或者根據第一相似度值確定。
[0139]
在一些實施例中,終端702執行的采集目標用戶朗讀指定語句形成的語音數據的步驟,包括:提示當前指定語句的內容;在檢測到目標用戶的確認指令后,對目標用戶的聲音進行錄制,生成當前音頻信息;判斷當前音頻信息是否符合采集條件;當不符合采集條件時,則提示重新朗讀當前指定語句,然后返回執行檢測確認指令、生成當前音頻信息、判斷是否符合采集條件的步驟;當符合采集條件時,以最新生成的當前音頻信息作為語音數據。
[0140]
具體地,提示當前指定語句的內容和提示重新朗讀當前指定語句的方式,包括但不限于終端702通過顯示界面進行提示或者通過揚聲器進行提示。
[0141]
在一些實施例中,判斷當前音頻信息是否符合采集條件,包括:將當前音頻信息中對應于預設的錄制時長的內容轉換為文字信息,根據轉換是否成功,判斷是否符合采集條件;若轉換成功,則視為符合采集條件;若轉換失敗,則視為不符合采集條件。
[0142]
在一些實施例中,判斷當前音頻信息是否符合采集條件,包括:將當前音頻信息轉換為文字信息,根據文字信息與預設的當前指定語句的參考文本信息的相似度值判斷是否符合采集條件;若該相似度值小于預設的文本相似度值,則視為不符合采集條件;若該相似度值不小于預設的文本相似度值,則視為符合采集條件。
[0143]
在一些實施例中,終端702執行的采集目標用戶朗讀指定語句形成的語音數據的步驟,還包括:在提示當前指定語句的內容之前,提示測試句子的內容,測試句子為中性情緒刺激類型的句子;對目標用戶的測試聲音進行錄制,生成測試音頻信息;根據測試音頻信息獲得測試聲音的聲音特征值;在聲音特征值大于預設錄制閾值時,提示目標用戶調整發音。聲音特征值包括聲音振幅或語速。即,在正式進行語音數據采集之前,可以先設置一個初步測試階段,通過向目標用戶提示測試句子的內容,讓目標用戶朗讀測試句子,判斷目標用戶在朗讀時的聲音振幅或語速是否符合條件。目的是使目標用戶適應要求的朗讀節奏,使后續采集到的語音數據對應的朗讀時長、朗讀音量等參數保持在一定范圍之內。
[0144]
在一些實施例中,終端702采集目標用戶朗讀指定語句形成的語音數據后,發送給服務器701,服務器701通過執行抑郁情緒狀態數據獲取方法的步驟,獲得抑郁情緒狀態數據后,將抑郁情緒狀態數據發送給終端702,以供目標用戶查看,或者還可以發送給其他終端,供有需要的人進行查看。
[0145]
關于抑郁情緒狀態數據獲取系統的服務器701的更多具體限定可以參見上文中對于抑郁情緒狀態數據獲取裝置的限定,在此不再贅述。
[0146]
本技術還提供了一種抑郁情緒狀態數據獲取方法,以該方法應用于服務器701例進行說明,包括以下步驟:獲取目標用戶朗讀指定語句形成的語音數據,指定語句的數量為多個,至少兩個指定語句具有不同的情緒刺激類型;將語音數據輸入預設的總語音特征識別模型,輸出目標用戶的總語音特征數據;根據目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,第一相似度值為目標用戶的總語音特征數據和抑郁癥用戶的總語音特征參考數據的相似度值,抑郁情緒狀態數據包括第一相似度值或者根據第一相似度值確定。
[0147]
在一些實施例中,訓練總語音特征識別模型的步驟包括:獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;將兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據分別輸入至原始總語音特征識別模型,輸出對應的各總語音特征預測結果;將各總語音特征預測結果代入預設的第一目標損失函數,得到第一損失函數值;在第一損失函數值不滿足預設訓練停止條件時,調整原始總語音特征識別模型的模型參數,并返回執行獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據的步驟;在第一損失函數值滿足預設訓練停止條件時,得到總語音特征識別模型。
[0148]
在一些實施例中,抑郁情緒狀態數據獲取方法包括:將多個抑郁癥用戶的語音數據,分別輸入總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據;對多個抑郁癥用戶的總語音特征數據計算平均值的方式獲得抑郁癥用戶的總語音特征參考數據;將多個健康用戶的語音數據,分別輸入總語音特征識別模型,輸出多個健康用戶的總語音特征數據;對多個健康用戶的總語音特征數據計算平均值的方式獲得健康用戶的總語音特征參考數據。
[0149]
在一些實施例中,抑郁情緒狀態數據獲取方法包括:將多個抑郁癥用戶的語音數據,分別輸入總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據,以多個抑郁癥用戶的總語音特征數據作為第一向量集合;確定在目標坐標系中,位于第一向量集合中所有向量的中間位置的第一標準向量,以第一標準向量作為抑郁癥用戶的總語音特征參考數據;將多個健康用戶的語音數據,分別輸入總語音特征識別模型,輸出多個健康用戶的總語音特征數據,以多個健康用戶的總語音特征數據作為第二向量集合;確定在目標坐標系中,位于第二向量集合中所有向量的中間位置的第二標準向量,以第二標準向量作為健康用戶的總語音特征參考數據。
[0150]
在一些實施例中,根據公式(4)確定第一相似度值。
[0151]
在一些實施例中,抑郁情緒狀態數據獲取方法包括:按照指定語句所具有的情緒刺激類型將語音數據輸入對應的分語音特征識別模型,輸出目標用戶的與各情緒刺激類型對應的分語音特征數據;分別根據相同情緒刺激類型對應的目標用戶的分語音特征數據和抑郁癥用戶的分語音特征參考數據,確定第二相似度值,第二相似度值為目標用戶的分語音特征數據和抑郁癥用戶的分語音特征參考數據的相似度值;分別根據相同情緒刺激類型對應的根據目標用戶的分語音特征數據和健康用戶的分語音特征參考數據,確定第三相似度值,第三相似度值為目標用戶的分語音特征數據和健康用戶的分語音特征參考數據的相似度值;抑郁情緒狀態數據還包括第二相似度值和第三相似度值,或者還根據第二相似度
值和第三相似度值確定。
[0152]
在一些實施例中,分語音特征識別模型的訓練步驟包括:獲取兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據;將兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據分別輸入至原始分語音特征識別模型,輸出對應的各分語音特征預測結果;將各分語音特征預測結果代入預設的第二目標損失函數,得到第二損失函數值;在第一損失函數值或者第二損失函數值不滿足預設訓練停止條件時,調整原始總語音特征識別模型的模型參數或者原始分語音特征識別模型的模型參數,返回執行獲取兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據的步驟;在第一損失函數值和第二損失函數值均滿足預設訓練停止條件時,得到總語音特征識別模型和分語音特征識別模型。
[0153]
在一些實施例中,抑郁情緒狀態數據獲取方法包括:將抑郁癥用戶的語音數據輸入總語音特征識別模型,輸出抑郁癥用戶的總語音特征數據;將健康用戶的語音數據輸入總語音特征識別模型,輸出健康用戶的總語音特征數據;將對應于不同情緒刺激類型的抑郁癥用戶的語音數據輸入對應的分語音特征識別模型,輸出抑郁癥用戶的分語音特征數據;將對應于不同情緒刺激類型的健康用戶的語音數據輸入對應的分語音特征識別模型,輸出健康用戶的分語音特征數據;將抑郁癥用戶的總語音特征數據、健康用戶的總語音特征數據、抑郁癥用戶的分語音特征數據和健康用戶的分語音特征數據作為訓練輸入值,訓練全連接網絡模型,獲得訓練完成的全連接網絡模型;獲取訓練完成的全連接網絡模型的模型參數,根據模型參數,確定抑郁癥用戶的總語音特征參考數據、健康用戶的總語音特征參考數據、抑郁癥用戶的分語音特征參考數據和健康用戶的分語音特征參考數據。
[0154]
對于抑郁情緒狀態數據獲取方法中的技術特征的更多限定,可參見上文關于抑郁情緒狀態數據獲取裝置中相應模塊或單元的描述,在此不作贅述。
[0155]
在一些實施例中,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,在不同實施例中,計算機程序被處理器執行時分別對應地實現前文各實施例描述的、抑郁情緒狀態數據獲取裝置各功能模塊或功能單元執行的步驟。
[0156]
本領域普通技術人員可以理解實現抑郁情緒狀態數據獲取方法的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,前述的計算機程序可存儲于一非易失性計算機可讀取存儲介質中,該計算機程序在執行時,可包括如上述各方法的實施例的流程。其中,本技術所提供的各實施例中所使用的對存儲器、存儲、數據庫或其它介質的任何引用,均可包括非易失性和/或易失性存儲器。非易失性存儲器可包括只讀存儲器(rom)、可編程rom(prom)、電可編程rom(eprom)、電可擦除可編程rom(eeprom) 或閃存。易失性存儲器可包括隨機存取存儲器(ram)或者外部高速緩沖存儲器。作為說明而非局限,ram以多種形式可得,諸如靜態ram(sram)、動態ram(dram)、同步 dram(sdram)、雙數據率sdram(ddrsdram)、增強型sdram(esdram)、同步鏈路 (synchlink)dram(sldram)、存儲器總線(rambus)直接ram(rdram)、直接存儲器總線動態ram(drdram)、以及存儲器總線動態ram(rdram)等。
[0157]
在一些實施例中,提供了一種計算機設備,該計算機設備可以是服務器,其內部結構圖可以如圖8所示。該計算機設備包括通過系統總線連接的處理器、存儲器、網絡接口。其中,該計算機設備的處理器用于提供計算和控制能力。該計算機設備的存儲器包括非易失性存儲介質、內存儲器。該非易失性存儲介質存儲有操作系統、計算機程序。該內存儲器為
非易失性存儲介質中的操作系統和計算機程序的運行提供環境。該計算機設備的網絡接口用于與外部的終端通過網絡連接通信。在不同實施例中,該計算機程序被處理器執行時分別對應地實現前文各實施例描述的、抑郁情緒狀態數據獲取裝置各功能模塊或功能單元執行的步驟。
[0158]
以上實施例的各技術特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特征所有可能的組合都進行描述,然而,只要這些技術特征的組合不存在矛盾,都應當認為是本說明書記載的范圍。
[0159]
以上實施例僅表達了本技術的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本技術構思的前提下,還可以做出若干變形和改進,這些都屬于本技術的保護范圍。因此,本技術專利的保護范圍應以所附權利要求為準。

技術特征:


1.一種抑郁情緒狀態數據獲取裝置,其特征在于,所述裝置包括:總語音數據獲取模塊,用于獲取目標用戶朗讀指定語句形成的語音數據,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;總語音特征識別模塊,用于將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據;第一相似度確定模塊,用于根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。2.根據權利要求1所述的裝置,其特征在于,所述裝置還包括模型訓練模塊,所述模型訓練模塊包括:訓練數據獲取單元,用于獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;特征預測單元,用于將所述兩個抑郁癥用戶的語音數據和所述兩個健康用戶的語音數據分別輸入至原始總語音特征識別模型,輸出對應的各總語音特征預測結果;計算單元,用于將各所述總語音特征預測結果代入預設的第一目標損失函數,得到第一損失函數值;參數調整單元,用于在所述第一損失函數值不滿足預設訓練停止條件時,調整所述原始總語音特征識別模型的模型參數,指示所述第一訓練數據獲取單元重新獲取兩個抑郁癥用戶的語音數據和兩個健康用戶的語音數據;訓練停止單元,用于在所述第一損失函數值滿足所述預設訓練停止條件時,得到所述總語音特征識別模型。3.根據權利要求1所述的裝置,其特征在于,所述裝置還包括第一特征參考數據獲取模塊,所述第一特征參考數據獲取模塊包括:第一總語音處理單元,用于將多個抑郁癥用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據;第一總均值計算單元,用于通過對所述多個抑郁癥用戶的總語音特征數據計算平均值的方式獲得所述抑郁癥用戶的總語音特征參考數據;第二總語音處理單元,用于將多個健康用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個健康用戶的總語音特征數據;第二總均值計算單元,用于通過對所述多個健康用戶的總語音特征數據計算平均值的方式獲得所述健康用戶的總語音特征參考數據。4.根據權利要求1所述的裝置,其特征在于,所述裝置還包括第二特征參考數據獲取模塊,所述第二特征參考數據獲取模塊包括:第一向量集合確定單元,用于將多個抑郁癥用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個抑郁癥用戶的總語音特征數據,以所述多個抑郁癥用戶的總語音特征數據作為第一向量集合;第一中間向量確定單元,用于確定在目標坐標系中,位于所述第一向量集合中所有向
量的中間位置的第一標準向量,以所述第一標準向量作為所述抑郁癥用戶的總語音特征參考數據;第二向量集合確定單元,用于將多個健康用戶的語音數據,分別輸入所述總語音特征識別模型,輸出多個健康用戶的總語音特征數據,以所述多個健康用戶的總語音特征數據作為第二向量集合;第二中間向量確定單元,用于確定在目標坐標系中,位于所述第二向量集合中所有向量的中間位置的第二標準向量,以所述第二標準向量作為所述健康用戶的總語音特征參考數據。5.根據權利要求1所述的裝置,其特征在于,所述第一相似度確定模塊根據確定所述第一相似度值;其中,alls表示所述第一相似度值,patternda表示所述抑郁癥用戶的總語音特征參考數據,patternha表示所述健康用戶的總語音特征參考數據,patterns表示所述目標用戶的總語音特征數據。6.根據權利要求1所述的裝置,其特征在于,多個所述指定語句所具有的情緒刺激類型包括悲傷情緒刺激類型、中性情緒刺激類型和正性情緒刺激類型。7.根據權利要求2所述的裝置,其特征在于,所述裝置還包括:細分語音特征識別模塊,用于按照所述指定語句所具有的情緒刺激類型將所述語音數據輸入對應的分語音特征識別模型,輸出所述目標用戶的與各情緒刺激類型對應的分語音特征數據;第二相似度確定模塊,用于分別根據相同情緒刺激類型對應的所述目標用戶的分語音特征數據和所述抑郁癥用戶的分語音特征參考數據,確定第二相似度值,所述第二相似度值為所述目標用戶的分語音特征數據和所述抑郁癥用戶的分語音特征參考數據的相似度值;第三相似度確定模塊,用于分別根據相同情緒刺激類型對應的所述目標用戶的分語音特征數據和所述健康用戶的分語音特征參考數據,確定第三相似度值,所述第三相似度值為所述目標用戶的分語音特征數據和所述健康用戶的分語音特征參考數據的相似度值;所述抑郁情緒狀態數據還包括所述第二相似度值和所述第三相似度值,或者還根據所述第二相似度值和第三相似度值確定。8.根據權利要求7所述的裝置,其特征在于包括:所述特征預測單元還用于將所述兩個抑郁癥用戶的同類語音數據和所述兩個健康用戶的同類語音數據分別輸入至原始分語音特征識別模型,輸出對應的各分語音特征預測結果;所述計算單元還用于將各所述分語音特征預測結果代入預設的第二目標損失函數,得到第二損失函數值;所述參數調整單元在所述第一損失函數值或者所述第二損失函數值不滿足所述預設訓練停止條件時,調整所述原始總語音特征識別模型的模型參數或者所述原始分語音特征識別模型的模型參數,指示所述第二訓練數據獲取單元重新獲取兩個抑郁癥用戶的同類語音數據和兩個健康用戶的同類語音數據;
所述訓練停止單元在所述第一損失函數值和所述第二損失函數值均滿足所述預設訓練停止條件時,得到所述總語音特征識別模型和所述分語音特征識別模型。9.根據權利要求7所述的裝置,其特征在于,所述裝置還包括第三特征參考數據獲取模塊,所述第三特征參考數據獲取模塊包括:抑郁癥用戶總語音特征獲取單元,用于將抑郁癥用戶的語音數據輸入所述總語音特征識別模型,輸出抑郁癥用戶的總語音特征數據;抑郁癥用戶分語音特征獲取單元,用于將對應于不同情緒刺激類型的抑郁癥用戶的語音數據輸入對應的分語音特征識別模型,輸出抑郁癥用戶的分語音特征數據;健康用戶總語音特征獲取單元,用于將健康用戶的語音數據輸入所述總語音特征識別模型,輸出健康用戶的總語音特征數據;健康用戶分語音特征獲取單元,用于將對應于不同情緒刺激類型的健康用戶的語音數據輸入對應的分語音特征識別模型,輸出健康用戶的分語音特征數據;全連接網絡模型訓練單元,用于將所述抑郁癥用戶的總語音特征數據、所述健康用戶的總語音特征數據、所述抑郁癥用戶的分語音特征數據和所述健康用戶的分語音特征數據作為訓練輸入值,訓練全連接網絡模型,獲得訓練完成的全連接網絡模型;模型參數提取單元,用于獲取所述訓練完成的全連接網絡模型的模型參數,根據所述模型參數,確定所述抑郁癥用戶的總語音特征參考數據、所述健康用戶的總語音特征參考數據、所述抑郁癥用戶的分語音特征參考數據和所述健康用戶的分語音特征參考數據。10.一種抑郁情緒狀態數據獲取系統,其特征在于,包括服務器和終端;所述終端用于采集目標用戶朗讀指定語句形成的語音數據,將所述語音數據發送至所述服務器,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;所述服務器用于獲取終端發送的所述語音數據,將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據,根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。11.一種抑郁情緒狀態數據獲取方法,其特征在于,包括:獲取目標用戶朗讀指定語句形成的語音數據,所述指定語句的數量為多個,至少兩個所述指定語句具有不同的情緒刺激類型;將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據;根據所述目標用戶的總語音特征數據、預設的抑郁癥用戶的總語音特征參考數據和預設的健康用戶的總語音特征參考數據,確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值,所述抑郁情緒狀態數據包括所述第一相似度值或者根據所述第一相似度值確定。12.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求11所述的方法的步驟。

技術總結


本申請涉及一種抑郁情緒狀態數據獲取裝置、系統、方法和存儲介質。該裝置包括:總語音數據獲取模塊,用于獲取目標用戶朗讀指定語句形成的語音數據;總語音特征識別模塊,用于將所述語音數據輸入預設的總語音特征識別模型,輸出所述目標用戶的總語音特征數據;第一相似度確定模塊,用于確定第一相似度值,所述第一相似度值為所述目標用戶的總語音特征數據和所述抑郁癥用戶的總語音特征參考數據的相似度值。采用本裝置能夠能準確地獲得目標用戶的抑郁情緒狀態數據,且可以節省人工處理時間。且可以節省人工處理時間。且可以節省人工處理時間。


技術研發人員:

李岱 柏德祥 鄭芮

受保護的技術使用者:

阿呆科技(北京)有限公司

技術研發日:

2021.04.14

技術公布日:

2022/10/17


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-31659-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-12-11 12:52:13

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
2人圍觀
參與討論