本文作者:kaifamei

音頻情感識別方法、裝置、設備、存儲介質及產品與流程

更新時間:2025-12-25 08:01:40 0條評論

音頻情感識別方法、裝置、設備、存儲介質及產品與流程



1.本技術涉及計算機技術領域,特別涉及一種音頻情感識別方法、裝置、設備、存儲介質及產品。


背景技術:

2.隨著人工智能技術的不斷發展,情感識別在各領域中得到廣泛應用。
3.相關技術中,通過對音頻進行自動語音識別,可以得到音頻的轉錄文本,再根據轉錄文本的文本特征,即可識別出音頻中的情感信息。
4.相關技術中,音頻情感識別對自動語音識別精度的依賴程度較高,音頻情感識別的穩定性和準確性較低。


技術實現要素:

5.本技術實施例提供了一種音頻情感識別方法、裝置、設備、存儲介質及產品,能夠降低音頻情感識別對自動語音識別精度的依賴程度,并提升音頻情感識別的穩定性和準確性。
6.根據本技術實施例的一個方面,提供了一種音頻情感識別方法,所述方法包括:
7.獲取待處理音頻數據以及所述待處理音頻數據對應的音頻文本;
8.基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到所述待處理音頻數據對應的第一音頻特征和所述待處理音頻數據對應的第二音頻特征,所述第一音頻特征是基于所述待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的,所述第二音頻特征是基于所述音頻文本中每一語料單元對應的音頻表征數據融合生成的;
9.對所述第一音頻特征和所述第二音頻特征進行融合處理,得到所述待處理音頻數據對應的融合音頻特征;
10.基于所述融合音頻特征進行情感識別處理,得到所述待處理音頻數據對應的情感類型信息。
11.在一些可能的設計中,所述基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到所述待處理音頻數據對應的第一音頻特征和所述待處理音頻數據對應的第二音頻特征,包括:
12.基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到每一所述音頻幀對應的音頻表征數據,以及每一所述語料單元對應的音頻表征數據;
13.對每一所述音頻幀對應的音頻表征數據進行融合處理,得到所述第一音頻特征;
14.對每一所述語料單元對應的音頻表征數據進行融合處理,得到所述第二音頻特征。
15.在一些可能的設計中,所述基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到每一所述音頻幀對應的音頻表征數據,以及每一所述語料單元對應的音頻表征數據,包括:
16.對所述待處理音頻數據進行音頻特征提取處理,得到每一所述音頻幀對應的音頻表征數據;
17.對所述音頻文本進行文本特征提取處理,得到每一所述語料單元對應的文本表征數據;
18.基于每一所述音頻幀對應的音頻表征數據和每一所述語料單元對應的文本表征數據,進行跨模態特征對齊處理,得到每一所述語料單元對應的音頻表征數據。
19.在一些可能的設計中,所述基于每一所述音頻幀對應的音頻表征數據和每一所述語料單元對應的文本表征數據,進行跨模態特征對齊處理,得到每一所述語料單元對應的音頻表征數據,包括:
20.遍歷每一所述語料單元;
21.將遍歷到的語料單元對應的文本表征數據與每一所述音頻幀對應的音頻表征數據進行基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據;
22.響應于遍歷結束,得到每一所述語料單元對應的音頻表征數據。
23.在一些可能的設計中,所述將遍歷到的語料單元對應的文本表征數據與每一所述音頻幀對應的音頻表征數據進行基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據,包括:
24.將所述遍歷到的語料單元對應的文本表征數據作為檢索信息;
25.將每一所述音頻幀對應的音頻表征數據作為鍵信息和值信息;
26.基于所述檢索信息、所述鍵信息和所述值信息,進行所述基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據。
27.在一些可能的設計中,所述情感類型信息是目標情感識別模型根據所述待處理音頻數據和所述音頻文本輸出的模型識別結果,所述目標情感識別模型對應的訓練過程包括:
28.獲取樣本音頻數據、所述樣本音頻數據對應的樣本音頻文本以及所述樣本音頻數據對應的標簽信息;
29.將所述樣本音頻數據和所述樣本音頻文本輸入預設情感識別模型進行情感識別處理,得到所述樣本音頻數據對應的情感類型信息;
30.基于所述標簽信息和所述樣本音頻數據對應的情感類型信息,確定情感識別損失信息;
31.基于所述情感識別損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型。
32.在一些可能的設計中,所述預設情感識別模型包括音頻編碼器、文本編碼器、跨模態語義提取模型以及情感分類模型,所述將所述樣本音頻數據和所述樣本音頻文本輸入預設情感識別模型進行情感識別處理,得到所述樣本音頻數據對應的情感類型信息,包括:
33.將所述樣本音頻數據輸入所述音頻編碼器進行音頻特征提取處理,得到所述樣本音頻數據中每一樣本音頻幀對應的音頻表征數據;
34.將所述樣本音頻文本輸入所述文本編碼器進行文本特征提取處理,得到所述樣本音頻文本中每一樣本語料單元對應的文本表征數據;
35.將每一所述樣本音頻幀對應的音頻表征數據和每一樣本語料單元對應的文本表征數據輸入所述跨模態語義提取模型進行跨模態特征對齊處理,得到每一所述樣本語料單元對應的音頻表征數據;
36.對每一所述樣本音頻幀對應的音頻表征數據進行融合處理,得到所述樣本音頻數據對應的第三音頻特征;
37.對每一所述樣本語料單元對應的音頻表征數據進行融合處理,得到所述樣本音頻數據對應的第四音頻特征;
38.對所述第三音頻特征和所述第四音頻特征進行融合處理,得到所述樣本音頻數據對應的融合音頻特征;
39.將所述樣本音頻數據對應的融合音頻特征輸入所述情感分類模型進行情感分類處理,得到所述樣本音頻數據對應的情感類型信息。
40.在一些可能的設計中,所述基于所述情感識別損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型之前,還包括:
41.對每一所述樣本語料單元對應的文本表征數據進行融合處理,得到所述樣本音頻文本對應的文本特征;
42.基于所述文本特征和所述第四音頻特征,確定特征距離損失信息;
43.所述基于所述情感識別損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型,包括:
44.基于所述情感識別損失信息和所述特征距離損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型。
45.根據本技術實施例的一個方面,提供了一種音頻情感識別裝置,所述裝置包括:
46.音頻信息獲取模塊,用于獲取待處理音頻數據以及所述待處理音頻數據對應的音頻文本;
47.音頻特征提取模塊,用于基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到所述待處理音頻數據對應的第一音頻特征和所述待處理音頻數據對應的第二音頻特征,所述第一音頻特征是基于所述待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的,所述第二音頻特征是基于所述音頻文本中每一語料單元對應的音頻表征數據融合生成的;
48.音頻特征融合模塊,用于對所述第一音頻特征和所述第二音頻特征進行融合處理,得到所述待處理音頻數據對應的融合音頻特征;
49.音頻情感識別模塊,用于基于所述融合音頻特征進行情感識別處理,得到所述待處理音頻數據對應的情感類型信息。
50.在一些可能的設計中,所述音頻特征提取模塊,包括:
51.音頻表征子模塊,用于基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到每一所述音頻幀對應的音頻表征數據,以及每一所述語料單元對應的音頻表征數據;
52.表征數據融合子模塊,用于對每一所述音頻幀對應的音頻表征數據進行融合處理,得到所述第一音頻特征;
53.所述表征數據融合子模塊,還用于對每一所述語料單元對應的音頻表征數據進行
融合處理,得到所述第二音頻特征。
54.在一些可能的設計中,所述音頻表征子模塊,包括:
55.音頻幀表征單元,用于對所述待處理音頻數據進行音頻特征提取處理,得到每一所述音頻幀對應的音頻表征數據;
56.文本表征單元,用于對所述音頻文本進行文本特征提取處理,得到每一所述語料單元對應的文本表征數據;
57.跨模態特征對齊單元,用于基于每一所述音頻幀對應的音頻表征數據和每一所述語料單元對應的文本表征數據,進行跨模態特征對齊處理,得到每一所述語料單元對應的音頻表征數據。
58.在一些可能的設計中,所述跨模態特征對齊單元,包括:
59.語料單元遍歷子單元,用于遍歷每一所述語料單元;
60.特征交叉融合子單元,用于將遍歷到的語料單元對應的文本表征數據與每一所述音頻幀對應的音頻表征數據進行基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據;
61.音頻表征數據確定子單元,用于響應于遍歷結束,得到每一所述語料單元對應的音頻表征數據。
62.在一些可能的設計中,所述特征交叉融合子單元,具體用于:
63.將所述遍歷到的語料單元對應的文本表征數據作為檢索信息;
64.將每一所述音頻幀對應的音頻表征數據作為鍵信息和值信息;
65.基于所述檢索信息、所述鍵信息和所述值信息,進行所述基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據。
66.在一些可能的設計中,所述情感類型信息是目標情感識別模型根據所述待處理音頻數據和所述音頻文本輸出的模型識別結果,所述目標情感識別模型對應的訓練裝置包括:
67.訓練數據獲取模塊,用于獲取樣本音頻數據、所述樣本音頻數據對應的樣本音頻文本以及所述樣本音頻數據對應的標簽信息;
68.情感類型識別模塊,用于將所述樣本音頻數據和所述樣本音頻文本輸入預設情感識別模型進行情感識別處理,得到所述樣本音頻數據對應的情感類型信息;
69.識別損失確定模塊,用于基于所述標簽信息和所述樣本音頻數據對應的情感類型信息,確定情感識別損失信息;
70.模型參數調整模塊,用于基于所述情感識別損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型。
71.在一些可能的設計中,所述預設情感識別模型包括音頻編碼器、文本編碼器、跨模態語義提取模型以及情感分類模型,所述情感類型識別模塊,包括:
72.音頻幀表征單元,用于將所述樣本音頻數據輸入所述音頻編碼器進行音頻特征提取處理,得到所述樣本音頻數據中每一樣本音頻幀對應的音頻表征數據;
73.文本表征單元,用于將所述樣本音頻文本輸入所述文本編碼器進行文本特征提取處理,得到所述樣本音頻文本中每一樣本語料單元對應的文本表征數據;
74.跨模態特征對齊單元,用于將每一所述樣本音頻幀對應的音頻表征數據和每一樣
本語料單元對應的文本表征數據輸入所述跨模態語義提取模型進行跨模態特征對齊處理,得到每一所述樣本語料單元對應的音頻表征數據;
75.表征數據融合單元,用于對每一所述樣本音頻幀對應的音頻表征數據進行融合處理,得到所述樣本音頻數據對應的第三音頻特征;
76.所述表征數據融合單元,還用于對每一所述樣本語料單元對應的音頻表征數據進行融合處理,得到所述樣本音頻數據對應的第四音頻特征;
77.音頻特征融合單元,用于對所述第三音頻特征和所述第四音頻特征進行融合處理,得到所述樣本音頻數據對應的融合音頻特征;
78.情感分類單元,用于將所述樣本音頻數據對應的融合音頻特征輸入所述情感分類模型進行情感分類處理,得到所述樣本音頻數據對應的情感類型信息。
79.在一些可能的設計中,所述訓練裝置還包括:
80.文本特征確定模塊,用于對每一所述樣本語料單元對應的文本表征數據進行融合處理,得到所述樣本音頻文本對應的文本特征;
81.距離損失確定模塊,用于基于所述文本特征和所述第四音頻特征,確定特征距離損失信息;
82.所述模型參數調整模塊,具體用于基于所述情感識別損失信息和所述特征距離損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型。
83.根據本技術實施例的一個方面,提供了一種計算機設備,所述計算機設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執行以實現上述音頻情感識別方法。
84.根據本技術實施例的一個方面,提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執行以實現上述音頻情感識別方法。
85.根據本技術實施例的一個方面,提供了一種計算機程序產品,所述計算機程序產品包括計算機指令,所述計算機指令存儲在計算機可讀存儲介質中。計算機設備的處理器從計算機可讀存儲介質讀取所述計算機指令,所述處理器執行所述計算機指令,使得所述計算機設備執行以實現上述音頻情感識別方法。
86.本技術實施例提供的技術方案可以帶來如下有益效果:
87.通過對待處理音頻數據及其對應的音頻文本進行特征提取處理,可以得到基于待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的第一音頻特征,以及基于音頻文本中每一語料單元對應的音頻表征數據融合生成的第二音頻特征,通過融合上述第一音頻特征和第二音頻特征,即可得到融合有每一音頻幀對應的特征信息以及每一語料單元對應的特征信息的融合音頻特征,此種融合方式下,既能將每一語料單元對應的特征信息融入到特征中,又避免了直接融合每一語料單元的文本特征進入特征中,有效降低了音頻情感識別對自動語音識別精度的依賴程度,基于該融合音頻特征進行情感識別處理可以使得情感識別處理的穩定性更強,識別出的情感類型信息也更加準確,提升了音頻情感識別的穩定性和準確性。
附圖說明
88.為了更清楚地說明本技術實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
89.圖1是本技術一個實施例提供的應用程序運行環境的示意圖;
90.圖2示例性示出了一種情感分析界面的示意圖;
91.圖3示例性示出了一種從語音中挖掘有效語義信息的情感識別流程示意圖;
92.圖4是本技術一個實施例提供的音頻情感識別方法的流程圖一;
93.圖5是本技術一個實施例提供的音頻情感識別方法的流程圖二;
94.圖6是本技術一個實施例提供的音頻情感識別方法的流程圖三;
95.圖7是本技術一個實施例提供的音頻情感識別方法的流程圖四;
96.圖8示例性示出了一種基于情感識別模型進行語音情感識別的流程示意圖;
97.圖9是本技術一個實施例提供的情感識別模型訓練方法的流程圖一;
98.圖10是本技術一個實施例提供的情感識別模型訓練方法的流程圖二;
99.圖11示例性示出了一種預設情感識別模型的模型結構圖;
100.圖12示例性示出了一種基于預設情感識別模型進行情感識別的數據流向圖;
101.圖13是本技術一個實施例提供的音頻情感識別裝置的框圖;
102.圖14是本技術一個實施例提供的計算機設備的結構框圖一;
103.圖15是本技術另一個實施例提供的計算機設備的結構框圖二。
具體實施方式
104.本技術實施例提供的音頻情感識別方法涉及云技術和人工智能技術,下面對此進行簡要說明,以便于本領域技術人員理解。
105.云技術(cloud technology)是指在廣域網或局域網內將硬件、軟件、網絡等系列資源統一起來,實現數據的計算、儲存、處理和共享的一種托管技術。
106.云技術基于云計算商業模式應用的網絡技術、信息技術、整合技術、管理平臺技術、應用技術等的總稱,可以組成資源池,按需所用,靈活便利。云計算技術將變成重要支撐。技術網絡系統的后臺服務需要大量的計算、存儲資源,如視頻網站、圖片類網站和更多的門戶網站。伴隨著互聯網行業的高度發展和應用,將來每個物品都有可能存在自己的識別標志,都需要傳輸到后臺系統進行邏輯處理,不同程度級別的數據將會分開處理,各類行業數據皆需要強大的系統后盾支撐,只能通過云計算來實現。
107.云計算(cloud computing)是一種計算模式,它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和信息服務。提供資源的網絡被稱為“云”。“云”中的資源在使用者看來是可以無限擴展的,并且可以隨時獲取,按需使用,隨時擴展,按使用付費。
108.作為云計算的基礎能力提供商,會建立云計算資源池(簡稱云平臺,一般稱為iaas(infrastructure as a service,基礎設施即服務)平臺,在資源池中部署多種類型的虛擬資源,供外部客戶選擇使用。云計算資源池中主要包括:計算設備(為虛擬化機器,包含操作
系統)、存儲設備、網絡設備。
109.按照邏輯功能劃分,在iaas(infrastructure as a service,基礎設施即服務)層上可以部署paas(platform as a service,平臺即服務)層,paas層之上再部署saas(software as a service,軟件即服務)層,也可以直接將saas部署在iaas上。paas為軟件運行的平臺,如數據庫、web容器等。saas為各式各樣的業務軟件,如web門戶網站、短信發器等。一般來說,saas和paas相對于iaas是上層。
110.在本技術實施例中,情感識別處理的主要邏輯可以在云端部署,終端可將音頻發送至云端,云端服務器可將識別結果返回給終端,降低終端運行壓力。
111.人工智能(artificial intelligence,ai)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。換句話說,人工智能是計算機科學的一個綜合技術,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器。人工智能也就是研究各種智能機器的設計原理與實現方法,使機器具有感知、推理與決策的功能。
112.人工智能技術是一門綜合學科,涉及領域廣泛,既有硬件層面的技術也有軟件層面的技術。人工智能基礎技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理技術、操作/交互系統、機電一體化等技術。人工智能軟件技術主要包括計算機視覺技術、語音處理技術、自然語言處理技術以及機器學習/深度學習等幾大方向。
113.語音技術(speech technology)的關鍵技術有自動語音識別技術(automatic speech recognition,asr)和語音合成技術(text to speech,tts)以及聲紋識別技術。讓計算機能聽、能看、能說、能感覺,是未來人機交互的發展方向,其中語音成為未來最被看好的人機交互方式之一。
114.自然語言處理(nature language processing,nlp)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系。自然語言處理技術通常包括文本處理、語義理解、機器翻譯、機器人問答、知識圖譜等技術。
115.機器學習(machine learning,ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。機器學習和深度學習通常包括人工神經網絡、置信網絡、強化學習、遷移學習、歸納學習、式教學習等技術。
116.隨著人工智能技術研究和進步,人工智能技術在多個領域展開研究和應用,例如常見的智能教育、智能家居、智能穿戴設備、虛擬助理、智能音箱、智能營銷、無人駕駛、自動駕駛、無人機、機器人、智能醫療、智能客服等。比如,在情感識別場景下,即可利用人工智能技術基于音頻進行情感識別,實現音頻中情感信息的識別。相信隨著技術的發展,人工智能技術將在更多的領域得到應用,并發揮越來越重要的價值。
117.為使本技術的目的、技術方案和優點更加清楚,下面將結合附圖對本技術實施方
式作進一步地詳細描述。
118.請參考圖1,其示出了本技術一個實施例提供的應用程序運行環境的示意圖。該應用程序運行環境可以包括:終端10和服務器20。
119.終端10包括但不限于手機、電腦、智能語音交互設備、智能家電、車載終端、飛行器、游戲主機、電子書閱讀器、多媒體播放設備、可穿戴設備等電子設備。終端10中可以安裝應用程序的客戶端。
120.在本技術實施例中,上述應用程序可以是任何能夠提供音頻情感識別服務的應用程序。可選地,該應用程序包括但不限于地圖導航類應用程序、智能助手類應用程序、視頻類應用程序、新聞類應用程序、社交類應用程序、互動娛樂類應用程序、瀏覽器應用程序、購物類應用程序、內容分享類應用程序、虛擬現實(virtual reality,vr)類應用程序、增強現實(augmented reality,ar)類應用程序等,本技術實施例對此不作限定。另外,對于不同的應用程序來說,其對應的音頻內容也會有所不同,且相應的功能也會有所不同,這都可以根據實際需求預先進行配置,本技術實施例對此不作限定。可選地,終端10中運行有上述應用程序的客戶端。
121.在一個示例中,如圖2所示,其示例性示出了一種情感分析界面的示意圖。圖2中示出的情感分析界面20中可以顯示錄音按鈕(圖中未示出),用戶點擊該錄音按鈕,設備就可以啟動錄音設備進行語音的錄制,情感分析界面20中會顯示當前錄音狀態,比如在情感分析界面中顯示提示信息21,表示設備當前正在錄音。設備可以對錄制的音頻數據進行情感識別,并將情感識別結果22顯示在上述情感分析界面20中。
122.可選地,上述設備可以基于情感識別模型進行情感識別。在一個示例中,如圖3所示,其示例性示出了一種從語音中挖掘有效語義信息的情感識別流程示意圖,該流程包括:用戶打開設備進行錄音,設備中的錄音設備實時錄制的語音分別發送給自動語音識別模型和魯棒的多模態語音情感識別模型;自動語音識別模型將識別出的識別文本發送給魯棒的多模態語音情感識別模型中;多模態語音情感識別模型基于識別文本和語音,進行情感分類處理并生成情感分類結果,通過上述設備將多模態語音情感識別模型輸出的情感分類結果反饋給用戶,比如在屏幕中展示。
123.服務器20用于為終端10中的應用程序的客戶端提供后臺服務。例如,服務器20可以是上述應用程序的后臺服務器。服務器20可以是獨立的物理服務器,也可以是多個物理服務器構成的服務器集或者分布式系統,還可以是提供云服務、云數據庫、云計算、云函數、云存儲、網絡服務、云通信、中間件服務、域名服務、安全服務、cdn(content delivery network,內容分發網絡)、以及大數據和人工智能平臺等基礎云計算服務的云服務器。可選地,服務器20同時為多個終端10中的應用程序提供后臺服務。
124.可選地,終端10和服務器20之間可通過網絡30進行互相通信。終端10以及服務器20可以通過有線或無線通信方式進行直接或間接地連接,本技術在此不做限制。
125.在介紹本技術提供的方法實施例之前,先對本技術方法實施例中可能涉及的應用場景、相關術語或者名詞進行簡要介紹,以便于本技術領域技術人員理解。
126.wer(word error rate,單詞錯誤率),衡量asr錯誤程度的指標,包括asr識別后產生的插入、刪除和替換錯誤。
127.ua(unweighted accuracy,未加權準確度):所有類中預測的正確個數除以所有類
中所有樣本數。
128.wa(weighted accuracy,加權準確度):每個類的準確度求平均。
129.mfccs(mel-frequency cepstrumcoefficients,梅爾倒譜頻譜系數):基于聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。
130.lfpc(log frequency power coefficients,對數頻率能量系數)。
131.hmm(hidden markov model,隱性馬爾可夫模型)是統計模型,它用來描述一個含有隱含未知參數的馬爾可夫過程。其難點是從可觀察的參數中確定該過程的隱含參數。然后利用這些參數來作進一步的分析,例如模式識別。
132.lstm(long short-term memory長短期記憶神經網絡):一種時間循環神經網絡(recurrent neural network,rnn)。
133.cnn(convolutional neural network,卷積神經網絡)。
134.注意力機制:在機器學習模型中嵌入的一種特殊結構,用來自動學習和計算輸入數據對輸出數據的貢獻大小
135.編碼器:接受一個長度可變的序列作為輸入,并將其轉換為具有固定形狀的編碼狀態。
136.請參考圖4,其示出了本技術一個實施例提供的音頻情感識別方法的流程圖一。該方法可應用于計算機設備中,所述計算機設備是指具備數據計算和處理能力的電子設備,如各步驟的執行主體可以是圖1所示的應用程序運行環境中的終端10或服務器20。該方法可以包括以下幾個步驟(410~440)。
137.步驟410,獲取待處理音頻數據以及待處理音頻數據對應的音頻文本。
138.可選地,上述待處理音頻數據可以是音頻流中的一段音頻數據,也可以是完整的一段音頻流數據。本技術實施例對此不作限定。
139.可選地,上述音頻文本包括但不限于:對待處理音頻數據進行自動語音識別得到的識別文本(或者稱轉錄文本)、待處理音頻數據對應的字幕文本。
140.在一種可能的實施方式中,設備顯示音頻錄制選項,用戶可以選擇該音頻錄制選項,設備響應于針對上述音頻錄制選項的選擇指令,進行音頻錄制處理,得到上述待處理音頻數據。
141.在另一種可能的實施方式中,用戶可以通過語音指令控制設備執行相應的操作,例如控制車載設備、虛擬助手等,設備在檢測到語音指令的情況下,進行音頻錄制處理,得到上述待處理音頻數據。上述待處理音頻數據也可以是語音指令對應的音頻數據。
142.步驟420,基于待處理音頻數據和音頻文本進行特征提取處理,得到待處理音頻數據對應的第一音頻特征和待處理音頻數據對應的第二音頻特征。
143.可選地,第一音頻特征是基于待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的。通過對待處理音頻數據進行音頻特征提取處理,即可得到待處理音頻數據中每一音頻幀對應的音頻表征數據,對每一音頻幀對應的音頻表征數據進行融合處理,如池化處理、平均池化、平均處理、加權平均、拼接處理等融合處理,即可得到上述第一音頻特征。
144.可選地,上述音頻幀對應的音頻表征數據包括但不限于音頻幀對應的頻譜特征數據、音素特征數據等音頻模態的特征數據。
145.可選地,第二音頻特征是基于音頻文本中每一語料單元對應的音頻表征數據融合生成的。通過對音頻文本進行文本特征提取處理,即可得到音頻文本中每一語料單元對應的文本表征數據,基于每一語料單元對應的文本表征數據和每一音頻幀對應的音頻表征數據,即可確定上述每一語料單元對應的音頻表征數據,通過確定每一語料單元對應的音頻表征數據,即可實現對每一語料單元對應的文本表征數據中的有效語義信息的提取,若自動語音識別出現錯誤,比如錯誤的識別單詞,那么該錯誤降低文本表征數據的正確性,但是通過對上述每一語料單元對應的音頻表征數據的確定,即可保留文本表征數據中的有效語義信息,避免自動語音識別錯誤對特征精度產生較大的影響。
146.通過對每一語料單元對應的音頻表征數據進行融合處理,如池化處理、平均池化、平均處理、加權平均、拼接處理等融合處理,即可得到上述第二音頻特征。第二音頻特征同時含有每個語料單元在文本模態對應的有效特征信息和每個語料單元在音頻模態對應的有效特征信息。
147.在示例性實施例中,如圖5所示,上述步驟420可以包括如下子步驟(421~423),圖5示出了本技術一個實施例提供的音頻情感識別方法的流程圖二。
148.步驟421,基于待處理音頻數據和音頻文本進行特征提取處理,得到每一音頻幀對應的音頻表征數據,以及每一語料單元對應的音頻表征數據。
149.上述每一音頻幀對應的音頻表征數據對應的生成過程,以及每一語料單元對應的音頻表征數據對應的生成過程可以參見下面的實施例中的說明。
150.可選地,將待處理音頻數據和音頻文本輸入目標情感識別模型,目標情感識別模型中用于進行特征提取的相關網絡層即可對待處理音頻數據和音頻文本進行上述特征提取處理。
151.在示例性實施例中,如圖6所示,上述步驟421可以包括如下子步驟(4211~4213),圖6示出了本技術一個實施例提供的音頻情感識別方法的流程圖三。
152.步驟4211,對待處理音頻數據進行音頻特征提取處理,得到每一音頻幀對應的音頻表征數據。
153.可選地,將待處理音頻數據輸入訓練好的音頻編碼器,通過該音頻編碼器對待處理音頻數據進行音頻特征提取處理,得到每一音頻幀對應的音頻表征數據。可選地,上述目標情感識別模型包括上述音頻編碼器。
154.可選地,上述音頻表征數據可以是音頻表征向量,也可以音頻表征數據序列。
155.在一種可能的實施方式中,上述音頻編碼器為wav2vec 2.0預訓練聲學模型。wav2vec 2.0是一種基于大量無標簽數據進行自監督預訓練的模型,它由多層卷積的特征編碼層和多層transformer(轉換器)構成。通過輸入原始音頻信號(即待處理音頻數據)到音頻編碼器中,可以得到每一幀的音頻表示,即每一幀的音頻表征數據。
156.步驟4212,對音頻文本進行文本特征提取處理,得到每一語料單元對應的文本表征數據。
157.可選地,將待處理音頻數據輸入訓練好的文本編碼器,通過該文本編碼器對音頻文本進行文本特征提取處理,可以得到每一語料單元對應的文本表征數據。可選地,上述目標情感識別模型包括上述文本編碼器。
158.可選地,對音頻文本進行分詞處理,得到音頻文本中的各個語料單元,例如各個詞
或字,將上述各個語料單元構成的語料單元序列輸入上述文本編碼器進行文本特征提取處理,即可得到每一語料單元對應的文本表征數據。
159.在一種的可能的實施方式中,上述文本編碼器為bert(bidirectional encoder representation from transformers,基于轉換器的雙向編碼器表征)模型。文本編碼器bert也是基于大量無標簽數據進行自監督訓練得到的模型,通過輸入一句話每個單詞(即每個語料單元)到文本編碼器中,可以得到每個單詞的單詞表示(即每個語料單元對應的文本表征數據)。
160.步驟4213,基于每一音頻幀對應的音頻表征數據和每一語料單元對應的文本表征數據,進行跨模態特征對齊處理,得到每一語料單元對應的音頻表征數據。
161.為了減少asr錯誤導致文本模態表征數據的誤差,最終影響整體的情感識別的效果,本技術實施例提供的技術方案,通過跨模態特征對齊的方式,將上述每一音頻幀對應的音頻表征數據和每一語料單元對應的文本表征數據進行對齊,從而實現從語音中挖掘有效語義信息。具體地,上述跨模態特征對齊處理主要基于注意力機制實現,注意力機制可以看成一種軟對齊,能夠將文本與音頻對應的部分進行對齊,可選地,該對應的部分為有效對應部分,比如正確識別的語料單元與音頻之間的對應的部分。
162.在一種可能的實施方式中,如圖7所示,上述步驟4213可以包括如下子步驟(42131~42133),圖7示出了本技術一個實施例提供的音頻情感識別方法的流程圖四。
163.步驟42131,遍歷每一語料單元。
164.可選地,上述遍歷的方式可以是串行遍歷,也可以是并行遍歷,本技術實施例對此不作限定。
165.步驟42132,將遍歷到的語料單元對應的文本表征數據與每一音頻幀對應的音頻表征數據進行基于注意力機制的交叉融合處理,得到遍歷到的語料單元對應的音頻表征數據。
166.可選地,將遍歷到的語料單元對應的文本表征數據作為檢索信息(query);將每一音頻幀對應的音頻表征數據作為鍵信息(key)和值信息(value);基于檢索信息、鍵信息和值信息,進行基于注意力機制的交叉融合處理,得到遍歷到的語料單元對應的音頻表征數據。
167.注意力機制用于建模query、key、value之間的關系。可選地,注意力機制的定義公式為下述公式(1)。
[0168][0169]
其中,q為query向量,k為key向量,v為value向量。k和q的向量維度為dk。在本技術實施例中,query為每個語料單元對應的文本表征數據,即語料單元在文本編碼器的輸出,key和value為該待處理音頻對應的原始音頻表征向量,即待處理音頻對應的原始音頻信號輸入到文本編碼器后,得到的每一幀音頻幀對應的音頻表征數據。
[0170]
可選地,上述基于注意力機制的交叉融合處理的過程為:將每個語料單元對應的文本表征數據與該待處理音頻數據中所有音頻幀對應的音頻表征數據進行基于注意力的交互,由此得到每個語料單元對應的音頻表征數據。
[0171]
在遍歷到的語料單元是音頻文本中的第j個語料單元的情況下,第j個語料單元對
應的音頻表征數據可以由下述公式(2)確定。
[0172][0173]
其中,表示音頻文本(text)中第j個語料單元對應的文本表征向量,表示第j個語料單元對應的音頻表征向量,j為大于或等于0的整數,h
speech
表示待處理音頻數據對應的原始音頻表征向量,即基于待處理音頻數據中所有音頻幀對應的音頻表征數據確定的原始音頻表征向量。
[0174]
步驟42133,響應于遍歷結束,得到每一語料單元對應的音頻表征數據。
[0175]
每一語料單元均被遍歷之后,即可得到每一語料單元對應的音頻表征數據。
[0176]
步驟422,對每一音頻幀對應的音頻表征數據進行融合處理,得到第一音頻特征。
[0177]
可選地,對每一音頻幀對應的音頻表征數據(音頻表征向量)進行池化處理,得到上述第一音頻特征(第一音頻特征向量)。
[0178]
可選地,對每一音頻幀對應的音頻表征數據(音頻表征向量)進行平均處理,得到上述第一音頻特征(第一音頻特征向量)。
[0179]
步驟423,對每一語料單元對應的音頻表征數據進行融合處理,得到第二音頻特征。
[0180]
可選地,對每一語料單元對應的音頻表征數據(音頻表征向量)進行池化處理,得到第二音頻特征(第二音頻特征向量)。
[0181]
可選地,對每一語料單元對應的音頻表征數據(音頻表征向量)進行平均處理,得到第二音頻特征(第二音頻特征向量)。
[0182]
步驟430,對第一音頻特征和第二音頻特征進行融合處理,得到待處理音頻數據對應的融合音頻特征。
[0183]
可選地,對第一音頻特征(第一音頻特征向量)和第二音頻特征(第二音頻特征向量)進行拼接處理,得到待處理音頻數據對應的融合音頻特征(融合音頻特征向量)。
[0184]
步驟440,基于融合音頻特征進行情感識別處理,得到待處理音頻數據對應的情感類型信息。
[0185]
可選地,基于融合音頻特征進行情感識別處理,得到待處理音頻數據對應于各個預設情感類型的概率數據;將所述概率數據中最大概率值對應的情感類型確定為目標情感類型,將上述目標情感類型作為上述情感類型信息。
[0186]
可選地,上述目標情感識別模型包括情感分類模型,該情感分類模型可以是目標情感識別模型中用于進行情感分類的網絡層構成的模型。
[0187]
可選地,將上述融合音頻特征輸入上述情感分類模型進行情感識別處理,得到待處理音頻數據對應于各個預設情感類型的概率數據。
[0188]
基于上述識別出的情感類型信息可以做許多下游任務,例如實現更加智能的對話、更智能的推薦信息等。
[0189]
在示例性實施例中,上述情感類型信息是目標情感識別模型根據待處理音頻數據和音頻文本輸出的模型識別結果。
[0190]
在一個示例中,如圖8所示,其示例性示出了一種基于情感識別模型進行語音情感
識別的流程示意圖。將語音81和語音81對應的識別文本82分別輸入到聲學編碼器83和文本編碼器84中,得到原始音頻表征數據85和文本表征數據86,將原始音頻表征數據85和文本表征數據86進行基于注意力機制的對齊后,可以得到識別文本對應的音頻表征數據,對原始音頻表征數據85進行平均池化處理后,可以得到原始音頻特征(即上述第一音頻特征),對識別文本對應的音頻表征數據進行平均池化處理后,可以得到挖掘到的音頻模態的文本語義特征(即上述第二音頻特征),將原始音頻特征與音頻模態的文本語義特征進行融合后,如拼接,即可根據融合后的特征進行情感分類,輸出識別的情感類型。由此可見,在該示例中,情感識別模型可以從語音模態中挖掘有效的情感語義信息,替代基于asr識別文本生成的情感語義信息,從而達到對asr識別錯誤魯棒的效果。
[0191]
相應地,如圖9所示,上述目標情感識別模型對應的訓練過程可以包括以下幾個步驟(910~940),圖9示出了本技術一個實施例提供的情感識別模型訓練方法的流程圖一。
[0192]
步驟910,獲取樣本音頻數據、樣本音頻數據對應的樣本音頻文本以及樣本音頻數據對應的標簽信息。
[0193]
可選地,樣本音頻數據是指樣本音頻對應的音頻數據,樣本音頻數據對應的標簽信息包括標注的情感類型標簽。
[0194]
上述樣本音頻文本與待處理音頻數據對應的音頻文本類似,可以是通過對樣本音頻數據進行自動語音識別處理得到的識別文本,也可以是樣本音頻數據對應的字幕文本。
[0195]
步驟920,將樣本音頻數據和樣本音頻文本輸入預設情感識別模型進行情感識別處理,得到樣本音頻數據對應的情感類型信息。
[0196]
可選地,上述預設情感識別模型與目標情感識別模型之間的模型結構相同,參數不同,預設情感識別模型是訓練完成前的情感識別模型,目標情感識別模型是訓練好的情感識別模型。
[0197]
預設情感識別模型進行情感識別處理的過程與目標情感識別模型進行情感識別處理的過程類似,具體可以參考上文中對目標情感識別模型進行情感識別處理的過程。
[0198]
可選地,預設情感識別模型包括音頻編碼器、文本編碼器、跨模態語義提取模型以及情感分類模型。可選地,上述跨模態語義提取模型是指基于注意力機制確定語料單元對應的音頻表征數據的網絡層構成的模型。
[0199]
相應地,如圖10所示,上述步驟920可以包括如下子步驟(921~927),圖10示出了本技術一個實施例提供的情感識別模型訓練方法的流程圖二。
[0200]
步驟921,將樣本音頻數據輸入音頻編碼器進行音頻特征提取處理,得到樣本音頻數據中每一樣本音頻幀對應的音頻表征數據。
[0201]
步驟922,將樣本音頻文本輸入文本編碼器進行文本特征提取處理,得到樣本音頻文本中每一樣本語料單元對應的文本表征數據。
[0202]
步驟923,將每一樣本音頻幀對應的音頻表征數據和每一樣本語料單元對應的文本表征數據輸入跨模態語義提取模型進行跨模態特征對齊處理,得到每一樣本語料單元對應的音頻表征數據。
[0203]
步驟924,對每一樣本音頻幀對應的音頻表征數據進行融合處理,得到樣本音頻數據對應的第三音頻特征。
[0204]
可選地,上述第三音頻特征是指基于每一樣本音頻幀對應的音頻表征數據融合生
成的音頻特征,與上述第一音頻特征類似,但是兩者對應的對象不同,第三音頻特征是對應于模型訓練側的樣本音頻數據的,第一音頻特征是對應于模型應用側的待處理音頻數據的。
[0205]
步驟925,對每一樣本語料單元對應的音頻表征數據進行融合處理,得到樣本音頻數據對應的第四音頻特征。
[0206]
可選地,上述第四音頻特征是指基于每一樣本語料單元對應的音頻表征數據融合生成的音頻特征,與上述第二音頻特征類似,但是兩者對應的對象不同,第四音頻特征是對應于模型訓練側的樣本音頻數據的,第二音頻特征是對應于模型應用側的待處理音頻數據的。
[0207]
步驟926,對第三音頻特征和第四音頻特征進行融合處理,得到樣本音頻數據對應的融合音頻特征。
[0208]
可選地,對第三音頻特征和第四音頻特征進行拼接處理,得到樣本音頻數據對應的融合音頻特征。
[0209]
步驟927,將樣本音頻數據對應的融合音頻特征輸入情感分類模型進行情感分類處理,得到樣本音頻數據對應的情感類型信息。
[0210]
預設情感識別模型對樣本音頻數據的處理與目標情感識別模型對待處理音頻數據的處理類似,對于上述步驟921至927,可以參見模型應用側對待處理音頻數據進行處理的說明,這里不再贅述。
[0211]
步驟930,基于標簽信息和樣本音頻數據對應的情感類型信息,確定情感識別損失信息。
[0212]
可選地,將預設情感識別模型識別出的情感類型與標簽信息中標注的情感類型標簽進行對比,從而確定情感識別損失信息。上述情感識別損失信息可表征情感識別模型的模型精度,情感識別損失越小,說明情感識別處理對應的識別結果與真實結果更加接近。
[0213]
步驟940,基于情感識別損失信息,對預設情感識別模型進行參數調整處理,得到目標情感識別模型。
[0214]
可選地,在上述情感識別損失不符合預設損失條件的情況下,對預設情感識別模型進行參數調整處理,得到調參后的預設情感識別模型,基于調參后的預設情感識別模型即可在此確定樣本音頻數據對應的情感類型信息,進而重新確定上述情感損失信息,直至重新確定的情感損失信息符合預設損失條件,則完成上述預設情感識別模型的訓練,得到上述目標情感識別模型。
[0215]
可選地,情感識別損失信息包括情感識別損失數據,上述預設損失條件可以是情感識別損失數據小于等于預設識別損失閾值。
[0216]
在示例性實施例中,如圖10所示,上述步驟940之前還可以包括如下步驟(950~960)。
[0217]
步驟950,對每一樣本語料單元對應的文本表征數據進行融合處理,得到樣本音頻文本對應的文本特征。
[0218]
可選地,對每一樣本語料單元對應的文本表征數據進行池化處理,得到上述樣本音頻文本對應的文本特征。
[0219]
步驟960,基于文本特征和第四音頻特征,確定特征距離損失信息。
[0220]
可選地,上述每一樣本語料單元對應的文本表征數據可組成一個拼接文本表征向量,該拼接文本表征向量可以表示為其中,h
text
表示樣本音頻文本對應的拼接文本表征向量,表示樣本音頻文本中第1個樣本語料單元對應的文本表征向量,表示樣本音頻文本中第2個樣本語料單元對應的文本表征向量,表示樣本音頻文本中第n個樣本語料單元對應的文本表征向量,n為樣本音頻文本中樣本語料單元的數量,n為大于0的整數。
[0221]
可選地,通過對該拼接文本表征向量進行平均處理,得到上述文本特征。
[0222]
可選地,該文本特征可以通過如下公式(3)確定。
[0223][0224]
其中,a
text
表示樣本音頻文本對應的文本特征,n為樣本音頻文本中樣本語料單元的數量,n為大于0的整數,j表示序號,表示樣本音頻文本中第j個樣本語料單元對應的文本表征向量。
[0225]
可選地,上述每一樣本語料單元對應的音頻表征數據可組成一個拼接音頻表征向量。可選地,該拼接音頻表征向量可以表示為其中,h

text
表示樣本音頻文本對應的拼接音頻表征向量,表示樣本音頻文本中第1個樣本語料單元對應的音頻表征向量,表示樣本音頻文本中第2個樣本語料單元對應的音頻表征向量,表示樣本音頻文本中第n個樣本語料單元對應的音頻表征向量,n為樣本音頻文本中樣本語料單元的數量,n為大于0的整數。與之間具有轉換關系,與之間具有轉換關系,與之間具有轉換關系。上述轉換關系是通過上述注意力機制進行特征交叉融合形成的。
[0226]
可選地,通過對該拼接音頻表征向量進行平均處理,得到上述第四音頻特征。可選地,該第四音頻特征可以通過如下公式(4)確定。
[0227][0228]
其中,a

text
表示第四音頻特征,n為樣本音頻文本中樣本語料單元的數量,n為大于0的整數,j表示序號,表示樣本音頻文本中第j個樣本語料單元對應的音頻表征向量。
[0229]
為了能夠讓提取到的第四音頻特征或第二音頻特征能夠包含豐富的文本語義表示,在模型訓練側,將第四音頻特征與上述文本特征進行距離計算,確定兩者之間的特征距離,進而特征距離損失信息,通過上述特征距離損失信息可以拉近第四音頻特征與文本特征之前的距離,使得模型提取到更豐富的文本語義表示。
[0230]
可選地,特征距離可以采用歐式距離。可選地,特征距離通過如下公式(5)確定。
[0231]
dist(a

text
,a
text
)=||a

text-a
text
||2??
公式(5)
[0232]
其中,dist(a

text
,a
text
)表示特征距離第四音頻特征a

text
與上述文本特征a
text
之間的特征距離。
[0233]
相應地,如圖10所示,上述步驟940可以由下述步驟941替換實施。
[0234]
步驟941,基于情感識別損失信息和特征距離損失信息,對預設情感識別模型進行參數調整處理,得到目標情感識別模型。
[0235]
可選地,上述預設情感識別模型由多任務損失函數進行優化。具體地,結合情感識別損失信息和特征距離損失信息對上述預設情感識別模型進行訓練優化。
[0236]
可選地,基于上述情感識別損失信息和特征距離損失信息,確定模型整體損失信息,根據上述模型整體損失信息對上述預設情感識別模型進行參數調整處理,得到目標情感識別模型。
[0237]
可選地,模型整體損失信息可有如下公式(6)確定。
[0238]
l
total
=l
class

×
dist(a

text
,a
text
)
??
公式(6)
[0239]
其中,其中l
class
為情感識別損失,dist(a

text
,a
text
)為距離損失,兩者通過α參數進行平衡,α可以是人工提前設置好的參數,l
total
為模型總損失。
[0240]
在一個示例中,如圖11所示,其示例性示出了一種預設情感識別模型的模型結構圖。圖11所示的預設情感識別模型110包括文本編碼器111(wav2vec 2.0encoder)和音頻編碼器112(bert encoder),待識別語音113會輸入至音頻編碼器112,待識別語音113對應的轉錄文本114(asr hypothesis),比如“今天是個好日子(it’sasunnyday)”會輸入至文本編碼器111,音頻編碼器112輸出原始聲學表征數據115(包括每一音頻幀對應的音頻表征數據),文本編碼器111輸出文本表征數據116(包括每一單詞對應的文本表征數據)。利用注意力機制(attention)對上述原始聲學表征數據115和文本表征數據116進行交叉融合處理,即可得到每一單詞對應的音頻表征數據,將一句話中的每一單詞對應的音頻表征數據進行池化(pooling)處理,如平均處理,即可得到權重調整后的聲學特征(weightedacousticrepresentations),權重調整后的聲學特征即為該句話對應的音頻特征表示。將原始的文本表征數據116進行池化處理,可以得到該句話對應的文本特征表示,在模型訓練側,通過計算并優化同一句話對應的音頻特征表示和文本特征表示之間的特征距離,可以使得上述提取到的文本對應的音頻特征表示(權重調整后的聲學特征,即第二音頻特征)盡可能接近該句話對應的原始文本特征表示。進行情感分類時,可將原始聲學表征數據115經過池化處理后得到的原始音頻特征(即第一音頻特征)與權重調整后的聲學特征(即第二音頻特征)進行融合,并根據融合后的特征進行情感識別。在模型訓練側,還需計算情感識別損失。基于上述情感識別損失和特征距離對應的距離損失,可以對上述預設情感識別模型110進行參數調整處理,從而在滿足損失條件或迭代次數到達上限的情況下,得到目標情感識別模型。
[0241]
在一個示例中,如圖12所示,其示例性示出了一種基于預設情感識別模型進行情感識別的數據流向圖。圖12中示出了圖11所示的模型結構中具體的流轉數據。上述原始聲學表征數據115可以包括每一音頻幀對應的音頻表征數據,每一音頻幀對應的音頻表征數據可以是音頻表征向量,如圖12中所示,原始聲學表征數據115包括多個音頻幀對應的音頻表征向量,分別是[0.5,0.1,

,0.8]、[0.4,0.2,

,0.9]、

、[0.3,0.1,

,0.5]。上述文本
表征數據116包括每一單詞對應的文本表征數據,每一單詞對應的文本表征數據可以是文本表征向量,如圖12中所示,文本表征數據116包括單詞對應的文本表征向量,分別是[0.6,0.2,

,0.9]、[0.3,0.1,

,0.8]、

、[0.5,0.2,

,0.7]。利用注意力機制(attention)對上述原始聲學表征數據115和文本表征數據116進行交叉融合處理后得到的每一單詞對應的音頻表征向量[0.1,0.2,

,0.8],將一句話中的每一單詞對應的音頻表征向量進行池化(pooling)處理,如平均處理,即可得到權重調整后的聲學特征向量[0.8,0.3,

,0.2]。將原始的文本表征數據116進行池化處理,可以得到該句話對應的文本特征向量[0.9,0.1,

,0.2]。在模型訓練側,通過計算并優化同一句話對應的音頻特征表示和文本特征表示之間的特征距離,圖12所示的特征距離為進行情感分類時,可將原始聲學表征數據115經過池化處理后得到的原始音頻特征向量[0.2,0.7,

,0.9]與權重調整后的聲學特征向量[0.8,0.3,

,0.2]進行融合,并根據融合后的特征進行情感識別,輸出該待識別音頻對應的概率分布數據[0.1,0.3,0.5,0.1],其中各個數值分別表示待識別音頻對應于各個預設情感類型的概率。
[0242]
綜上所述,本技術實施例提供的技術方案,通過對待處理音頻數據及其對應的音頻文本進行特征提取處理,可以得到基于待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的第一音頻特征,以及基于音頻文本中每一語料單元對應的音頻表征數據融合生成的第二音頻特征,通過融合上述第一音頻特征和第二音頻特征,即可得到融合有每一音頻幀對應的特征信息以及每一語料單元對應的特征信息的融合音頻特征,此種融合方式下,既能將每一語料單元對應的特征信息融入到特征中,又避免了直接融合每一語料單元的文本特征進入特征中,有效降低了音頻情感識別對自動語音識別精度的依賴程度,基于該融合音頻特征進行情感識別處理可以使得情感識別處理的穩定性更強,識別出的情感類型信息也更加準確,提升了音頻情感識別的穩定性和準確性。
[0243][0244][0245]
表1
[0246]
下面結合上表1中具體的實驗數據對上述有益效果進行說明。在實驗中,首先將情感識別模型的結果與本技術發明人設置的多個情感分類基線(baseline)進行基于ua和wa的對比。多個情感分類基線(baseline)包括只利用asr識別文本(asr)進行情感識別的分類基線、利用人工轉寫文本(transcripts)進行情感識別的分類基線、利用音頻(speech)的單
模態特征進行情感識別的分類基線,以及利用上述單模態信息構成多模態信息進行情感識別的情感分類的結果。由結果可知,通過結合多模態信息,可以將wer降到10.8,較單模態有較大的提升。由結果可知,本技術實施例提供的技術方案在wer等于21.2%的情況下,使用asr識別文本,可以達到和使用真實人工轉寫文本的效果。而在采用原始文本特征和原始音頻特征構成多模態信息進行情感識別的基線上(即表中文本特征與音頻特征融合模態模型),使用asr識別文本較使用真實文本效果有所降低。
[0247]
由此可見,本技術實施例提供的技術方案,利用注意力機制將原始音頻特征和識別文本特征進行對齊,得到識別文本中每個單詞的音頻特征表示,將每個單詞的文本特征表示與每個單詞的音頻特征表示,進行距離優化,讓音頻表示與文本的語義表示盡可能接近,實現了從音頻中挖掘與文本中存在的情感語義相似的語義表示。最終將音頻中挖掘的語義表示(即每個單詞的音頻表示,用于代替原始文本語義表示),與音頻幀對應的音頻表示進行融合,進行多模態情感分類,基于上述表1中的實驗數據,可以證明在一定wer的錯誤率下,本技術實施例利用識別文本和音頻的情況下,可以達到與利用人工轉寫文本和音頻進行情感分類的同樣效果,進一步說明了本技術實施例提供的技術方案對識別文本錯誤的魯棒性,有效降低了音頻情感識別對自動語音識別精度的依賴程度,并且提升了音頻情感識別的穩定性和準確性。
[0248]
下述為本技術裝置實施例,可用于執行本技術方法實施例。對于本技術裝置實施例中未披露的細節,請參照本技術方法實施例。
[0249]
請參考圖13,其示出了本技術一個實施例提供的音頻情感識別裝置的框圖。該裝置具有實現上述音頻情感識別方法的功能,所述功能可以由硬件實現,也可以由硬件執行相應的軟件實現。該裝置可以是計算機設備,也可以設置在計算機設備中。該裝置1300可以包括:音頻信息獲取模塊1310、音頻特征提取模塊1320、音頻特征融合模塊1330和音頻情感識別模塊1340。
[0250]
音頻信息獲取模塊1310,用于獲取待處理音頻數據以及所述待處理音頻數據對應的音頻文本;
[0251]
音頻特征提取模塊1320,用于基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到所述待處理音頻數據對應的第一音頻特征和所述待處理音頻數據對應的第二音頻特征,所述第一音頻特征是基于所述待處理音頻數據中每一音頻幀對應的音頻表征數據融合生成的,所述第二音頻特征是基于所述音頻文本中每一語料單元對應的音頻表征數據融合生成的;
[0252]
音頻特征融合模塊1330,用于對所述第一音頻特征和所述第二音頻特征進行融合處理,得到所述待處理音頻數據對應的融合音頻特征;
[0253]
音頻情感識別模塊1340,用于基于所述融合音頻特征進行情感識別處理,得到所述待處理音頻數據對應的情感類型信息。
[0254]
在一些可能的設計中,所述音頻特征提取模塊1320,包括:
[0255]
音頻表征子模塊,用于基于所述待處理音頻數據和所述音頻文本進行特征提取處理,得到每一所述音頻幀對應的音頻表征數據,以及每一所述語料單元對應的音頻表征數據;
[0256]
表征數據融合子模塊,用于對每一所述音頻幀對應的音頻表征數據進行融合處
理,得到所述第一音頻特征;
[0257]
所述表征數據融合子模塊,還用于對每一所述語料單元對應的音頻表征數據進行融合處理,得到所述第二音頻特征。
[0258]
在一些可能的設計中,所述音頻表征子模塊,包括:
[0259]
音頻幀表征單元,用于對所述待處理音頻數據進行音頻特征提取處理,得到每一所述音頻幀對應的音頻表征數據;
[0260]
文本表征單元,用于對所述音頻文本進行文本特征提取處理,得到每一所述語料單元對應的文本表征數據;
[0261]
跨模態特征對齊單元,用于基于每一所述音頻幀對應的音頻表征數據和每一所述語料單元對應的文本表征數據,進行跨模態特征對齊處理,得到每一所述語料單元對應的音頻表征數據。
[0262]
在一些可能的設計中,所述跨模態特征對齊單元,包括:
[0263]
語料單元遍歷子單元,用于遍歷每一所述語料單元;
[0264]
特征交叉融合子單元,用于將遍歷到的語料單元對應的文本表征數據與每一所述音頻幀對應的音頻表征數據進行基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據;
[0265]
音頻表征數據確定子單元,用于響應于遍歷結束,得到每一所述語料單元對應的音頻表征數據。
[0266]
在一些可能的設計中,所述特征交叉融合子單元,具體用于:
[0267]
將所述遍歷到的語料單元對應的文本表征數據作為檢索信息;
[0268]
將每一所述音頻幀對應的音頻表征數據作為鍵信息和值信息;
[0269]
基于所述檢索信息、所述鍵信息和所述值信息,進行所述基于注意力機制的交叉融合處理,得到所述遍歷到的語料單元對應的音頻表征數據。
[0270]
在一些可能的設計中,所述情感類型信息是目標情感識別模型根據所述待處理音頻數據和所述音頻文本輸出的模型識別結果,所述目標情感識別模型對應的訓練裝置包括:
[0271]
訓練數據獲取模塊,用于獲取樣本音頻數據、所述樣本音頻數據對應的樣本音頻文本以及所述樣本音頻數據對應的標簽信息;
[0272]
情感類型識別模塊,用于將所述樣本音頻數據和所述樣本音頻文本輸入預設情感識別模型進行情感識別處理,得到所述樣本音頻數據對應的情感類型信息;
[0273]
識別損失確定模塊,用于基于所述標簽信息和所述樣本音頻數據對應的情感類型信息,確定情感識別損失信息;
[0274]
模型參數調整模塊,用于基于所述情感識別損失信息,對所述預設情感識別模型進行參數調整處理,得到所述目標情感識別模型。
[0275]
在一些可能的設計中,所述預設情感識別模型包括音頻編碼器、文本編碼器、跨模態語義提取模型以及情感分類模型,所述情感類型識別模塊,包括:
[0276]
音頻幀表征單元,用于將所述樣本音頻數據輸入所述音頻編碼器進行音頻特征提取處理,得到所述樣本音頻數據中每一樣本音頻幀對應的音頻表征數據;
[0277]
文本表征單元,用于將所述樣本音頻文本輸入所述文本編碼器進行文本特征提取
programmable gate array,現場可編程門陣列)、pla(programmable logic array,可編程邏輯陣列)中的至少一種硬件形式來實現。處理器1401也可以包括主處理器和協處理器,主處理器是用于對在喚醒狀態下的數據進行處理的處理器,也稱cpu(central processing unit,中央處理器);協處理器是用于對在待機狀態下的數據進行處理的低功耗處理器。在一些實施例中,處理器1401可以在集成有gpu(graphics processing unit,圖像處理器),gpu用于負責顯示屏所需要顯示的內容的渲染和繪制。一些實施例中,處理器1401還可以包括ai(artificial intelligence,人工智能)處理器,該ai處理器用于處理有關機器學習的計算操作。
[0292]
存儲器1402可以包括一個或多個計算機可讀存儲介質,該計算機可讀存儲介質可以是非暫態的。存儲器1402還可包括高速隨機存取存儲器,以及非易失性存儲器,比如一個或多個磁盤存儲設備、閃存存儲設備。在一些實施例中,存儲器1402中的非暫態的計算機可讀存儲介質用于存儲至少一個指令,至少一段程序、代碼集或指令集,所述至少一條指令、至少一段程序、代碼集或指令集,且經配置以由一個或者一個以上處理器執行,以實現上述音頻情感識別方法。
[0293]
在一些實施例中,計算機設備1400還可選包括有:外圍設備接口1403和至少一個外圍設備。處理器1401、存儲器1402和外圍設備接口1403之間可以通過總線或信號線相連。各個外圍設備可以通過總線、信號線或電路板與外圍設備接口1403相連。具體地,外圍設備包括:射頻電路1404、觸摸顯示屏1405、攝像頭組件1406、音頻電路1407、定位組件1408和電源1409中的至少一種。
[0294]
本領域技術人員可以理解,圖14中示出的結構并不構成對計算機設備1400的限定,可以包括比圖示更多或更少的組件,或者組合某些組件,或者采用不同的組件布置。
[0295]
請參考圖15,其示出了本技術另一個實施例提供的計算機設備的結構框圖二。該計算機設備可以是服務器,以用于執行上述音頻情感識別方法。具體來講:
[0296]
計算機設備1500包括中央處理單元(central processing unit,cpu)1501、包括隨機存取存儲器(random access memory,ram)1502和只讀存儲器(read only memory,rom)1503的系統存儲器1504,以及連接系統存儲器1504和中央處理單元1501的系統總線1505。計算機設備1500還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(i/o(input/output)系統)1506,和用于存儲操作系統1513、應用程序1514和其他程序模塊1515的大容量存儲設備1507。
[0297]
基本輸入/輸出系統1506包括有用于顯示信息的顯示器1508和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備1509。其中顯示器1508和輸入設備1509都通過連接到系統總線1505的輸入輸出控制器1510連接到中央處理單元1501。基本輸入/輸出系統1506還可以包括輸入輸出控制器1510以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器1510還提供輸出到顯示屏、打印機或其他類型的輸出設備。
[0298]
大容量存儲設備1507通過連接到系統總線1505的大容量存儲控制器(未示出)連接到中央處理單元1501。大容量存儲設備1507及其相關聯的計算機可讀介質為計算機設備1500提供非易失性存儲。也就是說,大容量存儲設備1507可以包括諸如硬盤或者cd-rom(compact disc read-only memory,只讀光盤)驅動器之類的計算機可讀介質(未示出)。
[0299]
不失一般性,計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數據結構、程序模塊或其他數據等信息的任何方法或技術實現的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括ram、rom、eprom(erasable programmable read only memory,可擦除可編程只讀存儲器)、eeprom(electrically erasable programmable read only memory,電可擦可編程只讀存儲器)、閃存或其他固態存儲其技術,cd-rom、dvd(digital video disc,高密度數字視頻光盤)或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然,本領域技術人員可知計算機存儲介質不局限于上述幾種。上述的系統存儲器1504和大容量存儲設備1507可以統稱為存儲器。
[0300]
根據本技術的各種實施例,計算機設備1500還可以通過諸如因特網等網絡連接到網絡上的遠程計算機運行。也即計算機設備1500可以通過連接在系統總線1505上的網絡接口單元1511連接到網絡1512,或者說,也可以使用網絡接口單元1511來連接到其他類型的網絡或遠程計算機系統(未示出)。
[0301]
所述存儲器還包括計算機程序,該計算機程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執行,以實現上述音頻情感識別方法。
[0302]
在示例性實施例中,還提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或所述指令集在被處理器執行時以實現上述音頻情感識別方法。
[0303]
可選地,該計算機可讀存儲介質可以包括:rom(read only memory,只讀存儲器)、ram(random access memory,隨機存取記憶體)、ssd(solid state drives,固態硬盤)或光盤等。其中,隨機存取記憶體可以包括reram(resistance random access memory,電阻式隨機存取記憶體)和dram(dynamic random access memory,動態隨機存取存儲器)。
[0304]
在示例性實施例中,還提供了一種計算機程序產品或計算機程序,該計算機程序產品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質中。計算機設備的處理器從計算機可讀存儲介質讀取該計算機指令,處理器執行該計算機指令,使得該計算機設備執行上述音頻情感識別方法。
[0305]
應當理解的是,在本文中提及的“多個”是指兩個或兩個以上。“和/或”,描述關聯對象的關聯關系,表示可以存在三種關系,例如,a和/或b,可以表示:單獨存在a,同時存在a和b,單獨存在b這三種情況。字符“/”一般表示前后關聯對象是一種“或”的關系。另外,本文中描述的步驟編號,僅示例性示出了步驟間的一種可能的執行先后順序,在一些其它實施例中,上述步驟也可以不按照編號順序來執行,如兩個不同編號的步驟同時執行,或者兩個不同編號的步驟按照與圖示相反的順序執行,本技術實施例對此不作限定。
[0306]
另外,在本技術的具體實施方式中,涉及到用戶信息等相關的數據,當本技術以上實施例運用到具體產品或技術中時,需要獲得用戶許可或者同意,且相關數據的收集、使用和處理需要遵守相關國家和地區的相關法律法規和標準。
[0307]
以上所述僅為本技術的示例性實施例,并不用以限制本技術,凡在本技術的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本技術的保護范圍之內。


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-15-860-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-11-27 21:14:55

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
2人圍觀
參與討論