本文作者:kaifamei

音頻處理模型的訓練、音頻處理方法、裝置及電子設備與流程

更新時間:2025-12-25 08:15:27 0條評論

音頻處理模型的訓練、音頻處理方法、裝置及電子設備與流程



1.本發明屬于音頻處理技術領域,特別是涉及音頻處理模型的訓練、音頻處理方法、裝置及電子設備。


背景技術:



2.音頻3a處理包括聲學回聲消除(acoustic echo cancelling,aec)、自動降噪(automatic noise suppression,ans)和自動增益控制(automatic gain control,agc)。
3.圖1為現有技術的音頻3a處理過程的示范性示意圖。每個音頻處理模塊(aec、ans或agc)執行短時傅里葉變換(stft)以將音頻信號轉換為頻域信號,而且執行短時傅里葉逆變換以將頻域信號恢復為音頻信號。頻域與時域之間的來回轉換,導致音頻3a處理流程冗長。而且,stft涉及e次冪運算,還導致音頻3a處理的運算量和系統復雜度較大。


技術實現要素:



4.本發明實施方式提出一種音頻處理模型的訓練、音頻處理方法、裝置及電子設備。
5.本發明實施方式的技術方案如下:一種音頻處理模型的訓練方法,包括:獲取訓練樣本,所述訓練樣本包括第一音頻信號和第二音頻信號,其中所述第二音頻信號包括:第三音頻信號的第一播放聲音及所述第一音頻信號的第二播放聲音的混合采集信號;將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號;基于所述第四音頻信號與第五音頻信號之間的差異,確定所述音頻處理模型的模型損失值,其中所述第五音頻信號是對所述第二音頻信號執行音頻3a處理得到的,所述音頻3a處理包含消除所述第二音頻信號中的所述第二播放聲音;基于所述模型損失值調整所述音頻處理模型的模型參數,以使所述模型損失值低于預設閾值。
6.在示范實施方式中,所述音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;所述將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號包括:將所述第一音頻信號和所述第二音頻信號輸入所述編碼子模型,以得到根據所述第一音頻信號編碼出的第一音頻特征及根據所述第二音頻信號編碼出的第二音頻特征;拼接所述第一音頻特征和所述第二音頻特征,以得到拼接后的音頻特征;將所述拼接后的音頻特征輸入所述耦合子模型,以得到耦合后的音頻特征;將所述耦合后的音頻特征輸入所述解碼子模型,以得到根據所述耦合后的音頻特征解碼出的所述第四音頻信號。
7.在示范實施方式中,還包括:
在利用揚聲器播放所述第一音頻信號以產生所述第二播放聲音時,利用高保真音響設備播放所述第三音頻信號以產生所述第一播放聲音;利用所述麥克風采集所述第一播放聲音和所述第二播放聲音,以得到所述第二音頻信號。
8.在示范實施方式中,所述第三音頻信號為純凈語音信號,所述第一音頻信號為所述純凈語音信號的干擾音頻信號。
9.在示范實施方式中,所述對第二音頻信號執行音頻3a處理還包括:對消除所述第二播放聲音的所述第二音頻信號,執行背景噪聲抑制處理;對所述背景噪聲抑制處理后的所述第二音頻信號執行自動增益控制。
10.在示范實施方式中,所述編碼子模型、耦合子模型和解碼子模型分別包含深度學習模塊,所述深度學習包含至少一個的卷積神經網絡和至少一個的深度神經網絡;或所述編碼子模型和所述耦合子模型包含transformer模型中的編碼器,所述解碼子模型包含所述transformer模型中的解碼器。
11.一種音頻處理方法,包括:獲取訓練后的音頻處理模型,所述訓練后的音頻處理模型為根據如上任一項所述的音頻處理模型的訓練方法訓練得到的;將第六音頻信號以及第七音頻信號輸入所述音頻處理模型,其中所述第七音頻信號包括:說話人的語音及所述第六音頻信號的第三播放聲音的混合采集信號;所述第六音頻信號為所述說話人的語音的干擾音頻信號;從所述音頻處理模型接收對所述第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。
12.在示范實施方式中,在利用邊緣設備的揚聲器播放所述第六音頻信號以產生所述第三播放聲音時,利用所述邊緣設備的麥克風混合采集所述說話人的語音和所述第三播放聲音,以得到所述第七音頻信號。
13.一種音頻處理模型的訓練裝置,包括:獲取模塊,被配置為獲取訓練樣本,所述訓練樣本包括第一音頻信號和第二音頻信號,其中所述第二音頻信號包括:第三音頻信號的第一播放聲音及所述第一音頻信號的第二播放聲音的混合采集信號;輸入模塊,被配置為將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號;確定模塊,被配置為基于所述第四音頻信號與第五音頻信號之間的差異,確定所述音頻處理模型的模型損失值,其中所述第五音頻信號是對所述第二音頻信號執行音頻3a處理得到的,所述音頻3a處理包含消除所述第二音頻信號中的所述第二播放聲音;調整模塊,被配置為基于所述模型損失值調整所述音頻處理模型的模型參數,以使所述模型損失值低于預設閾值。
14.在示范實施方式中,所述音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;所述輸入模塊,被配置為:將所述第一音頻信號和所述第二音頻信號輸入所述編碼子模型,以得到根據所述第一音頻信號編碼出的第一音頻特征及根據所述第二音頻信號
編碼出的第二音頻特征;拼接所述第一音頻特征和所述第二音頻特征,以得到拼接后的音頻特征;將所述拼接后的音頻特征輸入所述耦合子模型,以得到耦合后的音頻特征;將所述耦合后的音頻特征輸入所述解碼子模型,以得到根據所述耦合后的音頻特征解碼出的所述第四音頻信號。
15.在示范實施方式中,所述獲取模塊,被配置為:在利用揚聲器播放所述第一音頻信號以產生所述第二播放聲音時,利用高保真音響設備播放所述第三音頻信號以產生所述第一播放聲音;利用麥克風采集所述第一播放聲音和所述第二播放聲音,以得到所述第二音頻信號。
16.在示范實施方式中,所述第三音頻信號為純凈語音信號,所述第一音頻信號為所述純凈語音信號的干擾音頻信號。
17.在示范實施方式中,還包括:音頻3a處理模塊,被配置為執行所述音頻3a處理,其中所述音頻3a處理還包括:對消除所述第二播放聲音的所述第二音頻信號,執行背景噪聲抑制處理;對所述背景噪聲抑制處理后的所述第二音頻信號執行自動增益控制。
18.在示范實施方式中,所述編碼子模型、耦合子模型和解碼子模型分別包含深度學習模塊,所述深度學習包含至少一個的卷積神經網絡和至少一個的深度神經網絡;或所述編碼子模型和所述耦合子模型包含transformer模型中的編碼器,所述解碼子模型包含所述transformer模型中的解碼器。
19.一種音頻處理裝置,包括:獲取模塊,被配置為獲取訓練后的音頻處理模型,所述訓練后的音頻處理模型為根據如上任一項所述的音頻處理模型的訓練方法訓練得到的;輸入模塊,被配置為將第六音頻信號以及第七音頻信號輸入所述音頻處理模型,其中所述第七音頻信號包括:說話人的語音及所述第六音頻信號的第三播放聲音的混合采集信號;所述第六音頻信號為所述說話人的語音的干擾音頻信號;輸出模塊,被配置為從所述音頻處理模型接收對所述第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。
20.在示范實施方式中,所述輸入模塊,被配置為在利用邊緣設備的揚聲器播放所述第六音頻信號以產生所述第三播放聲音時,利用所述邊緣設備的麥克風混合采集所述說話人的語音和所述第三播放聲音,以得到所述第七音頻信號。
21.一種電子裝置,包括:存儲器;處理器;其中所述存儲器中存儲有可被所述處理器執行的應用程序,用于使得所述處理器執行如上任一項所述的音頻處理模型的訓練方法,或者如上任一項所述的音頻處理方法。
22.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令在被處理器執行時,使所述處理器執行如上任一項所述的音頻處理模型的訓練方法,或者如上任一項所述的音頻處理方法。
23.從上述技術方案可以看出,在本發明實施方式中,獲取訓練樣本,訓練樣本包括第一音頻信號和第二音頻信號,其中第二音頻信號包括:第三音頻信號的第一播放聲音及第
一音頻信號的第二播放聲音的混合采集信號;將第一音頻信號和第二音頻信號輸入音頻處理模型,得到第四音頻信號;基于第四音頻信號與第五音頻信號之間的差異,確定音頻處理模型的模型損失值,其中第五音頻信號是對第二音頻信號執行音頻3a處理得到的,音頻3a處理包含消除第二音頻信號中的第一播放聲音;基于模型損失值調整音頻處理模型的模型參數,以使模型損失值低于預設閾值??梢?,本發明實施方式利用具有深度學習能力的網絡模型替代常規的音頻3a處理,無需在頻域與時域之間來回轉換,加快了處理流程。而且,本發明實施方式規避了e次冪等復雜運算,還可以降低運算量和系統復雜度,尤其適用于邊緣設備等難以提供充分運算量的應用場景。
附圖說明
24.圖1為現有技術的音頻3a處理過程的示范性示意圖。
25.圖2為本發明實施方式的音頻處理模型的訓練方法的示范性流程圖。
26.圖3為本發明實施方式音頻處理模型的訓練過程的示范性示意圖。
27.圖4為本發明實施方式的深度學習模塊的示范性結構圖。
28.圖5為本發明實施方式的音頻處理方法的示范性流程圖。
29.圖6為本發明實施方式利用訓練后的音頻處理模型執行音頻處理的示范性示意圖。
30.圖7為本發明實施方式的音頻處理模型的訓練裝置的示范性結構圖。
31.圖8為本發明實施方式的音頻處理裝置的示范性結構圖。
32.圖9為本發明實施方式的電子設備的示范性結構圖。
具體實施方式
33.為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步的詳細描述。
34.為了描述上的簡潔和直觀,下文通過描述若干代表性的實施方式來對本發明的方案進行闡述。實施方式中大量的細節僅用于幫助理解本發明的方案。但是很明顯,本發明的技術方案實現時可以不局限于這些細節。為了避免不必要地模糊了本發明的方案,一些實施方式沒有進行細致地描述,而是僅給出了框架。下文中,“包括”是指“包括但不限于”,“根據
……”
是指“至少根據
……
,但不限于僅根據
……”
。由于漢語的語言習慣,下文中沒有特別指出一個成分的數量時,意味著該成分可以是一個也可以是多個,或可理解為至少一個。
35.以下,對本公開實施方式涉及的術語進行解釋說明。
36.音頻3a處理:是aec、ans和agc這三種音頻處理算法的合稱。
37.aec:回聲是指設備本地揚聲器播放的聲音被麥克風采集之后形成的聲學信號。aec是在保留本地用戶語音的前提下,從麥克風采集的信號中消除回聲的過程。
38.ans:指的是將聲音中的背景噪聲識別并進行消除的處理。
39.agc:主要用于調整音量幅值,提高聲音在帶噪環境中的性能。比如,人正常交談的音量在40-60db之間,通常低于25db的聲音聽起來吃力,而超過100db的聲音讓人不適,agc可以將音量調整到人可以接受的范圍。
40.卷積神經網絡( convolutional neural network,cnn):是一種前饋型的神經網
絡,目前深度學習技術領域中非常具有代表性的神經網絡之一。
41.深度神經網絡(deep neural networks,dnn):可以理解為具有很多隱藏層的神經網絡。
42.考慮到現有技術中音頻3a處理的諸多缺點,本發明實施方式利用具有深度學習能力的網絡模型替代常規的音頻3a處理,無需在頻域與時域之間來回轉換,加快了處理流程。而且,本發明實施方式規避了e次冪等復雜運算,還可以降低運算量和系統復雜度。
43.圖2為本發明實施方式的音頻處理模型的訓練方法的示范性流程圖。利用該訓練方法對音頻處理模型完成訓練之后,音頻處理模型可以替代常規的音頻3a處理。
44.如圖2所示,該方法包括:步驟201:獲取訓練樣本,訓練樣本包括第一音頻信號和第二音頻信號,其中第二音頻信號包括:第三音頻信號的第一播放聲音及第一音頻信號的第二播放聲音的混合采集信號。
45.在這里,第三音頻信號為在音頻處理過程中、需要盡量保持純凈的目標音頻信號,比如實施為至少一個說話人的純凈語音信號。舉例,第三音頻信號可以實施為:利用錄音設備錄制的、說話人在預定時長內的純凈朗讀音頻文件。第一音頻信號為對第三音頻信號的播放聲音(也就是第一播放聲音)起干擾作用的音頻信號,比如揚聲器歷史播放過的音頻信號,如音樂文件、電視文件,等等。
46.通過聲音播放設備(比如,揚聲器)播放第三音頻信號,可以得到第一播放聲音。在播放第三音頻信號的同時,通過另一聲音播放設備(比如,高保真音響設備)播放第一音頻信號,可以得到對第一播放聲音造成干擾的第二播放聲音。利用聲音采集設備(比如,麥克風)混合采集第一播放聲音和第二播放聲音所得到的混合采集信號,即為第二音頻信號。
47.步驟202:將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號。
48.在這里,音頻處理模型為通過深度學習技術所構建的模型。音頻處理模型的輸入為:第一音頻信號和第二音頻信號。音頻處理模型對第一音頻信號和第二音頻信號執行音頻處理,以得到第四音頻信號。具體地,音頻處理可以包括:(1)、對第一音頻信號和第二音頻信號分別執行降維處理,以得到對應于第一音頻信號的第一音頻特征以及對應于第二音頻信號的第二音頻特征;(2)、對第一音頻特征以及第二音頻特征執行特征處理(比如,拼接或融合,等等),以得到特征處理后的音頻特征;(3)、對特征處理后的音頻特征執行升維處理,以得到第四音頻信號。通過執行后續的步驟203和步驟204,可以使得音頻處理模型輸出的第四音頻信號,類似或等同于對第二音頻信號執行語音3a處理后的音頻信號。
49.在示范性實施方式中,音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;步驟202具體包括:將第一音頻信號和第二音頻信號輸入編碼子模型,以得到根據第一音頻信號編碼出的第一音頻特征及根據第二音頻信號編碼出的第二音頻特征;拼接第一音頻特征和第二音頻特征,以得到拼接后的音頻特征;將拼接后的音頻特征輸入耦合子模型,以得到耦合后的音頻特征;將耦合后的音頻特征輸入解碼子模型,以得到根據耦合后的音頻特征解碼出的第四音頻信號??梢姡景l明實施方式提出音頻處理模型的具體結構。
50.在示范性實施方式中,編碼子模型、耦合子模型和解碼子模型分別包含深度學習模塊,深度學習包含至少一個的cnn和至少一個的dnn。可見,本發明實施方式可以基于cnn
和dnn,快速構建出音頻處理模型。
51.在示范性實施方式中,編碼子模型和耦合子模型包含transformer模型中的編碼器(encoder),解碼子模型包含transformer模型中的解碼器(decoder)??梢?,本發明實施方式還可以采用transformer模型,快速構建出音頻處理模型。
52.以上示范性描述了音頻處理模型以及編碼子模型、耦合子模型和解碼子模型的典型結構,本領域技術人員可以意識到,這種描述僅是示范性的,并不用于對本發明實施方式進行限定。
53.步驟203:基于第四音頻信號與第五音頻信號之間的差異,確定音頻處理模型的模型損失值,其中第五音頻信號是對第二音頻信號執行音頻3a處理得到的,音頻3a處理包含消除第二音頻信號中的第二播放聲音。
54.在這里,通過對第二音頻信號執行音頻3a處理,得到第五音頻信號。比如,對第二音頻信號執行的音頻3a處理包括:(1)、通過aec算法,消除第二音頻信號中的第二播放聲音;(2)、通過ans算法,對消除第二播放聲音的第二音頻信號實現自動降噪;(3)、通過agc算法,對agc處理后的第二音頻信號實現自動增益控制。其中,在對第二音頻信號執行音頻3a處理中,具體采用的算法可以參照本領域現有技術,本發明實施方式對此并不贅述。另外,在對第二音頻信號執行音頻3a處理的過程中,aec算法、ans算法和agc算法的執行步驟可以發生變化,本發明實施方式對此并無限定。
55.將第四音頻信號與第五音頻信號之間的差異,確定為音頻處理模型的模型損失值。模型損失值用來評價音頻處理模型的預測值(也就是,第四音頻信號)與真實值(也就是,第五音頻信號)之間的差異,從而可以基于該差異調節音頻處理模型的模型參數。
56.步驟204:基于所述模型損失值調整所述音頻處理模型的模型參數,以使所述模型損失值低于預設閾值。
57.通常情況下,模型損失值越小,音頻處理模型的性能越好。步驟204具體包括:沿模型損失值的梯度下降方向,利用反向傳播算法確定出使模型損失值低于預設閾值的模型參數,從而完成音頻處理模型的訓練過程。
58.完成上述訓練過程的音頻處理模型,可以用于對任意音頻執行等同于音頻3a處理效果的音頻處理。
59.圖3為本發明實施方式音頻處理模型的訓練過程的示范性示意圖。如圖3所示,待訓練的音頻處理模型包括編碼子模型、耦合子模型和解碼子模型。編碼子模型和耦合子模型之間還包含拼接(concat)處理。
60.圖4為本發明實施方式的深度學習模塊的示范性結構圖??梢?,深度學習模塊包含3個cnn模型以及2個dnn模型,其中3個cnn模型分別為具有編碼功能的神經網絡,2個dnn模型分別構成全連接層(fully connected layer)。在一個示范性實施方式中,編碼子模型、耦合子模型和解碼子模型均包含如圖4所示的深度學習模塊。
61.在另一個示范性實施方式中,編碼子模型、耦合子模型可以包含transformer模型中的編碼器,解碼子模型包含transformer模型中的解碼器。
62.下面描述音頻處理模型的完整訓練過程。
63.第一步:獲取訓練樣本。獲取訓練樣本的過程包括:(1)、準備若干時長的、說話人的純凈語音信號(即第三音頻信號)。
64.(2)、準備可能對第三音頻信號造成干擾的音頻信號(即第一音頻信號)。比如,考慮到邊緣設備是常見的音頻3a處理設備,可以將邊緣設備歷史播放過的電視節目、歌曲等,作為第一音頻信號。
65.(3)、將麥克風靠近揚聲器布置,比如布置在揚聲器的正上方(比如2cm)。打開麥克風進行音頻采集,同時使用揚聲器播放第一音頻信號,使用高保真音響設備播放第三音頻信號,如此進行數據采集,以利用麥克風采集到第三音頻信號的第一播放聲音及第一音頻信號的第二播放聲音的混合采集信號,即第二音頻信號。
66.在這里,還進一步可以對第二音頻信號執行音頻3a處理,以得到第五音頻信號。對第二音頻信號執行的音頻3a處理包括:(1)、通過aec算法,消除第二音頻信號中的第二播放聲音;(2)、通過ans算法,對消除第二播放聲音的第二音頻信號實現自動降噪;(3)、通過agc算法,對agc處理后的第二音頻信號進行自動增益控制,得到第五音頻信號。
67.第二步:將第一音頻信號和第二音頻信號輸入音頻處理模型。音頻處理模型對第一音頻信號和第二音頻信號執行音頻處理,具體包括:(1)、編碼子模型對第一音頻信號進行編碼以得到第一音頻特征,編碼子模型對第二音頻信號進行編碼以得到第二音頻特征;(2)、拼接第一音頻特征和第二音頻特征,以得到拼接后的音頻特征;(3)、編碼子模型對拼接后的音頻特征執行特征融合,以得到耦合后的音頻特征;(4)、解碼子模型對耦合后的音頻特征執行解碼,以得到第四音頻信號。
68.第三步:基于第四音頻信號與第五音頻信號之間的差異(比如,均方差),確定音頻處理模型的模型損失值,其中第五音頻信號是對第二音頻信號執行音頻3a處理得到的。
69.第四步:基于模型損失值調整音頻處理模型的模型參數,以使模型損失值低于預設閾值。比如,基于模型損失值,分別調整編碼子模型、耦合子模型和解碼子模型中的各自模型參數。
70.至此,完成音頻處理模型的訓練過程。然后,可以利用完成訓練過程的音頻處理模型,對任意音頻執行等同于音頻3a處理效果的音頻處理。
71.圖5為本發明實施方式的音頻處理方法的示范性流程圖。
72.如圖5所示,音頻處理方法包括:步驟501:獲取訓練后的音頻處理模型,訓練后的音頻處理模型為根據如上任意的音頻處理模型的訓練方法訓練得到的。
73.步驟502:將第六音頻信號以及第七音頻信號輸入音頻處理模型,其中第七音頻信號包括:說話人的語音及第六音頻信號的第三播放聲音的混合采集信號。
74.在這里,第六音頻信號為對說話人的語音起干擾作用的音頻信號。比如,當說話人通過邊緣設備與別人通電話時,第六音頻信號為邊緣設備上正在播放的節目音頻(如音樂文件、電視文件,等等)。第六音頻信號的播放聲音,將對說話人的語音處理造成干擾。
75.步驟503:從音頻處理模型接收對第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。
76.音頻處理模型接收第六音頻信號以及第七音頻信號后,輸出第八音頻信號。第八音頻信號為:音頻處理模型利用第六音頻信號,對第七音頻信號執行音頻3a處理后的信號。由于音頻3a處理包含回聲消除,因此音頻處理模型的模型輸入需要包含作為回聲消除對象的第七音頻信號。
77.考慮到邊緣設備上經常需要執行音頻3a處理,且邊緣設備對運算資源的占用情況更加敏感,優選在邊緣設備上應用本發明實施方式。優選地,在利用邊緣設備的揚聲器播放第六音頻信號以產生第三播放聲音時,利用邊緣設備的麥克風混合采集說話人的語音和第三播放聲音,以得到第七音頻信號。舉例,邊緣設備可以實施為:移動終端、便攜式電腦、智能音箱、智能電視、個人數字助理或智能耳機,等等。
78.圖6為本發明實施方式利用訓練后的音頻處理模型執行音頻處理的示范性示意圖。圖6的音頻處理模型具有類似于圖3的模型結構,不同之處在于,圖6的音頻處理模型已完成訓練。以在邊緣設備上應用本發明實施方式進行說明??梢詫⒂柧毢蟮囊纛l處理模型布置在邊緣設備中,比如布置在邊緣設備的神經網絡處理器(npu)可以訪問的存儲介質中。
79.在邊緣設備處,應用訓練后的音頻處理模型執行音頻處理的具體過程包括:第一步:在利用邊緣設備的揚聲器播放第六音頻信號(如音樂文件、電視文件,等等)以產生第三播放聲音的同時,同時開啟邊緣設備的麥克風。麥克風混合采集說話人的語音和第三播放聲音,以得到第七音頻信號。
80.第二步:將第六音頻信號和第七音頻信號輸入訓練后的音頻處理模型。訓練后的音頻處理模型對第六音頻信號和第七音頻信號執行音頻處理,具體包括:(1)、編碼子模型對第六音頻信號進行編碼以得到第三音頻特征,編碼子模型對第七音頻信號進行編碼以得到第四音頻特征;(2)、拼接第三音頻特征和第四音頻特征,以得到拼接后的音頻特征;(3)、編碼子模型對拼接后的音頻特征執行特征融合,以得到耦合后的音頻特征;(4)、解碼子模型對耦合后的音頻特征執行解碼,以得到第八音頻信號。第八音頻信號為:訓練后的音頻處理模型利用第六音頻信號,對第七音頻信號執行音頻3a處理后的信號。
81.圖7為本發明實施方式的音頻處理模型的訓練裝置的示范性結構圖。如圖7所示,音頻處理模型的訓練裝置700包括:獲取模塊701,被配置為獲取訓練樣本,訓練樣本包括第一音頻信號和第二音頻信號,其中第二音頻信號包括:第三音頻信號的第一播放聲音及第一音頻信號的第二播放聲音的混合采集信號;輸入模塊702,被配置為將第一音頻信號和第二音頻信號輸入音頻處理模型,得到第四音頻信號;確定模塊703,被配置為基于第四音頻信號與第五音頻信號之間的差異,確定音頻處理模型的模型損失值,其中第五音頻信號是對第二音頻信號執行音頻3a處理得到的,音頻3a處理包含消除第二音頻信號中的第二播放聲音;調整模塊704,被配置為基于模型損失值調整音頻處理模型的模型參數,以使模型損失值低于預設閾值。
82.在示范性實施方式中,音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;輸入模塊702,被配置為:將第一音頻信號和第二音頻信號輸入編碼子模型,以得到根據第一音頻信號編碼出的第一音頻特征及根據第二音頻信號編碼出的第二音頻特征;拼接第一音頻特征和第二音頻特征,以得到拼接后的音頻特征;將拼接后的音頻特征輸入耦合子模型,以得到耦合后的音頻特征;將耦合后的音頻特征輸入解碼子模型,以得到根據耦合后的音頻特征解碼出的第四音頻信號。
83.在示范性實施方式中,獲取模塊701,被配置為:在利用揚聲器播放所述第一音頻
信號以產生所述第二播放聲音時,利用高保真音響設備播放所述第三音頻信號以產生所述第一播放聲音;利用麥克風采集所述第一播放聲音和所述第二播放聲音,以得到所述第二音頻信號。
84.在示范性實施方式中,所述第三音頻信號為純凈語音信號,所述第一音頻信號為所述純凈語音信號的干擾音頻信號。
85.圖8為本發明實施方式的音頻處理裝置的示范性結構圖。如圖8所示,音頻處理裝置800包括:獲取模塊801,被配置為獲取訓練后的音頻處理模型,訓練后的音頻處理模型為根據如上任一的音頻處理模型的訓練方法訓練得到的;輸入模塊802,被配置為將第六音頻信號以及第七音頻信號輸入音頻處理模型,其中第七音頻信號包括:說話人的語音及第六音頻信號的第三播放聲音的混合采集信號;第六音頻信號為所述說話人的語音的干擾音頻信號;輸出模塊803,被配置為從音頻處理模型接收對第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。
86.在示范性實施方式中,輸入模塊802,被配置為在利用邊緣設備的揚聲器播放第六音頻信號以產生第三播放聲音時,利用邊緣設備的麥克風混合采集說話人的語音和第三播放聲音,以得到第七音頻信號。
87.本發明還分別提出音頻處理模型的訓練裝置及音頻處理裝置。音頻處理模型的訓練裝置或音頻處理裝置包括:處理器;存儲器;其中存儲器中存儲有可被處理器執行的應用程序,用于使得處理器執行如上實施方式的音頻處理模型的訓練方法或音頻處理方法。其中,存儲器具體可以實施為電可擦可編程只讀存儲器(eeprom)、快閃存儲器(flash memory)、可編程程序只讀存儲器(prom)等多種存儲介質。處理器可以實施為包括一或多個中央處理器或一或多個現場可編程門陣列,其中現場可編程門陣列集成一或多個中央處理器核。具體地,中央處理器或中央處理器核可以實施為cpu、mcu或數字信號處理器(dsp)。
88.圖9為本發明實施方式的電子設備的示范性結構圖。優選地,電子設備900可以實施為邊緣設備。
89.電子設備900包括:處理器901和存儲器902。處理器901可以包括一個或多個處理核心,比如4核心處理器、8核心處理器等。處理器901可以采用數字信號處理(digital signal processing,dsp)、現場可編程門陣列(field-programmable gate array,fpga)、可編程邏輯陣列(programmable logic array,pla)中的至少一種硬件形式來實現。處理器901也可以包括主處理器和協處理器,主處理器是用于對在喚醒狀態下的數據進行處理的處理器,也稱中央處理器(central processing unit,cpu);協處理器是用于對在待機狀態下的數據進行處理的低功耗處理器。在一些實施方式中,處理器901可以在集成有圖像處理器(graphics processing unit,gpu),gpu用于負責顯示屏所需要顯示的內容的渲染和繪制。一些實施方式中,處理器901還可以包括ai處理器,該ai處理器用于處理有關機器學習的計算操作。比如,ai處理器可以實施為神經網絡處理器。
90.存儲器902可以包括一個或多個計算機可讀存儲介質,該計算機可讀存儲介質可以是非暫態的。存儲器902還可包括高速隨機存取存儲器,以及非易失性存儲器,比如一個或多個磁盤存儲設備、閃存存儲設備。
91.在一些實施方式中,存儲器902中的非暫態的計算機可讀存儲介質用于存儲至少一個指令,該至少一個指令用于被處理器901所執行以實現本公開中各個實施方式提供的音頻處理模型的訓練方法或音頻處理方法。在一些實施方式中,電子設備900還可選包括有:外圍設備接口903和至少一個外圍設備。處理器901、存儲器902和外圍設備接口903之間可以通過總線或信號線相連。各個外圍設備可以通過總線、信號線或電路板與外圍設備接口903相連。具體地,外圍設備包括:射頻電路904、觸摸顯示屏905、攝像頭組件906、音頻電路907、定位組件908和電源909中的至少一種。外圍設備接口903可被用于將輸入/輸出(input /output,i/o)相關的至少一個外圍設備連接到處理器901和存儲器902。在一些實施方式中,處理器901、存儲器902和外圍設備接口903被集成在同一芯片或電路板上;在一些其他實施方式中,處理器901、存儲器902和外圍設備接口903中的任意一個或兩個可以在單獨的芯片或電路板上實現,本實施方式對此不加以限定。
92.射頻電路904用于接收和發射射頻(radio frequency,rf)信號,也稱電磁信號。射頻電路904通過電磁信號與通信網絡以及其他通信設備進行通信。射頻電路904將電信號轉換為電磁信號進行發送,或者,將接收到的電磁信號轉換為電信號??蛇x地,射頻電路904包括:天線系統、rf收發器、一個或多個放大器、調諧器、振蕩器、數字信號處理器、編解碼芯片組、用戶身份模塊卡等等。射頻電路904可以通過至少一種無線通信協議來與其它終端進行通信。該無線通信協議包括但不限于:城域網、各代移動通信網絡(2g、3g、4g及5g)、無線局域網和/或無線保真(wireless fidelity,wi-fi)網絡。在一些實施方式中,射頻電路904還可以包括近距離無線通信(near field communication,nfc)有關的電路,本公開對此不加以限定。
93.顯示屏905用于顯示用戶界面(user interface,ui)。該ui可以包括圖形、文本、圖標、視頻及其它們的任意組合。當顯示屏905是觸摸顯示屏時,顯示屏905還具有采集在顯示屏905的表面或表面上方的觸摸信號的能力。該觸摸信號可以作為控制信號輸入至處理器901進行處理。此時,顯示屏905還可以用于提供虛擬按鈕和/或虛擬鍵盤,也稱軟按鈕和/或軟鍵盤。在一些實施方式中,顯示屏905可以為一個,設置在電子設備900的前面板;在另一些實施方式中,顯示屏905可以為至少兩個,分別設置在電子設備900的不同表面或呈折疊設計;在一些實施方式中,顯示屏905可以是柔性顯示屏,設置在電子設備900的彎曲表面上或折疊面上。甚至,顯示屏905還可以設置成非矩形的不規則圖形,也即異形屏。顯示屏905可以采用液晶顯示屏(liquid crystal display,lcd)、有機發光二極管(organic light-emitting diode,oled)等材質制備。
94.攝像頭組件906用于采集圖像或視頻??蛇x地,攝像頭組件906包括前置攝像頭和后置攝像頭。通常,前置攝像頭設置在終端的前面板,后置攝像頭設置在終端的背面。在一些實施方式中,后置攝像頭為至少兩個,分別為主攝像頭、景深攝像頭、廣角攝像頭、長焦攝像頭中的任意一種,以實現主攝像頭和景深攝像頭融合實現背景虛化功能、主攝像頭和廣角攝像頭融合實現全景拍攝以及虛擬現實(virtual reality,vr)拍攝功能或者其它融合拍攝功能。在一些實施方式中,攝像頭組件906還可以包括閃光燈。閃光燈可以是單溫閃光燈,也可以是雙溫閃光燈。雙溫閃光燈指暖光閃光燈和冷光閃光燈的組合,可以用于不同溫下的光線補償。
95.音頻電路907可以包括麥克風和揚聲器。麥克風用于采集用戶及環境的聲波,并將
聲波轉換為電信號輸入至處理器901進行處理,或者輸入至射頻電路904以實現語音通信。出于立體聲采集或降噪的目的,麥克風可以為多個,分別設置在電子設備900的不同部位。麥克風還可以是陣列麥克風或全向采集型麥克風。揚聲器則用于將來自處理器901或射頻電路904的電信號轉換為聲波。揚聲器可以是傳統的薄膜揚聲器,也可以是壓電陶瓷揚聲器。當揚聲器是壓電陶瓷揚聲器時,不僅可以將電信號轉換為人類可聽見的聲波,也可以將電信號轉換為人類聽不見的聲波以進行測距等用途。在一些實施方式中,音頻電路907還可以包括耳機插孔。
96.定位組件908用于定位電子設備900的當前地理位置,以實現導航或基于位置的服務(location based service,lbs)。定位組件908可以是基于美國的全球定位系統(global positioning system,gps)、中國的北斗系統、俄羅斯的格雷納斯系統或歐盟的伽利略系統的定位組件。電源909用于為電子設備900中的各個組件進行供電。電源909可以是交流電、直流電、一次性電池或可充電電池。當電源909包括可充電電池時,該可充電電池可以支持有線充電或無線充電。
97.本領域技術人員可以理解,上述的結構并不構成對電子設備900的限定,可以包括比圖示更多或更少的組件,或者組合某些組件,或者采用不同的組件布置。
98.需要說明的是,上述各流程和各結構圖中不是所有的步驟和模塊都是必須的,可以根據實際的需要忽略某些步驟或模塊。各步驟的執行順序不是固定的,可以根據需要進行調整。各模塊的劃分僅僅是為了便于描述采用的功能上的劃分,實際實現時,一個模塊可以分由多個模塊實現,多個模塊的功能也可以由同一個模塊實現,這些模塊可以位于同一個設備中,也可以位于不同的設備中。
99.各實施方式中的硬件模塊可以以機械方式或電子方式實現。例如,一個硬件模塊可以包括專門設計的永久性電路或邏輯器件(如專用處理器,如fpga或asic)用于完成特定的操作。硬件模塊也可以包括由軟件臨時配置的可編程邏輯器件或電路(如包括通用處理器或其它可編程處理器)用于執行特定操作。至于具體采用機械方式,或是采用專用的永久性電路,或是采用臨時配置的電路(如由軟件進行配置)來實現硬件模塊,可以根據成本和時間上的考慮來決定。
100.本發明還提供了一種機器可讀的存儲介質,存儲用于使一機器執行如本技術方法的指令。具體地,可以提供配有存儲介質的系統或者裝置,在該存儲介質上存儲著實現上述實施方式中任一實施方式的功能的軟件程序代碼,且使該系統或者裝置的計算機(或cpu或mpu)讀出并執行存儲在存儲介質中的程序代碼。此外,還可以通過基于程序代碼的指令使計算機上操作的操作系統等來完成部分或者全部的實際操作。還可以將從存儲介質讀出的程序代碼寫到插入計算機內的擴展板中所設置的存儲器中或者寫到與計算機相連接的擴展單元中設置的存儲器中,隨后基于程序代碼的指令使安裝在擴展板或者擴展單元上的cpu等來執行部分和全部實際操作,從而實現上述實施方式中任一實施方式的功能。用于提供程序代碼的存儲介質實施方式包括軟盤、硬盤、磁光盤、光盤(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁帶、非易失性存儲卡和rom??蛇x擇地,可以由通信網絡從服務器計算機或云上下載程序代碼。
101.以上,僅為本發明的較佳實施方式而已,并非用于限定本發明的保護范圍。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范
圍之內。

技術特征:


1.一種音頻處理模型的訓練方法,其特征在于,包括:獲取訓練樣本,所述訓練樣本包括第一音頻信號和第二音頻信號,其中所述第二音頻信號包括:第三音頻信號的第一播放聲音及所述第一音頻信號的第二播放聲音的混合采集信號;將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號;基于所述第四音頻信號與第五音頻信號之間的差異,確定所述音頻處理模型的模型損失值,其中所述第五音頻信號是對所述第二音頻信號執行音頻3a處理得到的,所述音頻3a處理包含消除所述第二音頻信號中的所述第二播放聲音;基于所述模型損失值調整所述音頻處理模型的模型參數,以使所述模型損失值低于預設閾值。2.根據權利要求1所述的音頻處理模型的訓練方法,其特征在于,所述音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;所述將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號包括:將所述第一音頻信號和所述第二音頻信號輸入所述編碼子模型,以得到根據所述第一音頻信號編碼出的第一音頻特征及根據所述第二音頻信號編碼出的第二音頻特征;拼接所述第一音頻特征和所述第二音頻特征,以得到拼接后的音頻特征;將所述拼接后的音頻特征輸入所述耦合子模型,以得到耦合后的音頻特征;將所述耦合后的音頻特征輸入所述解碼子模型,以得到根據所述耦合后的音頻特征解碼出的所述第四音頻信號。3.根據權利要求1所述的音頻處理模型的訓練方法,其特征在于,還包括:在利用揚聲器播放所述第一音頻信號以產生所述第二播放聲音時,利用高保真音響設備播放所述第三音頻信號以產生所述第一播放聲音;利用麥克風采集所述第一播放聲音和所述第二播放聲音,以得到所述第二音頻信號。4.根據權利要求3所述的音頻處理模型的訓練方法,其特征在于,所述第三音頻信號為純凈語音信號,所述第一音頻信號為所述純凈語音信號的干擾音頻信號。5.根據權利要求1-4中任一項所述的音頻處理模型的訓練方法,其特征在于,所述對所述第二音頻信號執行音頻3a處理還包括:對消除所述第二播放聲音的所述第二音頻信號,執行背景噪聲抑制處理;對所述背景噪聲抑制處理后的所述第二音頻信號執行自動增益控制。6.根據權利要求1-4中任一項所述的音頻處理模型的訓練方法,其特征在于,所述編碼子模型、耦合子模型和解碼子模型分別包含深度學習模塊,所述深度學習包含至少一個的卷積神經網絡和至少一個的深度神經網絡;或所述編碼子模型和所述耦合子模型包含transformer模型中的編碼器,所述解碼子模型包含所述transformer模型中的解碼器。7.一種音頻處理方法,其特征在于,包括:獲取訓練后的音頻處理模型,所述訓練后的音頻處理模型為根據權利要求1-6中任一項所述的音頻處理模型的訓練方法訓練得到的;將第六音頻信號以及第七音頻信號輸入所述音頻處理模型,其中所述第七音頻信號包括:說話人的語音及所述第六音頻信號的第三播放聲音的混合采集信號;所述第六音頻信
號為所述說話人的語音的干擾音頻信號;從所述音頻處理模型接收對所述第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。8.根據權利要求7所述的音頻處理方法,其特征在于,在利用邊緣設備的揚聲器播放所述第六音頻信號以產生所述第三播放聲音時,利用所述邊緣設備的麥克風混合采集所述說話人的語音和所述第三播放聲音,以得到所述第七音頻信號。9.一種音頻處理模型的訓練裝置,其特征在于,包括:獲取模塊,被配置為獲取訓練樣本,所述訓練樣本包括第一音頻信號和第二音頻信號,其中所述第二音頻信號包括:第三音頻信號的第一播放聲音及所述第一音頻信號的第二播放聲音的混合采集信號;輸入模塊,被配置為將所述第一音頻信號和所述第二音頻信號輸入音頻處理模型,得到第四音頻信號;確定模塊,被配置為基于所述第四音頻信號與第五音頻信號之間的差異,確定所述音頻處理模型的模型損失值,其中所述第五音頻信號是對所述第二音頻信號執行音頻3a處理得到的,所述音頻3a處理包含消除所述第二音頻信號中的所述第二播放聲音;調整模塊,被配置為基于所述模型損失值調整所述音頻處理模型的模型參數,以使所述模型損失值低于預設閾值。10.根據權利要求9所述的音頻處理模型的訓練裝置,其特征在于,所述音頻處理模型包括編碼子模型、耦合子模型和解碼子模型;所述輸入模塊,被配置為:將所述第一音頻信號和所述第二音頻信號輸入所述編碼子模型,以得到根據所述第一音頻信號編碼出的第一音頻特征及根據所述第二音頻信號編碼出的第二音頻特征;拼接所述第一音頻特征和所述第二音頻特征,以得到拼接后的音頻特征;將所述拼接后的音頻特征輸入所述耦合子模型,以得到耦合后的音頻特征;將所述耦合后的音頻特征輸入所述解碼子模型,以得到根據所述耦合后的音頻特征解碼出的所述第四音頻信號。11.根據權利要求9所述的音頻處理模型的訓練裝置,其特征在于,所述獲取模塊,被配置為:在利用揚聲器播放所述第一音頻信號以產生所述第二播放聲音時,利用高保真音響設備播放所述第三音頻信號以產生所述第一播放聲音;利用麥克風采集所述第一播放聲音和所述第二播放聲音,以得到所述第二音頻信號。12.根據權利要求11所述的音頻處理模型的訓練裝置,其特征在于,所述第三音頻信號為純凈語音信號,所述第一音頻信號為所述純凈語音信號的干擾音頻信號。13.根據權利要求9-12中任一項所述的音頻處理模型的訓練裝置,其特征在于,還包括:音頻3a處理模塊,被配置為執行所述音頻3a處理,其中所述音頻3a處理還包括:對消除所述第二播放聲音的所述第二音頻信號,執行背景噪聲抑制處理;對所述背景噪聲抑制處理后的所述第二音頻信號執行自動增益控制。14.根據權利要求9-12中任一項所述的音頻處理模型的訓練裝置,其特征在于,所述編碼子模型、耦合子模型和解碼子模型分別包含深度學習模塊,所述深度學習包
含至少一個的卷積神經網絡和至少一個的深度神經網絡;或所述編碼子模型和所述耦合子模型包含transformer模型中的編碼器,所述解碼子模型包含所述transformer模型中的解碼器。15.一種音頻處理裝置,其特征在于,包括:獲取模塊,被配置為獲取訓練后的音頻處理模型,所述訓練后的音頻處理模型為根據權利要求1-6中任一項所述的音頻處理模型的訓練方法訓練得到的;輸入模塊,被配置為將第六音頻信號以及第七音頻信號輸入所述音頻處理模型,其中所述第七音頻信號包括:說話人的語音及所述第六音頻信號的第三播放聲音的混合采集信號;所述第六音頻信號為所述說話人的語音的干擾音頻信號;輸出模塊,被配置為從所述音頻處理模型接收對所述第六音頻信號以及第七音頻信號執行音頻處理后的第八音頻信號。16.根據權利要求15所述的音頻處理裝置,其特征在于,所述輸入模塊,被配置為在利用邊緣設備的揚聲器播放所述第六音頻信號以產生所述第三播放聲音時,利用所述邊緣設備的麥克風混合采集所述說話人的語音和所述第三播放聲音,以得到所述第七音頻信號。17.一種電子裝置,其特征在于,包括:存儲器;處理器;其中所述存儲器中存儲有可被所述處理器執行的應用程序,用于使得所述處理器執行如權利要求1至6中任一項所述的音頻處理模型的訓練方法,或者如權利要求7至8中任一項所述的音頻處理方法。18.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令在被處理器執行時,使所述處理器執行如權利要求1至6中任一項所述的音頻處理模型的訓練方法,或者如權利要求7至8中任一項所述的音頻處理方法。

技術總結


本發明實施方式提出音頻處理模型的訓練、音頻處理方法、裝置及電子設備。方法包括:獲取訓練樣本,訓練樣本包括第一音頻信號和第二音頻信號,其中第二音頻信號包括:第三音頻信號的第一播放聲音及第一音頻信號的第二播放聲音的混合采集信號;將第一音頻信號和第二音頻信號輸入音頻處理模型,得到第四音頻信號;基于第四音頻信號與第五音頻信號之間的差異,確定音頻處理模型的模型損失值,其中第五音頻信號是對第二音頻信號執行音頻3A處理得到的,音頻3A處理包含消除第二音頻信號中的第一播放聲音;基于模型損失值調整音頻處理模型的模型參數,以使模型損失值低于預設閾值。本發明實施方式可以減少流程,降低運算量和系統復雜度。度。度。


技術研發人員:

鐘雨崎 凌明 楊作興 艾國

受保護的技術使用者:

深圳比特微電子科技有限公司

技術研發日:

2022.06.13

技術公布日:

2022/7/15


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-13317-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-12-04 06:53:18

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
,2人圍觀
參與討論