本文作者:kaifamei

噪音識別的方法、裝置、電子設備及介質與流程

更新時間:2025-12-27 16:56:27 0條評論

噪音識別的方法、裝置、電子設備及介質與流程



1.本技術中涉及數據處理技術,尤其是一種噪音識別的方法、裝置、電子設備及介質。


背景技術:



2.隨著科技的發展,產品高質量化在整個國家的生產中的比重越來越多。無論是生產產品還是生活產品,隨著產品的使用增加,產品必然會出現損耗,因此精準的故障診斷系統直接決定了產品的質量的優劣。
3.進一步的,相關技術中對許多產品的運行聲音判斷是對其故障診斷的一個重要方法。目前相關技術中通常存在利用軟閾值化進行去噪的方法。其中,軟閾值化(soft threshlding)作為一種經典的方法,尤其在信號降噪領域是非常實用的,軟閾值天然的非線性的屬性是很適合用作深度神經網絡的計算和傳導過程中的。因此深度殘差收縮網絡(residual shrinkage network),也已經證明了其在信號降噪領域的實用性。
4.然而,相關技術中的深度殘差收縮網絡僅具備一個斜率的軟閾值參數,這也導致會出現其去噪效果不明顯的現象。


技術實現要素:



5.本技術實施例提供一種噪音識別的方法、裝置、電子設備及介質,本技術實施例用于解決相關技術中存在的深度殘差收縮網絡僅具備一個斜率的軟閾值參數所導致的,去噪效果不明顯的問題。
6.其中,根據本技術實施例的一個方面,提供的一種噪音識別的方法,包括:
7.獲取待識別語音數據;
8.將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;
9.根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據
10.可選地,在基于本技術上述方法的另一個實施例中,在所述獲取待識別語音數據之前,還包括:
11.獲取第一輸入特征,并對所述第一輸入特征執行至少兩次的卷積化操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,得到第一輸出結果;
12.對所述第一輸出結果執行絕對值算法,以及執行全局平均池化操作,得到第二輸出結果;
13.基于所述第二輸出結果,得到所述第一斜率以及所述第二斜率。
14.可選地,在基于本技術上述方法的另一個實施例中,所述基于所述第二輸出結果征,得到所述第一斜率以及所述第二斜率,包括:
15.對所述第二輸出結果執行卷積化操作,以及執行批正則歸一化操作,以及執行全
連接操作,以及執行線性整流函數化操作,得到第三輸出結果;
16.對所述第三輸出結果進行sigmoid函數化,得到目標軟閾值函數。
17.可選地,在基于本技術上述方法的另一個實施例中,在所述得到第一輸出結果之后,還包括:
18.對所述第一輸出結果執行第一次數的絕對值算法,以及執行全局平均池化操作,得到第四輸出結果;
19.對所述第四輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第一斜率值。
20.可選地,在基于本技術上述方法的另一個實施例中,在所述得到所述第一斜率值之后,還包括:
21.對所述第一輸出結果執行第二次數的絕對值算法,以及執行全局平均池化操作,得到第五輸出結果;
22.對所述第五輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第二斜率值。
23.可選地,在基于本技術上述方法的另一個實施例中,在所述得到所述第二斜率值之后,還包括:
24.根據所述第一斜率值、所述第二斜率值以及所述目標軟閾值函數,生成具有所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數;
25.根據所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數,構造所述目標軟閾值殘差網絡。
26.可選地,在基于本技術上述方法的另一個實施例中,所述將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,包括:
27.獲取所述待識別語音數據,并對所述待識別語音數據進行卷積操作,提取所述待識別語音數據中的語義信息,得到第一維度的輸出結果;
28.利用所述第一斜率的軟閾值函數,以及所述第二斜率的軟閾值函數,去除所述第一維度的輸出結果的噪音冗余;
29.對去除噪音冗余的第一維度的輸出結果執行批正則歸一化操作,以及執行全局平均池化操作,以及執行線性整流函數化操作,得到第二維度的輸出結果;
30.基于所述第二維度的輸出結,得到所述噪音識別結果。
31.可選地,在基于本技術上述方法的另一個實施例中,所述基于所述第二維度的輸出結,得到所述噪音識別結果,包括:
32.執行轉換操作,將所述第二維度的輸出結果轉換為n維向量;
33.對所述n維向量執行全連接操作以及執行softmax函數化操作,得到所述噪音識別結果。
34.根據本技術實施例的另一個方面,提供的一種噪音識別的裝置,包括:
35.獲取模塊,被設置為獲取待識別語音數據;
36.生成模塊,被設置為將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;
37.確定模塊,被設置為根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。
38.根據本技術實施例的又一個方面,提供的一種電子設備,包括:
39.存儲器,用于存儲可執行指令;以及
40.顯示器,用于與所述存儲器顯示以執行所述可執行指令從而完成上述任一所述噪音識別的方法的操作。
41.根據本技術實施例的還一個方面,提供的一種計算機可讀存儲介質,用于存儲計算機可讀取的指令,所述指令被執行時執行上述任一所述噪音識別的方法的操作。
42.本技術中,在獲取待識別語音數據之后,將待識別語音數據輸入至具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡,得到噪音識別結果,并根據噪音識別結果,確定待識別語音數據中的噪音數據。通過應用本技術的技術方案,可以通過采用兩種不同斜率的軟閾值殘差網絡實現更全面的過濾語音中噪聲信號的目的。從而避免相關技術中存在的僅具備單一斜率的深度殘差收縮網絡所出現的去噪效果不明顯的問題。
43.下面通過附圖和實施例,對本技術的技術方案做進一步的詳細描述。
附圖說明
44.構成說明書的一部分的附圖描述了本技術的實施例,并且連同描述一起用于解釋本技術的原理。
45.參照附圖,根據下面的詳細描述,可以更加清楚地理解本技術,其中:
46.圖1為本技術提出的一種噪音識別的方法的示意圖;
47.圖2-圖8為本技術提出的基于同一斜率生成的軟閾值殘差網絡的示意圖;
48.圖9-圖11為本技術提出的基于不同斜率生成的軟閾值殘差網絡的示意圖;
49.圖12為本技術噪音識別的裝置的結構示意圖;
50.圖13為本技術噪音識別的電子設備結構示意圖。
具體實施方式
51.現在將參照附圖來詳細描述本技術的各種示例性實施例。應注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數字表達式和數值不限制本技術的范圍。
52.同時,應當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關系繪制的。
53.以下對至少一個示例性實施例的描述實際上僅僅是說明性的,不作為對本技術及其應用或使用的任何限制。
54.對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為說明書的一部分。
55.應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。
56.另外,本技術各個實施例之間的技術方案可以相互結合,但是必須是以本領域普
通技術人員能夠實現為基礎,當技術方案的結合出現相互矛盾或無法實現時應當認為這種技術方案的結合不存在,也不在本技術要求的保護范圍之內。
57.需要說明的是,本技術實施例中所有方向性指示(諸如上、下、左、右、前、后
……
)僅用于解釋在某一特定姿態(如附圖所示)下各部件之間的相對位置關系、運動情況等,如果該特定姿態發生改變時,則該方向性指示也相應地隨之改變。
58.一種方式中,本技術還提出一種噪音識別的方法、裝置、目標終端及介質。
59.圖1示意性地示出了根據本技術實施方式的一種噪音識別的方法的流程示意圖。如圖1所示,該方法包括:
60.s101,獲取待識別語音數據。
61.進一步的,相關技術中,在深度殘差網絡(resnet)中,線性整流函數(rectified linear unit,relu)是一種常見通用有效的非線性激活函數,它的數學表達為
[0062][0063]
其中,該x和y都是實數,分別代表輸入和輸出;它的導數為
[0064][0065]
同樣的,上述的x和y也均都是實數,分別代表輸入和輸出。進一步的,relu的函數形狀和其導數形狀如圖2所示。與之相對應的深度殘差收縮網絡(residual shrinkage network),它的激活函數為軟閾值化(soft threshlding)函數,數學表達為
[0066][0067]
上述表達式中,τ即為閾值,x和y都是實數,分別代表輸入和輸出,該函數的形狀如圖3所示。它的導數為
[0068][0069]
其中,該τ為閾值,導數的形狀如圖4所示。進一步的,由于軟閾值化函數就是一種在閾值范圍內的數值是0,閾值以外和relu類似,保持斜率為1。從而實現壓制閾值范圍內的噪音干擾,可以消除容易特征。
[0070]
進一步的,軟閾值化(soft threshlding),即軟閾值化函數,是將輸入數據朝著零的方向進行收縮的一種函數。
[0071]
進一步而言,對于同一斜率的注意力深度殘差收縮網絡設計來說,整個網絡的設計就是一個基于注意力機制的同一斜率的軟閾值化模塊(attention same slope unit)不斷堆疊而成,簡寫為assu,如圖5-圖6所示。為具備同一斜率的深度殘差收縮網絡,其生成架
構如下所示:
[0072]
步驟一,本技術可以首先獲取輸入的特征為cxwx1。其中需要說明的是,在該特征中,c對應于輸出的channel,w指的是特征的寬度,1指的是特征的高度,因為在噪聲信號中的特征高度為1。由于根據不同的深度學習開發框架,通道channel所排列的位置不一定相同,有些框架可能是wx1xc,一種方式中,本技術可以將通道channel放在第一個維度。并將這個輸入單獨保存起來,用作最后的殘差相加。
[0073]
步驟二,本技術可以對cxwx1的特征進行cbn操作,這里的cbn是指卷積(con)+批正則歸一化操作bn(batch normalization)+relu的操作的簡寫。
[0074]
步驟三,對上面的輸出再進行一次cbn操作,以抽取更高級的語義信息。
[0075]
步驟四,可以對步驟二的輸出進行閾值自動推導的注意力機制。這部分先用絕對值+全局平均池化(gap)得到輸出。
[0076]
步驟五,本技術可以對步驟3得到的輸出再進行全連接(fc)+批正則歸一化操作bn(batch normalization)+relu+全連接(fc)的操作,然后再進行sigmoid函數來得到閾值τ的輸出。
[0077]
步驟六,對步驟三的輸出進行同一斜率自動推導的注意力機制。需要說明的是,該部分先用絕對值+全局平均池化(gap)得到輸出。
[0078]
步驟七,本技術可以對步驟六的輸出再進行全連接(fc)+批正則歸一化操作bn(batch normalization)+relu+全連接(fc)的操作,從而直接得到斜率值α的輸出。
[0079]
步驟八,本技術可以根據步驟五和步驟七分別得到的閾值τ和斜率值α,構造同一斜率的軟閾值化函數。再將帶有同一斜率的軟閾值化函數得到輸出和原始輸入也就是步驟一中的保存輸入相加結合在一起,相加后的結果作為輸出。從而實現一個完整的同一斜率的軟閾值化模塊(assu)的設計描述完成。
[0080]
另外,本技術可以將網絡自動推導出來的斜率α帶入到軟閾值化函數中以替換原來斜率為1的軟閾值化函數,這個新的函數的表達為
[0081][0082]
其中,該τ為閾值,x和y都是實數,分別代表輸入和輸出,α為斜率,該函數的形狀如圖7所示。與之對應的導數的數學表達為
[0083][0084]
在這里τ為閾值,x和y都是實數,分別代表輸入和輸出,α為斜率,該函數的形狀如圖8所示。
[0085]
更進一步的,本技術在得到固定斜率的軟閾值函數之后,還可以據此生成對應的注意力深度殘差收縮網絡,具體步驟如下:
[0086]
步驟一,輸入為原始的還有噪聲的信號,維度為cxwx1。首先經過一次卷積操作提
取一次語義信息,維度仍然是cxwx1。
[0087]
步驟二,再經過若干個上面提到的同一斜率的軟閾值化模塊(assu),用來去除噪音冗余。
[0088]
步驟三,在經過一個+批正則歸一化操作bn(batch normalization)+relu+全局平均池化(gap)的操作,把輸出變成nx1x1的維度,在這里n為超參,是channel維度。
[0089]
步驟四,然后經過reshape操作將nx1x1的特征變為長度為n的向量。并對n維的向量進行全連接(fc)操作,然后再進行softmax操作,直接輸出噪聲識別結果。
[0090]
進一步的,針對同一斜率的深度殘差收縮網絡來說,其經過訓練以后,該網絡可以在有噪聲的環境下對故障診斷進行精確的輸出。由于該網絡設計能根據不同的噪音信號自動推導出同一的斜率,所以精度也更高。
[0091]
然而,由于與殘差網絡(resnet)相結合的深度殘差收縮網絡(residual shrinkage network)的斜率固定為1,因此其無法保證網絡能有效地響應外部噪音的變化。為了提高整個網絡的噪音抗干擾性和檢測精度。
[0092]
針對上述問題,本技術即可以采用了一種不同斜率的網絡構造來讓網絡自動地推導出多個斜率的數值,從而保證網絡可以動態實時地計算出當前噪音下的斜率取值,這樣就有效地壓制了噪聲的干擾。
[0093]
s102,將待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,第一斜率與第二斜率不相同。
[0094]
進一步的,隨著科技的發展,機械化和產品化在整個國家的生產中的比重也越來越多,無論是面向工業的產品還是面向生活的產品。高質量的產品就必然依托于高質量的生產工藝,必然推動機械生產工藝的提高不斷提高,而無論是生產工具還是生活產品,隨著產品的使用增加,產品必然會出現損耗,因此精準的故障診斷系統直接決定了產品的質量的優劣。
[0095]
舉例來說,在很多機械制造或是一些人們日常生活的產品中,旋轉軸承占據了相當多的比例,無論是在制造還是在日常的家電損耗中,軸承的磨損也是最普遍的現象。對軸承旋轉聲音的判斷是故障診斷的一個重要方法,然后通常軸承的旋轉無論在生產中還是生活中都會夾雜著大量的噪音和冗余的信號,因此直接通過聲音來判斷故障的損壞程度是帶來很大的誤差。
[0096]
目前通用的傳統方法采用統計學習方法來對聲音信號噪聲進行分析,但是傳統的方法通常帶有很多參數需要人為設定,設定本身就是很復雜的決策,通常要經過大量的統計實驗來得出,但是身處的環境的不同將決定著不同的參數,比如機器本身的內外部差別,軸承本身的材質,甚至是周圍的溫度和濕度都可能會影響到這些超參的設定,因此這些人為設定的參數將很難統一適配。軟閾值化(soft threshlding)作為一種經典的方法,尤其在信號降噪領域是非常實用的,但是正如前面所陳述的,軟閾值化函數中的閾值就是一個超參,如何設定合理的數值就是一個很棘手的問題。
[0097]
近幾年物聯網、大數據和移動設備的普及,特別是深度學習爆發式的發展,使得以深度學習為基礎的智能檢測識別技術實現成為可能。不像傳統的方法,深度學習的方法可以自動地學習擾動的信號的參數特征,自動推導出正確的合適的參數,因此有極高的實用
和使用價值。而且軟閾值天然的非線性的屬性是很適合用作深度神經網絡的計算和傳導過程中的。深度殘差網絡(resnet)作為一種經典的深度學習網絡已經被成功應用到很多領域當中。深度殘差網絡與非線性的軟閾值化函數相結合的網絡,即深度殘差收縮網絡(residual shrinkage network),也已經證明了其在信號降噪領域的實用性。深度殘差收縮網絡采用了注意力機制(類似于squeeze-and-excitation network)自動設置閾值,避免了人工設置閾值的麻煩。
[0098]
因此,由于上述提到的固定的斜率無法根據噪音信號的強弱來進行調整。因此本技術實施例中可以根據預先訓練的到的,具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡來對待識別語音數據進行識別,從而得到對應的噪音識別結果。可以理解的,采用兩種斜率的軟閾值函數的目標軟閾值殘差網絡,可以動態地由網絡來計算出斜率的梯度,這樣可以極大地提升整個網絡模型對外部噪音信號的響應,從而實現提升故障診斷的準確性和精準率的目的。
[0099]
s103,根據噪音識別結果,確定待識別語音數據中的噪音數據。
[0100]
本技術中,在獲取待識別語音數據之后,將待識別語音數據輸入至具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡,得到噪音識別結果,并根據噪音識別結果,確定待識別語音數據中的噪音數據。通過應用本技術的技術方案,可以通過采用兩種不同斜率的軟閾值殘差網絡實現更全面的過濾語音中噪聲信號的目的。從而避免相關技術中存在的僅具備單一斜率的深度殘差收縮網絡所出現的去噪效果不明顯的問題。
[0101]
可選的,在本技術一種可能的實施方式中,在s101(在獲取待識別語音數據)之前,還包括:
[0102]
獲取第一輸入特征,并對第一輸入特征執行至少兩次的卷積化操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,得到第一輸出結果;
[0103]
對第一輸出結果執行絕對值算法,以及執行全局平均池化操作,得到第二輸出結果;
[0104]
基于第二輸出結果,得到第一斜率以及第二斜率。
[0105]
其中,第一輸入特征可以為cxwx1。其中,該c指的是輸出的channel,w指的是特征的寬度,1對應于特征的高度,因為在噪聲信號中的特征高度為1。
[0106]
進一步的,本技術還可以對cxwx1的特征進行cbn操作,其中該cbn是指卷積操作(con)+批正則歸一化操作bn(batch normalization)+relu的執行線性整流函數化操作,從而得到對應的第一輸出結果。
[0107]
可選的,本技術還可以對第一輸出結果重新進行一次上述的卷積操作(con)+批正則歸一化操作bn(batch normalization)+relu的執行線性整流函數化操作,從而實現抽取更高級語義信息的目的。
[0108]
下一步的,在得到第一輸出結果之后,可以對該輸出進行閾值自動推導的注意力機制。具體可以通過對其進行執行絕對值算法,以及執行全局平均池化操作,從而得到對應的第二輸出結果。
[0109]
可選的,在本技術一種可能的實施方式中,基于第二輸出結果征,得到第一斜率以及第二斜率,包括:
[0110]
對第二輸出結果執行卷積化操作,以及執行批正則歸一化操作,以及執行全連接操作,以及執行線性整流函數化操作,得到第三輸出結果;
[0111]
對第三輸出結果進行sigmoid函數化,得到目標軟閾值函數。
[0112]
進一步的,本技術在得到對應的第二輸出結果之后,可以對該輸出結果再進行全連接(fc)+批正則歸一化操作bn(batch normalization)+relu的執行線性整流函數化操作+全連接(fc)的操作,從而得到對應的第三輸出結果。以使后續對該第三輸出結果再進行sigmoid函數化操作來得到目標軟閾值函數τ的輸出。
[0113]
可選的,在本技術一種可能的實施方式中,在得到第一輸出結果之后,還包括:
[0114]
對第一輸出結果執行第一次數的絕對值算法,以及執行全局平均池化操作,得到第四輸出結果;
[0115]
對第四輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到第一斜率值。
[0116]
進一步的,本技術得到目標軟閾值函數τ之后,還可以對第一輸出結果進行同一斜率自動推導的注意力機制。具體來說,該部分可以通過執行絕對值算法+全局平均池化(gap)操作得到第四輸出結果。并對該第四輸出結果執行全連接(fc)操作+批正則歸一化操作bn(batch normalization)+relu的執行線性整流函數化操作+全連接(fc)的操作,直接得到斜率值α(即第一斜率值)的輸出結果。
[0117]
可選的,在本技術一種可能的實施方式中,在得到第一斜率值之后,還包括:
[0118]
對第一輸出結果執行第二次數的絕對值算法,以及執行全局平均池化操作,得到第五輸出結果;
[0119]
對第五輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到第二斜率值。
[0120]
同樣的,本技術還可以再次對第一輸出結果進行同一斜率自動推導的注意力機制。具體來說,該部分可以通過執行絕對值算法+全局平均池化(gap)操作得到第三輸出結果。并對該第三輸出結果執行全連接(fc)操作+批正則歸一化操作bn(batch normalization)+relu的執行線性整流函數化操作+全連接(fc)的操作,直接得到斜率值b(即第二斜率值)的輸出結果。
[0121]
可選的,在本技術一種可能的實施方式中,在得到第二斜率值之后,還包括:
[0122]
根據第一斜率值、第二斜率值以及目標軟閾值函數,生成具有第一斜率的軟閾值函數,以及具有第二斜率的軟閾值函數;
[0123]
根據第一斜率的軟閾值函數,以及具有第二斜率的軟閾值函數,構造目標軟閾值殘差網絡。
[0124]
進一步的,本技術在得到第一斜率值α、第二斜率值b以及目標軟閾值函數τ之后,即可以將三者構造出第一斜率的軟閾值函數以及第二斜率的軟閾值函數。并在后續將兩個不同斜率的軟閾值化函數得到的輸出結果相加結合在一起,相加后的結果作為該目標軟閾值殘差網絡的輸出結果(即噪音識別結果)。例如如圖9所示,其為一個完整的不同斜率的軟閾值化模塊(adsu)的設計描述完成。即將網絡自動推導出來的斜率α和b分別帶入到軟閾值化函數中以替換原來斜率為1的軟閾值化函數,這個新的函數的表達為
[0125][0126]
同樣的,該τ為閾值,x和y都是實數,分別代表輸入和輸出,α和b為斜率,該函數的形狀如圖10所示。與之對應的導數的數學表達為
[0127][0128]
同樣的,該τ為閾值,x和y都是實數,分別代表輸入和輸出,α和b為斜率,該函數的形狀如圖11所示。
[0129]
可選的,在本技術一種可能的實施方式中,將待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,包括:
[0130]
獲取待識別語音數據,并對待識別語音數據進行卷積操作,提取待識別語音數據中的語義信息,得到第一維度的輸出結果;
[0131]
利用第一斜率的軟閾值函數,以及第二斜率的軟閾值函數,去除第一維度的輸出結果的噪音冗余;
[0132]
對去除噪音冗余的第一維度的輸出結果執行批正則歸一化操作,以及執行全局平均池化操作,以及執行線性整流函數化操作,得到第二維度的輸出結果;
[0133]
基于第二維度的輸出結,得到噪音識別結果。
[0134]
可選的,在本技術一種可能的實施方式中,基于第二維度的輸出結果,得到噪音識別結果,包括:
[0135]
執行轉換操作,將第二維度的輸出結果轉換為n維向量;
[0136]
對n維向量執行全連接操作,以及執行softmax函數化操作,得到噪音識別結果。
[0137]
進一步的,本技術可以獲取待識別語音數據,并對待識別語音數據進行卷積操作,提取待識別語音數據中的語義信息,得到第一維度的輸出結果。例如該輸入為原始的還有噪聲的信號,維度為cxwx1。首先經過一次卷積操作提取一次語義信息,維度仍然是cxwx1。再經過若干個上面提到的不同斜率的軟閾值化模塊(adsu),用來去除噪音冗余。
[0138]
更進一步的,本技術在可以將對去除噪音冗余的第一維度的經過批正則歸一化操作bn(batch normalization)+relu+全局平均池化(gap)的操作,把輸出變成nx1x1的維度,在這里n為超參,是channel維度。得到第二維度的輸出結果。
[0139]
再進一步的,本技術還可以將該第二維度的輸出結果經過reshape操作將nx1x1的特征變為長度為n的向量,并對n維的向量進行全連接(fc)操作,然后再進行softmax操作,直接輸出最終的噪音識別結果。
[0140]
本技術中,在獲取待識別語音數據之后,將待識別語音數據輸入至具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡,得到噪音識別結果,并根據噪音識別結果,確定待識別語音數據中的噪音數據。通過應用本技術的技術方案,可以通過采用兩種不同斜率的軟閾值殘差網絡實現更全面的過濾語音中噪聲信號的目的。從而避免相關技術中存在的僅具備單一斜率的深度殘差收縮網絡所出現的去噪效果不明顯的
問題。
[0141]
一種方式中,可以將本技術中的噪音識別方法應用到家電設備上,舉例來說,例如可以部署到智能音箱上,當智能音箱檢測到當前存在用戶生成的指令語音數據之后,即可以將該指令語音數據輸入到部署在自身的,基于兩個不同斜率的軟閾值殘差網絡上,從而得到該指令語音數據對應的噪音識別結果,可以理解的,該噪音識別結果可以包括了背景噪聲,環境噪聲,白噪音等等。
[0142]
進一步的,本技術在識別指令語音數據的過程中,可以對該待識別語音數據進行卷積操作,并提取待識別語音數據中的語義信息,從而得到第一維度的輸出結果。并且,還可以利用其中的第一斜率的軟閾值函數,以及第二斜率的軟閾值函數,來去除該第一維度的輸出結果的噪音冗余。進而得到初步處理數據。
[0143]
再者,智能音箱還可以對初步處理數據中的第一維度的輸出結果執行批正則歸一化操作,以及執行全局平均池化操作,以及執行線性整流函數化操作,從而得到第二維度的輸出結果。以使后續基于該第二維度的輸出結果,得到所述噪音識別結果。
[0144]
更進一步的,智能音箱在得到語音數據對應的噪音識別結果后,即可以根據該噪音識別結果,確定指令語音數據中包含的噪音數據,并對其進行去除。從而實現得到更加精準的用戶生成的指令語音。
[0145]
在本技術的另外一種實施方式中,如圖6所示,本技術還提供一種噪音識別的裝置。其中,該裝置包括獲取取模塊201,生成模塊202,確定模塊203,其中,
[0146]
獲取模塊201,被設置為獲取待識別語音數據;
[0147]
生成模塊202,被設置為將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;
[0148]
確定模塊203,被設置為根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。
[0149]
本技術中,在獲取待識別語音數據之后,將待識別語音數據輸入至具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡,得到噪音識別結果,并根據噪音識別結果,確定待識別語音數據中的噪音數據。通過應用本技術的技術方案,可以通過采用兩種不同斜率的軟閾值殘差網絡實現更全面的過濾語音中噪聲信號的目的。從而避免相關技術中存在的僅具備單一斜率的深度殘差收縮網絡所出現的去噪效果不明顯的問題。
[0150]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0151]
獲取模塊201,被配置為獲取第一輸入特征,并對所述第一輸入特征執行至少兩次的卷積化操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,得到第一輸出結果;
[0152]
獲取模塊201,被配置為對所述第一輸出結果執行絕對值算法,以及執行全局平均池化操作,得到第二輸出結果;
[0153]
獲取模塊201,被配置為基于所述第二輸出結果,得到所述第一斜率以及所述第二斜率。
[0154]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0155]
獲取模塊201,被配置為對所述第二輸出結果執行卷積化操作,以及執行批正則歸一化操作,以及執行全連接操作,以及執行線性整流函數化操作,得到第三輸出結果;
[0156]
獲取模塊201,被配置為對所述第三輸出結果進行sigmoid函數化,得到目標軟閾值函數。
[0157]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0158]
獲取模塊201,被配置為對所述第一輸出結果執行第一次數的絕對值算法,以及執行全局平均池化操作,得到第三輸出結果;
[0159]
獲取模塊201,被配置為對所述第三輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第一斜率值。
[0160]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0161]
獲取模塊201,被配置為對所述第一輸出結果執行第二次數的絕對值算法,以及執行全局平均池化操作,得到第三輸出結果;
[0162]
獲取模塊201,被配置為對所述第三輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第二斜率值。
[0163]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0164]
獲取模塊201,被配置為根據所述第一斜率值、所述第二斜率值以及所述目標軟閾值函數,生成具有所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數;
[0165]
獲取模塊201,被配置為根據所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數,構造所述目標軟閾值殘差網絡。
[0166]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0167]
獲取模塊201,被配置為獲取所述待識別語音數據,并對所述待識別語音數據進行卷積操作,提取所述待識別語音數據中的語義信息,得到第一維度的輸出結果;
[0168]
獲取模塊201,被配置為利用所述第一斜率的軟閾值函數,以及所述第二斜率的軟閾值函數,去除所述第一維度的輸出結果的噪音冗余;
[0169]
獲取模塊201,被配置為對去除噪音冗余的第一維度的輸出結果執行批正則歸一化操作,以及執行全局平均池化操作,以及執行線性整流函數化操作,得到第二維度的輸出結果;
[0170]
獲取模塊201,被配置為基于所述第二維度的輸出結果,得到所述噪音識別結果。
[0171]
在本技術的另一種實施方式中,獲取模塊201,還包括:
[0172]
獲取模塊201,被配置為執行轉換操作,將所述第二維度的輸出結果轉換為n維向量;
[0173]
獲取模塊201,被配置為對所述n維向量執行全連接操作以及執行softmax函數化操作,得到所述噪音識別結果。
[0174]
圖13是根據一示例性實施例示出的一種電子設備的邏輯結構框圖。例如,電子設備300可以是移動電話,計算機,數字廣播終端,消息收發設備,游戲控制臺,平板設備,醫療設備,健身設備,個人數字助理等。
[0175]
在示例性實施例中,還提供了一種包括指令的非臨時性計算機可讀存儲介質,例如包括指令的存儲器,上述指令可由電子設備處理器執行以完成上述網絡監控的方法,該方法包括:獲取待識別語音數據;將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到
噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。可選地,上述指令還可以由電子設備的處理器執行以完成上述示例性實施例中所涉及的其他步驟。例如,非臨時性計算機可讀存儲介質可以是rom、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光數據存儲設備等。
[0176]
在示例性實施例中,還提供了一種應用程序/計算機程序產品,包括一條或多條指令,該一條或多條指令可以由電子設備的處理器執行,以完成上述網絡監控的方法,該方法包括:獲取待識別語音數據;將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。可選地,上述指令還可以由電子設備的處理器執行以完成上述示例性實施例中所涉及的其他步驟。
[0177]
圖13為計算機設備30的示例圖。本領域技術人員可以理解,示意圖13僅僅是計算機設備30的示例,并不構成對計算機設備30的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如計算機設備30還可以包括輸入輸出設備、網絡接入設備、總線等。
[0178]
所稱處理器302可以是中央處理單元(central processing unit,cpu),還可以是其他通用處理器、數字信號處理器(digital signal processor,dsp)、專用集成電路(application specific integrated circuit,asic)、現場可編程門陣列(field-programmable gate array,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器302也可以是任何常規的處理器等,處理器302是計算機設備30的控制中心,利用各種接口和線路連接整個計算機設備30的各個部分。
[0179]
存儲器301可用于存儲計算機可讀指令303,處理器302通過運行或執行存儲在存儲器301內的計算機可讀指令或模塊,以及調用存儲在存儲器301內的數據,實現計算機設備30的各種功能。存儲器301可主要包括存儲程序區和存儲數據區,其中,存儲程序區可存儲操作系統、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數據區可存儲根據計算機設備30的使用所創建的數據等。此外,存儲器301可以包括硬盤、內存、插接式硬盤,智能存儲卡(smart media card,smc),安全數字(secure digital,sd)卡,閃存卡(flash card)、至少一個磁盤存儲器件、閃存器件、只讀存儲器(read-only memory,rom)、隨機存取存儲器(random access memory,ram)或其他非易失性/易失性存儲器件。
[0180]
計算機設備30集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發明實現上述實施例方法中的全部或部分流程,也可以通過計算機可讀指令來指令相關的硬件來完成,的計算機可讀指令可存儲于一計算機可讀存儲介質中,該計算機可讀指令在被處理器執行時,可實現上述各個方法實施例的步驟。
[0181]
本領域技術人員在考慮說明書及實踐這里公開的發明后,將容易想到本技術的其它實施方案。本技術旨在涵蓋本技術的任何變型、用途或者適應性變化,這些變型、用途或
者適應性變化遵循本技術的一般性原理并包括本技術未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本技術的真正范圍和精神由下面的權利要求指出。
[0182]
應當理解的是,本技術并不局限于上面已經描述并在附圖中示出的精確結構,并且可以在不脫離其范圍進行各種修改和改變。本技術的范圍僅由所附的權利要求來限制。

技術特征:


1.一種噪音識別的方法,其特征在于,包括:獲取待識別語音數據;將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。2.如權利要求1所述的方法,其特征在于,在所述獲取待識別語音數據之前,還包括:獲取第一輸入特征,并對所述第一輸入特征執行至少兩次的卷積化操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,得到第一輸出結果;對所述第一輸出結果執行絕對值算法,以及執行全局平均池化操作,得到第二輸出結果;基于所述第二輸出結果,得到所述第一斜率以及所述第二斜率。3.如權利要求2所述的方法,其特征在于,所述基于所述第二輸出結果,得到所述第一斜率以及所述第二斜率,包括:對所述第二輸出結果執行卷積化操作,以及執行批正則歸一化操作,以及執行全連接操作,以及執行線性整流函數化操作,得到第三輸出結果;對所述第三輸出結果進行sigmoid函數化,得到目標軟閾值函數。4.如權利要求3所述的方法,其特征在于,在所述得到第一輸出結果之后,還包括:對所述第一輸出結果執行第一次數的絕對值算法,以及執行全局平均池化操作,得到第四輸出結果;對所述第四輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第一斜率值。5.如權利要求4所述的方法,其特征在于,在所述得到所述第一斜率值之后,還包括:對所述第一輸出結果執行第二次數的絕對值算法,以及執行全局平均池化操作,得到第五輸出結果;對所述第五輸出結果執行全連接操作,以及執行批正則歸一化操作,以及執行線性整流函數化操作,以及執行全連接操作,得到所述第二斜率值。6.如權利要求5所述的方法,其特征在于,在所述得到所述第二斜率值之后,還包括:根據所述第一斜率值、所述第二斜率值以及所述目標軟閾值函數,生成具有所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數;根據所述第一斜率的軟閾值函數,以及具有所述第二斜率的軟閾值函數,構造所述目標軟閾值殘差網絡。7.如權利要求1所述的方法,其特征在于,所述將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,包括:獲取所述待識別語音數據,并對所述待識別語音數據進行卷積操作,提取所述待識別語音數據中的語義信息,得到第一維度的輸出結果;利用所述第一斜率的軟閾值函數,以及所述第二斜率的軟閾值函數,去除所述第一維度的輸出結果的噪音冗余;對去除噪音冗余的第一維度的輸出結果執行批正則歸一化操作,以及執行全局平均池
化操作,以及執行線性整流函數化操作,得到第二維度的輸出結果;基于所述第二維度的輸出結果,得到所述噪音識別結果。8.如權利要求7所述的方法,其特征在于,所述基于所述第二維度的輸出結果,得到所述噪音識別結果,包括:執行轉換操作,將所述第二維度的輸出結果轉換為n維向量;對所述n維向量執行全連接操作以及執行softmax函數化操作,得到所述噪音識別結果。9.一種噪音識別的裝置,其特征在于,包括:獲取模塊,被設置為獲取待識別語音數據;生成模塊,被設置為將所述待識別語音數據輸入至目標軟閾值殘差網絡,得到噪音識別結果,其中所述目標軟閾值殘差網絡具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數,所述第一斜率與所述第二斜率不相同;確定模塊,被設置為根據所述噪音識別結果,確定所述待識別語音數據中的噪音數據。10.一種家電設備,其特征在于,包括:存儲器,用于存儲可執行指令;以及,處理器,用于與所述存儲器顯示以執行所述可執行指令從而完成權利要求1-8中任一所述噪音識別的方法的操作。11.一種計算機可讀存儲介質,用于存儲計算機可讀取的指令,其特征在于,所述指令被執行時執行權利要求1-8中任一所述噪音識別的方法的操作。

技術總結


本申請公開了一種噪音識別的方法、裝置、電子設備及介質。其中,本申請中,在獲取待識別語音數據之后,將待識別語音數據輸入至具有第一斜率的軟閾值函數以及第二斜率的軟閾值函數的目標軟閾值殘差網絡,得到噪音識別結果,并根據噪音識別結果,確定待識別語音數據中的噪音數據。通過應用本申請的技術方案,可以通過采用兩種不同斜率的軟閾值殘差網絡實現更全面的過濾語音中噪聲信號的目的。從而避免相關技術中存在的僅具備單一斜率的深度殘差收縮網絡所出現的去噪效果不明顯的問題。縮網絡所出現的去噪效果不明顯的問題。縮網絡所出現的去噪效果不明顯的問題。


技術研發人員:

陳磊 陳蔚 全永兵

受保護的技術使用者:

佛山市順德區美的洗滌電器制造有限公司

技術研發日:

2021.06.21

技術公布日:

2023/1/5


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-75016-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2023-01-24 15:04:31

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
,2人圍觀
參與討論