本文作者:kaifamei

音頻異常檢測方法、裝置、電子設備及存儲介質與流程

更新時間:2025-12-28 08:21:27 0條評論

音頻異常檢測方法、裝置、電子設備及存儲介質與流程



1.本發明涉及數據處理技術領域,具體而言,涉及一種音頻異常檢測方法、裝置、電子設備及存儲介質。


背景技術:



2.在現有的音頻異常檢測任務中,主要是檢測可疑活動,如車輛碰撞、叫喊或聲檢測等,用于提高安防系統的可靠性或監測設備狀態。與圖像文本不同,搭建音頻實驗環境的條件更加苛刻,對音頻的標注成本更高,因此很少直接通過音頻對人的異常狀態進行檢測。
3.目前已有的研究主要集中于通過單個音頻進行情緒識別,音頻數據集由專業演員通過情緒引導、回憶場景、環境改變等方式構建,并由專家進行數據標注。此類數據集主要存在以下兩個問題:無法保證情緒的真實性,以及每個個體之間存在差異性。此外,人工標注音頻數據需要大量的時間和人力,如何在大量未標記音頻數據中出異常音頻,目前暫無研究。


技術實現要素:



4.為了解決上述技術問題,本技術實施例提供了一種音頻異常檢測方法、裝置、電子設備及存儲介質。
5.第一方面,本技術實施例提供了一種音頻異常檢測方法,所述方法包括:基于變分網絡和生成網絡構建初始檢測模型;基于初始打卡音頻數據生成音頻特征張量;將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。
6.在一實施方式中,所述基于初始打卡音頻數據生成音頻特征張量的步驟,包括:獲取n1個初始打卡音頻數據;對各所述初始打卡音頻數據進行預處理,得到n1個修正打卡音頻數據;將各所述修正打卡音頻數據轉換為對應的n2個特征數據,并將n2個所述特征數據拼接為特征向量;將n1個所述特征向量拼接為音頻特征張量。
7.在一實施方式中,所述對多個所述初始打卡音頻數據進行預處理的步驟,包括:去除各所述初始打卡音頻數據的底噪,得到降噪打卡音頻數據;按照預設頻率對所述降噪打卡音頻數據進行采樣。
8.在一實施方式中,所述初始檢測模型包括:預設卷積層、預設反卷積層、門控循環層、線性變換層和全連接層;所述變分網絡由預設卷積層、預設反卷積層和門控循環層構成;所述生成網絡由預設反卷積層、門控循環層、線性變換層和全連接層構成。
9.在一實施方式中,所述根據優化函數對所述初始檢測模型進行訓練的步驟,包括:所述優化函數為:其中,表示訓練損失,表示所述音頻特征張量的數學期望,表示所述生成網絡對所述音頻特征張量的后驗概率,表示所述變分網絡對所述音頻特征張量的后驗概率,表示kl散度,為常數,θ為所述生成網絡的層參數,
?
為所述變分網絡的層參數;通過隨機梯度變分估計和重參數化對θ和
?
進行調整,根據調整后的θ和
?
計算;當小于損失閾值時,保存調整后的θ和
?

10.所述生成所述音頻特征張量對應的重構張量的步驟,包括:通過所述線性變換層對所述第一隨機變量進行映射,得到映射結果;將所述第二隨機變量輸入所述預設反卷積層,得到反卷積結果;將所述映射結果和所述反卷積結果進行連接,得到連接結果;通過所述全連接層對所述連接結果進行解碼,得到所述重構張量。
11.在一實施方式中,所述對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數,的步驟,包括:對所述重構張量進行采樣,得到l個重構樣本;對l個所述重構樣本進行蒙特卡洛積分,得到重構概率;取所述重構概率的相反數,得到所述音頻特征張量對應的異常分數。
12.第二方面,本技術實施例提供了一種音頻異常檢測裝置,所述音頻異常檢測裝置包括:構建模塊,用于基于變分網絡和生成網絡構建初始檢測模型;第一生成模塊,用于基于初始打卡音頻數據生成音頻特征張量;輸入模塊,用于將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;訓練模塊,用于根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;第二生成模塊,用于將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;計算模塊,用于對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;確定模塊,用于若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。
13.第三方面,本技術實施例提供了一種電子設備,包括存儲器以及處理器,所述存儲器用于存儲計算機程序,所述計算機程序在所述處理器運行時執行第一方面提供的音頻異常檢測方法。
14.第四方面,本技術實施例提供了一種計算機可讀存儲介質,其存儲有計算機程序,所述計算機程序在處理器上運行時執行第一方面提供的音頻異常檢測方法。
15.上述本技術提供的音頻異常檢測方法,采用變分自編碼器構建了初始檢測模型;對初始打卡音頻數據進行處理,生成音頻特征張量;將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。本技術實施例對時間和空間數據進行聯合編碼,首次對相同目標連續打卡音頻進行異常檢測,可用于監測人員每日狀態、機器運行狀態等,及時預警,幫助企業、機關單位等進行更好地管理。
附圖說明
16.為了更清楚地說明本技術的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本技術的某些實施例,因此不應被看作是對本技術保護范圍的限定。在各個附圖中,類似的構成部分采用類似的編號。
17.圖1示出了本技術實施例提供的音頻異常檢測方法的一流程示意圖;圖2示出了本技術實施例提供的初始檢測模型的一結構示意圖;圖3示出了本技術實施例提供的一維特征向量的一示意圖;圖4示出了本技術實施例提供的七日打卡音頻特征張量的一示意圖;圖5示出了本技術實施例提供的時間序列的另一示意圖;圖6示出了本技術實施例提供的音頻異常檢測裝置的一結構示意圖。
18.圖標:210-變分網絡,220-生成網絡;510-時間序列上基頻特征異常,520-時間序列上靜音段百分比特征異常,530-時間序列上多特征異常;600-音頻異常檢測裝置,610-構建模塊,620-第一生成模塊,630-輸入模塊,640-訓練模塊,650-第二生成模塊,660-計算模塊,670-確定模塊。
具體實施方式
19.下面將結合本技術實施例中附圖,對本技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本技術一部分實施例,而不是全部的實施例。
20.通常在此處附圖中描述和示出的本技術實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本技術的實施例的詳細描述并非旨在限制要求保護的本技術的范圍,而是僅僅表示本技術的選定實施例。基于本技術的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本技術保護的范圍。
21.在下文中,可在本技術的各種實施例中使用的術語“包括”、“具有”及其同源詞僅意在表示特定特征、數字、步驟、操作、元件、組件或前述項的組合,并且不應被理解為首先排除一個或更多個其它特征、數字、步驟、操作、元件、組件或前述項的組合的存在或增加一個或更多個特征、數字、步驟、操作、元件、組件或前述項的組合的可能性。
22.此外,術語“第一”、“第二”、“第三”等僅用于區分描述,而不能理解為指示或暗示相對重要性。
23.除非另有限定,否則在這里使用的所有術語(包括技術術語和科學術語)具有與本技術的各種實施例所屬領域普通技術人員通常理解的含義相同的含義。所述術語(諸如在一般使用的詞典中限定的術語)將被解釋為具有與在相關技術領域中的語境含義相同的含義并且將不被解釋為具有理想化的含義或過于正式的含義,除非在本技術的各種實施例中被清楚地限定。
24.實施例1本公開實施例提供了一種音頻異常檢測方法。
25.具體的,請參見圖1,所述音頻異常檢測方法包括:步驟s110,基于變分網絡210和生成網絡220構建初始檢測模型;在一實施方式中,請參見圖2,所述初始檢測模型包括:預設卷積層conv1d、預設反卷積層deconv1d、門控循環層gru、線性變換層linear和全連接層dense;所述變分網絡由預設卷積層conv1d、預設反卷積層deconv1d和門控循環層gru構成;所述生成網絡由預設反卷積層conv1d、門控循環層gru、線性變換層linear和全連接層dense構成。其中變分網絡為210,生成網絡為220,為便于描述,后續的所有公式采用英文表達。
26.步驟s120,基于初始打卡音頻數據生成音頻特征張量;在一實施方式中,所述基于初始打卡音頻數據生成音頻特征張量的步驟,包括:獲取n1個初始打卡音頻數據;在一實施方式中,通過打卡機收集每日音頻打卡數據作為初始打卡音頻數據,打卡機內提前設置兩個問題,每個問題后預留15s的回答時間,打卡人員在打卡機提問后回答問題,打卡機采集回答者的音頻,共得到30s每人每天的打卡音頻數據。在一實施方式中,可以連續采集一周的初始打卡音頻數據,此刻n1為7。
27.對各所述初始打卡音頻數據進行預處理,得到n1個修正打卡音頻數據;在一實施方式中,所述對多個所述初始打卡音頻數據進行預處理的步驟,包括:去除各所述初始打卡音頻數據的底噪,得到降噪打卡音頻數據;按照預設頻率對所述降噪打卡音頻數據進行采樣。
28.在一實施方式中,音頻降噪是通過濾波器將音頻底噪去除。音頻降采樣是將音頻采樣率固定為16khz,方便后續計算處理。
29.將各所述修正打卡音頻數據轉換為對應的n2個特征數據,并將n2個所述特征數據拼接為特征向量;將n1個所述特征向量拼接為音頻特征張量。
30.在一實施方式中,如圖3所示,圖3示出了本技術實施例提供的一維特征向量的一示意圖。其中,n2個特征數據包括1個基頻、1個靜音段百分比、1個平均能量值、40個梅爾光譜、13個梅爾倒譜、12個一階梅爾倒譜;拼接得到的特征向量為長度為68 的一維特征向量,即此時n2等于68。
31.將同一個人的每日打卡音頻特征向量進行拼接,得到音頻特征張量,用表示,, 表示特征維度,t表示時間長度,。為了便于描述,此處的字母會延用到后文。在一實施方式中,如圖4所示,圖4示出了將同一個人連續七天的一維特征向量進行拼接,得到的七日打卡音頻特征張量的一示意圖。
32.步驟s130,將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;在本實施方式中,采用變分自編碼器對初始檢測模型進行構建和訓練。變分網絡可表示為,為輸入的音頻張量,為變分網絡的層參數,、為隨機隱變量,用來學習特征之間依賴信息嵌入,用來學習特征之間時序嵌入。由輸入經過預設卷積層得到,請參見公式1:,其中k表示卷積運算之后的長度,由卷積核的個數和滑窗步長大小決定。將通過反卷積層恢復至原來的大小,為后續解碼做準備。
33.步驟s140,根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;本技術實施例通過優化證據下界elbo的方式訓練模型,在一實施方式中,所述根據優化函數對所述初始檢測模型進行訓練的步驟,包括:所述優化函數請參見公式2:將公式2展開,得到其中,表示訓練損失,表示所述音頻特征張量的數學期望,表示所述生成網絡對所述音頻特征張量的后驗概率,表示所述變分網絡對所述音頻特征張量的后驗概率,表示kl散度,為常數,θ為所述生成網絡的層參數,
?
為所述變分網絡的層參數;通過隨機梯度變分和重參數化對θ和
?
進行調整,根據調整后的θ和
?
計算;當小于損失閾值時,保存調整后的θ和
?

34.其中,kl散度用來描述兩個概率分布的差異,此處作為正則項,作用是讓變分分布具有一定的隨機性。優化目標希望變分分布和后驗分布盡可能相同,且通過、重建的概率更大,因此可以采用隨機梯度變分估計(sgvb)和重參數化對參數θ和
?
進行優化,使得損失最小。
35.具體地,可以先從中采樣若干個點,并對這些點通過蒙特卡洛積分,但是采樣得到的數據是離散的,換言之,采樣得到的數據是不可導的,
后續也無法反向梯度優化,這時可以引入重參數化技巧,引入形式已知的參數,來使采樣可導。
36.步驟s150,將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;所述生成所述音頻特征張量對應的重構張量的步驟,包括:通過所述線性變換層對所述第一隨機變量進行映射,得到映射結果;將所述第二隨機變量輸入所述預設反卷積層,得到反卷積結果;將所述映射結果和所述反卷積結果進行連接,得到連接結果;通過所述全連接層對所述連接結果進行解碼,得到所述重構張量。
37.如圖2所示,輸入的音頻張量經由預設卷積層得到第二隨機變量,因為在特征數據中可能會包含異常數據,在訓練自編碼器的過程中易出現過擬合。因此,為了防止模型對異常數據的過擬合,需要對第二隨機變量進行滑動平均處理,以消除異常特征點。將異常特征點消除后,輸入門控循環層gru進行編碼,得到第一隨機變量,第一隨機變量學習的是特征之間的依賴信息嵌入,長度與輸入一致,請參見公式3:,其中為的維度,由門控循環層gru的輸出層維度決定。
38.生成網絡可表示為,為生成網絡層參數,輸入為第一隨機變量和第二隨機變量,通過對第一隨機變量進行映射,得到映射結果;將第二隨機變量輸入預設反卷積層,得到反卷積結果;將所述映射結果和所述反卷積結果通過連接函數(concat函數)進行連接,得到連接結果;通過全連接層對連接后的結果,即特征之間的依賴信息嵌入和時序嵌入共同解碼,生成原始音頻的重構張量,大小與原始輸入一致,請參見公式4:,步驟s160,對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;所述對所述重構張量進行異常評估計算的步驟,包括:對所述重構張量進行采樣,得到l個重構樣本;對l個所述重構樣本進行蒙特卡洛積分,得到重構概率;取所述重構概率的相反數,得到所述音頻特征張量對應的異常分數。具體地,請參見公式5:其中,為所述異常分數,異常分數的意義為重構張量的異常值數學期望,表示對l個重構樣本進行蒙特卡洛積分,其中是從中采樣得到。)代表第l個重
構樣本的概率。
39.在異常檢測時,將重構概率作為異常指標。假設輸入為,為觀測數據,為缺失數據,假設服從觀測數據的分布,即可以從分布中對進行采樣,在給定的情況下重構觀測值以獲得缺失值,滿足觀測數據的正常模式,即接近。令重構數據為,重構概率可以通過取個樣本進行蒙特卡洛積分來計算,異常分數則是對重構概率取相反數,計算公式如上述公式5。
40.步驟s170,若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。設置異常閾值,當計算異常分數大于閾值時,提示初始打卡音頻數據為異常。
41.請參見圖4和圖5,在一具體實施例中,采集了10名志愿者連續7天的打卡音頻數據,圖4為一名存在異常的志愿者連續7天的打卡音頻處理結果對應的空間序列,圖3為該志愿者對應的時間序列上的一維特征向量。將連續7天的打卡數據轉換為音頻特征張量,然后在時間序列和空間序列上進行異常監測,模型能夠監測出時間序列上明顯異常的數據,并且能夠監測到同一天音頻中特征之間的異常,第一天的基頻(圖5中的510)和第六天的靜音段百分比(圖5中的520)的數據趨勢與平時數據特征之間的趨勢相反,如第四天特征(圖5中的530)明顯異常于前三天的數據。第四天打卡后,修正檢測模型及時預警,在對該志愿者訪談后了解到,由于睡眠影響,在打卡時出現了厭煩抵觸心理,進行心理輔導后,后續打卡數據恢復了正常。
42.本實施例提供的音頻異常檢測方法,結合變分自編碼器,對時間和空間數據進行聯合編碼,首次對相同目標連續打卡音頻進行異常檢測,可用于監測人員每日狀態、機器運行狀態等,及時預警,幫助企業、機關單位等進行更好地管理。
43.實施例2此外,本公開實施例提供了一種音頻異常檢測裝置。
44.具體的,如圖6所示,音頻異常檢測裝置600包括:構建模塊610,用于基于變分網絡和生成網絡構建初始檢測模型;第一生成模塊620,用于基于初始打卡音頻數據生成音頻特征張量;輸入模塊630,用于將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;訓練模塊640,用于根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;第二生成模塊650,用于將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;計算模塊660,用于對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;確定模塊670,用于若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。
45.本實施例提供的音頻異常檢測裝置600可以實現實施例1所提供的音頻異常檢測
方法,為避免重復,在此不再贅述。
46.本實施例提供的音頻異常檢測裝置,結合變分自編碼器,對時間和空間數據進行聯合編碼,首次對相同目標連續打卡音頻進行異常檢測,可用于監測人員每日狀態、機器運行狀態等,及時預警,幫助企業、機關單位等進行更好地管理。
47.實施例3此外,本公開實施例提供了一種電子設備,包括存儲器以及處理器,所述存儲器存儲有計算機程序,所述計算機程序在所述處理器上運行時執行實施例1所提供的音頻異常檢測方法。
48.本發明實施例提供的電子設備,可以執行上述方法實施例中的音頻異常檢測裝置可以執行的步驟,不再贅述。
49.本實施例提供的電子設備,結合變分自編碼器,對時間和空間數據進行聯合編碼,首次對相同目標連續打卡音頻進行異常檢測,可用于監測人員每日狀態、機器運行狀態等,及時預警,幫助企業、機關單位等進行更好地管理。
50.實施例4本技術還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現實施例1所提供的音頻異常檢測方法。
51.在本實施例中,計算機可讀存儲介質可以為只讀存儲器(read-only memory,簡稱rom)、隨機存取存儲器(random access memory,簡稱ram)、磁碟或者光盤等。
52.本實施例提供的計算機可讀存儲介質可以實現實施例1所提供的音頻異常檢測方法,為避免重復,在此不再贅述。
53.需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端所固有的要素。在沒有更多限制的情況下,由語句“包括一個
……”
限定的要素,并不排除在包括該要素的過程、方法、物品或者終端中還存在另外的相同要素。
54.通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本技術的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端(可以是手機,計算機,服務器,空調器,或者網絡設備等)執行本技術各個實施例所述的方法。
55.上面結合附圖對本技術的實施例進行了描述,但是本技術并不局限于上述的具體實施方式,上述的具體實施方式僅僅是示意性的,而不是限制性的,本領域的普通技術人員在本技術的啟示下,在不脫離本技術宗旨和權利要求所保護的范圍情況下,還可做出很多形式,均屬于本技術的保護之內。

技術特征:


1.一種音頻異常檢測方法,其特征在于,所述方法包括:基于變分網絡和生成網絡構建初始檢測模型;基于初始打卡音頻數據生成音頻特征張量;將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。2.根據權利要求1所述的音頻異常檢測方法,其特征在于,所述基于初始打卡音頻數據生成音頻特征張量的步驟,包括:獲取n1個初始打卡音頻數據;對各所述初始打卡音頻數據進行預處理,得到n1個修正打卡音頻數據;將各所述修正打卡音頻數據轉換為對應的n2個特征數據,并將n2個所述特征數據拼接為特征向量;將n1個所述特征向量拼接為音頻特征張量。3.根據權利要求2所述的音頻異常檢測方法,其特征在于,所述對各所述初始打卡音頻數據進行預處理的步驟,包括:去除各所述初始打卡音頻數據的底噪,得到降噪打卡音頻數據;按照預設頻率對所述降噪打卡音頻數據進行采樣。4.根據權利要求1所述的音頻異常檢測方法,其特征在于,所述初始檢測模型包括:預設卷積層、預設反卷積層、門控循環層、線性變換層和全連接層;所述變分網絡由預設卷積層、預設反卷積層和門控循環層構成;所述生成網絡由預設反卷積層、門控循環層、線性變換層和全連接層構成。5.根據權利要求4所述的音頻異常檢測方法,其特征在于,所述根據優化函數對所述初始檢測模型進行訓練的步驟,包括:所述優化函數為:其中,表示訓練損失,表示所述音頻特征張量的數學期望,表示所述生成網絡對所述音頻特征張量的后驗概率,表示所述變分網絡對所述音頻特征張量的后驗概率,表示kl散度,為常數,θ為所述生成網絡的層參數,
?
為所述變分網絡的層參數;通過隨機梯度變分估計和重參數化對θ和
?
進行調整,根據調整后的θ和
?
計算;當小于損失閾值時,保存調整后的θ和
?

6.根據權利要求5所述的音頻異常檢測方法,其特征在于,所述生成所述音頻特征張量對應的重構張量的步驟,包括:通過所述線性變換層對所述第一隨機變量進行映射,得到映射結果;將所述第二隨機變量輸入所述預設反卷積層,得到反卷積結果;將所述映射結果和所述反卷積結果進行連接,得到連接結果;通過所述全連接層對所述連接結果進行解碼,得到所述重構張量。7.根據權利要求1所述的音頻異常檢測方法,其特征在于,所述對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數的步驟,包括:對所述重構張量進行采樣,得到l個重構樣本;對l個所述重構樣本進行蒙特卡洛積分,得到重構概率;取所述重構概率的相反數,得到所述異常分數。8.一種音頻異常檢測裝置,其特征在于,所述裝置包括:構建模塊,用于基于變分網絡和生成網絡構建初始檢測模型;第一生成模塊,用于基于初始打卡音頻數據生成音頻特征張量;輸入模塊,用于將所述音頻特征張量輸入所述初始檢測模型,通過所述初始檢測模型輸出第一隨機變量和第二隨機變量;訓練模塊,用于根據優化函數對所述初始檢測模型進行訓練,得到修正檢測模型;第二生成模塊,用于將所述第一隨機變量和所述第二隨機變量輸入所述修正檢測模型,生成所述音頻特征張量對應的重構張量;計算模塊,用于對所述重構張量進行異常評估計算,得到所述音頻特征張量對應的異常分數;確定模塊,用于若所述異常分數大于或等于異常閾值,則確定所述初始打卡音頻數據存在異常。9.一種電子設備,其特征在于,包括存儲器以及處理器,所述存儲器存儲有計算機程序,所述計算機程序在所述處理器運行時執行權利要求1至7中任一項所述的音頻異常檢測方法。10.一種計算機可讀存儲介質,其特征在于,其存儲有計算機程序,所述計算機程序在處理器上運行時執行權利要求1至7中任一項所述的音頻異常檢測方法。

技術總結


本發明的實施例提供了一種音頻異常檢測方法、裝置、電子設備及存儲介質,涉及數據處理領域。本申請提供的音頻異常檢測方法,構建初始檢測模型;對初始打卡音頻數據進行處理,生成音頻特征張量;將音頻特征張量輸入初始檢測模型,輸出第一隨機變量和第二隨機變量;根據優化函數對初始檢測模型進行訓練,得到修正檢測模型;將第一隨機變量和第二隨機變量輸入修正檢測模型,生成重構張量;對重構張量進行異常評估計算,得到異常分數;若異常分數大于或等于異常閾值,則確定初始打卡音頻數據存在異常。本實施例對時間和空間數據進行聯合編碼,可用于監測人員每日狀態、機器運行狀態等,及時預警,幫助企業、機關單位等進行更好地管理。機關單位等進行更好地管理。機關單位等進行更好地管理。


技術研發人員:

張偉 鄭子強 何得淮 何行知 姚佳 唐懷都 朱鑫海 路浩

受保護的技術使用者:

四川省監獄管理局

技術研發日:

2022.12.06

技術公布日:

2023/1/3


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-75020-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2023-01-24 15:06:38

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
2人圍觀
參與討論