音視頻特征提取方法、裝置、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)與流程
1.本公開涉及視頻處理領(lǐng)域,尤其涉及一種音視頻特征提取方法、裝置、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
2.在現(xiàn)實(shí)生活中,我們能根據(jù)聽到的聲音、看到的圖像和聞到的味道來綜合建模,對未知事情進(jìn)行分類。譬如城市功能區(qū)的劃分,集體活動的分類等等。為了使機(jī)器也具備人類這種同事處理多模態(tài)信息的功能,人類設(shè)計了各種不同的傳感器來充當(dāng)機(jī)器的眼睛、耳朵和鼻子。這個時候還需要多模態(tài)特征融合相關(guān)的算法。
3.目前,視頻是最受歡迎的信息媒介,隨著計算機(jī)智能算法的高度發(fā)展,視頻的智能推介也不同的受眾人帶來了方便方便快捷的針對性的推介,視頻變得更有針對性。其中視頻中通常包括聲音和圖像,但是,往往現(xiàn)有技術(shù)中僅對視頻中的圖像進(jìn)行特征提取分類,或僅對視頻中的音頻進(jìn)行特征提取分類,或者即使同時對視頻中的視頻特征和音頻特征進(jìn)行提取分類,其采用的時序建模方法,該建模方式所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)不深,無法捕獲長距離特征,且池化方法需要經(jīng)過卷積層,會損失掉很多位置信息,因此需要到更好的特征提取方法。
技術(shù)實(shí)現(xiàn)要素:
4.提供該發(fā)明內(nèi)容部分以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。
5.為了解決上述技術(shù)問題,提高音視頻特征提取的準(zhǔn)確性與全局性,本公開實(shí)施例提出如下技術(shù)方案。
6.第一方面,本公開實(shí)施例提供一種音視頻特征提取方法,包括:
7.對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理;
8.提取視頻特征和音頻特征;對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);
9.對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;
10.對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。
11.進(jìn)一步的,所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理包括:對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng);對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)混洗;以及對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行批處理。
12.進(jìn)一步的,所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理,包括:對所述視頻進(jìn)行抽幀得到視頻幀序列,設(shè)置一視頻幀序列長度閾值;如果所述序列長度大于所述長度閾值,則進(jìn)行等間隔抽取所述長度閾值對應(yīng)的幀數(shù);如果所述序列長度小于所述長度閾值,則通過插值的方法補(bǔ)齊至所述長度閾值對應(yīng)的幀數(shù)。
13.進(jìn)一步的,提取所述視頻特征,包括:采用3d殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(3d resnet50)模
型,以所述視頻幀序列做為模型輸入,通過所述模型輸出得到多維的視頻特征向量。
14.進(jìn)一步的,所述對視頻進(jìn)行音頻數(shù)據(jù)預(yù)處理,包括:提取所述視頻中的音頻信息,設(shè)置一音頻時間閾值;如果所述音頻信息的時間長度大于所述時間閾值,按照所述時間閾值對所述音頻進(jìn)行隨機(jī)裁剪,得到音頻信號。
15.進(jìn)一步的,提取所述音頻特征,包括:采用數(shù)據(jù)訓(xùn)練模型,以所述音頻信號作為模型輸入,通過所述模型輸出得到多維音頻特征向量。
16.進(jìn)一步的,所述數(shù)據(jù)訓(xùn)練模型為wav2vec2.0算法中的卷積神經(jīng)網(wǎng)絡(luò) (cnn)模型或神經(jīng)機(jī)器翻譯(transformer)模型。
17.進(jìn)一步的,對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),包括:對所述視頻幀序列是否有序的二分類任務(wù)作為監(jiān)督進(jìn)行學(xué)習(xí),正樣本為有序視頻幀序列,負(fù)樣本為無序視頻幀序列。
18.進(jìn)一步的,對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),還包括:對所述視頻幀是正向和反向的二分類任務(wù)作為監(jiān)督進(jìn)行學(xué)習(xí),正樣本為正向的視頻幀序列,負(fù)樣本為反向的視頻幀序列。
19.進(jìn)一步的,對提取的音頻特征進(jìn)行自監(jiān)督學(xué)習(xí),包括:通過wav2vec2.0 算法對音頻信號進(jìn)行遮擋,訓(xùn)練一個對比任務(wù)將真正的量化的隱藏變量表示與其他負(fù)例分辨出來。
20.進(jìn)一步的,所述對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量,包括:根據(jù)從原始的視頻中提取的視頻特征向量和音頻特征向量進(jìn)行特征分析;從視頻的底層特征中提取最優(yōu)的視頻和音頻模態(tài)向量信息,并對這些模態(tài)向量信息進(jìn)行定義;對這些多模態(tài)特征向量進(jìn)行最優(yōu)化融合得到多維多模態(tài)特征向量。
21.進(jìn)一步的,對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí),包括:對從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否來自于同一視頻的二分類監(jiān)督學(xué)習(xí),以及同時對所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否對齊的二分類監(jiān)督學(xué)習(xí)。
22.第二方面,本公開實(shí)施例提供一種音視頻特征提取裝置,包括:
23.預(yù)處理模塊,用于對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理;
24.提取模塊,用于提取視頻特征和音頻特征;
25.第一自監(jiān)督模塊,用于對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);
26.融合模塊,用于對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;
27.第二自監(jiān)督模塊,用于對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。
28.第三方面,本公開實(shí)施例提供一種電子設(shè)備,包括:
29.存儲器,用于存儲計算機(jī)可讀指令;以及
30.處理器,用于運(yùn)行所述計算機(jī)可讀指令,使得所述電子設(shè)備實(shí)現(xiàn)根據(jù)上述第一方面任意一項(xiàng)所述的方法。
31.第四方面,本公開實(shí)施例提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)可讀指令,當(dāng)所述計算機(jī)可讀指令由計算機(jī)執(zhí)行時,使得所述計算機(jī)實(shí)現(xiàn)上述第一方面中任意一項(xiàng)所述的方法。
32.本公開實(shí)施例公開了一種音視頻特征提取方法、裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)。其中所述音視頻特征提取方法,包括:對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處
理;提取視頻特征和音頻特征;對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。通過上述方法,通過視頻特征和音頻特征并行訓(xùn)練學(xué)習(xí)的方式,能夠提高訓(xùn)練準(zhǔn)確度,使用cnn或transformer模型能夠加深網(wǎng)絡(luò)深度且提高訓(xùn)練速度,且通過多模態(tài)自監(jiān)督學(xué)習(xí)能夠獲取更多全局信息,進(jìn)而提升模型準(zhǔn)確率。
33.上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為讓本公開的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說明如下。
附圖說明
34.結(jié)合附圖并參考以下具體實(shí)施方式,本公開各實(shí)施例的上述和其他特征、優(yōu)點(diǎn)及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標(biāo)記表示相同或相似的元素。應(yīng)當(dāng)理解附圖是示意性的,原件和元素不一定按照比例繪制。
35.圖1為本公開實(shí)施例提供的音視頻特征提取方法的流程示意圖;
36.圖2為本公開一實(shí)施例提供的監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的數(shù)據(jù)分布示意圖;
37.圖3為本公開一實(shí)施例提供的多模態(tài)音視頻特征融合流程示意圖示意圖。
38.圖4為本公開另一實(shí)施例提供的音視頻特征提取裝置示意圖;
39.圖5為根據(jù)本公開另一實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
40.下面將參照附圖更詳細(xì)地描述本公開的實(shí)施例。雖然附圖中顯示了本公開的某些實(shí)施例,然而應(yīng)當(dāng)理解的是,本公開可以通過各種形式來實(shí)現(xiàn),而且不應(yīng)該被解釋為限于這里闡述的實(shí)施例,相反提供這些實(shí)施例是為了更加透徹和完整地理解本公開。應(yīng)當(dāng)理解的是,本公開的附圖及實(shí)施例僅用于示例性作用,并非用于限制本公開的保護(hù)范圍。
41.應(yīng)當(dāng)理解,本公開的方法實(shí)施方式中記載的各個步驟可以按照不同的順序執(zhí)行,和/或并行執(zhí)行。此外,方法實(shí)施方式可以包括附加的步驟和/或省略執(zhí)行示出的步驟。本公開的范圍在此方面不受限制。
42.本文使用的術(shù)語“包括”及其變形是開放性包括,即“包括但不限于”。術(shù)語“基于”是“至少部分地基于”。術(shù)語“一個實(shí)施例”表示“至少一個實(shí)施例”;術(shù)語“另一實(shí)施例”表示“至少一個另外的實(shí)施例”;術(shù)語“一些實(shí)施例”表示“至少一些實(shí)施例”。其他術(shù)語的相關(guān)定義將在下文描述中給出。
43.需要注意,本公開中提及的“第一”、“第二”等概念僅用于對不同的裝置、模塊或單元進(jìn)行區(qū)分,并非用于限定這些裝置、模塊或單元所執(zhí)行的功能的順序或者相互依存關(guān)系。
44.需要注意,本公開中提及的“一個”、“多個”的修飾是示意性而非限制性的,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,除非在上下文另有明確指出,否則應(yīng)該理解為“一個或多個”。
45.圖1為本公開實(shí)施例提供的音視頻特征提取方法實(shí)施例的流程圖,本實(shí)施例提供的該音視頻特征提取方法可以由一音視頻特征提取裝置來執(zhí)行,該音視頻特征提取裝置可以實(shí)現(xiàn)為軟件,或者實(shí)現(xiàn)為軟件和硬件的組合,該音視頻特征提取裝置可以集成設(shè)置在音視頻特征提取系統(tǒng)中的某設(shè)備中,比如終端設(shè)備中。如圖1所示,該方法包括如下步驟:
46.步驟s101:對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理。
47.在步驟s101中,所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理包括:對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng);對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)混洗;以及對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行批處理。其中,視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)增強(qiáng)、數(shù)據(jù)混洗和批處理。數(shù)據(jù)增強(qiáng)主要是對數(shù)據(jù)進(jìn)行歸一化和豐富數(shù)據(jù)樣本數(shù)量。常見的數(shù)據(jù)增強(qiáng)方式包括裁剪、翻轉(zhuǎn)、彩變化等等。數(shù)據(jù)混洗和批處理,具體通過數(shù)據(jù)混洗(shuffle)隨機(jī)打亂數(shù)據(jù)的順序,并按批處理(batch)讀取數(shù)據(jù),進(jìn)行模型訓(xùn)練。
48.所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理,包括:對所述視頻進(jìn)行抽幀得到視頻幀序列,設(shè)置一視頻幀序列長度閾值;如果所述序列長度大于所述長度閾值,則進(jìn)行等間隔抽取所述長度閾值對應(yīng)的幀數(shù);如果所述序列長度小于所述長度閾值,則通過插值的方法補(bǔ)齊至所述長度閾值對應(yīng)的幀數(shù)。示例性的,對短視頻進(jìn)行抽幀得到視頻幀序列,如果序列長度大于32,則等間隔抽取32 幀,如果序列長度小于32,則通過插值的方法補(bǔ)齊32幀,最終得到視頻序列。
49.所述對視頻進(jìn)行音頻數(shù)據(jù)預(yù)處理,包括:如果音頻長度大于所述時間閾值,對所述音頻進(jìn)行隨機(jī)裁剪,得到音頻信號。示例性的,提取視頻中的音頻信息,如果音頻長度大于30秒,對音頻進(jìn)行隨機(jī)裁剪,得到音頻信號a。
50.步驟s102:提取視頻特征和音頻特征。
51.在步驟s102中,對視頻的特征提取包括兩部分,分別是視頻特征提取和音頻特征提取。
52.對于視頻特征提取,本發(fā)明實(shí)施例采用3d殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(3d resnet50)模型,模型輸入為步驟s101中得到的視頻序列,通過所述模型輸出得到多維的視頻特征向量,示例性的,模型輸出得到512維的視頻特征向量。
53.本發(fā)明實(shí)施例之所以采用3d殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(3d resnet50)進(jìn)行視頻特征的提取,主要基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)考慮,卷積神經(jīng)網(wǎng)絡(luò)采用分層的結(jié)構(gòu)對圖片進(jìn)行特征提取,由一系列的網(wǎng)絡(luò)層堆疊而成,比如卷積層、池化層、激活層等等。本發(fā)明實(shí)施例采用3d resnet50,具體理由如下:首先,它足夠深,常見的有34層,50層,101層。通常層次越深,表征能力越強(qiáng),分類準(zhǔn)確率越高。其次,可學(xué)習(xí),采用了殘差結(jié)構(gòu),通過快捷方式連接把低層直接跟高層相連,解決了反向傳播過程中因?yàn)榫W(wǎng)絡(luò)太深造成的梯度消失問題。此外,3d resnet50網(wǎng)絡(luò)的性能很好,既表現(xiàn)為識別的準(zhǔn)確率,也包括它本身模型的大小和參數(shù)量。在圖像識別問題中,是將訓(xùn)練好的模型通過簡單調(diào)整來解決新的問題。從圖像中提取特征,不一定需要算力強(qiáng)大的gpu,訓(xùn)練上百層的神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)中卷積層和池化層可以抽取圖片的幾何特征,比如淺層的卷積用于抽取出一些直線,角點(diǎn)等簡單的抽象信息,深層的卷積層用于抽取人臉等復(fù)雜的抽象信息,最后的全連接層是對圖片分類的處理。因此,我們可以使用網(wǎng)絡(luò)的前n-1層提取特征,其中n為自然數(shù)。
54.例如,利用在imagenet數(shù)據(jù)集上訓(xùn)練好的3d resnet50模型來解決一個自定義的圖像分類問題:保留訓(xùn)練好的3d resnet50模型中卷積層的參數(shù),只去掉最后一個全連接層,將新圖像輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),利用前n-1 層的輸出作為圖片的特征,將3d resnet50模型作為圖片特征提取器,提取得到的特征向量作為輸入訓(xùn)練新的單層全連接網(wǎng)絡(luò)來處理新的分類問題,或者將這些特征代入svm,lr等其它機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和預(yù)
測。在數(shù)據(jù)量足夠的情況下,遷移學(xué)習(xí)的效果往往不如完全重新訓(xùn)練,但是遷移學(xué)習(xí)所需要的訓(xùn)練時間和訓(xùn)練樣本要遠(yuǎn)遠(yuǎn)小于訓(xùn)練完整的模型。
55.調(diào)用方法如下:
56.network=3d resnet50(class_num=1,2,3,4,5,6,7,8,9,10
……
)。
57.示例性的,對于視頻特征提取,通過3d resnet50模型,模型輸入為步驟s101中得到的視頻序列,模型輸出的特征向量維度可以為256維、512維、 1024維等。
58.對于音頻特征提取,包括:采用數(shù)據(jù)訓(xùn)練模型,以所述音頻信號作為模型輸入,通過所述模型輸出得到多維音頻特征向量。具體的,本發(fā)明實(shí)施例采用wav2vec2.0算法中的卷積神經(jīng)網(wǎng)絡(luò)(cnn)模型或神經(jīng)機(jī)器翻譯 (transformer)模型,模型輸入為步驟s101中得到的音頻信號a,通過所述模型輸出得到多維音頻特征向量。wav2vec2.0算法中的cnn(卷積神經(jīng)網(wǎng)絡(luò)) 模型和transformer(神經(jīng)機(jī)器翻譯)模型不僅在計算機(jī)視覺領(lǐng)域應(yīng)用廣泛,在計算機(jī)音頻領(lǐng)域也能得到加深應(yīng)用。
59.示例性的,對于音頻特征提取,采用wav2vec2.0中的cnn模型和 transformer模型,模型輸入為步驟s101中得到的音頻信號a,模型輸出的特征向量維度可以為64維、128維、256、512或1024維等。
60.步驟s103:對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí)。
61.在步驟s103中,對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí)分別同時進(jìn)行,其中:
62.對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),本發(fā)明實(shí)施例中一共包含兩個任務(wù)。一個任務(wù)是對視頻幀是否有序的二分類任務(wù)作為監(jiān)督,正樣本為有序視頻幀序列,負(fù)樣本為無序視頻幀序列。一個任務(wù)是對視頻幀是正向和反向的二分類任務(wù)作為監(jiān)督,正樣本為正向的視頻幀序列,負(fù)樣本為反向的視頻幀序列。兩個任務(wù)同時進(jìn)行監(jiān)督,優(yōu)化視頻特征提取模型的參數(shù)。具體地,基于幀的相似性,對于視頻中的每一幀,其實(shí)存在著特征相似的概念,簡單來說我們可以認(rèn)為視頻中的相鄰幀特征是相似的,而相隔較遠(yuǎn)的視頻幀是不相似的,通過構(gòu)建這種相似(position)和不相似(negative)的樣本來進(jìn)行自監(jiān)督約束。另外,對于同一個物體的拍攝是可能存在多個視角 (multi-view),對于多個視角中的同一幀,可以認(rèn)為特征是相似的,對于不同幀可以認(rèn)為是不相似的。除了基于特征相似性外,視頻的先后順序也是一種自監(jiān)督信息。基于順序約束的方法,可以從視頻中采樣出正確的視頻序列和不正確的視頻序列,構(gòu)造成正負(fù)樣本對然后進(jìn)行訓(xùn)練。簡而言之,就是設(shè)計一個模型,來判斷當(dāng)前的視頻序列是否是正確的順序。
63.對提取的音頻特征進(jìn)行自監(jiān)督學(xué)習(xí),本發(fā)明實(shí)施例中,音頻無監(jiān)督學(xué)習(xí)通過wav2vec2.0中的方法對音頻信號進(jìn)行遮擋,訓(xùn)練一個對比任務(wù)將真正的量化的隱藏變量表示與其他負(fù)例分辨出來,從而優(yōu)化音頻特征提取模型的參數(shù)。wav2vec模型是一種ar(autoregression)機(jī)制的模型,在預(yù)訓(xùn)練階段的wav2vec的模型更像是以原始音頻為輸入的語言模型,自監(jiān)督學(xué)習(xí)提供了一種利用未標(biāo)注的數(shù)據(jù)來構(gòu)建更好的系統(tǒng),其他用于語音的自監(jiān)督方法嘗試重建音頻信號,這需要模型捕獲語音的多個方面,包括錄音環(huán)境,噪聲和說話人特征。wav2vec 2.0通過擬合一組比音素短的asr建模單元來表征語音音頻序列。由于此集合是有限的,因此該模型無法表示所有的差異,例如背景噪聲。取而代之的是,這些建模單元將鼓勵模型將注意力集中在代表語音音頻的最重要因素上。wav2vec 2.0模型首
先使用多層卷積神經(jīng)網(wǎng)絡(luò)處理語音音頻的原始波形,以獲得每個25ms的潛在音頻表示。這些表征向量被喂到量化器(quantizer)和transformer中。量化器從學(xué)習(xí)的單元清單 (inventory of learned units)中選擇一個語音單元作為潛在音頻表征向量。大約一半的音頻表示在被饋送到transformer之前被隱蔽掉(masked)。 transformer從整個音頻序列中添加信息,輸出用于計算loss function。模型需要通過掩蓋位置(masked positions)識別正確的量化語音單位。
64.步驟s104:對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;
65.在步驟s104中,融合階段如圖所示,首先512+512維的視頻特征先融合到512維度,然后再和128維的音頻進(jìn)行融合,具體維度是通過反復(fù)實(shí)驗(yàn)確定的。
66.融合過程包括:首先,根據(jù)從原始的視頻中提取的視頻特征向量和音頻特征向量進(jìn)行特征分析,該視頻是指流暢的視頻流,因?yàn)樵撘曨l流蘊(yùn)含有豐富的視覺、聽覺和字母信息,所以這些視頻特征和音頻特征可以是顏、紋理、形狀、音調(diào)和文本等,然后采用多模態(tài)分析方法,即同時使用兩種或是兩種以上的模態(tài)信息進(jìn)行處理。基于這些提取的視頻和音頻特征,我們可以將視頻片段索引到相關(guān)的語義概念上,例如汽車、足球、海灘、采訪等場景。經(jīng)過實(shí)驗(yàn)結(jié)果表明,多模態(tài)視頻、音頻特征融合能夠產(chǎn)生有效的視頻索引,方便視頻的分類。其次,從視頻的底層特征中提取最優(yōu)的視頻和音頻模態(tài)向量信息,并對這些模態(tài)向量信息進(jìn)行定義。一旦這些最優(yōu)的模態(tài)向量信息被定義以后,接下來就是如何選擇一種最優(yōu)的方法來融合這些模態(tài)向量信息,以便使視頻特征和音頻模態(tài)向量信息進(jìn)行融合。假設(shè)我們得到的是真正的多模態(tài)融合特征,并且每個模態(tài)特征都能為類別的預(yù)測提供準(zhǔn)確的后驗(yàn)概率,那么我們只要簡單地使用產(chǎn)品合成規(guī)則就可以計算特征信息與預(yù)測類別之間的相關(guān)概率。
67.本實(shí)施例采用支持向量聚類的方法來完成多模態(tài)特征向量的選取,并通過基于統(tǒng)計的最大信息嫡方法來最優(yōu)化地融合所提取的視頻和音頻多模態(tài)向量信息,我們使用等值線圖(isomap)和支持向量機(jī)聚類(svc)相結(jié)合的方法對多模態(tài)特征向量進(jìn)行分析,得到多模態(tài)特征向量,然后使用最大嫡 (maxmiumeniorpy)模型對這些多模態(tài)特征向量進(jìn)行最優(yōu)化融合得到多維多模態(tài)特征向量。優(yōu)選的,該多維多模態(tài)特征向量可以為480維、640維、1280 維等。
68.本發(fā)明另一實(shí)施例,可以使用權(quán)重加和規(guī)則的融合方法,這種方法將多模態(tài)特征線性地融合在一起,這種融合簡單有效,這種融合方式具有線性的約束條件,在高維復(fù)雜模態(tài)信息中使用會受制于該線性約束條件。
69.本發(fā)明另一實(shí)施例,還可以使用超核融合方法,將那些多模態(tài)的特征非線性地融合在一起,其中線性融合將作為上述方法中的一種特殊情況。
70.步驟s105:對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。
71.在步驟s105中,對融合后的所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí),包括:對從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否來自于同一視頻的二分類監(jiān)督學(xué)習(xí),以及同時對所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否對齊的二分類監(jiān)督學(xué)習(xí)。該多模態(tài)監(jiān)督學(xué)習(xí)一共包含兩個任務(wù)。一個任務(wù)是視頻片段和音頻片段是否來自于一個視頻里的二分類任務(wù)作為監(jiān)督,確保
從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息是來自于同一視頻,另一個任務(wù)是視頻片段和音頻片段在是否是對齊的二分類任務(wù)作為監(jiān)督,監(jiān)督確保從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息在時序上是對齊的,不要出現(xiàn)時序上視頻和音頻不對應(yīng)的情況。兩個任務(wù)同時進(jìn)行監(jiān)督,優(yōu)化視頻和音頻特征提取模型的參數(shù),以得到更好的多模態(tài)視頻特征表示。
72.如圖2所示,示出了監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的數(shù)據(jù)分布示意圖,如圖所示,一種是監(jiān)督學(xué)習(xí),一種是無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,模型的預(yù)測和數(shù)據(jù)的真實(shí)標(biāo)簽產(chǎn)生損失后進(jìn)行反向傳播,通過不斷的學(xué)習(xí),最終可以獲得識別新樣本的能力。而自監(jiān)督學(xué)習(xí)不依賴任何標(biāo)簽值,通過對數(shù)據(jù)內(nèi)在特征的挖掘,到樣本間的關(guān)系,比如聚類相關(guān)的任務(wù)。有監(jiān)督和自監(jiān)督最主要的區(qū)別在于模型在訓(xùn)練時是否需要人工標(biāo)注的標(biāo)簽信息。編碼器將輸入的樣本映射到隱層向量,解碼器將這個隱層向量映射回樣本空間。我們期待網(wǎng)絡(luò)的輸入和輸出可以保持一致(理想情況,無損重構(gòu)),同時隱層向量的維度大大小于輸入樣本的維度,以此達(dá)到了降維的目的,利用學(xué)習(xí)到的隱層向量再進(jìn)行聚類等任務(wù)時將更加的簡單高效。本發(fā)明實(shí)施例采用的自監(jiān)督學(xué)習(xí)最主要的目的就是學(xué)習(xí)到更豐富的語義表征,自監(jiān)督學(xué)習(xí)主要是利用輔助任務(wù)(pretext)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過這種構(gòu)造的監(jiān)督信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到對下游任務(wù)有價值的表征。
73.對于自監(jiān)督學(xué)習(xí)到的表征,如何來評測它的有效性?評測自監(jiān)督學(xué)習(xí)的能力,主要是通過芬頓訓(xùn)練模式。該模式的芬頓訓(xùn)練流程:我們首先從大量的有標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的模型,然后對于新的下游任務(wù) (downstream task),我們將學(xué)習(xí)到的參數(shù)進(jìn)行遷移,在新的有標(biāo)簽任務(wù)上進(jìn)行“微調(diào)”,從而得到一個能適應(yīng)新任務(wù)的網(wǎng)絡(luò)。而自監(jiān)督的芬頓訓(xùn)練流程:首先從大量的無標(biāo)簽數(shù)據(jù)中通過pretext來訓(xùn)練網(wǎng)絡(luò),得到預(yù)訓(xùn)練的模型,然后對于新的下游任務(wù),和監(jiān)督學(xué)習(xí)一樣,遷移學(xué)習(xí)到的參數(shù)后微調(diào)即可。所以自監(jiān)督學(xué)習(xí)的能力主要由下游任務(wù)的性能來體現(xiàn)。
74.本發(fā)明實(shí)施例具體融合流程可參見圖3所示,圖3示出了多模態(tài)音視頻特征融合流程示意圖,譬如通過卷積神經(jīng)網(wǎng)絡(luò)對城市遙感視頻進(jìn)行視頻特征和音頻特征抽取,然后綜合每個功能區(qū)訪問人數(shù)的進(jìn)行文本特征抽取,最后綜合這兩方面的特征進(jìn)行模型訓(xùn)練,輸出功能區(qū)的分類。由于模態(tài)之間的數(shù)據(jù)的相關(guān)性較高,還有就是多模態(tài)數(shù)據(jù)源同步難的問題,本實(shí)施例將前期各模態(tài)視頻數(shù)據(jù)和音頻數(shù)據(jù)單獨(dú)訓(xùn)練得到預(yù)測結(jié)果,后期采用決策或者集成的方式多多模型的輸出結(jié)果進(jìn)行規(guī)則融合(譬如最大值融合,平均值融合等)。針對數(shù)據(jù)同步,相關(guān)性不強(qiáng)的的模態(tài)進(jìn)行早期融合,對相關(guān)性強(qiáng)、數(shù)據(jù)和更新不同的模態(tài)進(jìn)行晚期融合。
75.圖4為本公開另一實(shí)施例提供的音視頻特征提取裝置實(shí)施例的結(jié)構(gòu)示意圖。如圖4所示,該裝置400包括:預(yù)處理模塊401、提取模塊402、第一自監(jiān)督模塊403、融合模塊404和第二自監(jiān)督模塊405。其中:
76.所述預(yù)處理模塊401,用于對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理。進(jìn)一步的,所述預(yù)處理模塊401包括視頻數(shù)據(jù)預(yù)處理模塊和音頻數(shù)據(jù)預(yù)處理模塊。所述視頻數(shù)據(jù)預(yù)處理模塊,用于對所述視頻進(jìn)行抽幀得到視頻幀序列,設(shè)置一視頻幀序列長度閾值;如果所述序列長度大于所述長度閾值,則進(jìn)行等間隔抽取所述長度閾值對應(yīng)的幀數(shù);如果所述序
列長度小于所述長度閾值,則通過插值的方法補(bǔ)齊至所述長度閾值對應(yīng)的幀數(shù)。所述音頻數(shù)據(jù)預(yù)處理模塊,用于提取視頻中的音頻信息,如果音頻長度大于一定時間閾值,對音頻進(jìn)行隨機(jī)裁剪,得到音頻信號a。
77.進(jìn)一步的,所述預(yù)處理模塊401包括數(shù)據(jù)增強(qiáng)模塊、數(shù)據(jù)混洗模塊和批處理模塊。其中所述數(shù)據(jù)增強(qiáng)模塊,用于對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。所述數(shù)據(jù)混洗模塊,用于對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)混洗。以及批處理模塊,用于對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行批處理。其中,所述數(shù)據(jù)增強(qiáng)模塊,主要用于對數(shù)據(jù)進(jìn)行歸一化和豐富數(shù)據(jù)樣本數(shù)量,常見的數(shù)據(jù)增強(qiáng)方式包括裁剪、翻轉(zhuǎn)、彩變化等等。所述數(shù)據(jù)混洗模塊和批處理模塊,具體通過數(shù)據(jù)混洗(shuffle)隨機(jī)打亂數(shù)據(jù)的順序,并按批處理(batch)讀取數(shù)據(jù),進(jìn)行模型訓(xùn)練。
78.所述提取模塊402,用于提取視頻特征和音頻特征。進(jìn)一步的,所述提取模塊402包括視頻特征提取模塊和音頻特征提取模塊。其中,所述視頻特征提取模塊,本發(fā)明實(shí)施例采用3d殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(3d resnet50)模型模塊,模型輸入為步驟s101中得到的視頻序列,通過所述模型輸出得到多維的視頻特征向量。所述音頻特征提取模塊,本發(fā)明實(shí)施例采用wav2vec2.0 算法中的卷積神經(jīng)網(wǎng)絡(luò)(cnn)模型或神經(jīng)機(jī)器翻譯(transformer)模型模塊,模型輸入為步驟s101中得到的音頻信號a,通過所述模型輸出得到多維音頻特征向量。
79.所述第一自監(jiān)督模塊403,用于對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí)。進(jìn)一步的,所述第一自監(jiān)督模塊403包括視頻特征自監(jiān)督模塊和音頻特征自監(jiān)督模塊。其中,所述視頻特征自監(jiān)督模塊,用于對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),本發(fā)明實(shí)施例中一共包含兩個任務(wù)。一個任務(wù)是對視頻幀是否有序的二分類任務(wù)作為監(jiān)督,正樣本為有序視頻幀序列,負(fù)樣本為無序視頻幀序列。一個任務(wù)是對視頻幀是正向和反向的二分類任務(wù)作為監(jiān)督,正樣本為正向的視頻幀序列,負(fù)樣本為反向的視頻幀序列。兩個任務(wù)同時進(jìn)行監(jiān)督,優(yōu)化視頻特征提取模型的參數(shù)。所述音頻特征自監(jiān)督模塊,用于對提取的音頻特征進(jìn)行自監(jiān)督學(xué)習(xí),本發(fā)明實(shí)施例中,音頻無監(jiān)督學(xué)習(xí)通過 wav2vec2.0中的方法對音頻信號進(jìn)行遮擋,訓(xùn)練一個對比任務(wù)將真正的量化的隱藏變量表示與其他負(fù)例分辨出來,從而優(yōu)化音頻特征提取模型的參數(shù)。
80.所述融合模塊404,用于對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量。進(jìn)一步的,所述融合模塊404包括特征分析模塊、模態(tài)向量信息定義模塊和多模態(tài)融合模塊。其中所述特征分析模塊,用于根據(jù)從原始的視頻中提取的視頻特征向量和音頻特征向量進(jìn)行特征分析,該視頻是指流暢的視頻流,因?yàn)樵撘曨l流蘊(yùn)含有豐富的視覺、聽覺和字母信息,所以這些視頻特征和音頻特征可以是顏、紋理、形狀、音調(diào)和文本等,然后采用多模態(tài)分析方法,即同時使用兩種或是兩種以上的模態(tài)信息進(jìn)行處理。所述模態(tài)向量信息定義模塊,用于從視頻的底層特征中提取最優(yōu)的視頻和音頻模態(tài)向量信息,并對這些模態(tài)向量信息進(jìn)行定義。所述多模態(tài)融合模塊,用于選擇一種最優(yōu)的方法來融合提取和定義的多模態(tài)視頻特征和音頻模態(tài)向量信息。
81.進(jìn)一步的,所述融合模塊還用于采用支持向量聚類的方法來完成多模態(tài)特征向量的選取,并通過基于統(tǒng)計的最大信息嫡方法來最優(yōu)化地融合所提取的視頻和音頻多模態(tài)向量信息,我們使用等值線圖(isomap)和支持向量機(jī)聚類(svc)相結(jié)合的方法對多模態(tài)特征向量進(jìn)行分析,得到多模態(tài)特征向量,然后使用最大嫡(maxmiumeniorpy)模型對這些多模
態(tài)特征向量進(jìn)行最優(yōu)化融合得到多維多模態(tài)特征向量。優(yōu)選的,該多維多模態(tài)特征向量可以為 480維、640維、1280維等。
82.所述第二自監(jiān)督模塊405,用于對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。進(jìn)一步的,第二自監(jiān)督模塊405用于對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí),包括:對從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否來自于同一視頻的二分類監(jiān)督學(xué)習(xí),以及同時對所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否對齊的二分類監(jiān)督學(xué)習(xí)。具體的,第二自監(jiān)督模塊405用于多模態(tài)監(jiān)督學(xué)習(xí)的任務(wù)一共包含兩個。一個任務(wù)是視頻片段和音頻片段是否來自于一個視頻里的二分類任務(wù)作為監(jiān)督,另一個任務(wù)是視頻片段和音頻片段在是否是對齊的二分類任務(wù)作為監(jiān)督。兩個任務(wù)同時進(jìn)行監(jiān)督,優(yōu)化視頻和音頻特征提取模型的參數(shù),以得到更好的多模態(tài)視頻特征表示。
83.圖4所示裝置可以執(zhí)行圖1所示實(shí)施例的方法,本實(shí)施例未詳細(xì)描述的部分,可參考對圖1所示實(shí)施例的相關(guān)說明。該技術(shù)方案的執(zhí)行過程和技術(shù)效果參見圖1所示實(shí)施例中的描述,在此不再贅述。
84.下面參考圖5,其示出了適于用來實(shí)現(xiàn)本公開另一實(shí)施例的電子設(shè)備500 的結(jié)構(gòu)示意圖。本公開實(shí)施例中的終端設(shè)備可以包括但不限于諸如移動電話、筆記本電腦、數(shù)字廣播接收器、pda(個人數(shù)字助理)、pad(平板電腦)、 pmp(便攜式多媒體播放器)、車載終端(例如車載導(dǎo)航終端)等等的移動終端以及諸如數(shù)字tv、臺式計算機(jī)等等的固定終端。圖5示出的電子設(shè)備僅僅是一個示例,不應(yīng)對本公開實(shí)施例的功能和使用范圍帶來任何限制。
85.如圖5所示,電子設(shè)備500可以包括處理裝置(例如中央處理器、圖形處理器等)501,其可以根據(jù)存儲在只讀存儲器(rom)502中的程序或者從存儲裝置508加載到隨機(jī)訪問存儲器(ram)503中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T趓am 503中,還存儲有電子設(shè)備500操作所需的各種程序和數(shù)據(jù)。處理裝置501、rom 502以及ram 503通過通信線路504彼此相連。輸入/輸出(i/o)接口505也連接至通信線路504。
86.通常,以下裝置可以連接至i/o接口505:包括例如觸摸屏、觸摸板、鍵盤、鼠標(biāo)、攝像頭、麥克風(fēng)、加速度計、陀螺儀等的輸入裝置506;包括例如液晶顯示器(lcd)、揚(yáng)聲器、振動器等的輸出裝置507;包括例如磁帶、硬盤等的存儲裝置508;以及通信裝置509。通信裝置509可以允許電子設(shè)備500與其他設(shè)備進(jìn)行無線或有線通信以交換數(shù)據(jù)。雖然圖5示出了具有各種裝置的電子設(shè)備500,但是應(yīng)理解的是,并不要求實(shí)施或具備所有示出的裝置。可以替代地實(shí)施或具備更多或更少的裝置。
87.特別地,根據(jù)本公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計算機(jī)軟件程序。例如,本公開的實(shí)施例包括一種計算機(jī)程序產(chǎn)品,其包括承載在非暫態(tài)計算機(jī)可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計算機(jī)程序可以通過通信裝置509從網(wǎng)絡(luò)上被下載和安裝,或者從存儲裝置508被安裝,或者從rom 502被安裝。在該計算機(jī)程序被處理裝置501執(zhí)行時,執(zhí)行本公開實(shí)施例的方法中限定的上述功能。
88.需要說明的是,本公開上述的計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計
算機(jī)可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本公開中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本公開中,計算機(jī)可讀信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀信號介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:電線、光纜、rf(射頻)等等,或者上述的任意合適的組合。
89.在一些實(shí)施方式中,客戶端、服務(wù)器可以利用諸如http(hypertexttransfer protocol,超文本傳輸協(xié)議)之類的任何當(dāng)前已知或未來研發(fā)的網(wǎng)絡(luò)協(xié)議進(jìn)行通信,并且可以與任意形式或介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信(例如,通信網(wǎng)絡(luò))互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“l(fā)an”),廣域網(wǎng)(“wan”),網(wǎng)際網(wǎng)(例如,互聯(lián)網(wǎng))以及端對端網(wǎng)絡(luò)(例如,ad hoc端對端網(wǎng)絡(luò)),以及任何當(dāng)前已知或未來研發(fā)的網(wǎng)絡(luò)。
90.上述計算機(jī)可讀介質(zhì)可以是上述電子設(shè)備中所包含的;也可以是單獨(dú)存在,而未裝配入該電子設(shè)備中。
91.上述計算機(jī)可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被該電子設(shè)備執(zhí)行時,使得該電子設(shè)備:執(zhí)行上述實(shí)施例中的交互方法。
92.可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本公開的操作的計算機(jī)程序代碼,上述程序設(shè)計語言包括但不限于面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
93.附圖中的流程圖和框圖,圖示了按照本公開各種實(shí)施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實(shí)現(xiàn)。
94.描述于本公開實(shí)施例中所涉及到的單元可以通過軟件的方式實(shí)現(xiàn),也可以通過硬
件的方式來實(shí)現(xiàn)。其中,單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定。
95.本文中以上描述的功能可以至少部分地由一個或多個硬件邏輯部件來執(zhí)行。例如,非限制性地,可以使用的示范類型的硬件邏輯部件包括:現(xiàn)場可編程門陣列(fpga)、專用集成電路(asic)、專用標(biāo)準(zhǔn)產(chǎn)品(assp)、片上系統(tǒng)(soc)、復(fù)雜可編程邏輯設(shè)備(cpld)等等。
96.在本公開的上下文中,機(jī)器可讀介質(zhì)可以是有形的介質(zhì),其可以包含或存儲以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合地使用的程序。機(jī)器可讀介質(zhì)可以是機(jī)器可讀信號介質(zhì)或機(jī)器可讀儲存介質(zhì)。機(jī)器可讀介質(zhì)可以包括但不限于電子的、磁性的、光學(xué)的、電磁的、紅外的、或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,或者上述內(nèi)容的任何合適組合。機(jī)器可讀存儲介質(zhì)的更具體示例會包括基于一個或多個線的電氣連接、便攜式計算機(jī)盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦除可編程只讀存儲器(eprom或快閃存儲器)、光纖、便捷式緊湊盤只讀存儲器(cd-rom)、光學(xué)儲存設(shè)備、磁儲存設(shè)備、或上述內(nèi)容的任何合適組合。
97.根據(jù)本公開的一個或多個實(shí)施例,提供了一種電子設(shè)備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有能被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行前述第一方面中的任一所述交互方法。
98.根據(jù)本公開的一個或多個實(shí)施例,提供了一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其特征在于,該非暫態(tài)計算機(jī)可讀存儲介質(zhì)存儲計算機(jī)指令,該計算機(jī)指令用于使計算機(jī)執(zhí)行前述第一方面中的任一所述交互方法。
99.以上描述僅為本公開的較佳實(shí)施例以及對所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本公開中所涉及的公開范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離上述公開構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本公開中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。
技術(shù)特征:
1.一種音視頻特征提取方法,其特征在于,包括:對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理;提取視頻特征和音頻特征;對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。2.根據(jù)權(quán)利要求1所述的音視頻特征提取方法,其特征在于,所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理包括:對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng);對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)混洗;以及對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行批處理。3.根據(jù)權(quán)利要求2所述的音視頻特征提取方法,其特征在于,所述對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理,包括:對所述視頻進(jìn)行抽幀得到視頻幀序列,設(shè)置一視頻幀序列長度閾值;如果所述序列長度大于所述長度閾值,則進(jìn)行等間隔抽取所述長度閾值對應(yīng)的幀數(shù);如果所述序列長度小于所述長度閾值,則通過插值的方法補(bǔ)齊至所述長度閾值對應(yīng)的幀數(shù)。4.根據(jù)權(quán)利要求3所述的音視頻特征提取方法,其特征在于,提取所述視頻特征,包括:采用3d殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(3d resnet50)模型,以所述視頻幀序列做為模型輸入,通過所述模型輸出得到多維的視頻特征向量。5.根據(jù)權(quán)利要求2所述的音視頻特征提取方法,其特征在于,所述對視頻進(jìn)行音頻數(shù)據(jù)預(yù)處理,包括:提取所述視頻中的音頻信息,設(shè)置一音頻時間閾值;如果所述音頻信息的時間長度大于所述時間閾值,按照所述時間閾值對所述音頻進(jìn)行隨機(jī)裁剪,得到音頻信號。6.根據(jù)權(quán)利要求5所述的音視頻特征提取方法,其特征在于,提取所述音頻特征,包括:采用數(shù)據(jù)訓(xùn)練模型,以所述音頻信號作為模型輸入,通過所述模型輸出得到多維音頻特征向量。7.根據(jù)權(quán)利要求6所述的音視頻特征提取方法,其特征在于,所述數(shù)據(jù)訓(xùn)練模型為wav2vec2.0算法中的卷積神經(jīng)網(wǎng)絡(luò)(cnn)模型或神經(jīng)機(jī)器翻譯(transformer)模型。8.根據(jù)權(quán)利要求3或4所述的音視頻特征提取方法,其特征在于,對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),包括:對所述視頻幀序列是否有序的二分類任務(wù)作為監(jiān)督進(jìn)行學(xué)習(xí),正樣本為有序視頻幀序列,負(fù)樣本為無序視頻幀序列。9.根據(jù)權(quán)利要求8所述的音視頻特征提取方法,其特征在于,對提取的視頻特征進(jìn)行自監(jiān)督學(xué)習(xí),還包括:對所述視頻幀是正向和反向的二分類任務(wù)作為監(jiān)督進(jìn)行學(xué)習(xí),正樣本為正向的視頻幀序列,負(fù)樣本為反向的視頻幀序列。10.根據(jù)權(quán)利要求5至7任一項(xiàng)所述的音視頻特征提取方法,其特征在于,對提取的音頻特征進(jìn)行自監(jiān)督學(xué)習(xí),包括:通過wav2vec2.0算法對音頻信號進(jìn)行遮擋,訓(xùn)練一個對比任務(wù)將真正的量化的隱藏變量表示與其他負(fù)例分辨出來。
11.根據(jù)權(quán)利要求1所述的音視頻特征提取方法,其特征在于,所述對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量,包括:根據(jù)從原始的視頻中提取的視頻特征向量和音頻特征向量進(jìn)行特征分析;從視頻的底層特征中提取最優(yōu)的視頻和音頻模態(tài)向量信息,并對這些模態(tài)向量信息進(jìn)行定義;對這些多模態(tài)特征向量進(jìn)行最優(yōu)化融合得到多維多模態(tài)特征向量。12.根據(jù)權(quán)利要求1所述的音視頻特征提取方法,其特征在于,對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí),包括:對從所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否來自于同一視頻的二分類監(jiān)督學(xué)習(xí),以及同時對所述視頻中抽幀得到的所述視頻幀序列和從視頻中提取的所述音頻信息進(jìn)行是否對齊的二分類監(jiān)督學(xué)習(xí)。13.一種音視頻特征提取裝置,其特征在于,包括:預(yù)處理模塊,用于對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理;提取模塊,用于提取視頻特征和音頻特征;第一自監(jiān)督模塊,用于對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);融合模塊,用于對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;第二自監(jiān)督模塊,用于對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。14.一種電子設(shè)備,包括:存儲器,用于存儲計算機(jī)可讀指令;以及處理器,用于運(yùn)行所述計算機(jī)可讀指令,使得所述電子設(shè)備實(shí)現(xiàn)根據(jù)權(quán)利要求1-12中任意一項(xiàng)所述的方法。15.一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)可讀指令,當(dāng)所述計算機(jī)可讀指令由計算機(jī)執(zhí)行時,使得所述計算機(jī)實(shí)現(xiàn)權(quán)利要求1-12中任意一項(xiàng)所述的方法。
技術(shù)總結(jié)
本公開實(shí)施例公開了一種音視頻特征提取方法、裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)。其中所述音視頻特征提取方法,包括:對視頻進(jìn)行視頻數(shù)據(jù)預(yù)處理和音頻數(shù)據(jù)預(yù)處理;提取視頻特征和音頻特征;對提取的視頻特征和音頻特征進(jìn)行自監(jiān)督學(xué)習(xí);對提取的視頻特征向量和音頻特征向量進(jìn)行融合,得到多模態(tài)特征向量;對所述多模態(tài)特征向量進(jìn)行自監(jiān)督學(xué)習(xí)。通過上述方法,通過視頻特征和音頻特征并行訓(xùn)練學(xué)習(xí)的方式,能夠提高訓(xùn)練準(zhǔn)確度,使用C或Transformer模型能夠加深網(wǎng)絡(luò)深度且提高訓(xùn)練速度,且通過多模態(tài)自監(jiān)督學(xué)習(xí)能夠獲取更多全局信息,進(jìn)而提升模型準(zhǔn)確率。進(jìn)而提升模型準(zhǔn)確率。進(jìn)而提升模型準(zhǔn)確率。
