語音數(shù)據(jù)篩選方法、裝置、電子設(shè)備和可讀存儲介質(zhì)與流程
1.本技術(shù)屬于語音處理技術(shù)領(lǐng)域,具體涉及語音數(shù)據(jù)篩選方法、裝置、電子設(shè)備和可讀存儲介質(zhì)。
背景技術(shù):
2.語音轉(zhuǎn)換技術(shù)可以保留源說話人的文本相關(guān)信息,而將源說話人語音數(shù)據(jù)的音替換為另一目標(biāo)說話人的音,這使得語音轉(zhuǎn)換技術(shù)被廣泛的應(yīng)用于語音播報,智能翻譯等領(lǐng)域。隨著語音技術(shù)的發(fā)展,越來越多的用戶希望提供方言版本的語音轉(zhuǎn)換業(yè)務(wù),如此需要大量的方言語音數(shù)據(jù),然而目前方言語音數(shù)據(jù)搜集難度大,因此方言語音數(shù)據(jù)的數(shù)量通常較少,這使得當(dāng)前的語音轉(zhuǎn)換技術(shù)在對方言進行語音轉(zhuǎn)換時,轉(zhuǎn)換效果較差。
技術(shù)實現(xiàn)要素:
3.本技術(shù)實施例的目的是提供一種語音數(shù)據(jù)篩選方法、裝置、電子設(shè)備和可讀存儲介質(zhì),能夠解決相關(guān)技術(shù)中在對方言進行語音轉(zhuǎn)換時,轉(zhuǎn)換效果較差的問題。
4.第一方面,本技術(shù)實施例提供了一種語音數(shù)據(jù)篩選方法,該方法包括:基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
5.第二方面,本技術(shù)實施例提供了一種語音數(shù)據(jù)篩選裝置,該裝置包括:第一轉(zhuǎn)換處理模塊,用于基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);第一篩選處理模塊,用于基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);第二轉(zhuǎn)換處理模塊,用于基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);第二篩選處理模塊,用于基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
6.第三方面,本技術(shù)實施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲器,所述存儲器存儲可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面所述的方法的步驟。
7.第四方面,本技術(shù)實施例提供了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面所述的方法的步驟。
8.第五方面,本技術(shù)實施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運行程序或指令,實現(xiàn)如第一方面所述的方法。
9.第六方面,本技術(shù)實施例提供一種計算機程序產(chǎn)品,該程序產(chǎn)品被存儲在存儲介質(zhì)中,該程序產(chǎn)品被至少一個處理器執(zhí)行以實現(xiàn)如第一方面所述的方法。
10.在本技術(shù)的實施例中,根據(jù)t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),其中t為大于零的整數(shù),第一轉(zhuǎn)換數(shù)據(jù)保留有t條方言語音數(shù)據(jù)的文本信息,將t條方言語音數(shù)據(jù)的音改變?yōu)槟繕?biāo)說話人的音。在獲取到第一轉(zhuǎn)換數(shù)據(jù)后,利用t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果中的至少一項對第一轉(zhuǎn)換數(shù)據(jù)進行處理,根據(jù)第一處理結(jié)果從t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù),其中第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項,第一信息對比結(jié)果和第一判定結(jié)果為客觀量化的評價指標(biāo),可以對第一轉(zhuǎn)換數(shù)據(jù)進行準(zhǔn)確評價,以從t條方言語音數(shù)據(jù)準(zhǔn)確地篩選出轉(zhuǎn)換效果較好的目標(biāo)方言語音數(shù)據(jù)。然后根據(jù)目標(biāo)方言語音數(shù)據(jù)確定p條方言語音數(shù)據(jù),將p條方言語音數(shù)據(jù)與目標(biāo)說話人的k條標(biāo)準(zhǔn)語音數(shù)據(jù)進行語音轉(zhuǎn)換,獲取到第二轉(zhuǎn)換數(shù)據(jù)。進一步利用p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二判定結(jié)果中的至少一項對第二轉(zhuǎn)換數(shù)據(jù)進行處理,根據(jù)第二處理結(jié)果在第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù),第二信息對比結(jié)果和第二判定結(jié)果為客觀量化指標(biāo),可以對第二轉(zhuǎn)換數(shù)據(jù)進行準(zhǔn)確評價,以在第二轉(zhuǎn)換數(shù)據(jù)中篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù)。從而在本實施例中,通過將少量方言語音數(shù)據(jù)與大量的標(biāo)準(zhǔn)語音數(shù)據(jù)進行風(fēng)格遷移,即可以獲取到大量的使用方言的轉(zhuǎn)換數(shù)據(jù),并通過客觀量化的評價指標(biāo),對轉(zhuǎn)換數(shù)據(jù)進行自動挑選,篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù),第三轉(zhuǎn)換數(shù)據(jù)的數(shù)據(jù)質(zhì)量較高,同時通過自動篩選可以極大減少后續(xù)人工篩選轉(zhuǎn)換數(shù)據(jù)的工作量,節(jié)約人力成本。
附圖說明
11.圖1是本技術(shù)實施例的語音數(shù)據(jù)篩選方法的流程圖;
12.圖2是本技術(shù)實施例的語音識別模型的結(jié)構(gòu)示意圖;
13.圖3是本技術(shù)實施例的說話人識別模型的結(jié)構(gòu)示意圖;
14.圖4是本技術(shù)實施例的語音轉(zhuǎn)換模型的結(jié)構(gòu)示意圖;
15.圖5是本技術(shù)實施例的語音數(shù)據(jù)篩選裝置的框圖;
16.圖6是本技術(shù)實施例的電子設(shè)備的硬件結(jié)構(gòu)示意圖一;
17.圖7是本技術(shù)實施例的電子設(shè)備的硬件結(jié)構(gòu)示意圖二。
具體實施方式
18.下面將結(jié)合本技術(shù)實施例的附圖,對本技術(shù)實施例的技術(shù)方案進行清楚地描述,顯然,所描述的實施例是本技術(shù)一部分實施例,而不是全部的實施例。基于本技術(shù)的實施例,本領(lǐng)域普通技術(shù)人員獲得的所有其他實施例,都屬于本技術(shù)保護的范圍。
19.本技術(shù)的說明書和權(quán)利要求書的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便本技術(shù)的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤摇暗谝弧薄ⅰ暗诙钡人鶇^(qū)分的對象通常為一類,并不限定對象的個數(shù),例如第一對象可以是一個,也可以是多個。此外,說明書以及權(quán)利要求中“和/或”表示所連接對象的至少其中之一,字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
20.下面結(jié)合附圖,通過具體的實施例及其應(yīng)用場景對本技術(shù)實施例提供的語音數(shù)據(jù)篩選方法進行詳細地說明。
21.圖1示出了本技術(shù)一個實施例的語音數(shù)據(jù)篩選方法的流程圖,該方法應(yīng)用于電子設(shè)備,包括:
22.步驟101:基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù)。
23.在該步驟中,方言語音數(shù)據(jù)是指使用目標(biāo)方言的語音數(shù)據(jù);目標(biāo)說話人是指目標(biāo)轉(zhuǎn)換音對應(yīng)的說話對象;標(biāo)準(zhǔn)語音數(shù)據(jù)是目標(biāo)說話人的普通話音頻;選取標(biāo)準(zhǔn)語音數(shù)據(jù)是指特定的目標(biāo)說話人的普通話音頻。例如對目標(biāo)說話人的標(biāo)準(zhǔn)語音數(shù)據(jù)進行隨機選取,確定出選取標(biāo)準(zhǔn)語音數(shù)據(jù),其中目標(biāo)方言和目標(biāo)說話人可以為用戶預(yù)先指定數(shù)據(jù)。對t條方言語音數(shù)據(jù)和選取標(biāo)準(zhǔn)語音數(shù)據(jù)進行語音轉(zhuǎn)換,獲取第一轉(zhuǎn)換數(shù)據(jù),該第一轉(zhuǎn)換數(shù)據(jù)保留有t條方言語音數(shù)據(jù)的文本信息,音改變?yōu)槟繕?biāo)說話人的音。
24.具體地,預(yù)先訓(xùn)練語音轉(zhuǎn)換模型,將t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù)輸入語音轉(zhuǎn)換模型,語音轉(zhuǎn)換模型輸出第一轉(zhuǎn)換數(shù)據(jù),其中語音轉(zhuǎn)換模型的訓(xùn)練數(shù)據(jù)可以為少量的方言語音數(shù)據(jù)和大量的標(biāo)準(zhǔn)語音數(shù)據(jù)。
25.在一種可選的實現(xiàn)方式中,在基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù)之前,所述方法還包括:基于目標(biāo)方言,確定n個源方言說話人;基于所述n個源方言說話人,得到t條方言語音數(shù)據(jù)。其中,源方言說話人是指使用目標(biāo)方言的說話對象,t條方言語音數(shù)據(jù)是源方言說話人的全部方言語音數(shù)據(jù)中的一部分,例如對n個源方言說話人分別對應(yīng)的全部方言語音數(shù)據(jù)進行隨機抽取,獲取t條方言語音數(shù)據(jù),其中t條方言語音數(shù)據(jù)包括了n個源方言說話人分別對應(yīng)t/n條方言語音數(shù)據(jù)。
26.舉例來說,預(yù)先確定目標(biāo)方言為粵語,目標(biāo)說話人為說話人a,將語音庫中存在的n位粵語說話人作為源方言說話人,隨機選取各個粵語說話人的t/n條方言語音數(shù)據(jù),并在說話人a的普通話音頻中進行隨機選取,確定選取標(biāo)準(zhǔn)語音數(shù)據(jù),將n個源方言說話人對應(yīng)的t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù)輸入語音轉(zhuǎn)換模型,獲取第一轉(zhuǎn)換數(shù)據(jù)。
27.步驟102,基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);其
中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
28.在該步驟中,第一信息對比結(jié)果是指對t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)進行對比獲取到的結(jié)果,其中第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項,語音識別對比結(jié)果是對t條方言語音數(shù)據(jù)的語音識別結(jié)果和第一轉(zhuǎn)換數(shù)據(jù)的語音識別結(jié)果進行對比獲取到的,音頻信息對比結(jié)果是對t條方言語音數(shù)據(jù)的音頻信息和第一轉(zhuǎn)換數(shù)據(jù)的音頻信息進行對比獲取到的,其中音效信息包括但不限于基頻信息和第一共振峰信息。因在語音轉(zhuǎn)換的過程中,改變的是音,因此t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)具有可比性,從而第一信息對比結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
29.對t條方言語音數(shù)據(jù)進行語音轉(zhuǎn)換的目的,是獲取到目標(biāo)說話人音的方言語音數(shù)據(jù),也就是說無需錄制大量的方言語音數(shù)據(jù),通過語音轉(zhuǎn)換即可以獲取到不同音的方言語音數(shù)據(jù),但在進行語音轉(zhuǎn)換時,不同的方言語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)換效果不同,在本實施例中對第一轉(zhuǎn)換數(shù)據(jù)是否屬于目標(biāo)說話人進行判斷,獲取第一判定結(jié)果,第一判定結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
30.第一信息對比結(jié)果和第一判定結(jié)果均可以對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價,因此通過第一信息對比結(jié)果和第一判定結(jié)果中的至少一項即可以實現(xiàn)對第一轉(zhuǎn)換數(shù)據(jù)的評價,即在對第一轉(zhuǎn)換數(shù)據(jù)進行處理時,存在以下的可選實施方式:
31.實施方式一,基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理。
32.實施方式二,基于所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理。
33.實施方式三,基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理。
34.在對第一轉(zhuǎn)換數(shù)據(jù)進行處理后,獲取到第一處理結(jié)果,第一處理結(jié)果為對第一轉(zhuǎn)換數(shù)據(jù)進行客觀量化評價的結(jié)果,因此第一處理結(jié)果可以顯示不同的方言語音數(shù)據(jù)的轉(zhuǎn)換效果,進而可以根據(jù)第一處理結(jié)果從t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù),目標(biāo)方言語音數(shù)據(jù)為語音轉(zhuǎn)換中轉(zhuǎn)換效果較好的方言語音數(shù)據(jù)。具體地,確定第一處理結(jié)果中t條方言語音數(shù)據(jù)的評價數(shù)值,對各個評價數(shù)值進行排序,確定出評價數(shù)值最高的方言語音數(shù)據(jù),該評價數(shù)值最高的方言語音數(shù)據(jù)即為目標(biāo)方言語音數(shù)據(jù)。
35.步驟103,基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù)。
36.在該步驟中,因目標(biāo)方言語音數(shù)據(jù)的轉(zhuǎn)換效果較好,因此進一步根據(jù)目標(biāo)方言語音數(shù)據(jù)確定出較多的方言語音數(shù)據(jù)即p條方言語音數(shù)據(jù),其中p大于t。也就是說先利用少量的方言語音數(shù)據(jù)即t條方言語音數(shù)據(jù)進行語音轉(zhuǎn)換,初步篩選出目標(biāo)方言語音數(shù)據(jù),后續(xù)關(guān)注目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù),有效減少進行語音轉(zhuǎn)換的方言語音數(shù)據(jù)的數(shù)量,避免產(chǎn)生大量的第二轉(zhuǎn)換數(shù)據(jù),有效地提高轉(zhuǎn)換效率。
37.在一種具體的實施方式中,確定目標(biāo)方言語音數(shù)據(jù)對應(yīng)的目標(biāo)說話人,確定目標(biāo)說話人對應(yīng)的p條方言語音數(shù)據(jù),其中p條方言語音數(shù)據(jù)可以為目標(biāo)說話人的使用目標(biāo)方言
的所有數(shù)據(jù)。不同的源說話人對應(yīng)不同的轉(zhuǎn)換效果,因此通過在源方言說話人中確定出轉(zhuǎn)換效果較好的目標(biāo)說話人,后續(xù)不再關(guān)注源方言說話人中除目標(biāo)說話人外的其他方言說話人,可以有效提高轉(zhuǎn)換效率,保證轉(zhuǎn)換效果。
38.對p條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù)進行語音轉(zhuǎn)換,獲取第二轉(zhuǎn)換數(shù)據(jù),其中第二轉(zhuǎn)換數(shù)據(jù)保留有p條方言語音數(shù)據(jù)的文本信息,音改變?yōu)槟繕?biāo)說話人的音。具體地,預(yù)先訓(xùn)練語音轉(zhuǎn)換模型,將p條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù)輸入語音轉(zhuǎn)換模型,獲取語音轉(zhuǎn)換模型輸出的第二轉(zhuǎn)換數(shù)據(jù)。其中k為大于零的整數(shù),優(yōu)選地,k條標(biāo)準(zhǔn)語音數(shù)據(jù)的數(shù)據(jù)數(shù)量大于選取標(biāo)準(zhǔn)語音數(shù)據(jù)的數(shù)據(jù)數(shù)量,目標(biāo)說話人的標(biāo)準(zhǔn)語音數(shù)據(jù)均為目標(biāo)音,但是在標(biāo)準(zhǔn)語音數(shù)據(jù)對應(yīng)不同內(nèi)容時,目標(biāo)說話人的說話風(fēng)格會有所不同,因此通過選取更多的標(biāo)準(zhǔn)語音數(shù)據(jù),獲取更多目標(biāo)音的說話風(fēng)格,以獲取到說話風(fēng)格較為豐富的第二轉(zhuǎn)換數(shù)據(jù)。
39.步驟104,基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù)。
40.在該步驟中,第二信息對比結(jié)果是指對p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)進行對比獲取到的結(jié)果,其中第二信息對比結(jié)果也可以包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項,語音識別對比結(jié)果是對p條方言語音數(shù)據(jù)的語音識別結(jié)果和第二轉(zhuǎn)換數(shù)據(jù)的語音識別結(jié)果進行對比獲取到的,音頻信息對比結(jié)果是對p條方言語音數(shù)據(jù)的音頻信息和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息進行對比獲取到的,其中音效信息包括但不限于基頻信息和第一共振峰信息。p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)具有可比性,從而第二信息對比結(jié)果可以為對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
41.對第二轉(zhuǎn)換數(shù)據(jù)是否屬于目標(biāo)說話人進行判斷,獲取第二判定結(jié)果,第二判定結(jié)果可以為對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
42.第二信息對比結(jié)果和第二判定結(jié)果均可以對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價,因此通過第二信息對比結(jié)果和第二判定結(jié)果中的至少一項即可以實現(xiàn)對第二轉(zhuǎn)換數(shù)據(jù)的評價,即在對第二轉(zhuǎn)換數(shù)據(jù)進行處理時,存在以下的可選實施方式:
43.實施方式一,基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理。
44.實施方式二,基于所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理。
45.實施方式三,基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理。
46.在對第二轉(zhuǎn)換數(shù)據(jù)進行處理后,獲取到第二處理結(jié)果,第二處理結(jié)果為對第二轉(zhuǎn)換數(shù)據(jù)進行客觀量化評價的結(jié)果,因此第二處理結(jié)果可以顯示不同的方言語音數(shù)據(jù)的轉(zhuǎn)換效果,進而可以根據(jù)第二處理結(jié)果從第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù),第三轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果較好。
47.具體地,預(yù)先設(shè)定轉(zhuǎn)換閾值,確定第二處理結(jié)果中p條方言語音數(shù)據(jù)的評價數(shù)值,將評價數(shù)值大于轉(zhuǎn)換閾值的第二轉(zhuǎn)換數(shù)據(jù)篩選為第三轉(zhuǎn)換數(shù)據(jù)。
48.在本技術(shù)的實施例中,根據(jù)t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù)進行語音轉(zhuǎn)換,獲取第一轉(zhuǎn)換數(shù)據(jù)。利用第一信息對比結(jié)果和第一判定結(jié)果中的至少一項對第一轉(zhuǎn)換數(shù)據(jù)進行客觀量化評價,以篩選出目標(biāo)方言語音數(shù)據(jù)。然后將目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p方言語音數(shù)據(jù)與目標(biāo)說話人的k條標(biāo)準(zhǔn)語音數(shù)據(jù)進行語音轉(zhuǎn)換,獲取到第二轉(zhuǎn)換數(shù)據(jù),利用第二信息對比結(jié)果和第二判定結(jié)果中的至少一項對第二轉(zhuǎn)換數(shù)據(jù)進行客觀量化評價,在第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù)。從而在本實施例中,通過將少量方言語音數(shù)據(jù)與大量的標(biāo)準(zhǔn)語音數(shù)據(jù)進行風(fēng)格遷移,即可以獲取到大量的使用方言的轉(zhuǎn)換數(shù)據(jù),并通過客觀量化的評價指標(biāo),對轉(zhuǎn)換數(shù)據(jù)進行自動挑選,篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù),第三轉(zhuǎn)換數(shù)據(jù)的數(shù)據(jù)質(zhì)量較高,同時通過自動篩選可以極大減少后續(xù)人工篩選轉(zhuǎn)換數(shù)據(jù)的工作量,節(jié)約人力成本。
49.在本技術(shù)一個實施例中,在所述第一信息對比結(jié)果包括語音識別對比結(jié)果的情況下,在所述步驟102之前,所述方法還包括:
50.步驟105,確定所述t條方言語音數(shù)據(jù)的第一語音識別結(jié)果。
51.步驟106,確定所述第一轉(zhuǎn)換數(shù)據(jù)的第二語音識別結(jié)果。
52.步驟107,基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
53.其中,對t條方言語音數(shù)據(jù)進行語音識別,確定出第一語音識別結(jié)果,對第一轉(zhuǎn)換進行語音識別,確定第二語音識別結(jié)果。對第一語音識別結(jié)果和第二語音識別結(jié)果進行對比,確定t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,該語音識別對比結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
54.在一種具體的實施方式中,預(yù)先訓(xùn)練出語音識別模型,利用該語音識別模型對語音數(shù)據(jù)進行識別,即將t條方言語音數(shù)據(jù)輸入語音識別模型,獲取語音識別模型的輸出項第一語音識別結(jié)果,第一語音識別結(jié)果為對t條方言語音數(shù)據(jù)進行識別得到的文本信息。將第一轉(zhuǎn)換數(shù)據(jù)輸入語音識別模型,獲取語音識別模型的輸出項第二語音識別結(jié)果,第二語音識別結(jié)果為對第一轉(zhuǎn)換數(shù)據(jù)進行識別得到的文本信息。因在語音轉(zhuǎn)換過程中,是對音的改變并未改變語音內(nèi)容,因此第一語音識別結(jié)果和第二語音識別結(jié)果具有可比性,通過對第一語音識別結(jié)果和第二語音識別結(jié)果進行比較,獲取語音識別對比結(jié)果。
55.在一種可能的實現(xiàn)方式中,所述語音識別模型為對非方言的語音訓(xùn)練數(shù)據(jù)進行訓(xùn)練后得到。利用大量的非方言的語音訓(xùn)練數(shù)據(jù)可以訓(xùn)練出較為準(zhǔn)確的語音識別模型,考慮到語音轉(zhuǎn)換是音改變,因此即使是利用非方言的語音訓(xùn)練數(shù)據(jù)訓(xùn)練出的語音識別模型,仍然可以用于對方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)進行語音識別,獲取到準(zhǔn)確的第一語音識別結(jié)果和第二語音識別結(jié)果,將基于非方言的語音訓(xùn)練數(shù)據(jù)訓(xùn)練出的語音識別模型巧妙的運用到方言語音數(shù)據(jù)中,為使用少量方言語音數(shù)據(jù)即可以獲取到轉(zhuǎn)換效果較好的轉(zhuǎn)換數(shù)據(jù)提供了可能性。
56.具體地,搭建ctc-attention(其中,ctc為connectionist temporal classification,即連接主義時序分類;attention為注意力模型)的transformer結(jié)構(gòu)的語音識別模型,示例性的,該語音識別模型的模型結(jié)構(gòu)如圖2所示,該語音識別模型由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)組成,將編碼網(wǎng)絡(luò)的輸入特征經(jīng)過自注意力結(jié)構(gòu)(self-attention)、特征融合結(jié)構(gòu)(concate&layernorm)、一維卷積結(jié)構(gòu)(conv1d)、特征融合結(jié)構(gòu)(concate&
layernorm),并由softmax輸出編碼特征,將編碼特征輸入解碼網(wǎng)絡(luò),經(jīng)過遮擋自注意力結(jié)構(gòu)(masked self-attention)、特征融合結(jié)構(gòu)(concate&layernorm)、自注意力結(jié)構(gòu)(self-attention)、特征融合結(jié)構(gòu)(concate&layernorm)、一維卷積結(jié)構(gòu)(conv1d)、特征融合結(jié)構(gòu)(concate&layernorm),經(jīng)softmax輸出識別結(jié)果。其中,該語音識別模型可以包括12層編碼網(wǎng)絡(luò)和6層解碼網(wǎng)絡(luò),編碼網(wǎng)絡(luò)的隱藏層神經(jīng)元個數(shù)可以為2048,解碼部分的隱藏神經(jīng)元個數(shù)可以為6。
57.進一步地,該語音識別模型的訓(xùn)練數(shù)據(jù)為非方言的語音訓(xùn)練數(shù)據(jù),在將語音訓(xùn)練數(shù)據(jù)輸入語音識別模型前,對語音訓(xùn)練數(shù)據(jù)進行音頻數(shù)據(jù)處理,獲取音頻特征。例如對語音訓(xùn)練數(shù)據(jù)進行fbank(filterbank,濾波器組,一種處理算法)特征提取,即進行預(yù)加重,分幀,加窗,短時傅里葉變換,梅爾濾波得到fbank特征,其中fbank特征的維度可以選擇80維,幀長窗長可以選擇2048采樣點,幀移可以選擇300采樣點。以該語音訓(xùn)練數(shù)據(jù)對語音識別模型進行訓(xùn)練,直至符合預(yù)設(shè)訓(xùn)練結(jié)束條件,其中預(yù)設(shè)訓(xùn)練結(jié)束條件包括訓(xùn)練次數(shù)達到設(shè)定值,如20w step,或者驗證集的損失函數(shù)值(loss)下降至平穩(wěn),或者識別結(jié)果的字符錯誤率小于設(shè)定值,如9%。
58.進一步地,所述步驟107基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,包括:
59.步驟1071,確定所述第一語音識別結(jié)果和所述第二語音識別結(jié)果間的字符錯誤率。
60.步驟1072,在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)所述字符錯誤率,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
61.步驟1073,在所述字符錯誤率不在所述預(yù)設(shè)數(shù)值范圍的情況下,在所述t條方言語音數(shù)據(jù)中刪除不在所述預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。
62.其中,第一語音識別結(jié)果和第二語音識別結(jié)果均為文本信息,因此將第一語音識別結(jié)果和第二語音識別結(jié)果的文本信息包括的字符進行對比,即可以確定出第一語音識別結(jié)果和第二語音識別結(jié)果間的字符錯誤率。預(yù)先設(shè)定預(yù)設(shè)數(shù)值范圍,在該預(yù)設(shè)數(shù)值范圍內(nèi),表明轉(zhuǎn)換效果較好,因此可以進一步根據(jù)字符錯誤率,確定t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。在字符錯誤率不在預(yù)設(shè)數(shù)據(jù)范圍的情況下,表明轉(zhuǎn)換效果過差,因此在t條方言語音數(shù)據(jù)中刪除不在預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù),有效減少方言語音數(shù)據(jù)的數(shù)量。
63.在一種可能的實現(xiàn)方式中,在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,可以直接將在預(yù)設(shè)數(shù)值范圍的字符錯誤率,確定為t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。當(dāng)然也可以預(yù)先設(shè)定計算公式,根據(jù)計算公式對字符錯誤率進行進一步計算,以確定出t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
64.舉例來說,t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果對應(yīng)的計算公式如下所示:
[0065][0066]
其中,score
asr
表征t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果;xj表征源方言說話人x的第j條方言語音數(shù)據(jù);t為源方言說話人x對應(yīng)的方言語音數(shù)據(jù)的數(shù)據(jù)
量;y
ref
表征目標(biāo)說話人y對應(yīng)的隨機特定音頻即選取標(biāo)準(zhǔn)語音數(shù)據(jù);表征源方言說話人x的第j條方言語音數(shù)據(jù)轉(zhuǎn)換后得到的第一轉(zhuǎn)換數(shù)據(jù);cer表征平均字符錯誤率;m
asr
(xj)表征語音識別模型對源方言說話人x的第j條方言語音數(shù)據(jù)的識別結(jié)果,對應(yīng)第一語音識別結(jié)果;表征語音識別模型對第j條方言語音數(shù)據(jù)對應(yīng)的第一轉(zhuǎn)換數(shù)據(jù)的識別結(jié)果,對應(yīng)第二語音識別結(jié)果。
[0067]
通過score
asr
可以體現(xiàn)語音轉(zhuǎn)換后的第一轉(zhuǎn)換數(shù)據(jù)是否保留原有的方言語音數(shù)據(jù)的語言信息,篩選掉語音轉(zhuǎn)換模型常出現(xiàn)的發(fā)音不清的情況,在本實施例中將預(yù)設(shè)數(shù)值范圍設(shè)置為小于1,將cer存在大于等于1的情況,此時表明轉(zhuǎn)換效果過差,排除cer大于1的源方言說話人的方言語音數(shù)據(jù)。
[0068]
在本實施例中,通過第一語音識別結(jié)果和第二語音識別結(jié)果準(zhǔn)確地確定出語音識別對比結(jié)果,當(dāng)轉(zhuǎn)換效果較好時,語音識別對比結(jié)果中字符錯誤率較低,當(dāng)轉(zhuǎn)換效果較差時,語音識別對比結(jié)果中字符錯誤率較高,因此語音識別對比結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0069]
在本技術(shù)一個實施例中,在所述第一信息對比結(jié)果包括音頻信息對比結(jié)果的情況下,所述步驟102之前,所述方法還包括:
[0070]
步驟108,基于所述t條方言語音數(shù)據(jù)的第一基頻分段長度和所述第一轉(zhuǎn)換數(shù)據(jù)的第二基頻分段長度,確定基頻對比結(jié)果。
[0071]
步驟109,基于所述t條方言語音數(shù)據(jù)的第一共振峰信息和所述第一轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定共振峰對比結(jié)果。
[0072]
步驟110,基于所述基頻對比結(jié)果和所述共振峰對比結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。
[0073]
其中,第一基頻分段長度是指將t條方言語音數(shù)據(jù)的音頻信息中基頻進行分段處理獲取的長度結(jié)果,第二基頻分段長度是指將第一轉(zhuǎn)換數(shù)據(jù)的音頻信息中基頻進行分段處理獲取的長度結(jié)果,將第一基頻分段長度和第二基頻分段長度進行對比,確定基頻對比結(jié)果。音頻信息中不僅包括基頻信息,還包括第一共振峰信息,將方言語音數(shù)據(jù)的音頻信息的第一共振峰信息和第一轉(zhuǎn)換數(shù)據(jù)的音頻信息的第一共振峰信息進行對比,確定共振峰對比結(jié)果。根據(jù)基頻對比結(jié)果和共振峰對比結(jié)果對第一轉(zhuǎn)換數(shù)據(jù)進行評價,獲取音頻信息對比結(jié)果,該音頻信息對比結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0074]
舉例來說,t條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)音頻信息對比結(jié)果的計算公式如下所示:
[0075]
[0076][0077]
其中,scoref表征音頻信息對比結(jié)果;f0表征基頻;f1表征第一共振峰;表征通過dio算法獲得的l條基頻分段的第k個分段的長度,對應(yīng)第二基頻分段長度;表征xi通過dio算法獲得的l條基頻分段的第k個分段的長度,對應(yīng)第一基頻分段長度;左式中與間的關(guān)系對應(yīng)基頻對比結(jié)果,通過對方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)的基頻分段長度進行比較,對第一轉(zhuǎn)換數(shù)據(jù)進行評價。在上式中保證x在0到1范圍內(nèi),x越接近0,用于評價的得分呈現(xiàn)趨勢為非線性的下降,x越靠近1,表明第一轉(zhuǎn)換音頻的第二基頻分段長度和方言語音數(shù)據(jù)的第一基頻分段長度越接近,第一轉(zhuǎn)換音頻的音頻韻律和語氣更接近方言語音數(shù)據(jù),轉(zhuǎn)換效果較好。表征分幀后存在有相鄰點的第一共振峰的第m個頻率的左導(dǎo)數(shù);表征分幀后存在有相鄰點的第一共振峰的第m個頻率的右導(dǎo)數(shù);表征xj分幀后存在有相鄰點的第一共振峰的第m個頻率的左導(dǎo)數(shù);表征xj分幀后存在有相鄰點的第一共振峰的第m個頻率的右導(dǎo)數(shù);在右式中1-x2的形式保證x在0到1范圍內(nèi),越接近1,用于評價的得分呈現(xiàn)趨勢為非線性的下降。通過計算方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的左右導(dǎo)數(shù)之差的比值,確定共振峰對比結(jié)果,共振峰對比結(jié)果表示第一轉(zhuǎn)換數(shù)據(jù)在該點相較于方言語音數(shù)據(jù)的第一共振峰抖動性。選擇方言語音數(shù)據(jù)的導(dǎo)數(shù)差小于第一轉(zhuǎn)換數(shù)據(jù)的導(dǎo)數(shù)差的m個點進行計算,得到的導(dǎo)數(shù)間的關(guān)系值越接近1,說明此處共振峰波形越接近方言語音數(shù)據(jù),可視作沒有共振峰抖動的現(xiàn)象,轉(zhuǎn)換效果較好。
[0078]
在本技術(shù)一個實施例中,在步驟102之前,所述方法還包括:
[0079]
步驟111,對所述第一轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一預(yù)測結(jié)果。
[0080]
步驟112,對所述第一轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二預(yù)測結(jié)果。
[0081]
步驟113,基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0082]
其中,第一轉(zhuǎn)換數(shù)據(jù)為音頻數(shù)據(jù),因此具有頻譜信息,不同的說話人對應(yīng)不同的頻譜信息,通過對第一轉(zhuǎn)換數(shù)據(jù)的頻譜信息進行識別,確定第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)的目標(biāo)說話人的第一預(yù)測結(jié)果。具體地,可以確定第一轉(zhuǎn)換數(shù)據(jù)的頻譜信息與目標(biāo)說話人的標(biāo)準(zhǔn)語音數(shù)據(jù)的頻譜信息的相似性,可以直接根據(jù)將相似性對應(yīng)的數(shù)值確定為第一預(yù)測結(jié)果。在本實施例中不僅通過第一預(yù)測結(jié)果確定第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果,進一步對第二轉(zhuǎn)換數(shù)據(jù)進行
說話人識別,確定出第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)的目標(biāo)說話人的第二預(yù)測結(jié)果,從而利用第一預(yù)測結(jié)果和第二預(yù)測結(jié)果雙重驗證方式確定第一轉(zhuǎn)換數(shù)據(jù)是否對應(yīng)目標(biāo)說話人,保證確定出的第一判定結(jié)果的準(zhǔn)確性。
[0083]
在一種具體的實施方式中,預(yù)先訓(xùn)練語音轉(zhuǎn)換模塊,基于所述語音轉(zhuǎn)換模型的分類器,獲取所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一預(yù)測結(jié)果。將方言語音數(shù)據(jù)輸入到語音轉(zhuǎn)換模型中,不僅可以得到第一轉(zhuǎn)換數(shù)據(jù),語音轉(zhuǎn)換模型的分類器還可以輸出第一預(yù)測結(jié)果。
[0084]
在一種具體的實施方式中,預(yù)先訓(xùn)練說話人識別模型,基于說話人識別模型,獲取所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二預(yù)測結(jié)果。將第一轉(zhuǎn)換數(shù)據(jù)輸入到說話人識別模型中,說話人識別模型輸出第二預(yù)測結(jié)果。
[0085]
具體地,搭建基于self-attention卷積結(jié)構(gòu)的說話人識別模型,示例性的,該說話人識別模型的模型結(jié)構(gòu)如圖3所示,由映射結(jié)構(gòu)(liner&relu),一維卷積結(jié)構(gòu)(conv1d block),平均池化結(jié)構(gòu)(mean pooling),自注意力結(jié)構(gòu)(self-attention)和輸出結(jié)構(gòu)(linear以及softmax)組成。該說話人識別模型的訓(xùn)練數(shù)據(jù)包括方言訓(xùn)練數(shù)據(jù)和標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù),方言訓(xùn)練數(shù)據(jù)可以為掌握粵語、東北話、四川話等語種的聲優(yōu)錄制的少量方言音頻數(shù)據(jù),標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)為數(shù)據(jù)庫中存在的大量的普通話音頻數(shù)據(jù)。在將說話人識別模型的訓(xùn)練數(shù)據(jù)輸入說話人識別模型前,對訓(xùn)練數(shù)據(jù)進行音頻數(shù)據(jù)處理,獲取音頻特征。對訓(xùn)練數(shù)據(jù)進行fbank特征提取,得到80維的fbank特征,將80維的fbank特征輸入到2層的全連接和elu激活函數(shù)組成的映射結(jié)構(gòu),將80維特征映射到128維,然后經(jīng)過3層1維卷積加glu(gated linear units,門控線性單元)的殘差結(jié)構(gòu)的卷積層,以及將語音信息匯總的mean pooling結(jié)構(gòu),最終通過self-attention結(jié)構(gòu)得到說話人維度特征,并通過softmax結(jié)構(gòu)輸出識別為對應(yīng)說話人的概率,得到第二預(yù)測結(jié)果。
[0086]
搭建基于對抗學(xué)習(xí)的stargan v2語音轉(zhuǎn)換模型,示例性的,該語音轉(zhuǎn)換模型的模型結(jié)構(gòu)如圖4所示,該語音轉(zhuǎn)換模型由a、b、c、d 4個模塊組成,其中模塊a(style encoder)為說話人風(fēng)格生成模塊,該模塊具體為預(yù)訓(xùn)練的上述說話人識別模型,該說話人識別模型輸出為通過self-attention結(jié)構(gòu)得到說話人維度特征(speaker vector);圖4中b為目標(biāo)說話人頻譜轉(zhuǎn)換生成模塊,搭建基于self-attention的seq2seq的網(wǎng)絡(luò)結(jié)構(gòu),以音頻特征(fbank特征)和說話人維度特征為輸入項,輸出轉(zhuǎn)換后的目標(biāo)說話人音的頻譜。圖4中c為頻譜判斷模塊,包括判斷器和分類器,判斷器和分類器的模型結(jié)構(gòu)為預(yù)訓(xùn)練的上述說話人識別模型,頻譜判斷模塊用于對抗訓(xùn)練,判斷并提升目標(biāo)說話人頻譜轉(zhuǎn)換生成模塊的轉(zhuǎn)換效果。圖4中d為聲碼器模塊,用于基于hifi-gan結(jié)構(gòu)將頻譜數(shù)據(jù)轉(zhuǎn)音頻數(shù)據(jù),即輸出第一轉(zhuǎn)換數(shù)據(jù),同時分類器輸出第一預(yù)測結(jié)果。其中,語音轉(zhuǎn)換模型的訓(xùn)練數(shù)據(jù)為方言訓(xùn)練數(shù)據(jù)和標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)。
[0087]
通過上述語音轉(zhuǎn)換模型和說話人識別模型可以獲取到準(zhǔn)確的第一預(yù)測結(jié)果和第二預(yù)測結(jié)果。
[0088]
進一步地,所述步驟112基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果,包括:
[0089]
步驟1121,確定所述第一預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第一交叉熵。
[0090]
步驟1122,確定所述第二預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第二交叉熵。
[0091]
步驟1123,基于所述第一交叉熵和所述第二交叉熵,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0092]
其中,第一交叉熵可以表明第一預(yù)測結(jié)果與目標(biāo)說話人對應(yīng)的真實結(jié)果間的差異,從而第一交叉熵可以直觀的體現(xiàn)第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果。同時第二交叉熵可以表明第二預(yù)測結(jié)果與目標(biāo)說話人對應(yīng)的真實結(jié)果間的差異,從而第二交叉熵也可以直觀的體現(xiàn)第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果。按照預(yù)設(shè)計算方式對第一交叉熵和第二交叉熵進行計算,確定出第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0093]
舉例來說,第一判定結(jié)果對應(yīng)的計算公式如下所示:
[0094][0095]
其中,score
speaker
表征第一判定結(jié)果,c
vc
表征分類器;y表征目標(biāo)說話人;c
speaker
表征說話人識別模型;ce表征交叉熵;λ
vc
表征預(yù)設(shè)權(quán)重系數(shù),如為0.2;表征音頻轉(zhuǎn)換模塊的分類器對屬于目標(biāo)說話人y的判斷結(jié)果,確定與目標(biāo)說話人y的交叉熵ce,ce的值越靠近1,表明第一轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換效果越好,數(shù)據(jù)質(zhì)量越高;表征說話人識別模型對屬于目標(biāo)說話人y的概率結(jié)果,并進一步確定與目標(biāo)說話人y的交叉熵ce。
[0096]
通過上述第一判定結(jié)果的計算公式,可以準(zhǔn)確地確定出第一判定結(jié)果,該第一判定結(jié)果可以為對第一轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0097]
在一種具體的實施方式中,在基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù)時,可以根據(jù)如下計算公式確定出第一處理結(jié)果:
[0098]
score
pick-source
=λ
asr
*score
asr
+λ
speaker
*score
speaker
++λf*scoref???
(4)
[0099]
其中,score
pick-source
表征第一處理結(jié)果;score
asr
表征語音識別模型得到的語音識別對比結(jié)果;score
speaker
表征語音轉(zhuǎn)換模塊和說話人識別模型得到第一判定結(jié)果;scoref表征基于音頻信息得到的音頻信息對比結(jié)果;λ
asr
、λ
speaker
、λf表征預(yù)設(shè)權(quán)重系數(shù)。
[0100]
具體地:
[0101][0102]
[0103][0104][0105]
通過上述第一處理結(jié)果的計算公式,可以準(zhǔn)確地確定出第一處理結(jié)果,進而可以保證根據(jù)第一處理結(jié)果確定出的目標(biāo)方言語音數(shù)據(jù)的準(zhǔn)確性較高。
[0106]
在本技術(shù)一實施例中,所述第二信息對比結(jié)果包括p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
[0107]
在所述第二信息對比結(jié)果包括p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果時,在步驟104之前,所述方法還包括:
[0108]
確定p條方言語音數(shù)據(jù)的第三語音識別結(jié)果;確定第二轉(zhuǎn)換數(shù)據(jù)的第四語音識別結(jié)果;基于第三語音識別結(jié)果和第四語音識別結(jié)果,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
[0109]
在p條方言語音數(shù)據(jù)與第二轉(zhuǎn)換數(shù)據(jù)間的文本信息相同,因此第三語音識別結(jié)果和第四語音識別結(jié)果間具有可比性,通過對第三語音識別結(jié)果和第四語音識別結(jié)果進行比較,確定出p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,該語音識別對比結(jié)果可以為對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0110]
在一種具體的實施方式中,預(yù)先訓(xùn)練出語音識別模型,利用該語音識別模型對語音數(shù)據(jù)進行識別,即將p條方言語音數(shù)據(jù)輸入語音識別模型,獲取語音識別模型的輸出項第三語音識別結(jié)果,第三語音識別結(jié)果為對p條方言語音數(shù)據(jù)進行識別得到的文本信息。將第二轉(zhuǎn)換數(shù)據(jù)輸入語音識別模型,獲取語音識別模型的輸出項第四語音識別結(jié)果,第四語音識別結(jié)果為對第二轉(zhuǎn)換數(shù)據(jù)進行識別得到的文本信息,其中語音識別模型的模型結(jié)構(gòu)可以如上所述。
[0111]
具體地,基于第三語音識別結(jié)果和第四語音識別結(jié)果,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,包括:確定所述第三語音識別結(jié)果和第四語音識別結(jié)果間的字符錯誤率。在字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)字符錯誤率,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。在字符錯誤率不在預(yù)設(shè)數(shù)值范圍的情況下,在p條方言語音數(shù)據(jù)中刪除不在該預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。
[0112]
通過將第三語音識別結(jié)果和第四語音識別結(jié)果的文本信息包括的字符進行對比,確定出第三語音識別結(jié)果和第四語音識別結(jié)果間的字符錯誤率,當(dāng)該字符錯誤率在預(yù)設(shè)數(shù)值范圍內(nèi),表明轉(zhuǎn)換效果較好,因此可以進一步根據(jù)字符錯誤率,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。在字符錯誤率不在預(yù)設(shè)數(shù)據(jù)范圍的情況下,表明轉(zhuǎn)換效果過差,因此在p條方言語音數(shù)據(jù)中刪除不在預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù),有效減少方言語音數(shù)據(jù)的數(shù)量。
[0113]
在一種具體的實施方式中,p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果對應(yīng)的計算公式如下所示:
[0114][0115]
其中,score
asr,ij
表征目標(biāo)說話人y的第i個標(biāo)準(zhǔn)語音數(shù)據(jù),將源方言說話人x的第j條方言語音數(shù)據(jù)進行語音轉(zhuǎn)換的語音識別對比結(jié)果,yi表征目標(biāo)說話人y的第i個標(biāo)準(zhǔn)語音數(shù)據(jù);表征源方言說話人x的第j條方言語音數(shù)據(jù)與目標(biāo)說話人y的第i個標(biāo)準(zhǔn)語音數(shù)據(jù)轉(zhuǎn)換后得到的第二轉(zhuǎn)換數(shù)據(jù)。通過score
asr,ij
可以體現(xiàn)語音轉(zhuǎn)換后的第二轉(zhuǎn)換數(shù)據(jù)是否保留原有的方言語音數(shù)據(jù)的語言信息,篩選掉語音轉(zhuǎn)換模型常出現(xiàn)的發(fā)音不清的情況,在本實施例中將預(yù)設(shè)數(shù)值范圍設(shè)置為小于1,將cer存在大于等于1的情況,此時表明轉(zhuǎn)換效果過差,排除cer大于1的源方言說話人的方言語音數(shù)據(jù)。
[0116]
在本技術(shù)一實施例中,在第二信息對比結(jié)果包括p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果的情況下,在步驟104前,所述方法還包括:基于p條方言語音數(shù)據(jù)的第三基頻分段長度和第二轉(zhuǎn)換數(shù)據(jù)的第四基頻分段長度,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)間基頻對比結(jié)果。基于p條方言語音數(shù)據(jù)的第一共振峰信息和第二轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)間共振峰對比結(jié)果。基于p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)間的基頻對比結(jié)果和共振峰對比結(jié)果,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)間的音頻信息對比結(jié)果。
[0117]
其中,第三基頻分段長度是指將p條方言語音數(shù)據(jù)的音頻信息中基頻進行分段處理獲取的長度結(jié)果,第四基頻分段長度是指將第二轉(zhuǎn)換數(shù)據(jù)的音頻信息中基頻進行分段處理獲取的長度結(jié)果,將第三基頻分段長度和第四基頻分段長度進行對比,確定p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)間基頻對比結(jié)果。音頻信息中不僅包括基頻信息,還包括第一共振峰信息,因此將p條方言語音數(shù)據(jù)的音頻信息的第一共振峰信息和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息的第一共振峰信息進行對比,確定共振峰對比結(jié)果。根據(jù)基頻對比結(jié)果和共振峰對比結(jié)果對第二轉(zhuǎn)換數(shù)據(jù)進行評價,獲取音頻信息對比結(jié)果,該音頻信息對比結(jié)果可以為對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0118]
舉例來說,p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果的計算公式如下所示:
[0119]
[0120]
其中,表征通過dio算法獲得的l條基頻分段的第k個分段的長度,對應(yīng)第三基頻分段長度;表征xi通過dio算法獲得的l條基頻分段的第k個分段的長度,對應(yīng)第四基頻分段長度;左式中與間的關(guān)系對應(yīng)p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果;表征分幀后存在有相鄰點的第一共振峰的第m個頻率的左導(dǎo)數(shù);表征分幀后存在有相鄰點的第一共振峰的第m個頻率的右導(dǎo)數(shù)。
[0121]
通過上述計算公式(5)可以準(zhǔn)確地獲取到p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果,有利于在第二轉(zhuǎn)換數(shù)據(jù)中準(zhǔn)確地篩選出第三轉(zhuǎn)換數(shù)據(jù)。
[0122]
在本技術(shù)一個實施例中,所述步驟104前,所述方法還包括:對所述第二轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第三預(yù)測結(jié)果。對所述第二轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第四預(yù)測結(jié)果。基于所述第三預(yù)測結(jié)果、所述第四預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二判定結(jié)果。
[0123]
在本實施例中不僅通過第三預(yù)測結(jié)果確定第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果,進一步對第二轉(zhuǎn)換數(shù)據(jù)進行說話人識別,確定出第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)的目標(biāo)說話人的第四預(yù)測結(jié)果,從而利用第三預(yù)測結(jié)果和第四預(yù)測結(jié)果雙重驗證方式確定第二轉(zhuǎn)換數(shù)據(jù)是否對應(yīng)目標(biāo)說話人,進而保證確定出的第二判定結(jié)果的準(zhǔn)確性。
[0124]
在一種具體的實施方式中,預(yù)先訓(xùn)練語音轉(zhuǎn)換模塊,基于所述語音轉(zhuǎn)換模型的分類器,獲取所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第三預(yù)測結(jié)果。將p方言語音數(shù)據(jù)輸入到語音轉(zhuǎn)換模型中,不僅可以得到第二轉(zhuǎn)換數(shù)據(jù),語音轉(zhuǎn)換模型的分類器還可以輸出第三預(yù)測結(jié)果。
[0125]
在一種具體的實施方式中,預(yù)先訓(xùn)練說話人識別模型,基于說話人識別模型,獲取所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第四預(yù)測結(jié)果,將第二轉(zhuǎn)換數(shù)據(jù)輸入到說話人識別模型中,說話人識別模型輸出第四預(yù)測結(jié)果。
[0126]
進一步地,所述基于第三預(yù)測結(jié)果、第四預(yù)測結(jié)果和目標(biāo)說話人對應(yīng)的真實結(jié)果,確定第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二判定結(jié)果,包括:確定第三預(yù)測結(jié)果與目標(biāo)說話人對應(yīng)的真實結(jié)果間的第三交叉熵。確定第三預(yù)測結(jié)果與目標(biāo)說話人對應(yīng)的真實結(jié)果間的第四交叉熵。基于第三交叉熵和第四交叉熵,確定第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二判定結(jié)果。
[0127]
舉例來說,第二判定結(jié)果的計算公式如下所示:
[0128][0129]
通過上述第二判定結(jié)果的計算公式,可以準(zhǔn)確地確定出第二判定結(jié)果,該第二判定結(jié)果可以為對第二轉(zhuǎn)換數(shù)據(jù)的轉(zhuǎn)換效果進行客觀量化評價的指標(biāo)。
[0130]
在一種具體的實現(xiàn)方式中,在基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果對所述第二轉(zhuǎn)
換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù)時,可以根據(jù)如下計算公式確定第二處理結(jié)果:
[0131][0132]
其中,表征根據(jù)目標(biāo)說話人y的第i個標(biāo)準(zhǔn)語音數(shù)據(jù),將源方言說話人x的第j條方言語音數(shù)據(jù)進行語音轉(zhuǎn)換后的評價結(jié)果,對應(yīng)第二處理結(jié)果,score
asr,ij
表征p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,score
speaker,ij
表征基于語音轉(zhuǎn)換模塊和說話人識別模型得到的第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果。
[0133]
具體地:
[0134][0135][0136]
通過上述第二處理結(jié)果的計算公式,可以準(zhǔn)確的確定出第二處理結(jié)果,進而可以保證根據(jù)第二處理篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù)。
[0137]
進一步地,第二處理結(jié)果的計算公式可以如下所示:
[0138][0139]
其中,scoref表征p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。
[0140]
具體地:
[0141][0142][0143][0144]
通過上述第二處理結(jié)果的計算公式,對p條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果進行考慮,可以確定出更為準(zhǔn)確的第二處理結(jié)果,進而可以保證根據(jù)第二處理篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù)。
[0145]
本技術(shù)實施例提供的語音數(shù)據(jù)篩選方法,執(zhí)行主體可以為語音數(shù)據(jù)篩選裝置。本技術(shù)實施例中以語音數(shù)據(jù)篩選裝置執(zhí)行語音數(shù)據(jù)篩選方法為例,說明本技術(shù)實施例提供的語音數(shù)據(jù)篩選裝置。
[0146]
圖5示出了本技術(shù)另一個實施例的語音數(shù)據(jù)篩選裝置的框圖,該裝置包括:
[0147]
第一轉(zhuǎn)換處理模塊51,用于基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)
語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);
[0148]
第一篩選處理模塊52,用于基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);
[0149]
第二轉(zhuǎn)換處理模塊53,用于基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);
[0150]
第二篩選處理模塊54,用于基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù)。
[0151]
其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
[0152]
可選地,所述裝置還包括:語音結(jié)果確定模塊;
[0153]
所述語音結(jié)果確定模塊,包括:
[0154]
第一識別處理單元,用于確定所述t條方言語音數(shù)據(jù)的第一語音識別結(jié)果;
[0155]
第二識別處理單元,用于確定所述第一轉(zhuǎn)換數(shù)據(jù)的第二語音識別結(jié)果;
[0156]
語音結(jié)果確定單元,用于基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
[0157]
可選地,所述語音結(jié)果確定單元,包括:
[0158]
第一確定子單元,用于確定所述第一語音識別結(jié)果和所述第二語音識別結(jié)果間的字符錯誤率;
[0159]
第二確定子單元,用于在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)所述字符錯誤率,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果;
[0160]
第三確定子單元,用于在所述字符錯誤率不在所述預(yù)設(shè)數(shù)值范圍的情況下,在所述t條方言語音數(shù)據(jù)中刪除不在所述預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。
[0161]
可選地,所述裝置還包括:音頻結(jié)果確定模塊;
[0162]
所述音頻結(jié)果確定模塊,包括:
[0163]
第一對比處理單元,用于基于所述t條方言語音數(shù)據(jù)的第一基頻分段長度和所述第一轉(zhuǎn)換數(shù)據(jù)的第二基頻分段長度,確定基頻對比結(jié)果;
[0164]
第二對比處理單元,用于基于所述t條方言語音數(shù)據(jù)的第一共振峰信息和所述第一轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定共振峰對比結(jié)果;
[0165]
音頻結(jié)果確定單元,用于基于所述基頻對比結(jié)果和所述共振峰對比結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。
[0166]
可選地,所述裝置還包括:判定結(jié)果確定模塊;
[0167]
所述判定結(jié)果確定模塊包括:
[0168]
第一預(yù)測處理單元,用于對所述第一轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一預(yù)測結(jié)果;
[0169]
第二預(yù)測處理單元,用于對所述第一轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二預(yù)測結(jié)果;
[0170]
判定結(jié)果確定單元,用于基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0171]
可選地,所述判定結(jié)果確定單元,包括:
[0172]
第四確定子單元,用于確定所述第一預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第一交叉熵;
[0173]
第五確定子單元,用于確定所述第二預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第二交叉熵;
[0174]
第六確定子單元,用于基于所述第一交叉熵和所述第二交叉熵,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0175]
在本技術(shù)的實施例中,通過將少量方言語音數(shù)據(jù)與大量的標(biāo)準(zhǔn)語音數(shù)據(jù)進行風(fēng)格遷移,即可以獲取到大量的使用方言的轉(zhuǎn)換數(shù)據(jù),并通過客觀量化的評價指標(biāo),對轉(zhuǎn)換數(shù)據(jù)進行自動挑選,篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù),第三轉(zhuǎn)換數(shù)據(jù)的數(shù)據(jù)質(zhì)量較高,同時通過自動篩選可以極大減少后續(xù)人工篩選轉(zhuǎn)換數(shù)據(jù)的工作量,節(jié)約人力成本。
[0176]
本技術(shù)實施例中的語音數(shù)據(jù)篩選裝置可以是電子設(shè)備,也可以是電子設(shè)備中的部件,例如集成電路或芯片。該電子設(shè)備可以是終端,也可以為除終端之外的其他設(shè)備。示例性的,電子設(shè)備可以為手機、平板電腦、筆記本電腦、掌上電腦、車載電子設(shè)備、移動上網(wǎng)裝置(mobile internet device,mid)、增強現(xiàn)實(augmented reality,ar)/虛擬現(xiàn)實(virtual reality,vr)設(shè)備、機器人、可穿戴設(shè)備、超級移動個人計算機(ultra-mobile personal computer,umpc)、上網(wǎng)本或者個人數(shù)字助理(personal digital assistant,pda)等,還可以為服務(wù)器、網(wǎng)絡(luò)附屬存儲器(network attached storage,nas)、個人計算機(personal computer,pc)、電視機(television,tv)、柜員機或者自助機等,本技術(shù)實施例不作具體限定。
[0177]
本技術(shù)實施例的語音數(shù)據(jù)篩選裝置可以為具有動作系統(tǒng)的裝置。該動作系統(tǒng)可以為安卓(android)動作系統(tǒng),可以為ios動作系統(tǒng),還可以為其他可能的動作系統(tǒng),本技術(shù)實施例不作具體限定。
[0178]
本技術(shù)實施例提供的語音數(shù)據(jù)篩選裝置能夠?qū)崿F(xiàn)上述方法實施例實現(xiàn)的各個過程,為避免重復(fù),這里不再贅述。
[0179]
可選地,如圖6所示,本技術(shù)實施例還提供一種電子設(shè)備60,包括處理器61,存儲器62,存儲在存儲器62上并可在所述處理器61上運行的程序或指令,該程序或指令被處理器61執(zhí)行時實現(xiàn)上述任一語音數(shù)據(jù)篩選方法實施例的各個步驟,且能達到相同的技術(shù)效果,為避免重復(fù),這里不再贅述。
[0180]
需要說明的是,本技術(shù)實施例的電子設(shè)備包括上述所述的移動電子設(shè)備和非移動電子設(shè)備。
[0181]
圖7為實現(xiàn)本技術(shù)實施例的一種電子設(shè)備的硬件結(jié)構(gòu)示意圖。
[0182]
該電子設(shè)備700包括但不限于:射頻單元701、網(wǎng)絡(luò)模塊702、音頻輸出單元703、輸入單元704、傳感器705、顯示單元706、用戶輸入單元707、接口單元708、存儲器709、以及處理器710等部件。
[0183]
本領(lǐng)域技術(shù)人員可以理解,電子設(shè)備700還可以包括給各個部件供電的電源(比如電池),電源可以通過電源管理系統(tǒng)與處理器710邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。圖7中示出的電子設(shè)備結(jié)構(gòu)并不構(gòu)成對電子設(shè)備的限定,電子設(shè)備可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置,在此不再贅述。
[0184]
其中,處理器710,用于基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。
[0185]
在本技術(shù)的實施例中,通過將少量方言語音數(shù)據(jù)與大量的標(biāo)準(zhǔn)語音數(shù)據(jù)進行風(fēng)格遷移,即可以獲取到大量的使用方言的轉(zhuǎn)換數(shù)據(jù),并通過客觀量化的評價指標(biāo),對轉(zhuǎn)換數(shù)據(jù)進行自動挑選,篩選出轉(zhuǎn)換效果較好的第三轉(zhuǎn)換數(shù)據(jù),第三轉(zhuǎn)換數(shù)據(jù)的數(shù)據(jù)質(zhì)量較高,同時通過自動篩選可以極大減少后續(xù)人工篩選轉(zhuǎn)換數(shù)據(jù)的工作量,節(jié)約人力成本。
[0186]
可選地,處理器710,還用于確定所述t條方言語音數(shù)據(jù)的第一語音識別結(jié)果;確定所述第一轉(zhuǎn)換數(shù)據(jù)的第二語音識別結(jié)果;基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。
[0187]
可選地,處理器710,還用于確定所述第一語音識別結(jié)果和所述第二語音識別結(jié)果間的字符錯誤率;在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)所述字符錯誤率,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果;在所述字符錯誤率不在所述預(yù)設(shè)數(shù)值范圍的情況下,在所述t條方言語音數(shù)據(jù)中刪除不在所述預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。
[0188]
可選地,處理器710,還用于基于所述t條方言語音數(shù)據(jù)的第一基頻分段長度和所述第一轉(zhuǎn)換數(shù)據(jù)的第二基頻分段長度,確定基頻對比結(jié)果;基于所述t條方言語音數(shù)據(jù)的第一共振峰信息和所述第一轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定共振峰對比結(jié)果;基于所述基頻對比結(jié)果和所述共振峰對比結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。
[0189]
可選地,處理器710,還用于對所述第一轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一預(yù)測結(jié)果;對所述第一轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二預(yù)測結(jié)果;基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0190]
可選地,處理器710,還用于確定所述第一預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第一交叉熵;確定所述第二預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第二
交叉熵;基于所述第一交叉熵和所述第二交叉熵,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。
[0191]
應(yīng)理解的是,本技術(shù)實施例中,輸入單元704可以包括圖形處理器(graphics processing unit,gpu)7041和麥克風(fēng)7042,圖形處理器7041對在視頻圖像捕獲模式或圖像捕獲模式中由圖像捕獲裝置(如攝像頭)獲得的靜態(tài)圖片或視頻圖像的圖像數(shù)據(jù)進行處理。顯示單元706可包括顯示面板7061,可以采用液晶顯示器、有機發(fā)光二極管等形式來配置顯示面板7061。用戶輸入單元707包括觸控面板7071以及其他輸入設(shè)備7072中的至少一種。觸控面板7071,也稱為觸摸屏。觸控面板7071可包括觸摸檢測裝置和觸摸控制器兩個部分。其他輸入設(shè)備7072可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、動作桿,在此不再贅述。存儲器709可用于存儲軟件程序以及各種數(shù)據(jù),包括但不限于應(yīng)用程序和動作系統(tǒng)。處理器710可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理動作系統(tǒng)、用戶頁面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器710中。
[0192]
存儲器709可用于存儲軟件程序以及各種數(shù)據(jù)。存儲器709可主要包括存儲程序或指令的第一存儲區(qū)和存儲數(shù)據(jù)的第二存儲區(qū),其中,第一存儲區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序或指令(比如聲音播放功能、圖像播放功能等)等。此外,存儲器709可以包括易失性存儲器或非易失性存儲器,或者,存儲器x09可以包括易失性和非易失性存儲器兩者。其中,非易失性存儲器可以是只讀存儲器(read-only memory,rom)、可編程只讀存儲器(programmable rom,prom)、可擦除可編程只讀存儲器(erasable prom,eprom)、電可擦除可編程只讀存儲器(electrically eprom,eeprom)或閃存。易失性存儲器可以是隨機存取存儲器(random access memory,ram),靜態(tài)隨機存取存儲器(static ram,sram)、動態(tài)隨機存取存儲器(dynamic ram,dram)、同步動態(tài)隨機存取存儲器(synchronous dram,sdram)、雙倍數(shù)據(jù)速率同步動態(tài)隨機存取存儲器(double data rate sdram,ddrsdram)、增強型同步動態(tài)隨機存取存儲器(enhanced sdram,esdram)、同步連接動態(tài)隨機存取存儲器(synch link dram,sldram)和直接內(nèi)存總線隨機存取存儲器(direct rambus ram,drram)。本技術(shù)實施例中的存儲器709包括但不限于這些和任意其它適合類型的存儲器。
[0193]
處理器710可包括一個或多個處理單元;可選的,處理器710集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理涉及操作系統(tǒng)、用戶界面和應(yīng)用程序等的操作,調(diào)制解調(diào)處理器主要處理無線通信信號,如基帶處理器。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器710中。
[0194]
本技術(shù)實施例還提供一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲有程序或指令,該程序或指令被處理器執(zhí)行時實現(xiàn)上述語音數(shù)據(jù)篩選方法實施例的各個過程,且能達到相同的技術(shù)效果,為避免重復(fù),這里不再贅述。
[0195]
其中,所述處理器為上述實施例中所述的電子設(shè)備中的處理器。所述可讀存儲介質(zhì),包括計算機可讀存儲介質(zhì),如計算機只讀存儲器rom、隨機存取存儲器ram、磁碟或者光盤等。
[0196]
本技術(shù)實施例另提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運行程序或指令,實現(xiàn)上述語音數(shù)據(jù)篩選方法實施例的各個過程,且能達到相同的技術(shù)效果,為避免重復(fù),這里不再贅述。
[0197]
應(yīng)理解,本技術(shù)實施例提到的芯片還可以稱為系統(tǒng)級芯片、系統(tǒng)芯片、芯片系統(tǒng)或片上系統(tǒng)芯片等。
[0198]
本技術(shù)實施例提供一種計算機程序產(chǎn)品,該程序產(chǎn)品被存儲在存儲介質(zhì)中,該程序產(chǎn)品被至少一個處理器執(zhí)行以實現(xiàn)如上述語音數(shù)據(jù)篩選方法實施例的各個過程,且能達到相同的技術(shù)效果,為避免重復(fù),這里不再贅述。
[0199]
需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個
……”
限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。此外,需要指出的是,本技術(shù)實施方式中的方法和裝置的范圍不限按示出或討論的順序來執(zhí)行功能,還可包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序來執(zhí)行功能,例如,可以按不同于所描述的次序來執(zhí)行所描述的方法,并且還可以添加、省去、或組合各種步驟。另外,參照某些示例所描述的特征可在其他示例中被組合。
[0200]
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本技術(shù)的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以計算機軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端(可以是手機,計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本技術(shù)各個實施例所述的方法。
[0201]
上面結(jié)合附圖對本技術(shù)的實施例進行了描述,但是本技術(shù)并不局限于上述的具體實施方式,上述的具體實施方式僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本技術(shù)的啟示下,在不脫離本技術(shù)宗旨和權(quán)利要求所保護的范圍情況下,還可做出很多形式,均屬于本技術(shù)的保護之內(nèi)。
技術(shù)特征:
1.一種語音數(shù)據(jù)篩選方法,其特征在于,所述方法包括:基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述第一信息對比結(jié)果包括語音識別對比結(jié)果的情況下,在所述基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理之前,所述方法還包括:確定所述t條方言語音數(shù)據(jù)的第一語音識別結(jié)果;確定所述第一轉(zhuǎn)換數(shù)據(jù)的第二語音識別結(jié)果;基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果,包括:確定所述第一語音識別結(jié)果和所述第二語音識別結(jié)果間的字符錯誤率;在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)所述字符錯誤率,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果;在所述字符錯誤率不在所述預(yù)設(shè)數(shù)值范圍的情況下,在所述t條方言語音數(shù)據(jù)中刪除不在所述預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述第一信息對比結(jié)果包括音頻信息對比結(jié)果的情況下,在所述基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理之前,所述方法還包括:基于所述t條方言語音數(shù)據(jù)的第一基頻分段長度和所述第一轉(zhuǎn)換數(shù)據(jù)的第二基頻分段長度,確定基頻對比結(jié)果;基于所述t條方言語音數(shù)據(jù)的第一共振峰信息和所述第一轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定共振峰對比結(jié)果;基于所述基頻對比結(jié)果和所述共振峰對比結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理之前,所述方法還包括:對所述第一轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一預(yù)測結(jié)果;對所述第一轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二預(yù)測結(jié)果;基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果,包括:確定所述第一預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第一交叉熵;確定所述第二預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第二交叉熵;基于所述第一交叉熵和所述第二交叉熵,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。7.一種語音數(shù)據(jù)篩選裝置,其特征在于,所述裝置包括:第一轉(zhuǎn)換處理模塊,用于基于t條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù),t為大于零的整數(shù);第一篩選處理模塊,用于基于所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第一判定結(jié)果中的至少一項對所述第一轉(zhuǎn)換數(shù)據(jù)進行處理,基于第一處理結(jié)果從所述t條方言語音數(shù)據(jù)中確定出目標(biāo)方言語音數(shù)據(jù);第二轉(zhuǎn)換處理模塊,用于基于所述目標(biāo)方言語音數(shù)據(jù)對應(yīng)的p條方言語音數(shù)據(jù)和所述目標(biāo)說話人對應(yīng)的k條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù),p大于t,k為大于零的整數(shù);第二篩選處理模塊,用于基于所述p條方言語音數(shù)據(jù)和所述第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、所述第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)所述目標(biāo)說話人的第二判定結(jié)果中的至少一項對所述第二轉(zhuǎn)換數(shù)據(jù)進行處理,基于第二處理結(jié)果從所述第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);其中,所述第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:語音結(jié)果確定模塊;所述語音結(jié)果確定模塊,包括:第一識別處理單元,用于確定所述t條方言語音數(shù)據(jù)的第一語音識別結(jié)果;第二識別處理單元,用于確定所述第一轉(zhuǎn)換數(shù)據(jù)的第二語音識別結(jié)果;語音結(jié)果確定單元,用于基于所述第一語音識別結(jié)果和所述第二語音識別結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述語音結(jié)果確定單元,包括:第一確定子單元,用于確定所述第一語音識別結(jié)果和所述第二語音識別結(jié)果間的字符錯誤率;
第二確定子單元,用于在所述字符錯誤率在預(yù)設(shè)數(shù)值范圍的情況下,根據(jù)所述字符錯誤率,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的語音識別對比結(jié)果;第三確定子單元,用于在所述字符錯誤率不在所述預(yù)設(shè)數(shù)值范圍的情況下,在所述t條方言語音數(shù)據(jù)中刪除不在所述預(yù)設(shè)數(shù)值范圍的字符錯誤率對應(yīng)的方言語音數(shù)據(jù)。10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:音頻結(jié)果確定模塊;所述音頻結(jié)果確定模塊,包括:第一對比處理單元,用于基于所述t條方言語音數(shù)據(jù)的第一基頻分段長度和所述第一轉(zhuǎn)換數(shù)據(jù)的第二基頻分段長度,確定基頻對比結(jié)果;第二對比處理單元,用于基于所述t條方言語音數(shù)據(jù)的第一共振峰信息和所述第一轉(zhuǎn)換數(shù)據(jù)的第一共振峰信息,確定共振峰對比結(jié)果;音頻結(jié)果確定單元,用于基于所述基頻對比結(jié)果和所述共振峰對比結(jié)果,確定所述t條方言語音數(shù)據(jù)和所述第一轉(zhuǎn)換數(shù)據(jù)的音頻信息對比結(jié)果。11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:判定結(jié)果確定模塊;所述判定結(jié)果確定模塊包括:第一預(yù)測處理單元,用于對所述第一轉(zhuǎn)換數(shù)據(jù)的頻譜進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一預(yù)測結(jié)果;第二預(yù)測處理單元,用于對所述第一轉(zhuǎn)換數(shù)據(jù)的說話人進行識別,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二預(yù)測結(jié)果;判定結(jié)果確定單元,用于基于所述第一預(yù)測結(jié)果、所述第二預(yù)測結(jié)果和所述目標(biāo)說話人對應(yīng)的真實結(jié)果,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述判定結(jié)果確定單元,包括:第四確定子單元,用于確定所述第一預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第一交叉熵;第五確定子單元,用于確定所述第二預(yù)測結(jié)果與所述目標(biāo)說話人對應(yīng)的真實結(jié)果間的第二交叉熵;第六確定子單元,用于基于所述第一交叉熵和所述第二交叉熵,確定所述第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果。13.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~6任一項所述的語音數(shù)據(jù)篩選方法的步驟。14.一種可讀存儲介質(zhì),其特征在于,所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~6任一項所述的語音數(shù)據(jù)篩選方法的步驟。
技術(shù)總結(jié)
本申請公開了語音數(shù)據(jù)篩選方法、裝置、電子設(shè)備和可讀存儲介質(zhì),其中,方法包括:基于T條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的選取標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第一轉(zhuǎn)換數(shù)據(jù);基于T條方言語音數(shù)據(jù)和第一轉(zhuǎn)換數(shù)據(jù)的第一信息對比結(jié)果、第一轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第一判定結(jié)果中的至少一項,確定出目標(biāo)方言語音數(shù)據(jù);基于目標(biāo)方言語音數(shù)據(jù)對應(yīng)的P條方言語音數(shù)據(jù)和目標(biāo)說話人對應(yīng)的K條標(biāo)準(zhǔn)語音數(shù)據(jù),獲取第二轉(zhuǎn)換數(shù)據(jù);基于P條方言語音數(shù)據(jù)和第二轉(zhuǎn)換數(shù)據(jù)的第二信息對比結(jié)果、第二轉(zhuǎn)換數(shù)據(jù)對應(yīng)目標(biāo)說話人的第二判定結(jié)果中的至少一項,從第二轉(zhuǎn)換數(shù)據(jù)中篩選出第三轉(zhuǎn)換數(shù)據(jù);第一信息對比結(jié)果包括語音識別對比結(jié)果和音頻信息對比結(jié)果中的至少一項。少一項。少一項。
