本文作者:kaifamei

一種語音識(shí)別模型的訓(xùn)練、語音識(shí)別方法及裝置

更新時(shí)間:2025-12-25 22:20:18 0條評(píng)論

一種語音識(shí)別模型的訓(xùn)練、語音識(shí)別方法及裝置



1.本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,具體涉及一種語音識(shí)別模型的訓(xùn)練、語音識(shí)別方法及裝置。


背景技術(shù):

2.語音識(shí)別是當(dāng)前人工智能研究的熱點(diǎn),其涉及的場景包括智能家居,智能問答以及智能客服等領(lǐng)域。隨著人們對(duì)便捷生活訴求的增加,語音識(shí)別技術(shù)正不斷地發(fā)展和完善。
3.目前,現(xiàn)有的智能語音識(shí)別模型基本以標(biāo)準(zhǔn)普通話為訓(xùn)練樣本,針對(duì)存在口音的普通話存在識(shí)別準(zhǔn)確率較低的情況,同時(shí),識(shí)別的同時(shí),忽略了用戶原本的情感狀態(tài),容易造成所表達(dá)意思的偏頗,用戶的體驗(yàn)感較差。


技術(shù)實(shí)現(xiàn)要素:

4.為解決上述問題,本發(fā)明提供了一種語音識(shí)別模型的訓(xùn)練、語音識(shí)別方法及裝置,可以顯著提高帶口音的普通話的識(shí)別準(zhǔn)確率,同時(shí)引入情感描述特征,可以盡可能的避免表達(dá)意思出現(xiàn)偏頗的情況。
5.為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
6.一種語音識(shí)別模型的訓(xùn)練方法,包括如下步驟:
7.s1、構(gòu)建包括基礎(chǔ)情感詞詞組、程度詞詞組、否定和雙否定詞詞組、轉(zhuǎn)折詞詞組的情感詞詞典;
8.s2、基于情感詞詞典和標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)訓(xùn)練構(gòu)建以普通話文本+情感描述為輸出項(xiàng)的語音識(shí)別模型。
9.進(jìn)一步地,基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào)的步驟。
10.進(jìn)一步地,基于預(yù)設(shè)的模板實(shí)現(xiàn)用戶音頻數(shù)據(jù)的采集,基于用戶音頻數(shù)據(jù)的分析獲取用戶口音特征,然后構(gòu)建用戶口音特征與標(biāo)準(zhǔn)普通話之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系構(gòu)建語音校正模型,基于語音校正模型與所述語音識(shí)別模型的串聯(lián)生成新的語音識(shí)別模型。
11.進(jìn)一步地,所述步驟s1中,首先基于爬蟲模塊在預(yù)設(shè)的網(wǎng)絡(luò)上定向采集大規(guī)模文本信息,然后利用詞向量擴(kuò)充情感詞詞典的方法對(duì)定向采集到的大規(guī)模文本進(jìn)行處理,然后從中自動(dòng)抽取情感詞、程度詞、否定和雙否定詞、轉(zhuǎn)折詞,用人工和機(jī)器學(xué)習(xí)相結(jié)合的方式構(gòu)建情感詞詞典。
12.進(jìn)一步地,所述步驟s2中,首先基于情感詞詞典對(duì)標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,生成標(biāo)注語料,然后以標(biāo)注語料及其對(duì)應(yīng)的普通話文本+情感描述為訓(xùn)練數(shù)據(jù)訓(xùn)練構(gòu)建語音識(shí)別模型。
13.本發(fā)明還提供了一種語音識(shí)別方法,采用上述的訓(xùn)練方法訓(xùn)練所得的語音識(shí)別模型實(shí)現(xiàn)語音的識(shí)別,包括如下步驟:
14.s1、基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào),生成新的語音識(shí)別模型;
15.s2、基于所述新的語音識(shí)別模型實(shí)現(xiàn)用戶語音的識(shí)別,將其轉(zhuǎn)換成普通話文本+情感描述的格式。
16.本實(shí)施例中還提供了一種語音識(shí)別裝置,采用上述的語音識(shí)別方法實(shí)現(xiàn)用戶語音的識(shí)別。
17.本發(fā)明具有以下有益效果:
18.可以顯著提高帶口音的普通話的識(shí)別準(zhǔn)確率,從而得到個(gè)性化的語音識(shí)別模型,識(shí)別準(zhǔn)確率達(dá)97.6%左右。
19.引入情感描述特征,可以盡可能的避免表達(dá)意思出現(xiàn)偏頗的情況,從而大大提高用戶體驗(yàn)感。
附圖說明
20.圖1為本發(fā)明實(shí)施例1一種語音識(shí)別模型的訓(xùn)練方法的流程圖。
21.圖2為本發(fā)明實(shí)施例2一種語音識(shí)別方法的流程圖。
具體實(shí)施方式
22.下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
23.實(shí)施例1
24.如圖1所示,一種語音識(shí)別模型的訓(xùn)練方法,包括如下步驟:
25.s1、構(gòu)建包括基礎(chǔ)情感詞詞組、程度詞詞組、否定和雙否定詞詞組、轉(zhuǎn)折詞詞組的情感詞詞典;具體地,首先基于爬蟲模塊在預(yù)設(shè)的網(wǎng)絡(luò)上定向采集大規(guī)模文本信息,然后利用詞向量擴(kuò)充情感詞詞典的方法對(duì)定向采集到的大規(guī)模文本進(jìn)行處理,然后從中自動(dòng)抽取情感詞、程度詞、否定和雙否定詞、轉(zhuǎn)折詞,用人工和機(jī)器學(xué)習(xí)相結(jié)合的方式構(gòu)建情感詞詞典;
26.s2、基于情感詞詞典和標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)訓(xùn)練構(gòu)建以普通話文本+情感描述為輸出項(xiàng)的語音識(shí)別模型;具體地,首先基于情感詞詞典對(duì)標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,生成標(biāo)注語料,然后以標(biāo)注語料及其對(duì)應(yīng)的普通話文本+情感描述為訓(xùn)練數(shù)據(jù)訓(xùn)練構(gòu)建語音識(shí)別模型;
27.s3、基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào);具體地,基于預(yù)設(shè)的模板實(shí)現(xiàn)用戶音頻數(shù)據(jù)的采集,基于用戶音頻數(shù)據(jù)的分析獲取用戶口音特征,然后構(gòu)建用戶口音特征與標(biāo)準(zhǔn)普通話之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系構(gòu)建語音校正模型,基于語音校正模型與所述語音識(shí)別模型的串聯(lián)生成新的語音識(shí)別模型。
28.實(shí)施例2
29.如圖2所示,一種語音識(shí)別方法,采用實(shí)施例1所述的訓(xùn)練方法訓(xùn)練所得的語音識(shí)
別模型實(shí)現(xiàn)語音的識(shí)別,包括如下步驟:
30.s1、基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào),生成新的語音識(shí)別模型;具體地,系統(tǒng)初始化時(shí),用戶需要根據(jù)預(yù)設(shè)的模板完成對(duì)應(yīng)音頻數(shù)據(jù)的錄制,一般的預(yù)設(shè)的模板內(nèi)需包括至少20條常用詞語條目和20條易攜帶口音文本條目,錄制完成后,調(diào)用預(yù)設(shè)的數(shù)據(jù)分析程序獲取用戶口音特征,并構(gòu)建用戶口音特征與標(biāo)準(zhǔn)普通話之間的關(guān)聯(lián)關(guān)系,最后基于該關(guān)聯(lián)關(guān)系構(gòu)建語音校正模型,基于語音校正模型與所述語音識(shí)別模型的串聯(lián)生成新的語音識(shí)別模型;
31.s2、基于所述新的語音識(shí)別模型實(shí)現(xiàn)用戶語音的識(shí)別,將其轉(zhuǎn)換成普通話文本+情感描述的格式。
32.實(shí)施例3
33.一種語音識(shí)別裝置,包括裝置本體以及內(nèi)載于裝置本體內(nèi)的語音識(shí)別系統(tǒng),該語音識(shí)別系統(tǒng)基于實(shí)施例2所述的語音識(shí)別方法實(shí)現(xiàn)用戶語音的識(shí)別。
34.以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。在不沖突的情況下,本申請(qǐng)的實(shí)施例和實(shí)施例中的特征可以任意相互組合。


技術(shù)特征:
1.一種語音識(shí)別模型的訓(xùn)練方法,其特征在于:包括如下步驟:s1、構(gòu)建包括基礎(chǔ)情感詞詞組、程度詞詞組、否定和雙否定詞詞組、轉(zhuǎn)折詞詞組的情感詞詞典;s2、基于情感詞詞典和標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)訓(xùn)練構(gòu)建以普通話文本+情感描述為輸出項(xiàng)的語音識(shí)別模型。2.如權(quán)利要求1所述的一種語音識(shí)別模型的訓(xùn)練方法,其特征在于:還包括:基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào)的步驟。3.如權(quán)利要求2所述的一種語音識(shí)別模型的訓(xùn)練方法,其特征在于:基于預(yù)設(shè)的模板實(shí)現(xiàn)用戶音頻數(shù)據(jù)的采集,基于用戶音頻數(shù)據(jù)的分析獲取用戶口音特征,然后構(gòu)建用戶口音特征與標(biāo)準(zhǔn)普通話之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系構(gòu)建語音校正模型,基于語音校正模型與所述語音識(shí)別模型的串聯(lián)生成新的語音識(shí)別模型。4.如權(quán)利要求1所述的一種語音識(shí)別模型的訓(xùn)練方法,其特征在于:所述步驟s1中,首先基于爬蟲模塊在預(yù)設(shè)的網(wǎng)絡(luò)上定向采集大規(guī)模文本信息,然后利用詞向量擴(kuò)充情感詞詞典的方法對(duì)定向采集到的大規(guī)模文本進(jìn)行處理,然后從中自動(dòng)抽取情感詞、程度詞、否定和雙否定詞、轉(zhuǎn)折詞,用人工和機(jī)器學(xué)習(xí)相結(jié)合的方式構(gòu)建情感詞詞典。5.如權(quán)利要求1所述的一種語音識(shí)別模型的訓(xùn)練方法,其特征在于:還包括:所述步驟s2中,首先基于情感詞詞典對(duì)標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,生成標(biāo)注語料,然后以標(biāo)注語料及其對(duì)應(yīng)的普通話文本+情感描述為訓(xùn)練數(shù)據(jù)訓(xùn)練構(gòu)建語音識(shí)別模型。6.一種語音識(shí)別方法,其特征在于:采用如權(quán)利要求1-5任一項(xiàng)所述的訓(xùn)練方法訓(xùn)練所得的語音識(shí)別模型實(shí)現(xiàn)語音的識(shí)別。7.如權(quán)利要求6所述的一種語音識(shí)別方法,其特征在于:包括如下步驟:s1、基于預(yù)設(shè)的模板完成用戶口音特征的識(shí)別,然后根據(jù)用戶口音特征實(shí)現(xiàn)所述的語音識(shí)別模型微調(diào),生成新的語音識(shí)別模型;s2、基于所述新的語音識(shí)別模型實(shí)現(xiàn)用戶語音的識(shí)別,將其轉(zhuǎn)換成普通話文本+情感描述的格式。8.一種語音識(shí)別裝置,其特征在于:采用如權(quán)利要求6-7任一項(xiàng)所述的語音識(shí)別方法實(shí)現(xiàn)用戶語音的識(shí)別。

技術(shù)總結(jié)
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,具體涉及一種語音識(shí)別模型的訓(xùn)練、語音識(shí)別方法及裝置,該訓(xùn)練方法,包括如下步驟:S1、構(gòu)建包括基礎(chǔ)情感詞詞組、程度詞詞組、否定和雙否定詞詞組、轉(zhuǎn)折詞詞組的情感詞詞典;S2、基于情感詞詞典和標(biāo)準(zhǔn)普通話語音大數(shù)據(jù)訓(xùn)練構(gòu)建以普通話文本+情感描述為輸出項(xiàng)的語音識(shí)別模型。本發(fā)明可以顯著提高帶口音的普通話的識(shí)別準(zhǔn)確率,從而得到個(gè)性化的語音識(shí)別模型,識(shí)別準(zhǔn)確率達(dá)97.6%左右;引入情感描述特征,可以盡可能的避免表達(dá)意思出現(xiàn)偏頗的情況,從而大大提高用戶體驗(yàn)感。感。感。


技術(shù)研發(fā)人員:譚萍
受保護(hù)的技術(shù)使用者:蘭州文理學(xué)院
技術(shù)研發(fā)日:2022.08.29
技術(shù)公布日:2022/11/25


文章投稿或轉(zhuǎn)載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-1201-0.html

來源:專利查詢檢索下載-實(shí)用文體寫作網(wǎng)版權(quán)所有,轉(zhuǎn)載請(qǐng)保留出處。本站文章發(fā)布于 2022-11-27 21:27:48

發(fā)表評(píng)論

驗(yàn)證碼:
用戶名: 密碼: 匿名發(fā)表
評(píng)論列表 (有 條評(píng)論
2人圍觀
參與討論