本文作者:kaifamei

語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品與流程

更新時(shí)間:2025-12-27 22:28:43 0條評(píng)論

語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品與流程



1.本技術(shù)涉及語音識(shí)別技術(shù)領(lǐng)域,特別涉及一種語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品。


背景技術(shù):



2.隨著語音識(shí)別技術(shù)的發(fā)展,語音識(shí)別模型的應(yīng)用越來越廣泛。例如,語音識(shí)別模型可以應(yīng)用在語音搜索中;通過語音識(shí)別模型,對(duì)輸入的語音信號(hào)進(jìn)行語音識(shí)別,得到該語音信號(hào)對(duì)應(yīng)的文本信息,進(jìn)而基于該文本信息搜索信息。
3.相關(guān)技術(shù)中,一般使用端到端的語音識(shí)別模型進(jìn)行語音識(shí)別。其中,端到端的語音識(shí)別模型識(shí)別語音信號(hào)的過程為:端到端的語音識(shí)別模型通過對(duì)語音信號(hào)進(jìn)行識(shí)別,得到該語音信號(hào)的多個(gè)候選文本序列的候選文本參數(shù),該候選文本參數(shù)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率和候選文本序列符合語言邏輯的概率;進(jìn)而基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的候選文本參數(shù),確定該語音信號(hào)對(duì)應(yīng)的文本信息。
4.由于端到端的語音識(shí)別模型得到的候選文本參數(shù)同時(shí)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率和候選文本序列符合語言邏輯的概率,就使得這兩種概率之間相互限制才能得到候選文本參數(shù),進(jìn)而導(dǎo)致得到的候選文本參數(shù)準(zhǔn)確性較差,使得得到的文本信息也不準(zhǔn)確,也即通過該端到端的語音識(shí)別模型對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性較差。


技術(shù)實(shí)現(xiàn)要素:



5.本技術(shù)實(shí)施例提供了一種語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品,能夠提高對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性。所述技術(shù)方案如下:
6.一方面,提供了一種語音識(shí)別方法,所述方法包括:
7.將語音信號(hào)輸入語音識(shí)別模型,得到所述語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),所述第一候選文本參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率和所述候選文本序列符合語言邏輯的概率;
8.將所述多個(gè)候選文本序列輸入第一語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù),所述第一語言參數(shù)用于表示所述候選文本序列符合語言邏輯的概率;
9.將所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)輸入第二語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),所述第二語言模型的訓(xùn)練語料與所述語音識(shí)別模型的訓(xùn)練語料相同,所述第二語言參數(shù)用于模擬所述第一候選文本參數(shù)中所述候選文本序列符合語言邏輯的概率;
10.基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù),所述聲學(xué)參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率;
11.基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);
12.基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述語音信號(hào)對(duì)應(yīng)的文本信息。
13.另一方面,提供了一種語音識(shí)別裝置,所述裝置包括:
14.第一輸入模塊,用于將語音信號(hào)輸入語音識(shí)別模型,得到所述語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),所述第一候選文本參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率和所述候選文本序列符合語言邏輯的概率;
15.第二輸入模塊,用于將所述多個(gè)候選文本序列輸入第一語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù),所述第一語言參數(shù)用于表示所述候選文本序列符合語言邏輯的概率;
16.第三輸入模塊,用于將所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)輸入第二語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),所述第二語言模型的訓(xùn)練語料與所述語音識(shí)別模型的訓(xùn)練語料相同,所述第二語言參數(shù)用于模擬所述第一候選文本參數(shù)中所述候選文本序列符合語言邏輯的概率;
17.第一確定模塊,用于基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù),所述聲學(xué)參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率;
18.第二確定模塊,用于基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);
19.第三確定模塊,用于基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述語音信號(hào)對(duì)應(yīng)的文本信息。
20.在一些實(shí)施例中,所述第一候選文本參數(shù)包括所述文本信息中多個(gè)位置的候選詞的概率,所述第三輸入模塊,用于對(duì)于每個(gè)候選文本序列,將所述候選文本序列和所述候選文本序列的第一候選文本參數(shù)輸入所述第二語言模型;通過所述第二語言模型,基于第一候選詞確定所述第一候選詞的第二語言參數(shù),所述第一候選詞為所述候選文本序列中的第一個(gè)候選詞;通過所述第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和所述第二候選詞確定所述第二候選詞的第二語言參數(shù),所述第二候選詞為所述候選文本序列中除所述第一候選詞以外的候選詞;基于所述第一候選詞的第二語言參數(shù)和所述第二候選詞的第二語言參數(shù),確定所述候選文本序列的第二語言參數(shù)。
21.在一些實(shí)施例中,所述第三輸入模塊,用于通過所述第二語言模型,基于所述第二候選詞的前一個(gè)候選詞的概率、第二語言參數(shù)和所述第二候選詞,確定所述第二候選詞的第二語言參數(shù)。
22.在一些實(shí)施例中,所述第二確定模塊,用于獲取所述多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù),所述發(fā)音參數(shù)用于表示所述候選文本序列符合所述語音信號(hào)的發(fā)音的概率;基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第二語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)。
23.在一些實(shí)施例中,所述第三確定模塊,用于基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述多個(gè)候選文本序列中的目標(biāo)候選
文本序列,所述目標(biāo)候選文本序列的第二候選文本參數(shù)最大;確定所述目標(biāo)候選文本序列對(duì)應(yīng)的所述文本信息。
24.在一些實(shí)施例中,所述語音信號(hào)對(duì)應(yīng)的文本信息是通過所述語音識(shí)別模型和解碼裝置確定的,所述解碼裝置包括所述第一語言模型和解碼器;所述解碼器,用于基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述文本信息。
25.另一方面,提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括一個(gè)或多個(gè)處理器和一個(gè)或多個(gè)存儲(chǔ)器,所述一個(gè)或多個(gè)存儲(chǔ)器中存儲(chǔ)有至少一條程序代碼,所述至少一條程序代碼由所述一個(gè)或多個(gè)處理器加載并執(zhí)行,以實(shí)現(xiàn)上述任一實(shí)現(xiàn)方式所述的語音識(shí)別方法。
26.另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條程序代碼,所述至少一條程序代碼由處理器加載并執(zhí)行,以實(shí)現(xiàn)上述任一實(shí)現(xiàn)方式所述的語音識(shí)別方法。
27.另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)程序代碼,所述處理器執(zhí)行所述計(jì)算機(jī)程序代碼,使得所述計(jì)算機(jī)設(shè)備執(zhí)行上述任一實(shí)現(xiàn)方式所述的語音識(shí)別方法。
28.本技術(shù)實(shí)施例提供了一種語音識(shí)別方法,該方法通過第二語言參數(shù)模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率,就能夠基于第二語言參數(shù)得到聲學(xué)參數(shù);且由于第一語言參數(shù)是基于外部單獨(dú)的第一語言模型得到的,這樣使得第一語言參數(shù)擺脫了第一候選文本參數(shù)用于表示的兩種概率之間的相互限制,進(jìn)而使得第一語言參數(shù)更能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,這樣再基于第一語言參數(shù)和聲學(xué)參數(shù)來得到新的第二候選文本參數(shù),使得得到的第二候選文本參數(shù)的準(zhǔn)確性更高,進(jìn)而基于第二候選文本參數(shù)得到的文本信息更加準(zhǔn)確,從而提高了對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性。
附圖說明
29.為了更清楚地說明本技術(shù)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
30.圖1是本技術(shù)實(shí)施例提供的一種實(shí)施環(huán)境的示意圖;
31.圖2是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖;
32.圖3是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖;
33.圖4是本技術(shù)實(shí)施例提供的一種las模型的示意圖;
34.圖5是本技術(shù)實(shí)施例提供的一種lstm語言模型的示意圖;
35.圖6是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖;
36.圖7是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖;
37.圖8是本技術(shù)實(shí)施例提供的一種語音識(shí)別裝置的框圖;
38.圖9是本技術(shù)實(shí)施例提供的一種終端的框圖;
39.圖10是本技術(shù)實(shí)施例提供的一種服務(wù)器的框圖。
具體實(shí)施方式
40.為使本技術(shù)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本技術(shù)實(shí)施方式作進(jìn)一步地詳細(xì)描述。
41.本技術(shù)的說明書和權(quán)利要求書及所述附圖中的術(shù)語“第一”、“第二”、“第三”和“第四”等是用于區(qū)別不同對(duì)象,而不是用于描述特定順序。此外,術(shù)語“包括”和“具有”以及它們的任意變形,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對(duì)于這些過程、方法、產(chǎn)品或設(shè)備固有的其他步驟或單元。
42.需要說明的是,本技術(shù)所涉及的信息(包括但不限于用戶設(shè)備信息、用戶個(gè)人信息等)、數(shù)據(jù)(包括但不限于用于分析的數(shù)據(jù)、存儲(chǔ)的數(shù)據(jù)、展示的數(shù)據(jù)等)以及信號(hào),均為經(jīng)用戶授權(quán)或者經(jīng)過各方充分授權(quán)的,且相關(guān)數(shù)據(jù)的收集、使用和處理需要遵守相關(guān)國家和地區(qū)的相關(guān)法律法規(guī)和標(biāo)準(zhǔn)。例如,本技術(shù)中涉及到的語音信號(hào)都是在充分授權(quán)的情況下獲取的。
43.以下,對(duì)本技術(shù)涉及的術(shù)語進(jìn)行解釋。
44.人工智能(artificial intelligence,ai)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。換句話說,人工智能是計(jì)算機(jī)科學(xué)的一個(gè)綜合技術(shù),它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。
45.人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺技術(shù)、語音處理技術(shù)、自然語言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。
46.自然語言處理(nature language processing,nlp)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系。自然語言處理技術(shù)通常包括文本處理、語義理解、機(jī)器翻譯、機(jī)器人問答、知識(shí)圖譜等技術(shù)。
47.語音技術(shù)(speech technology)的關(guān)鍵技術(shù)有自動(dòng)語音識(shí)別技術(shù)(asr)和語音合成技術(shù)(tts)以及聲紋識(shí)別技術(shù)。讓計(jì)算機(jī)能聽、能看、能說、能感覺,是未來人機(jī)交互的發(fā)展方向,其中語音成為未來最被看好的人機(jī)交互方式之一。
48.機(jī)器學(xué)習(xí)(machine learning,ml)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)通常包括人工神經(jīng)網(wǎng)絡(luò)、置信網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、歸納學(xué)習(xí)、示
教學(xué)習(xí)等技術(shù)。
49.以下,對(duì)本技術(shù)涉及的實(shí)施環(huán)境進(jìn)行介紹:
50.本技術(shù)實(shí)施例提供的語音識(shí)別方法,能夠由計(jì)算機(jī)設(shè)備執(zhí)行。在一些實(shí)施例中,該計(jì)算機(jī)設(shè)備為終端或服務(wù)器。下面首先以計(jì)算機(jī)設(shè)備為服務(wù)器為例,介紹一些本技術(shù)實(shí)施例提供的語音識(shí)別方法的實(shí)施環(huán)境示意圖。參見圖1,該實(shí)施環(huán)境包括終端101和服務(wù)器102。終端101和服務(wù)器102能夠通過有線或無線通信方式進(jìn)行直接或間接地連接,本技術(shù)在此不作限制。
51.在一些實(shí)施例中,終端101為智能手機(jī)、平板電腦、筆記本電腦、臺(tái)式計(jì)算機(jī)、智能語音交互設(shè)備、智能家電、車載終端、飛行器等,但并不限于此。在一些實(shí)施例中,服務(wù)器102是獨(dú)立的服務(wù)器也能夠是多個(gè)物理服務(wù)器工程的服務(wù)器集或者分布式系統(tǒng),還能夠是提供云服務(wù)、云數(shù)據(jù)庫、云計(jì)算、云函數(shù)、云存儲(chǔ)、網(wǎng)絡(luò)服務(wù)、云通信、中間件服務(wù)、域名服務(wù)、安全服務(wù)、cdn(content delivery network內(nèi)容分發(fā)網(wǎng)絡(luò))、以及大數(shù)據(jù)和人工智能平臺(tái)等基礎(chǔ)云計(jì)算服務(wù)的云服務(wù)器。服務(wù)器102用于為終端101安裝的目標(biāo)應(yīng)用提供后臺(tái)服務(wù)。在一些實(shí)施例中,服務(wù)器102主要承擔(dān)計(jì)算工作,終端101承擔(dān)次要計(jì)算工作;或者,服務(wù)器102承擔(dān)次要計(jì)算服務(wù),終端101承擔(dān)主要計(jì)算工作;或者,服務(wù)器102和終端101二者之間采用分布式計(jì)算架構(gòu)進(jìn)行協(xié)同計(jì)算。
52.在一些實(shí)施例中,終端101上安裝有用于進(jìn)行語音識(shí)別的目標(biāo)應(yīng)用,服務(wù)器102用于為終端101安裝的目標(biāo)應(yīng)用提供后臺(tái)服務(wù),即終端101獲取語音信號(hào)后,將語音信號(hào)發(fā)送給服務(wù)器102,服務(wù)器102用于對(duì)該語音信號(hào)進(jìn)行識(shí)別,得到該語音信號(hào)對(duì)應(yīng)的文本信息,將文本信息發(fā)送給終端101,以實(shí)現(xiàn)對(duì)語音信號(hào)的識(shí)別。
53.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備為終端101,則終端101獲取語音信號(hào)后,對(duì)該語音信號(hào)進(jìn)行識(shí)別,得到該語音信號(hào)對(duì)應(yīng)的文本信息,以實(shí)現(xiàn)對(duì)語音信號(hào)的識(shí)別。
54.可選地,本技術(shù)實(shí)施例提供的語音識(shí)別方法廣泛應(yīng)用于信息檢索、人機(jī)交互等場(chǎng)景中。例如,本技術(shù)實(shí)施例提供的方法應(yīng)用于信息檢索場(chǎng)景中,用于對(duì)輸入的語音信號(hào)進(jìn)行識(shí)別,得到文本信息,進(jìn)而基于文本信息進(jìn)行信息檢索。例如,本技術(shù)實(shí)施例提供的方法應(yīng)用于人機(jī)交互場(chǎng)景中,用于對(duì)輸入的語音信號(hào)進(jìn)行識(shí)別,得到文本信息,進(jìn)而基于文本信息中包括的文本指令控制人機(jī)交互設(shè)備完成文本指令對(duì)應(yīng)的動(dòng)作。
55.圖2是根據(jù)本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖,參見圖2,在本技術(shù)實(shí)施例中以由計(jì)算機(jī)設(shè)備執(zhí)行為例進(jìn)行說明。該語音識(shí)別方法包括以下步驟:
56.201、計(jì)算機(jī)設(shè)備將語音信號(hào)輸入語音識(shí)別模型,得到語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)。
57.在本技術(shù)實(shí)施例中,第一候選文本參數(shù)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率和候選文本序列符合語言邏輯的概率。第一候選文本參數(shù)包括語音信號(hào)對(duì)應(yīng)的文本信息中多個(gè)位置的候選詞的概率。該語音識(shí)別模型為端到端的語音識(shí)別模型。
58.202、計(jì)算機(jī)設(shè)備將多個(gè)候選文本序列輸入第一語言模型,得到多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù)。
59.在本技術(shù)實(shí)施例中,第一語言參數(shù)用于表示候選文本序列符合語言邏輯的概率。第一語言模型為外部單獨(dú)訓(xùn)練的語言模型,這樣第一語言參數(shù)通過第一語言模型單獨(dú)得到,使其僅用于表示候選文本序列符合語言邏輯的概率,擺脫了該概率與候選文本序列為
neural network-transducer,循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器)模型和ctc(connectionist temporal classification,基于神經(jīng)網(wǎng)絡(luò)的時(shí)序類分類)模型中的一個(gè),在此不作具體限定。在本技術(shù)實(shí)施例中,以語音識(shí)別模型為las模型為例進(jìn)行說明。
75.(2)計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,對(duì)語音信號(hào)進(jìn)行編碼,得到語音信號(hào)對(duì)應(yīng)的聲學(xué)特征序列。
76.其中,計(jì)算機(jī)設(shè)備得到語音信號(hào)對(duì)應(yīng)的聲學(xué)特征序列的過程包括預(yù)處理的過程和編碼的過程。
77.在一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備通過語音識(shí)別模型完成預(yù)處理的過程和編碼的過程;其中,計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,對(duì)語音信號(hào)進(jìn)行預(yù)處理,提取該語音信號(hào)對(duì)應(yīng)的語音特征;計(jì)算機(jī)設(shè)備再通過語音識(shí)別模型,對(duì)該語音特征進(jìn)行編碼,得到語音信號(hào)對(duì)應(yīng)的聲學(xué)特征序列。
78.在另一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備完成預(yù)處理的過程,計(jì)算機(jī)設(shè)備通過語音識(shí)別模型完成編碼的過程;其中,計(jì)算機(jī)設(shè)備對(duì)語音信號(hào)進(jìn)行預(yù)處理,得到該語音信號(hào)對(duì)應(yīng)的語音特征;計(jì)算機(jī)設(shè)備將該語音特征輸入語音識(shí)別模型,通過語音識(shí)別模型,對(duì)該語音特征進(jìn)行編碼,得到語音信號(hào)對(duì)應(yīng)的聲學(xué)特征序列。
79.需要說明的是,本技術(shù)實(shí)施例中的語音信號(hào)可以為流式語音識(shí)別對(duì)應(yīng)的語音信號(hào),或非流式語音識(shí)別對(duì)應(yīng)的語音信號(hào);非流式語音識(shí)別指說話對(duì)象在說話的過程中通過模型進(jìn)行同步的語音識(shí)別,流式語音識(shí)別指在說話對(duì)象說完一句話或一段話后再通過模型進(jìn)行語音識(shí)別。
80.參見圖4,圖4為本技術(shù)實(shí)施例中提供的一種las模型的示意圖,las模型是一種端到端的seq2seq結(jié)構(gòu);其中,las模型中包括encoder(編碼器),編碼器用于對(duì)語音信號(hào)進(jìn)行編碼,得到語音信號(hào)對(duì)應(yīng)的聲學(xué)特征序列。其中,計(jì)算機(jī)設(shè)備將語音信號(hào)的語音特征(x0,x1,x2,x3,

xn-1),輸入語音識(shí)別模型的編碼器,得到聲學(xué)特征序列(h0,h1,h2,h3,

hn-1);其中,xn-1為語音特征組成的序列中第n-1個(gè)位置的特征向量,hn-1為聲學(xué)特征序列第n-1個(gè)位置的特征向量。
81.其中,編碼器采用的用于編碼的模型可以根據(jù)需要進(jìn)行設(shè)定并更改,若待識(shí)別的語音信號(hào)為非流式語音識(shí)別對(duì)應(yīng)的語音信號(hào),則編碼器采用blstm(bi-directional long short-term memory,雙向長短時(shí)記憶)、bgru(bi-directional gated recurrent unit,雙向門控循環(huán)單元)、transformer(一種基于多頭注意力機(jī)制的模型)等模型中的至少一個(gè)來進(jìn)行編碼,得到聲學(xué)特征序列;若待識(shí)別的語音信號(hào)為流式語音識(shí)別對(duì)應(yīng)的語音信號(hào),則編碼器采用lstm(directional long short-term memory,長短時(shí)記憶)、gru(gated recurrent unit,雙向門控循環(huán)單元)、chunk transformer(一種基于塊和多頭注意力機(jī)制的模型)等模型中的至少一個(gè)來進(jìn)行編碼,得到聲學(xué)特征序列。
82.(3)計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,基于聲學(xué)特征序列,確定第一候選詞的概率。
83.其中,第一候選詞為每個(gè)候選文本序列中的第一個(gè)候選詞,由于候選文本序列為多個(gè),因此,第一候選詞為多個(gè);每個(gè)第一候選詞的概率為語音信號(hào)對(duì)應(yīng)的文本信息中第一個(gè)位置的詞為該候選詞的概率,每個(gè)第一候選詞可以是一個(gè)關(guān)鍵詞或一個(gè)字符,在此不作具體限定。可選地,對(duì)于第一候選詞,計(jì)算機(jī)設(shè)備將結(jié)束標(biāo)識(shí)符《eos》作為其前一個(gè)候選詞,基于該結(jié)束標(biāo)志符和聲學(xué)特征序列來得到第一候選詞的概率。
84.(4)計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,基于第二候選詞的前一個(gè)候選詞的概率和聲學(xué)特征序列,確定第二候選詞的概率。
85.其中,第二候選詞為每個(gè)候選文本序列中除第一個(gè)候選詞以外的其他任一位置的候選詞,由于候選文本序列為多個(gè),因此,任一位置的第二候選詞為多個(gè);每個(gè)第二候選詞可以是一個(gè)關(guān)鍵詞或一個(gè)字符,在此不作具體限定。
86.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,基于第二候選詞的前一個(gè)候選詞的概率和聲學(xué)特征序列,確定第二候選詞的概率,包括以下步驟:計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,確定前一個(gè)位置的多個(gè)候選詞的概率與聲學(xué)特征序列之間的相似度;計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,基于相似度和聲學(xué)特征序列,確定前一個(gè)位置的多個(gè)候選詞對(duì)應(yīng)的聲學(xué)信息;計(jì)算機(jī)設(shè)備通過語音識(shí)別模型,基于前一個(gè)位置的多個(gè)候選詞的概率和聲學(xué)信息,確定第二候選詞的概率。
87.繼續(xù)參見圖4,las模型中還包括attention(注意力層)和decoder(解碼器),注意力層和解碼器用于確定第一候選詞的概率和第二候選詞的概率。解碼器包括lstm、attention、gru等時(shí)序神經(jīng)網(wǎng)絡(luò)層,用于對(duì)編碼器和注意力層的輸出進(jìn)行解碼,得到多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)。
88.在一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備通過語音識(shí)別模型的注意力層,確定前一個(gè)位置的候選詞的概率與聲學(xué)特征序列之間的相似度α,基于相似度和聲學(xué)特征序列,確定該前一個(gè)位置的候選詞對(duì)應(yīng)的聲學(xué)信息β;然后計(jì)算機(jī)設(shè)備通過語音識(shí)別模型中的解碼器,基于前一個(gè)位置的候選詞的概率和聲學(xué)信息,確定第二候選詞的概率。可選地,計(jì)算機(jī)設(shè)備通過解碼器中的lstm層,基于前一個(gè)位置的候選詞的概率和聲學(xué)信息,得到解碼器的輸出,進(jìn)而得到第二候選詞的概率;與此同理,計(jì)算機(jī)設(shè)備依次得到文本信息中多個(gè)位置的第二候選詞的概率;其中,對(duì)于第一個(gè)候選詞,計(jì)算機(jī)設(shè)備將結(jié)束標(biāo)識(shí)符《eos》作為其前一個(gè)位置的候選詞,以得到第一個(gè)候選詞的概率;其中,多個(gè)候選詞的概率分別表示為u0,u1,u2,u3,

un-1。
89.(5)計(jì)算機(jī)設(shè)備基于第一候選詞的概率和第二候選詞的概率,確定第一候選文本參數(shù)。
90.其中,第一候選詞和第二候選詞均為多個(gè),即語音信號(hào)對(duì)應(yīng)的文本信息中的多個(gè)位置分別對(duì)應(yīng)多個(gè)候選詞;相應(yīng)地,計(jì)算機(jī)設(shè)備對(duì)多個(gè)位置分別對(duì)應(yīng)的多個(gè)候選詞交叉組合,得到多個(gè)候選文本序列,多個(gè)候選詞包括第一候選詞和第二候選詞;進(jìn)而基于多個(gè)候選文本序列中包括的多個(gè)候選詞分別對(duì)應(yīng)的概率,得到多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),第一候選文本參數(shù)包括文本信息中多個(gè)位置的候選詞的概率。
91.302、計(jì)算機(jī)設(shè)備將多個(gè)候選文本序列輸入第一語言模型,得到多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù)。
92.其中,第一語言參數(shù)用于表示候選文本序列符合語言邏輯的概率。第一語言模型的訓(xùn)練語料多于語音識(shí)別模型的訓(xùn)練語料,進(jìn)而基于多個(gè)訓(xùn)練語料得到的第一語言模型的性能更好,使得第一語言模型得到的第一語言參數(shù)更能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,即提高了第一語言參數(shù)的準(zhǔn)確性。
93.303、計(jì)算機(jī)設(shè)備對(duì)于每個(gè)候選文本序列,將候選文本序列和候選文本序列的第一候選文本參數(shù)輸入第二語言模型。
94.其中,第二語言模型用于確定候選文本序列符合語言邏輯的概率。其中,第一候選文本參數(shù)包括文本信息中多個(gè)位置的候選詞的概率。第二語言模型的訓(xùn)練語料與語音識(shí)別模型的訓(xùn)練語料相同,進(jìn)而使得第二語言模型能夠模擬語音識(shí)別模型中的語言模型,進(jìn)而基于第二語言模型得到的第二語言參數(shù)就能夠有效模擬候選文本序列符合語言邏輯的概率,且能夠提高第二語言參數(shù)模擬候選文本序列符合語言邏輯的概率的準(zhǔn)確性。
95.304、計(jì)算機(jī)設(shè)備通過第二語言模型,基于第一候選詞確定第一候選詞的第二語言參數(shù)。
96.其中,第一候選詞為候選文本序列中的第一個(gè)候選詞。可選地,對(duì)于第一候選詞,計(jì)算機(jī)設(shè)備將結(jié)束標(biāo)識(shí)符《eos》作為其前一個(gè)候選詞,通過第二語言模型,基于該結(jié)束標(biāo)志符和第一候選詞來得到第一候選詞的第二語言參數(shù)。
97.305、計(jì)算機(jī)設(shè)備通過第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和第二候選詞確定第二候選詞的第二語言參數(shù)。
98.其中,第二候選詞為候選文本序列中除第一候選詞以外的候選詞。在一些實(shí)施例中,計(jì)算機(jī)設(shè)備通過第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和第二候選詞確定第二候選詞的第二語言參數(shù),包括以下步驟:計(jì)算機(jī)設(shè)備通過第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和第二語言參數(shù)以及第二候選詞,確定第二候選詞的第二語言參數(shù)。可選地,對(duì)于t時(shí)刻,第二候選詞的第二語言參數(shù)為第二語言模型的輸出,則前一個(gè)候選詞的第二語言參數(shù)為上一時(shí)刻第二語言模型的輸出。
99.在該實(shí)施例中,計(jì)算機(jī)設(shè)備通過第二語言模型,基于前一個(gè)候選詞的概率和第二語言參數(shù)以及第二候選詞來確定第二候選詞的第二語言參數(shù),進(jìn)一步考慮了多個(gè)位置的候選詞之間的語義聯(lián)系,進(jìn)而基于多個(gè)位置的候選詞的第二語言參數(shù)來表示候選文本序列是否符合語言邏輯的概率更加準(zhǔn)確。
100.306、計(jì)算機(jī)設(shè)備基于第一候選詞的第二語言參數(shù)和第二候選詞的第二語言參數(shù),確定候選文本序列的第二語言參數(shù)。
101.可選地,計(jì)算機(jī)設(shè)備對(duì)于任一候選文本序列,基于候選文本序列中包括的第一候選詞的第二語言參數(shù)和第二候選詞的第二語言參數(shù),組成該候選文本序列的第二語言參數(shù)。
102.在該實(shí)施例中,計(jì)算機(jī)設(shè)備通過第二語言模型,基于前一個(gè)候選詞的概率來確定當(dāng)前第二候選詞的第二語言參數(shù),這樣充分考慮了前一刻輸出的候選詞對(duì)當(dāng)前候選詞的第二語言參數(shù)的影響,即充分考慮了多個(gè)候選詞之間的依賴關(guān)系,進(jìn)而提高了得到的候選文本序列的第二語言參數(shù)的準(zhǔn)確性。
103.可選地,第二語言模型為lstm語言模型、rnn(recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))語言模型和attention(注意力)語言模型中的至少一個(gè),在此不作具體限定。在一種實(shí)現(xiàn)方式中,第二語言模型為lstm語言模型,lstm語言模型可以利用上一時(shí)刻學(xué)習(xí)到的信息進(jìn)行當(dāng)前時(shí)刻的學(xué)習(xí),即當(dāng)前候選詞的第二語言參數(shù)來是基于前一個(gè)候選詞的第二語言參數(shù)來得到的;由于端到端的語音識(shí)別模型中當(dāng)前位置的候選詞的概率同樣是基于前一個(gè)位置的候選詞的概率得到的,即二者都是基于前一時(shí)刻的輸出來確定當(dāng)前時(shí)刻的輸出,且由于該lstm模型的訓(xùn)練語料與語音識(shí)別模型的訓(xùn)練語料相同,進(jìn)而基于該lstm語言模型得到的第二語言參數(shù),能夠更準(zhǔn)確地模擬語音識(shí)別模型中真實(shí)的候選文本序列符合語言邏
輯的概率。參見圖5,圖5為本技術(shù)實(shí)施例提供的一種lstm語言模型的示意圖,其包括embedding(嵌入層)、n個(gè)lstm(注意力層)、linear(全連接層)、softmax(分類網(wǎng)絡(luò)層)幾部分;嵌入層用于對(duì)輸入lstm語言模型的候選文本序列進(jìn)行處理,得到候選文本序列對(duì)應(yīng)的向量序列;注意力層用于將向量序列編碼成語義特征;全連接層和分類網(wǎng)絡(luò)層用于基于語義特征,實(shí)現(xiàn)對(duì)候選文本序列的分類,即得到候選文本序列的第二語言參數(shù)。
104.307、計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)。
105.其中,第二語言參數(shù)用于模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率;聲學(xué)參數(shù)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率。
106.在一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備確定第一候選文本參數(shù)與第二語言參數(shù)之間的差值,得到聲學(xué)參數(shù)。在另一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備確定第一候選文本參數(shù)中用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率的第一權(quán)重和第一候選文本參數(shù)中用于表示候選文本序列符合語言邏輯的概率的第二權(quán)重,計(jì)算機(jī)設(shè)備確定第二語言參數(shù)與第二權(quán)重的乘積,然后確定第一候選文本參數(shù)與該乘積之間的差值,最后確定該差值與第一權(quán)重之商,得到聲學(xué)參數(shù)。
107.其中,對(duì)于每個(gè)候選文本序列,聲學(xué)參數(shù)包括文本信息的多個(gè)位置的候選詞的概率,可選地,計(jì)算機(jī)設(shè)備確定該多個(gè)位置的候選詞的概率之和,得到該候選文本序列的聲學(xué)參數(shù);或者,計(jì)算機(jī)設(shè)備確定該多個(gè)位置的候選詞的概率的均值,得到該候選文本序列的聲學(xué)參數(shù),或者,計(jì)算機(jī)設(shè)備對(duì)該多個(gè)位置的候選詞的概率加權(quán)求和,得到該候選文本序列的聲學(xué)參數(shù)。其中,對(duì)于每個(gè)候選文本序列,其第一語言參數(shù)的確定過程與聲學(xué)參數(shù)的確定過程同理,在此不再贅述。
108.308、計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)。
109.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備對(duì)于每個(gè)候選文本序列,組合該候選文本序列的聲學(xué)參數(shù)和第一語言參數(shù),得到該候選文本序列對(duì)應(yīng)的第二候選文本參數(shù),使該第二候選文本參數(shù)包括候選文本序列對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù)。可選地,對(duì)于每個(gè)候選文本序列,計(jì)算機(jī)設(shè)備確定該候選文本序列的聲學(xué)參數(shù)和第一語言參數(shù)之和,得到第二候選文本參數(shù);或者,計(jì)算機(jī)設(shè)備確定該候選文本序列的聲學(xué)參數(shù)和第一語言參數(shù)的均值,得到第二候選文本參數(shù);或者,計(jì)算機(jī)設(shè)備對(duì)聲學(xué)參數(shù)和第一語言參數(shù)加權(quán)求和,得到第二候選文本參數(shù),在此不作具體限定。
110.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),包括以下步驟:計(jì)算機(jī)設(shè)備獲取多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù),發(fā)音參數(shù)用于表示候選文本序列符合語音信號(hào)的發(fā)音的概率;計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第二語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)。在該實(shí)施例中,計(jì)算機(jī)設(shè)備對(duì)于每個(gè)候選文本序列,組合該候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù),得到該候選文本序列對(duì)應(yīng)的第二候選文本參數(shù),使第二候選文本參數(shù)包括候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第二語言參數(shù)。可選地,對(duì)于每個(gè)候選文本序列,計(jì)算機(jī)設(shè)備確定該候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)之和,得到第二候
選文本參數(shù);或者,計(jì)算機(jī)設(shè)備確定該候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)的均值,得到第二候選文本參數(shù);或者,計(jì)算機(jī)設(shè)備對(duì)發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)加權(quán)求和,得到第二候選文本參數(shù),在此不作具體限定。其中,對(duì)于每個(gè)候選文本序列,發(fā)音參數(shù)包括文本信息的多個(gè)位置的候選詞的發(fā)音的概率,發(fā)音參數(shù)的確定過程與聲學(xué)參數(shù)的確定過程同理,在此不再贅述。
111.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備獲取多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù),包括以下步驟:對(duì)于每個(gè)候選文本序列,計(jì)算機(jī)設(shè)備獲取該候選文本序列對(duì)應(yīng)的音素序列,計(jì)算機(jī)設(shè)備將該音素序列輸入詞匯化模型,得到該候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)。其中,詞匯化模型可以為語音識(shí)別領(lǐng)域中的發(fā)音詞典,在此不作具體限定。
112.在該實(shí)施例中,計(jì)算機(jī)設(shè)基于發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)來得到第二候選文本參數(shù),這樣結(jié)合多種因素來得到第二候選文本參數(shù),使得后續(xù)基于第二候選文本參數(shù)得到的文本信息即符合語言邏輯又符合發(fā)音邏輯,進(jìn)而使得得到的文本信息更加準(zhǔn)確。
113.309、計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定語音信號(hào)對(duì)應(yīng)的文本信息。
114.在一些實(shí)施例中,計(jì)算機(jī)設(shè)備基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定多個(gè)候選文本序列中的目標(biāo)候選文本序列,目標(biāo)候選文本序列的第二候選文本參數(shù)最大;計(jì)算機(jī)設(shè)備確定目標(biāo)候選文本序列對(duì)應(yīng)的文本信息。
115.在一種情況下,若多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)是基于聲學(xué)參數(shù)和第一語言參數(shù)確定的,則目標(biāo)候選文本序列對(duì)應(yīng)的第二候選文本參數(shù)是基于該目標(biāo)候選文本序列對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù)確定的。
116.在另一種情況下,若多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)是基于發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)確定的,則目標(biāo)候選文本序列對(duì)應(yīng)的最大的第二候選文本參數(shù)是基于目標(biāo)候選文本序列對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù)確定的。
117.可選地,計(jì)算機(jī)設(shè)備將目標(biāo)候選文本序列中的多個(gè)候選詞組成的文本作為語音信號(hào)對(duì)應(yīng)的文本信息。
118.在一種實(shí)現(xiàn)方式中,步驟302中的第一語言參數(shù)是基于單獨(dú)的第一語言模型得到的。在另一種實(shí)現(xiàn)方式中,步驟302中的第一語言參數(shù)是基于解碼裝置的中第一語言模型得到的,該解碼裝置包括第一語言模型和解碼器;其中,解碼器用于基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定文本信息。可選地,該解碼裝置為語音識(shí)別模型中hybrid(混合)模型對(duì)應(yīng)的解碼裝置。在一種實(shí)現(xiàn)方式中,計(jì)算機(jī)設(shè)備通過解碼器,將多個(gè)候選文本序列分別包括的多個(gè)候選詞組成詞圖,該詞圖中還包括多個(gè)候選詞分別對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第一語言參數(shù);計(jì)算機(jī)設(shè)備通過解碼器,對(duì)該詞圖進(jìn)行解碼,得到目標(biāo)候選文本序列,其解碼過程與步驟309同理,在此不再贅述。
119.參見圖6,圖6是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖,該識(shí)別方法結(jié)合了端到端的語音識(shí)別模型和hybrid模型。計(jì)算機(jī)設(shè)備將語音信號(hào)進(jìn)行預(yù)處理,得到語音信號(hào)的語音特征,將語音特征輸入端到端的語音識(shí)別模型,然后將端到端的語音識(shí)別模型輸出的第一候選文本參數(shù)送入hybrid模型,由hybrid模型中的解碼器結(jié)合詞匯化模型和第一語言模型,得到最終輸出的文本信息。其中,由于hybrid模型中的第一語言識(shí)別模型為基于大量的訓(xùn)練語料訓(xùn)練得到的,其泛化能力強(qiáng),進(jìn)而提高了對(duì)語音信號(hào)進(jìn)行語音識(shí)別的準(zhǔn)
確性。
120.需要說明的是,端到端的語音識(shí)別模型受限于訓(xùn)練語料的數(shù)量,直接基于其解碼器輸出的第一候選文本參數(shù)進(jìn)行束搜索來進(jìn)行語音識(shí)別,其識(shí)別效果相對(duì)于hybrid模型的識(shí)別效果較差;且由于端到端的語音識(shí)別模型得到的候選文本參數(shù)同時(shí)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率和候選文本序列符合語言邏輯的概率,就使得這兩種概率之間相互限制才能得到候選文本參數(shù),進(jìn)而使得端到端的語音識(shí)別模型得到的候選文本參數(shù)既不能準(zhǔn)確表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率,也不能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,進(jìn)而使得基于候選文本參數(shù)得到的文本信息準(zhǔn)確性較低。而hybrid模型主要包括聲學(xué)模型、詞匯化模型和語言模型,hybrid模型基于解碼器將三者結(jié)合起來,進(jìn)行語音識(shí)別;其語言模型是基于大量的文本語料訓(xùn)練得到的,且得到的語言參數(shù)僅用于表示候選文本序列符合語言邏輯的概率,即其語言參數(shù)能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,使得hybrid模型基于其語言模型得到的語言參數(shù)準(zhǔn)確度高。而端到端的語音識(shí)別模型由于輸入語音信號(hào)后能夠直接得到其對(duì)應(yīng)的文本信息,大大簡化了模型的訓(xùn)練過程。而為了提高端到端的語音識(shí)別模型的識(shí)別效果,在本技術(shù)實(shí)施例中,進(jìn)行端到端的語音識(shí)別模型與hybrid模型的聯(lián)合語音識(shí)別,即采用hybrid模型中的語言模型代替端到端的語音識(shí)別模型中的語言模型,來對(duì)語音信號(hào)進(jìn)行語音識(shí)別,以提高對(duì)語音信號(hào)進(jìn)行語音識(shí)別的準(zhǔn)確性。
121.需要說明的是,由于端到端的語音識(shí)別模型中當(dāng)前時(shí)刻的輸出是依賴于之前時(shí)刻的輸出的,而解碼裝置中的第一語言模型與端到端的語音識(shí)別模型的識(shí)別機(jī)制不同,其當(dāng)前時(shí)刻的輸出并不是是依賴于之前時(shí)刻的輸出的,因此直接將語音識(shí)別模型輸出的第一候選文本參數(shù)輸入解碼裝置來得到文本信息并不適用;而在本技術(shù)實(shí)施例中,通過第二語言參數(shù)來模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率,進(jìn)而通過第二語言參數(shù)將第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率去除,僅基于解碼裝置中的第一語言模型得到的第一語言參數(shù)來進(jìn)行語音識(shí)別,避免了第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率與第一語言參數(shù)混合造成的沖突,進(jìn)而避免了這種沖突造成的語音識(shí)別效果差的情況。
122.參見圖7,圖7是本技術(shù)實(shí)施例提供的一種語音識(shí)別方法的流程圖;其中,計(jì)算機(jī)設(shè)備基于語音識(shí)別模型得到多個(gè)候選文本序列的第一候選文本參數(shù),將多個(gè)候選文本序列的和多個(gè)候選文本序列的第一候選文本參數(shù)輸入第二語言模型,得到第二語言參數(shù)。其中,對(duì)于第一候選詞即候選文本序列中的第一個(gè)候選詞,計(jì)算機(jī)設(shè)備將結(jié)束標(biāo)識(shí)符作為其前一個(gè)候選詞,來得到第一候選詞的第二語言參數(shù);對(duì)于第二候選詞,計(jì)算機(jī)設(shè)備基于其前一個(gè)候選詞的概率、第二語言參數(shù)以及第二候選詞,得到第二候選詞的第二語言參數(shù);依此類推,計(jì)算機(jī)設(shè)備得到多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)。其中,多個(gè)候選詞的第二語言參數(shù)分別表示為v0,v1,v2,v3,

vn-1。然后計(jì)算機(jī)設(shè)備將語音識(shí)別模型的解碼器輸出的第一候選文本參數(shù)減去第二語言模型的輸出,得到聲學(xué)參數(shù),將多個(gè)候選文本序列和聲學(xué)參數(shù)輸入解碼裝置,通過解碼裝置中的第一語言模型和解碼器得到多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),進(jìn)而基于第二候選文本參數(shù)確定語音信號(hào)對(duì)應(yīng)的文本信息。其中,第二候選文本參數(shù)對(duì)應(yīng)的多個(gè)候選詞的概率表示為y0,y1,y2,y3,

yn-1。
123.在一些實(shí)施例中,通過本技術(shù)實(shí)施例提供的語音識(shí)別方法,語音識(shí)別效果顯著提
升。例如,對(duì)于相同的測(cè)試集a,進(jìn)行端到端的語音識(shí)別模型的識(shí)別效果與通過本技術(shù)實(shí)施例提供的語音識(shí)別方法的識(shí)別效果的對(duì)比;其中,端到端的語音識(shí)別模型對(duì)應(yīng)的wer(word error rate,詞錯(cuò)誤率)為3.89%,而本技術(shù)實(shí)施例提供的語音識(shí)別方法對(duì)應(yīng)的wer為3.00%,顯然,通過本技術(shù)實(shí)施例提供的語音識(shí)別方法顯著提升了語音識(shí)別效果。
124.本技術(shù)實(shí)施例提供了一種語音識(shí)別方法,該方法通過第二語言參數(shù)模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率,就能夠基于第二語言參數(shù)得到聲學(xué)參數(shù);且由于第一語言參數(shù)是基于外部單獨(dú)的第一語言模型得到的,這樣使得第一語言參數(shù)擺脫了第一候選文本參數(shù)用于表示的兩種概率之間的相互限制,進(jìn)而使得第一語言參數(shù)更能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,這樣再基于第一語言參數(shù)和聲學(xué)參數(shù)來得到新的第二候選文本參數(shù),使得得到的第二候選文本參數(shù)的準(zhǔn)確性更高,進(jìn)而基于第二候選文本參數(shù)得到的文本信息更加準(zhǔn)確,從而提高了對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性。
125.本技術(shù)實(shí)施例還提供了一種語音識(shí)別裝置,參見圖8,裝置包括:
126.第一輸入模塊801,用于將語音信號(hào)輸入語音識(shí)別模型,得到語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),第一候選文本參數(shù)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率和候選文本序列符合語言邏輯的概率;
127.第二輸入模塊802,用于將多個(gè)候選文本序列輸入第一語言模型,得到多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù),第一語言參數(shù)用于表示候選文本序列符合語言邏輯的概率;
128.第三輸入模塊803,用于將多個(gè)候選文本序列和多個(gè)候選文本序列的第一候選文本參數(shù)輸入第二語言模型,得到多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),第二語言模型的訓(xùn)練語料與語音識(shí)別模型的訓(xùn)練語料相同,第二語言參數(shù)用于模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率;
129.第一確定模塊804,用于基于多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù),聲學(xué)參數(shù)用于表示候選文本序列為語音信號(hào)對(duì)應(yīng)的文本信息的概率;
130.第二確定模塊805,用于基于多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);
131.第三確定模塊806,用于基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定語音信號(hào)對(duì)應(yīng)的文本信息。
132.在一些實(shí)施例中,第一候選文本參數(shù)包括文本信息中多個(gè)位置的候選詞的概率,第三輸入模塊803,用于對(duì)于每個(gè)候選文本序列,將候選文本序列和候選文本序列的第一候選文本參數(shù)輸入第二語言模型;通過第二語言模型,基于第一候選詞確定第一候選詞的第二語言參數(shù),第一候選詞為候選文本序列中的第一個(gè)候選詞;通過第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和第二候選詞確定第二候選詞的第二語言參數(shù),第二候選詞為候選文本序列中除第一候選詞以外的候選詞;基于第一候選詞的第二語言參數(shù)和第二候選詞的第二語言參數(shù),確定候選文本序列的第二語言參數(shù)。
133.在一些實(shí)施例中,第三輸入模塊803,用于通過第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率、第二語言參數(shù)和第二候選詞,確定第二候選詞的第二語言參數(shù)。
134.在一些實(shí)施例中,第二確定模塊805,用于獲取多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音
參數(shù),發(fā)音參數(shù)用于表示候選文本序列符合語音信號(hào)的發(fā)音的概率;基于多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第二語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)。
135.在一些實(shí)施例中,第三確定模塊806,用于基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定多個(gè)候選文本序列中的目標(biāo)候選文本序列,目標(biāo)候選文本序列的第二候選文本參數(shù)最大;確定目標(biāo)候選文本序列對(duì)應(yīng)的文本信息。
136.在一些實(shí)施例中,語音信號(hào)對(duì)應(yīng)的文本信息是通過語音識(shí)別模型和解碼裝置確定的,解碼裝置包括第一語言模型和解碼器;解碼器,用于基于多個(gè)候選文本序列和多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定文本信息。
137.本技術(shù)實(shí)施例提供了一種語音識(shí)別方法,該方法通過第二語言參數(shù)模擬第一候選文本參數(shù)中候選文本序列符合語言邏輯的概率,就能夠基于第二語言參數(shù)得到聲學(xué)參數(shù);且由于第一語言參數(shù)是基于外部單獨(dú)的第一語言模型得到的,這樣使得第一語言參數(shù)擺脫了第一候選文本參數(shù)用于表示的兩種概率之間的相互限制,進(jìn)而使得第一語言參數(shù)更能準(zhǔn)確表示候選文本序列符合語言邏輯的概率,這樣再基于第一語言參數(shù)和聲學(xué)參數(shù)來得到新的第二候選文本參數(shù),使得得到的第二候選文本參數(shù)的準(zhǔn)確性更高,進(jìn)而基于第二候選文本參數(shù)得到的文本信息更加準(zhǔn)確,從而提高了對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性。
138.在本技術(shù)實(shí)施例中,計(jì)算機(jī)設(shè)備能夠?yàn)榻K端或者服務(wù)器,當(dāng)計(jì)算機(jī)設(shè)備為終端時(shí),由終端作為執(zhí)行主體來實(shí)施本技術(shù)實(shí)施例提供的技術(shù)方案;當(dāng)計(jì)算機(jī)設(shè)備為服務(wù)器時(shí),由服務(wù)器作為執(zhí)行主體來實(shí)施本技術(shù)實(shí)施例提供的技術(shù)方案;或者,通過終端和服務(wù)器之間的交互來實(shí)施本技術(shù)提供的技術(shù)方案,本技術(shù)實(shí)施例對(duì)此不作限定。
139.圖9示出了本技術(shù)一個(gè)示例性實(shí)施例提供的終端900的結(jié)構(gòu)框圖。該終端900可以是便攜式移動(dòng)終端,比如:智能手機(jī)、平板電腦、mp3播放器(movi12gpicture experts group audio layer iii,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)、mp4(movi12g picture experts group audio layer iv,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面4)播放器、筆記本電腦或臺(tái)式電腦。終端900還可能被稱為用戶設(shè)備、便攜式終端、膝上型終端、臺(tái)式終端等其他名稱。
140.通常,終端900包括有:處理器901和存儲(chǔ)器902。
141.處理器901可以包括一個(gè)或多個(gè)處理核心,比如4核心處理器、8核心處理器等。處理器901可以采用dsp(digital sig12al processi12g,數(shù)字信號(hào)處理)、fpga(field-programmable gate array,現(xiàn)場(chǎng)可編程門陣列)、pla(programmable logic array,可編程邏輯陣列)中的至少一種硬件形式來實(shí)現(xiàn)。處理器901也可以包括主處理器和協(xié)處理器,主處理器是用于對(duì)在喚醒狀態(tài)下的數(shù)據(jù)進(jìn)行處理的處理器,也稱cpu(ce12tral processi12g u12it,中央處理器);協(xié)處理器是用于對(duì)在待機(jī)狀態(tài)下的數(shù)據(jù)進(jìn)行處理的低功耗處理器。在一些實(shí)施例中,處理器901可以集成有g(shù)pu(graphics processi12g u12it,圖像處理器),gpu用于負(fù)責(zé)顯示屏所需要顯示的內(nèi)容的渲染和繪制。一些實(shí)施例中,處理器901還可以包括ai(artificial i12tellige12ce,人工智能)處理器,該ai處理器用于處理有關(guān)機(jī)器學(xué)習(xí)的計(jì)算操作。
142.存儲(chǔ)器902可以包括一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是非暫態(tài)的。存儲(chǔ)器902還可包括高速隨機(jī)存取存儲(chǔ)器,以及非易失性存儲(chǔ)器,比如一個(gè)
或多個(gè)磁盤存儲(chǔ)設(shè)備、閃存存儲(chǔ)設(shè)備。在一些實(shí)施例中,存儲(chǔ)器902中的非暫態(tài)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)至少一個(gè)程序代碼,該至少一個(gè)程序代碼用于被處理器901所執(zhí)行以實(shí)現(xiàn)本技術(shù)中方法實(shí)施例提供的語音識(shí)別方法。
143.在一些實(shí)施例中,終端900還可選包括有:外圍設(shè)備接口903和至少一個(gè)外圍設(shè)備。處理器901、存儲(chǔ)器902和外圍設(shè)備接口903之間可以通過總線或信號(hào)線相連。各個(gè)外圍設(shè)備可以通過總線、信號(hào)線或電路板與外圍設(shè)備接口903相連。具體地,外圍設(shè)備包括:射頻電路904、顯示屏905、攝像頭組件906、音頻電路907和電源908中的至少一種。
144.外圍設(shè)備接口903可被用于將i/o(i12put/output,輸入/輸出)相關(guān)的至少一個(gè)外圍設(shè)備連接到處理器901和存儲(chǔ)器902。在一些實(shí)施例中,處理器901、存儲(chǔ)器902和外圍設(shè)備接口903被集成在同一芯片或電路板上;在一些其他實(shí)施例中,處理器901、存儲(chǔ)器902和外圍設(shè)備接口903中的任意一個(gè)或兩個(gè)可以在單獨(dú)的芯片或電路板上實(shí)現(xiàn),本實(shí)施例對(duì)此不加以限定。
145.射頻電路904用于接收和發(fā)射rf(radio freque12cy,射頻)信號(hào),也稱電磁信號(hào)。射頻電路904通過電磁信號(hào)與通信網(wǎng)絡(luò)以及其他通信設(shè)備進(jìn)行通信。射頻電路904將電信號(hào)轉(zhuǎn)換為電磁信號(hào)進(jìn)行發(fā)送,或者,將接收到的電磁信號(hào)轉(zhuǎn)換為電信號(hào)。可選地,射頻電路904包括:天線系統(tǒng)、rf收發(fā)器、一個(gè)或多個(gè)放大器、調(diào)諧器、振蕩器、數(shù)字信號(hào)處理器、編解碼芯片組、用戶身份模塊卡等等。射頻電路904可以通過至少一種無線通信協(xié)議來與其它終端進(jìn)行通信。該無線通信協(xié)議包括但不限于:萬維網(wǎng)、城域網(wǎng)、內(nèi)聯(lián)網(wǎng)、各代移動(dòng)通信網(wǎng)絡(luò)(2g、3g、4g及5g)、無線局域網(wǎng)和/或wifi(wireless fidelity,無線保真)網(wǎng)絡(luò)。在一些實(shí)施例中,射頻電路904還可以包括12fc(12ear field commu12icatio12,近距離無線通信)有關(guān)的電路,本技術(shù)對(duì)此不加以限定。
146.顯示屏905用于顯示ui(user i12terface,用戶界面)。該ui可以包括圖形、文本、圖標(biāo)、視頻及其它們的任意組合。當(dāng)顯示屏905是觸摸顯示屏?xí)r,顯示屏905還具有采集在顯示屏905的表面或表面上方的觸摸信號(hào)的能力。該觸摸信號(hào)可以作為控制信號(hào)輸入至處理器901進(jìn)行處理。此時(shí),顯示屏905還可以用于提供虛擬按鈕和/或虛擬鍵盤,也稱軟按鈕和/或軟鍵盤。在一些實(shí)施例中,顯示屏905可以為一個(gè),設(shè)置在終端900的前面板;在另一些實(shí)施例中,顯示屏905可以為至少兩個(gè),分別設(shè)置在終端900的不同表面或呈折疊設(shè)計(jì);在另一些實(shí)施例中,顯示屏905可以是柔性顯示屏,設(shè)置在終端900的彎曲表面上或折疊面上。甚至,顯示屏905還可以設(shè)置成非矩形的不規(guī)則圖形,也即異形屏。顯示屏905可以采用lcd(liquid crystal display,液晶顯示屏)、oled(orga12ic light-emitti12g diode,有機(jī)發(fā)光二極管)等材質(zhì)制備。
147.攝像頭組件906用于采集圖像或視頻。可選地,攝像頭組件906包括前置攝像頭和后置攝像頭。通常,前置攝像頭設(shè)置在終端的前面板,后置攝像頭設(shè)置在終端的背面。在一些實(shí)施例中,后置攝像頭為至少兩個(gè),分別為主攝像頭、景深攝像頭、廣角攝像頭、長焦攝像頭中的任意一種,以實(shí)現(xiàn)主攝像頭和景深攝像頭融合實(shí)現(xiàn)背景虛化功能、主攝像頭和廣角攝像頭融合實(shí)現(xiàn)全景拍攝以及vr(virtual reality,虛擬現(xiàn)實(shí))拍攝功能或者其它融合拍攝功能。在一些實(shí)施例中,攝像頭組件906還可以包括閃光燈。閃光燈可以是單溫閃光燈,也可以是雙溫閃光燈。雙溫閃光燈是指暖光閃光燈和冷光閃光燈的組合,可以用于不同溫下的光線補(bǔ)償。
148.音頻電路907可以包括麥克風(fēng)和揚(yáng)聲器。麥克風(fēng)用于采集用戶及環(huán)境的聲波,并將聲波轉(zhuǎn)換為電信號(hào)輸入至處理器901進(jìn)行處理,或者輸入至射頻電路904以實(shí)現(xiàn)語音通信。出于立體聲采集或降噪的目的,麥克風(fēng)可以為多個(gè),分別設(shè)置在終端900的不同動(dòng)作部位。麥克風(fēng)還可以是陣列麥克風(fēng)或全向采集型麥克風(fēng)。揚(yáng)聲器則用于將來自處理器901或射頻電路904的電信號(hào)轉(zhuǎn)換為聲波。揚(yáng)聲器可以是傳統(tǒng)的薄膜揚(yáng)聲器,也可以是壓電陶瓷揚(yáng)聲器。當(dāng)揚(yáng)聲器是壓電陶瓷揚(yáng)聲器時(shí),不僅可以將電信號(hào)轉(zhuǎn)換為人類可聽見的聲波,也可以將電信號(hào)轉(zhuǎn)換為人類聽不見的聲波以進(jìn)行測(cè)距等用途。在一些實(shí)施例中,音頻電路907還可以包括耳機(jī)插孔。
149.電源908用于為終端900中的各個(gè)組件進(jìn)行供電。電源908可以是交流電、直流電、一次性電池或可充電電池。當(dāng)電源908包括可充電電池時(shí),該可充電電池可以是有線充電電池或無線充電電池。有線充電電池是通過有線線路充電的電池,無線充電電池是通過無線線圈充電的電池。該可充電電池還可以用于支持快充技術(shù)。
150.在一些實(shí)施例中,終端900還包括有一個(gè)或多個(gè)傳感器909。該一個(gè)或多個(gè)傳感器909包括但不限于:加速度傳感器910、陀螺儀傳感器911、壓力傳感器912、光學(xué)傳感器913以及接近傳感器914。
151.加速度傳感器910可以檢測(cè)以終端900建立的坐標(biāo)系的三個(gè)坐標(biāo)軸上的加速度大小。比如,加速度傳感器910可以用于檢測(cè)重力加速度在三個(gè)坐標(biāo)軸上的分量。處理器901可以根據(jù)加速度傳感器910采集的重力加速度信號(hào),控制顯示屏905以橫向視圖或縱向視圖進(jìn)行用戶界面的顯示。加速度傳感器910還可以用于游戲或者用戶的運(yùn)動(dòng)數(shù)據(jù)的采集。
152.陀螺儀傳感器911可以檢測(cè)終端900的機(jī)體方向及轉(zhuǎn)動(dòng)角度,陀螺儀傳感器911可以與加速度傳感器910協(xié)同采集用戶對(duì)終端900的3d動(dòng)作。處理器901根據(jù)陀螺儀傳感器911采集的數(shù)據(jù),可以實(shí)現(xiàn)如下功能:動(dòng)作感應(yīng)(比如根據(jù)用戶的傾斜操作來改變ui)、拍攝時(shí)的圖像穩(wěn)定、游戲控制以及慣性導(dǎo)航。
153.壓力傳感器912可以設(shè)置在終端900的側(cè)邊框和/或顯示屏905的下層。當(dāng)壓力傳感器912設(shè)置在終端900的側(cè)邊框時(shí),可以檢測(cè)用戶對(duì)終端900的握持信號(hào),由處理器901根據(jù)壓力傳感器912采集的握持信號(hào)進(jìn)行左右手識(shí)別或快捷操作。當(dāng)壓力傳感器912設(shè)置在顯示屏905的下層時(shí),由處理器901根據(jù)用戶對(duì)顯示屏905的壓力操作,實(shí)現(xiàn)對(duì)ui界面上的可操作性控件進(jìn)行控制。可操作性控件包括按鈕控件、滾動(dòng)條控件、圖標(biāo)控件、菜單控件中的至少一種。
154.光學(xué)傳感器913用于采集環(huán)境光強(qiáng)度。在一個(gè)實(shí)施例中,處理器901可以根據(jù)光學(xué)傳感器913采集的環(huán)境光強(qiáng)度,控制顯示屏905的顯示亮度。具體地,當(dāng)環(huán)境光強(qiáng)度較高時(shí),調(diào)高顯示屏905的顯示亮度;當(dāng)環(huán)境光強(qiáng)度較低時(shí),調(diào)低顯示屏905的顯示亮度。在另一個(gè)實(shí)施例中,處理器901還可以根據(jù)光學(xué)傳感器913采集的環(huán)境光強(qiáng)度,動(dòng)態(tài)調(diào)整攝像頭組件906的拍攝參數(shù)。
155.接近傳感器914,也稱距離傳感器,通常設(shè)置在終端900的前面板。接近傳感器914用于采集用戶與終端900的正面之間的距離。在一個(gè)實(shí)施例中,當(dāng)接近傳感器914檢測(cè)到用戶與終端900的正面之間的距離逐漸變小時(shí),由處理器901控制顯示屏905從亮屏狀態(tài)切換為息屏狀態(tài);當(dāng)接近傳感器914檢測(cè)到用戶與終端900的正面之間的距離逐漸變大時(shí),由處理器901控制顯示屏905從息屏狀態(tài)切換為亮屏狀態(tài)。
156.本領(lǐng)域技術(shù)人員可以理解,圖9中示出的結(jié)構(gòu)并不構(gòu)成對(duì)終端900的限定,可以包括比圖示更多或更少的組件,或者組合某些組件,或者采用不同的組件布置。
157.圖10是根據(jù)本技術(shù)實(shí)施例提供的一種服務(wù)器的結(jié)構(gòu)示意圖,該服務(wù)器1000可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上處理器(central processing units,cpu)1001和一個(gè)或一個(gè)以上的存儲(chǔ)器1002,其中,該存儲(chǔ)器1002中存儲(chǔ)有至少一條計(jì)算機(jī)程序,該至少一條計(jì)算機(jī)程序由該處理器1001加載并執(zhí)行以實(shí)現(xiàn)上述各個(gè)方法實(shí)施例提供的語音識(shí)別方法。當(dāng)然,該服務(wù)器還可以具有有線或無線網(wǎng)絡(luò)接口、鍵盤以及輸入輸出接口等部件,以便進(jìn)行輸入輸出,該服務(wù)器還可以包括其他用于實(shí)現(xiàn)設(shè)備功能的部件,在此不做贅述。
158.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條程序代碼,至少一條程序代碼由處理器加載并執(zhí)行,以實(shí)現(xiàn)上述任一實(shí)現(xiàn)方式的語音識(shí)別方法。
159.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序代碼,計(jì)算機(jī)程序代碼存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取計(jì)算機(jī)程序代碼,處理器執(zhí)行計(jì)算機(jī)程序代碼,使得計(jì)算機(jī)設(shè)備執(zhí)行上述任一實(shí)現(xiàn)方式的語音識(shí)別方法。
160.在一些實(shí)施例中,本技術(shù)實(shí)施例所涉及的計(jì)算機(jī)程序產(chǎn)品可被部署在一個(gè)計(jì)算機(jī)設(shè)備上執(zhí)行,或者在位于一個(gè)地點(diǎn)的多個(gè)計(jì)算機(jī)設(shè)備上執(zhí)行,又或者,在分布在多個(gè)地點(diǎn)且通過通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)設(shè)備上執(zhí)行,分布在多個(gè)地點(diǎn)且通過通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)設(shè)備可以組成區(qū)塊鏈系統(tǒng)。
161.以上僅為本技術(shù)的可選實(shí)施例,并不用以限制本技術(shù),凡在本技術(shù)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本技術(shù)的保護(hù)范圍之內(nèi)。

技術(shù)特征:


1.一種語音識(shí)別方法,其特征在于,所述方法包括:將語音信號(hào)輸入語音識(shí)別模型,得到所述語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),所述第一候選文本參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率和所述候選文本序列符合語言邏輯的概率;將所述多個(gè)候選文本序列輸入第一語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù),所述第一語言參數(shù)用于表示所述候選文本序列符合語言邏輯的概率;將所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)輸入第二語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),所述第二語言模型的訓(xùn)練語料與所述語音識(shí)別模型的訓(xùn)練語料相同,所述第二語言參數(shù)用于模擬所述第一候選文本參數(shù)中所述候選文本序列符合語言邏輯的概率;基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù),所述聲學(xué)參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率;基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述語音信號(hào)對(duì)應(yīng)的文本信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一候選文本參數(shù)包括所述文本信息中多個(gè)位置的候選詞的概率,所述將所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)輸入第二語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),包括:對(duì)于每個(gè)候選文本序列,將所述候選文本序列和所述候選文本序列的第一候選文本參數(shù)輸入所述第二語言模型;通過所述第二語言模型,基于第一候選詞確定所述第一候選詞的第二語言參數(shù),所述第一候選詞為所述候選文本序列中的第一個(gè)候選詞;通過所述第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和所述第二候選詞確定所述第二候選詞的第二語言參數(shù),所述第二候選詞為所述候選文本序列中除所述第一候選詞以外的候選詞;基于所述第一候選詞的第二語言參數(shù)和所述第二候選詞的第二語言參數(shù),確定所述候選文本序列的第二語言參數(shù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過所述第二語言模型,基于第二候選詞的前一個(gè)候選詞的概率和所述第二候選詞確定所述第二候選詞的第二語言參數(shù),包括:通過所述第二語言模型,基于所述第二候選詞的前一個(gè)候選詞的概率、第二語言參數(shù)和所述第二候選詞,確定所述第二候選詞的第二語言參數(shù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),包括:獲取所述多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù),所述發(fā)音參數(shù)用于表示所述候選文
本序列符合所述語音信號(hào)的發(fā)音的概率;基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的發(fā)音參數(shù)、聲學(xué)參數(shù)和第二語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù)。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述語音信號(hào)對(duì)應(yīng)的文本信息,包括:基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述多個(gè)候選文本序列中的目標(biāo)候選文本序列,所述目標(biāo)候選文本序列的第二候選文本參數(shù)最大;確定所述目標(biāo)候選文本序列對(duì)應(yīng)的所述文本信息。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音信號(hào)對(duì)應(yīng)的文本信息是通過所述語音識(shí)別模型和解碼裝置確定的,所述解碼裝置包括所述第一語言模型和解碼器;所述解碼器,用于基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述文本信息。7.一種語音識(shí)別裝置,其特征在于,所述裝置包括:第一輸入模塊,用于將語音信號(hào)輸入語音識(shí)別模型,得到所述語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù),所述第一候選文本參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率和所述候選文本序列符合語言邏輯的概率;第二輸入模塊,用于將所述多個(gè)候選文本序列輸入第一語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù),所述第一語言參數(shù)用于表示所述候選文本序列符合語言邏輯的概率;第三輸入模塊,用于將所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù)輸入第二語言模型,得到所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù),所述第二語言模型的訓(xùn)練語料與所述語音識(shí)別模型的訓(xùn)練語料相同,所述第二語言參數(shù)用于模擬所述第一候選文本參數(shù)中所述候選文本序列符合語言邏輯的概率;第一確定模塊,用于基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù),所述聲學(xué)參數(shù)用于表示所述候選文本序列為所述語音信號(hào)對(duì)應(yīng)的文本信息的概率;第二確定模塊,用于基于所述多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);第三確定模塊,用于基于所述多個(gè)候選文本序列和所述多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù),確定所述語音信號(hào)對(duì)應(yīng)的文本信息。8.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括一個(gè)或多個(gè)處理器和一個(gè)或多個(gè)存儲(chǔ)器,所述一個(gè)或多個(gè)存儲(chǔ)器中存儲(chǔ)有至少一條程序代碼,所述至少一條程序代碼由所述一個(gè)或多個(gè)處理器加載并執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至權(quán)利要求6任一項(xiàng)所述的語音識(shí)別方法。9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條程序代碼,所述至少一條程序代碼由處理器加載并執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至權(quán)利要求6任一項(xiàng)所述的語音識(shí)別方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)程序代碼,所述處理器執(zhí)行所述計(jì)算機(jī)程序代碼,使得所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至權(quán)利要求6任一項(xiàng)所述的語音識(shí)別方法。

技術(shù)總結(jié)


本申請(qǐng)?zhí)峁┝艘环N語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品,屬于語音識(shí)別技術(shù)領(lǐng)域,可應(yīng)用于語音識(shí)別、人工智能以及車載等場(chǎng)景。方法包括:將語音信號(hào)輸入語音識(shí)別模型,得到語音信號(hào)的多個(gè)候選文本序列分別對(duì)應(yīng)的第一候選文本參數(shù);確定多個(gè)候選文本序列分別對(duì)應(yīng)的第一語言參數(shù)和第二語言參數(shù);基于多個(gè)候選文本序列分別對(duì)應(yīng)的第二語言參數(shù)和第一候選文本參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù);基于多個(gè)候選文本序列分別對(duì)應(yīng)的聲學(xué)參數(shù)和第一語言參數(shù),確定多個(gè)候選文本序列分別對(duì)應(yīng)的第二候選文本參數(shù);基于多個(gè)候選文本序列和其分別對(duì)應(yīng)的第二候選文本參數(shù),確定語音信號(hào)對(duì)應(yīng)的文本信息,提高了對(duì)語音信號(hào)進(jìn)行識(shí)別的準(zhǔn)確性。進(jìn)行識(shí)別的準(zhǔn)確性。進(jìn)行識(shí)別的準(zhǔn)確性。


技術(shù)研發(fā)人員:

馬東鵬

受保護(hù)的技術(shù)使用者:

騰訊科技(深圳)有限公司

技術(shù)研發(fā)日:

2022.04.07

技術(shù)公布日:

2022/9/27


文章投稿或轉(zhuǎn)載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-29064-0.html

來源:專利查詢檢索下載-實(shí)用文體寫作網(wǎng)版權(quán)所有,轉(zhuǎn)載請(qǐng)保留出處。本站文章發(fā)布于 2022-12-10 12:30:15

發(fā)表評(píng)論

驗(yàn)證碼:
用戶名: 密碼: 匿名發(fā)表
評(píng)論列表 (有 條評(píng)論
2人圍觀
參與討論