一種舞蹈生成方法、裝置、設備及存儲介質與流程
1.本技術實施例涉及人工智能領域,尤其涉及一種舞蹈生成方法、裝置、設備及存儲介質。
背景技術:
2.近年來,計算機視覺(computer vision,cv)技術在越來越多的領域得到廣泛應用。作為計算機視覺領域的一個重要研究方向,由音樂驅動的舞蹈生成具有豐富的應用前景。比如,在虛擬直播、虛擬客服、虛擬游戲等場景中,可將生成的人體舞蹈應用到受控對象上,使得受控對象可以隨音樂而舞動。
3.現有技術中,可將音頻信號與3d人體關鍵點序列建立聯系,從而得到音頻對應的舞蹈動作,即,在不同音樂節拍下,控制受控對象的各個人體關鍵點到達預設位置,以使受控對象產生舞動的動作效果。然而,這種方式下生成的舞蹈動作是由音頻信號直接映射得來的,導致舞蹈動作不夠自然和協調,可能會違背人體的行為邏輯。因此,亟待提出一種解決方案。
技術實現要素:
4.本技術實施例提供一種舞蹈生成方法、裝置、設備及存儲介質,用以為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。
5.本技術實施例提供一種舞蹈生成方法,包括:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。
6.進一步可選地,獲取目標音頻的特征值信息,包括:利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值;其中,所述音頻特征值提取模型,預先通過舞蹈訓練集中的音樂數據,學習音樂數據與音頻特征值的關系。
7.進一步可選地,利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值,包括:在所述音頻特征值提取模型中,對所述目標音頻進行分幀處理,得到多個音頻子片段;根據相鄰音頻子片段之間的音頻變化趨勢和每個音頻子片段內的音頻變化趨勢,計算得到所述多個音頻子片段對應的音頻特征值。
8.進一步可選地,所述舞姿編碼庫,包括:多個舞姿類型各自的至少一個舞姿編碼;
利用所述音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列,包括:針對所述多個音頻子片段中的任一音頻子片段,利用所述音頻-舞姿匹配模型,確定所述音頻子片段對應的音頻特征值所屬的目標音頻類型;根據預設的音頻類型與舞姿類型的對應關系,確定所述目標音頻類型對應的舞姿類型,作為所述音頻子片段對應的目標舞姿類型;從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼;根據所述多個音頻子片段的排列順序,對所述多個音頻子片段各自的目標舞姿編碼進行排序,得到所述舞姿編碼序列。
9.進一步可選地,從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼,包括:分別確定所述音頻子片段與所述目標舞姿類型的至少一個舞姿編碼的匹配度;以及,從所述目標舞姿類型的至少一個舞姿編碼中,選擇匹配度最高的舞姿編碼作為所述音頻子片段的目標舞姿編碼,或者,隨機從所述目標舞姿類型的至少一個舞姿編碼中選取任一舞姿編碼,作為所述音頻子片段的目標舞姿編碼;或者,確定所述目標舞姿類型的至少一個舞姿編碼各自的舞蹈風格;從所述目標舞姿類型的至少一個舞姿編碼中選取與用戶偏好的舞蹈風格匹配度最高的舞姿編碼,作為所述音頻子片段的目標舞姿編碼。
10.進一步可選地,所述舞蹈動作序列包括:所述多個音頻子片段各自對應的關鍵點信息;任一音頻子片段的關鍵點信息包括:受控對象上的多個三維人體關鍵點各自的目標位置和目標方向。
11.進一步可選地,得到所述目標音頻對應的舞蹈動作序列之后,還包括:將所述舞蹈動作序列發送至所述受控對象,以使所述受控對象上的多個三維人體關鍵點沿著所述目標方向移動至所述目標位置。
12.本技術實施例還提供一種舞蹈生成裝置,包括:獲取模塊,用于:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;匹配模塊,用于:利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;轉換模塊,用于:利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。
13.本技術實施例還提供一種電子設備,包括:存儲器、處理器以及通信組件;其中,所述存儲器用于:存儲一條或多條計算機指令;所述處理器用于執行所述一條或多條計算機指令,以用于:執行所述舞蹈生成方法中的步驟。
14.本技術實施例還提供一種存儲有計算機程序的計算機可讀存儲介質,當計算機程序被處理器執行時,致使處理器實現所述舞蹈生成方法中的步驟。
15.在本技術實施例,可獲取待合成舞蹈的目標音頻的特征值信息;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;并利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉
換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,音頻-舞姿匹配模型預先通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。通過這種方式,可利用音頻-舞姿匹配模型為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。
附圖說明
16.此處所說明的附圖用來提供對本技術的進一步理解,構成本技術的一部分,本技術的示意性實施例及其說明用于解釋本技術,并不構成對本技術的不當限定。在附圖中:
17.圖1為本技術一示例性實施例提供的一種舞蹈生成方法的流程示意圖;
18.圖2為本技術一示例性實施例提供的一種舞蹈生成裝置的結構示意圖;
19.圖3為本技術一示例性實施例提供的電子設備的結構示意圖。
具體實施方式
20.為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
21.現有技術中,可將音頻信號與3d人體關鍵點序列建立聯系,從而得到音頻對應的舞蹈動作,即,在不同音樂節拍下,控制受控對象的各個人體關鍵點到達預設位置,以使受控對象產生舞動的動作效果。然而,這種方式下生成的舞蹈動作是由音頻信號直接映射得來的,導致舞蹈動作不夠自然和協調,可能會違背人體的行為邏輯。因此,亟待提出一種解決方案。
22.針對上述技術問題,在本技術一些實施例中,提供了一種解決方案。以下將結合附圖,詳細說明本技術各實施例提供的技術方案。
23.圖1為本技術一示例性實施例提供的一種舞蹈生成方法的流程示意圖,如圖1所示,該方法包括:
24.步驟11、獲取待合成舞蹈的目標音頻的特征值信息;特征值信息包括:目標音頻中的多個音頻子片段各自對應的音頻特征值。
25.步驟12、利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。
26.步驟13、利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列;舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。
27.本實施例可由電子設備執行。電子設備可包括計算機、平板電腦或手機等等。
28.需要說明的是,音頻可視為特征值信息的載體,換言之,音頻可具有各自的特征值。每個音頻可具有聲波的頻率信息和幅度變化信息等等,這些頻率信息和幅度變化信息均可被視為特征值信息。
29.在本實施例中,電子設備可獲取目標音頻的特征值信息。其中,目標音頻指的是待合成舞蹈的音頻。其中,特征值信息可用于表示音頻的特征。其中,特征值信息可包括:目標音頻中的多個音頻子片段各自對應的音頻特征值。比如,電子設備獲取的音頻的特征值信息包括:音頻子片段p1的音頻特征值u1、音頻子片段p2的音頻特征值u2、音頻子片段p3的音頻特征值u3和音頻子片段p4的音頻特征值u4。
30.獲取到特征值信息后,電子設備可利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列。
31.其中,舞姿編碼庫中存儲有多個舞姿類型,每個舞姿類型可對應有一個或多個舞姿編碼。比如,舞姿編碼庫中可存儲有舞姿類型f1的舞姿編碼h1-h15共15個舞姿編碼,舞姿類型f2的舞姿編碼h16-h19共4個舞姿編碼,舞姿類型f3的舞姿編碼h20-h50共31個舞姿編碼。
32.其中,音頻-舞姿匹配模型已預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。其中,深度學習算法是一種基于對數據進行表征學習的機器學習的算法,該算法可通過學習樣本數據的內在規律和表示層次,以使建立的模型具有分析學習能力且能夠對數據進行分析處理。
33.換言之,音頻-舞姿匹配模型已通過模型訓練而學習到了音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系,進而可根據學習到的該匹配關系為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼。
34.結合前述例子進行舉例說明,電子設備可利用音頻-舞姿匹配模型從預設的舞姿編碼庫中,為音頻子片段p1的音頻特征值u1匹配符合預設條件的舞姿編碼h16;為音頻子片段p2的音頻特征值u2匹配符合預設條件的舞姿編碼h40;為音頻子片段p3的音頻特征值u3匹配符合預設條件的舞姿編碼h26;為音頻子片段p4的音頻特征值u4匹配符合預設條件的舞姿編碼h49。
35.基于上述匹配舞姿編碼的步驟,電子設備可得到目標音頻的多個音頻子片段各自對應的舞姿編碼,進而,電子設備可按照這些音頻子片段的排列順序,將這些舞姿編碼進行組合得到舞姿編碼序列。結合前述例子進行舉例說明,音頻子片段p1-p4的排列順序為p1-p2-p3-p4,可基于這些音頻子片段得到舞姿編碼序列:h16-h40-h26-h49。
36.電子設備得到舞姿編碼序列后,可利用舞姿生成模型,將該舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,舞蹈動作信息可用于表示每一個音頻子片段對應的舞蹈動作。
37.其中,舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈中的舞姿編碼和舞蹈動作信息的轉換關系,進而,舞姿生成模型可根據該轉換關系,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息。換言之,舞姿生成模型通過模型訓練而具備將舞姿編碼轉換為舞蹈動作信息的能力。
38.結合前述例子進行舉例說明,電子設備可將舞姿編碼序列h16-h40-h26-h49中的舞姿編碼h16、h40、h26和h49,分別轉換為對應的舞蹈動作信息d16、d40、d26和d49,并基于這些音頻子片段各自的舞蹈動作信息得到目標音頻對應的舞蹈動作序列d16-d40-d26-d49。
39.在本實施例中,可獲取待合成舞蹈的目標音頻的特征值信息;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;并利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,音頻-舞姿匹配模型預先通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。通過這種方式,可利用音頻-舞姿匹配模型為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。
40.在一些可選的實施例中,電子設備可利用音頻特征值提取模型,確定目標音頻中的多個音頻子片段各自對應的音頻特征值,以獲取目標音頻的特征值信息。
41.其中,音頻特征值提取模型,已預先通過舞蹈訓練集中的音樂數據,學習音樂數據與音頻特征值的關系。換言之,音頻特征值提取模型通過模型訓練而具備了確定音頻特征值的能力。
42.以下將對“利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值”這一過程進行進一步說明。
43.在音頻特征值提取模型中,可對目標音頻進行分幀處理,得到多個音頻子片段。例如,可以每30ms作為一個音頻子片段,當然,具體選擇多少ms作為一幀音頻子片段的長度,本技術不作限定,可以按照實際需要選擇,比如,20ms,25ms,40ms等。
44.進行分幀處理后,音頻特征值提取模型可根據相鄰音頻子片段之間的音頻變化趨勢和每個音頻子片段內的音頻變化趨勢,計算得到多個音頻子片段對應的音頻特征值。
45.在該步驟中,音頻特征值提取模型可先對每一個音頻子片段進行快速傅立葉變換(fast fourier transform,簡稱為fft)變換,從而將音頻子片段轉換至頻域。進而,可利用mfcc(mel-frequency cepstral coefficients,梅爾頻率倒譜系數)特征參數提取算法獲得預定維數的特征向量(例如12維)。經過mfcc特征計算之后,每一個音頻子片段可被轉換為一個預定維數的向量。進一步的,針對任一音頻子片段,可根據該音頻子片段的前后兩個音頻子片段的向量值以及該音頻子片段內相鄰向量值,將該音頻子片段轉換為一個二進制序列。
46.之后,可直接以得到的二進制序列作為音頻特征值,也可以二進制序列所對應的十進制作為音頻特征值,舉例而言,如果某一個音頻子片段的二進制序列為00000000101,那么可以以00000000101作為最終的音頻特征值,也可以5作為最終的音頻特征值。
47.通過這種方式,有效地將每個相鄰子片段之間、子片段內之間的關系加入了音頻特征值的計算,從而可更準確地確定多個音頻子片段對應的音頻特征值。
48.在一些可選的實施例中,前述實施例中的步驟12“利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列”,可基于以下步驟121-步驟124實現:
49.步驟121、針對多個音頻子片段中的任一音頻子片段,利用音頻-舞姿匹配模型,確定音頻子片段對應的音頻特征值所屬的目標音頻類型。其中,目標音頻類型指的是多個音頻子片段中的任一音頻子片段所屬的音頻類型。
50.其中,電子設備可存儲有多個音頻類型且這些音頻類型具有各自的特征值條件。其中,音頻類型可為流行、朋克或搖滾等等,也可為舒緩、激烈或急促等等,本實施例不做限
制。針對多個音頻子片段中的任一音頻子片段,電子設備可利用音頻-舞姿匹配模型,依次將存儲的多個音頻類型各自的特征值條件與該音頻子片段的音頻特征值進行對比,并同時判斷該音頻子片段是否符合特征值條件。若判定為符合某個特征值條件,則將該特征值條件對應的音頻類型作為該音頻子片段對應的音頻特征值所屬的目標音頻類型。
51.步驟122、根據預設的音頻類型與舞姿類型的對應關系,確定目標音頻類型對應的舞姿類型,作為音頻子片段對應的目標舞姿類型。
52.其中,音頻類型與舞姿類型的對應關系可由音頻-舞姿匹配模型在其訓練過程中建立,也可由開發人員進行自定義修改,比如新增或刪除。舉例說明,音頻類型與舞姿類型的對應關系可為音頻類型m10-舞姿類型f15,m21舞姿類型f65等等。
53.已知音頻類型與舞姿類型的對應關系,和,子片段對應的音頻特征值所屬的目標音頻類型,可得到目標音頻類型對應的舞姿類型,進而,可將該舞姿類型作為音頻子片段對應的目標舞姿類型。其中,目標舞姿類型指的是多個音頻子片段中的任一音頻子片段對應的舞姿類型。
54.通過上述步驟122得到音頻子片段對應的目標舞姿類型后,可基于執行以下步驟123以進一步從目標舞姿類型中獲取音頻子片段的目標舞姿編碼:
55.步驟123、從目標舞姿類型的至少一個舞姿編碼中,選取與音頻子片段匹配的舞姿編碼,作為音頻子片段的目標舞姿編碼。需要說明的是,目標舞姿類型下可包括一個或多個舞姿編碼。若目標舞姿類型下只有一個舞姿編碼,則可直接將該舞姿編碼作為音頻子片段的目標舞姿編碼。若目標舞姿類型下有多個舞姿編碼,則需要進行相應地匹配。
56.可選地,可利用音頻-舞姿匹配模型,分別確定音頻子片段與目標舞姿類型的至少一個舞姿編碼的匹配度。其中,電子設備可預設有多個舞姿編碼各自的舞姿詳情信息,比如舞姿的節奏和動作幅度等等。進而,可利用音頻-舞姿匹配模型,基于多個舞姿編碼各自的舞姿詳情信息,確定目標舞姿類型的至少一個舞姿編碼和音頻子片段的匹配度。進而,可利用音頻-舞姿匹配模型從目標舞姿類型的至少一個舞姿編碼中,選擇匹配度最高的舞姿編碼作為音頻子片段的目標舞姿編碼。
57.可選地,可利用音頻-舞姿匹配模型隨機從目標舞姿類型的至少一個舞姿編碼中選取任一舞姿編碼作為音頻子片段的目標舞姿編碼。
58.可選地,可基于預設的多個舞姿編碼各自的舞姿詳情信息,確定目標舞姿類型的至少一個舞姿編碼各自的舞蹈風格。之后,可確定目標舞姿類型的至少一個舞姿編碼與用戶偏好的舞蹈風格的匹配度,并從中選取匹配度最高的舞姿編碼,作為音頻子片段的目標舞姿編碼。其中,用戶偏好的舞蹈風格可由用戶進行自定義設置。
59.通過上述步驟123中的多元化地舞姿編碼選取方式,可較為準確地獲取到與每個音頻子片段最為契合的舞姿編碼。
60.進而,可繼續執行下述步驟124以基于目標音頻中的多個音頻子片段各自的目標舞姿編碼得到舞姿編碼序列:
61.步驟124、根據多個音頻子片段的排列順序,對多個音頻子片段各自的目標舞姿編碼進行排序,得到舞姿編碼序列。
62.通過上述步驟121-步驟124,電子設備可利用音頻-舞姿匹配模型,為多個音頻子片段各自對應的音頻特征值匹配到與音頻更加契合的舞姿編碼,進而得到與音頻更加契合
的舞姿編碼序列。
63.在上述各個實施例的基礎上,在得到目標音頻對應的舞蹈動作序列之后,可基于該舞蹈動作序列生成對應的舞蹈視頻文件,以使用戶可通過視頻播放器進行觀看。或者,可將該舞蹈動作序列發送至受控對象。受控對象可包括:虛擬對象和真實對象。其中,虛擬對象可為虛擬人物,真實對象可為機器人。舞蹈動作序列可包括:多個音頻子片段各自對應的關鍵點信息。其中,任一音頻子片段的關鍵點信息可包括:受控對象上的多個三維人體關鍵點各自的目標位置和目標方向。
64.對應地,受控對象接受到該舞蹈動作序列后,可根據該舞蹈動作序列,控制受控對象上的多個三維人體關鍵點,沿著目標方向移動至目標位置,從而形成一種舞動的視覺效果。
65.以下,將對上述音頻特征值提取模型、舞姿生成模型和音頻-舞姿匹配模型的訓練過程,進行進一步說明。
66.在訓練音頻特征值提取模型時,可將舞蹈訓練集中的音樂數據輸入到該模型中,得到音頻特征值。之后,可將模型得到的音頻特征值與實際的音頻特征值進行對比,即可確定音頻特征值提取模型的誤差。以不斷收斂該誤差為目標對音頻特征值提取模型的參數進行優化,即可得到訓練完成的音頻特征值提取模型。
67.在訓練舞姿生成模型時,可將舞蹈訓練集中的舞蹈數據輸入到該模型中,得到舞蹈動作信息。之后,可將模型得到的舞蹈動作信息與實際的舞蹈動作進行對比,即可確定舞姿生成模型的誤差。以不斷收斂該誤差為目標對舞姿生成模型的參數進行優化,即可得到訓練完成的舞姿生成模型。
68.在訓練音頻-舞姿匹配模型時,可通過舞蹈訓練集中的舞蹈數據和音樂數據對該模型進行訓練。其中,可將某個音頻子片段的音頻特征值輸入到該模型,該模型可輸出一個與該音頻特征值對應的舞姿編碼。進而,可確定該舞姿編碼和訓練人員期望的舞姿編碼之間的誤差。以不斷收斂該誤差為目標對音頻-舞姿匹配模型的參數進行優化,即可得到訓練完成的音頻-舞姿匹配模型。
69.需要說明的是,上述實施例所提供方法的各步驟的執行主體均可以是同一設備,或者,該方法也由不同設備作為執行主體。比如,步驟11至步驟13的執行主體可以為設備a;又比如,步驟11和12的執行主體可以為設備a,步驟13的執行主體可以為設備b;等等。
70.另外,在上述實施例及附圖中的描述的一些流程中,包含了按照特定順序出現的多個操作,但是應該清楚了解,這些操作可以不按照其在本文中出現的順序來執行或并行執行,操作的序號如11、12等,僅僅是用于區分開各個不同的操作,序號本身不代表任何的執行順序。另外,這些流程可以包括更多或更少的操作,并且這些操作可以按順序執行或并行執行。
71.需要說明的是,本文中的“第一”、“第二”等描述,是用于區分不同的消息、設備、模塊等,不代表先后順序,也不限定“第一”和“第二”是不同的類型。
72.圖2是本技術一示例性實施例提供的一種舞蹈生成裝置的結構示意圖,如圖2所示,該裝置包括:獲取模塊201、匹配模塊202、轉換模塊203。
73.其中,獲取模塊201用于:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;匹配模塊202,用于:
利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;轉換模塊203,用于:利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。
74.進一步可選地,獲取模塊201在獲取目標音頻的特征值信息時,具體用于:利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值;其中,所述音頻特征值提取模型,預先通過舞蹈訓練集中的音樂數據,學習音樂數據與音頻特征值的關系。
75.進一步可選地,獲取模塊201在利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值時,具體用于:在所述音頻特征值提取模型中,對所述目標音頻進行分幀處理,得到多個音頻子片段;根據相鄰音頻子片段之間的音頻變化趨勢和每個音頻子片段內的音頻變化趨勢,計算得到所述多個音頻子片段對應的音頻特征值。
76.進一步可選地,所述舞姿編碼庫,包括:多個舞姿類型各自的至少一個舞姿編碼;匹配模塊202利用所述音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列時,具體用于:針對所述多個音頻子片段中的任一音頻子片段,利用所述音頻-舞姿匹配模型,確定所述音頻子片段對應的音頻特征值所屬的目標音頻類型;根據預設的音頻類型與舞姿類型的對應關系,確定所述目標音頻類型對應的舞姿類型,作為所述音頻子片段對應的目標舞姿類型;從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼;根據所述多個音頻子片段的排列順序,對所述多個音頻子片段各自的目標舞姿編碼進行排序,得到所述舞姿編碼序列。
77.進一步可選地,匹配模塊202從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼時,具體用于:分別確定所述音頻子片段與所述目標舞姿類型的至少一個舞姿編碼的匹配度;以及,從所述目標舞姿類型的至少一個舞姿編碼中,選擇匹配度最高的舞姿編碼作為所述音頻子片段的目標舞姿編碼,或者,隨機從所述目標舞姿類型的至少一個舞姿編碼中選取任一舞姿編碼,作為所述音頻子片段的目標舞姿編碼;或者,確定所述目標舞姿類型的至少一個舞姿編碼各自的舞蹈風格;從所述目標舞姿類型的至少一個舞姿編碼中選取與用戶偏好的舞蹈風格匹配度最高的舞姿編碼,作為所述音頻子片段的目標舞姿編碼。
78.進一步可選地,所述舞蹈動作序列包括:所述多個音頻子片段各自對應的關鍵點信息;任一音頻子片段的關鍵點信息包括:受控對象上的多個三維人體關鍵點各自的目標位置和目標方向。
79.進一步可選地,轉換模塊203在得到所述目標音頻對應的舞蹈動作序列之后,還用于:將所述舞蹈動作序列發送至所述受控對象,以使所述受控對象上的多個三維人體關鍵點沿著所述目標方向移動至所述目標位置。
80.在本實施例中,可獲取待合成舞蹈的目標音頻的特征值信息;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;并利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,音頻-舞姿匹配模型預先通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。通過這種方式,可利用音頻-舞姿匹配模型為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。
81.圖3是本技術一示例性實施例提供的電子設備的結構示意圖,如圖3所示,該電子設備包括:存儲器301以及處理器302。
82.存儲器301,用于存儲計算機程序,并可被配置為存儲其它各種數據以支持在終端設備上的操作。這些數據的示例包括用于在終端設備上操作的任何應用程序或方法的指令,聯系人數據,電話簿數據,消息,圖片,視頻等。
83.其中,存儲器301可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現,如靜態隨機存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
84.處理器302,與存儲器301耦合,用于執行存儲器301中的計算機程序,以用于:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。
85.進一步可選地,處理器302在獲取目標音頻的特征值信息時,具體用于:利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值;其中,所述音頻特征值提取模型,預先通過舞蹈訓練集中的音樂數據,學習音樂數據與音頻特征值的關系。
86.進一步可選地,處理器302利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值時,具體用于:在所述音頻特征值提取模型中,對所述目標音頻進行分幀處理,得到多個音頻子片段;根據相鄰音頻子片段之間的音頻變化趨勢和每個音頻子片段內的音頻變化趨勢,計算得到所述多個音頻子片段對應的音頻特征值。
87.進一步可選地,所述舞姿編碼庫,包括:多個舞姿類型各自的至少一個舞姿編碼;處理器302利用所述音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列時,具體用于:針對所述多個音頻子片段中的任一音頻子片段,利用所述音頻-舞姿匹配模型,確定所述音頻子片段對應的音頻特征值所屬的目標音頻類型;根據預設的音頻類型與舞姿類型的對應關系,確定所述目標音頻類型對應的舞姿類型,作為所述音頻子片段對應的目標舞姿類型;從
所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼;根據所述多個音頻子片段的排列順序,對所述多個音頻子片段各自的目標舞姿編碼進行排序,得到所述舞姿編碼序列。
88.進一步可選地,處理器302從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼時,具體用于:分別確定所述音頻子片段與所述目標舞姿類型的至少一個舞姿編碼的匹配度;以及,從所述目標舞姿類型的至少一個舞姿編碼中,選擇匹配度最高的舞姿編碼作為所述音頻子片段的目標舞姿編碼,或者,隨機從所述目標舞姿類型的至少一個舞姿編碼中選取任一舞姿編碼,作為所述音頻子片段的目標舞姿編碼;或者,確定所述目標舞姿類型的至少一個舞姿編碼各自的舞蹈風格;從所述目標舞姿類型的至少一個舞姿編碼中選取與用戶偏好的舞蹈風格匹配度最高的舞姿編碼,作為所述音頻子片段的目標舞姿編碼。
89.進一步可選地,所述舞蹈動作序列包括:所述多個音頻子片段各自對應的關鍵點信息;任一音頻子片段的關鍵點信息包括:受控對象上的多個三維人體關鍵點各自的目標位置和目標方向。
90.進一步可選地,處理器302得到所述目標音頻對應的舞蹈動作序列之后,還用于:將所述舞蹈動作序列發送至所述受控對象,以使所述受控對象上的多個三維人體關鍵點沿著所述目標方向移動至所述目標位置。
91.上述圖3中的存儲器可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現,如靜態隨機存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
92.進一步,如圖3所示,該電子設備還包括:通信組件303和電源組件304等其它組件。圖3中僅示意性給出部分組件,并不意味著電子設備只包括圖3所示組件。
93.上述圖3中的通信組件303被配置為便于通信組件所在設備和其他設備之間有線或無線方式的通信。通信組件所在設備可以接入基于通信標準的無線網絡,如wifi,2g、3g、4g或5g,或它們的組合。在一個示例性實施例中,通信組件經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中,通信組件可基于近場通信(nfc)技術、射頻識別(rfid)技術、紅外數據協會(irda)技術、超寬帶(uwb)技術、藍牙(bt)技術和其他技術來實現。
94.其中,電源組件304,為電源組件所在設備的各種組件提供電力。電源組件可以包括電源管理系統,一個或多個電源,及其他與為電源組件所在設備生成、管理和分配電力相關聯的組件。
95.在本實施例中,可獲取待合成舞蹈的目標音頻的特征值信息;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;并利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,音頻-舞姿匹配模型預先通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。通過這種方式,可利用音頻-舞姿匹配模型為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。
96.相應地,本技術實施例還提供一種存儲有計算機程序的計算機可讀存儲介質,當計算機程序被處理器執行時,致使處理器實現舞蹈生成方法中的步驟。
97.本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。
98.本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
99.這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
100.這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
101.在一個典型的配置中,計算設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。
102.內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內存等形式,如只讀存儲器(rom)或閃存(flash ram)。內存是計算機可讀介質的示例。
103.計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(cd-rom)、數字多功能光盤(dvd)或其他光學存儲、磁盒式磁帶,磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
104.還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個
……”
限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
105.以上所述僅為本技術的實施例而已,并不用于限制本技術。對于本領域技術人員來說,本技術可以有各種更改和變化。凡在本技術的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本技術的權利要求范圍之內。
技術特征:
1.一種舞蹈生成方法,其特征在于,包括:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。2.根據權利要求1所述的方法,其特征在于,獲取目標音頻的特征值信息,包括:利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值;其中,所述音頻特征值提取模型,預先通過舞蹈訓練集中的音樂數據,學習音樂數據與音頻特征值的關系。3.根據權利要求2所述的方法,其特征在于,利用音頻特征值提取模型,確定所述目標音頻中的多個音頻子片段各自對應的音頻特征值,包括:在所述音頻特征值提取模型中,對所述目標音頻進行分幀處理,得到多個音頻子片段;根據相鄰音頻子片段之間的音頻變化趨勢和每個音頻子片段內的音頻變化趨勢,計算得到所述多個音頻子片段對應的音頻特征值。4.根據權利要求1所述的方法,其特征在于,所述舞姿編碼庫,包括:多個舞姿類型各自的至少一個舞姿編碼;利用所述音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列,包括:針對所述多個音頻子片段中的任一音頻子片段,利用所述音頻-舞姿匹配模型,確定所述音頻子片段對應的音頻特征值所屬的目標音頻類型;根據預設的音頻類型與舞姿類型的對應關系,確定所述目標音頻類型對應的舞姿類型,作為所述音頻子片段對應的目標舞姿類型;從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼;根據所述多個音頻子片段的排列順序,對所述多個音頻子片段各自的目標舞姿編碼進行排序,得到所述舞姿編碼序列。5.根據權利要求4所述的方法,其特征在于,從所述目標舞姿類型的至少一個舞姿編碼中,選取與所述音頻子片段匹配的舞姿編碼,作為所述音頻子片段的目標舞姿編碼,包括:分別確定所述音頻子片段與所述目標舞姿類型的至少一個舞姿編碼的匹配度;以及,從所述目標舞姿類型的至少一個舞姿編碼中,選擇匹配度最高的舞姿編碼作為所述音頻子片段的目標舞姿編碼,或者,隨機從所述目標舞姿類型的至少一個舞姿編碼中選取任一舞姿編碼,作為所述音頻子
片段的目標舞姿編碼;或者,確定所述目標舞姿類型的至少一個舞姿編碼各自的舞蹈風格;從所述目標舞姿類型的至少一個舞姿編碼中選取與用戶偏好的舞蹈風格匹配度最高的舞姿編碼,作為所述音頻子片段的目標舞姿編碼。6.根據權利要求1-5任一項所述的方法,其特征在于,所述舞蹈動作序列包括:所述多個音頻子片段各自對應的關鍵點信息;任一音頻子片段的關鍵點信息包括:受控對象上的多個三維人體關鍵點各自的目標位置和目標方向。7.根據權利要求6所述的方法,其特征在于,得到所述目標音頻對應的舞蹈動作序列之后,還包括:將所述舞蹈動作序列發送至所述受控對象,以使所述受控對象上的多個三維人體關鍵點沿著所述目標方向移動至所述目標位置。8.一種舞蹈生成裝置,其特征在于,包括:獲取模塊,用于:獲取待合成舞蹈的目標音頻的特征值信息;所述特征值信息包括:所述目標音頻中的多個音頻子片段各自對應的音頻特征值;匹配模塊,用于:利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中,為所述多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;轉換模塊,用于:利用舞姿生成模型,將所述舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到所述目標音頻對應的舞蹈動作序列;其中,所述音頻-舞姿匹配模型預先采用深度學習算法,通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系;所述舞姿生成模型預先采用深度學習算法,通過舞蹈訓練集中的舞蹈數據,學習舞蹈的舞姿編碼和舞蹈動作信息的轉換關系。9.一種電子設備,其特征在于,包括:存儲器、處理器以及通信組件;其中,所述存儲器用于:存儲一條或多條計算機指令;所述處理器用于執行所述一條或多條計算機指令,以用于:執行權利要求1-7任一項所述的方法中的步驟。10.一種存儲有計算機程序的計算機可讀存儲介質,其特征在于,當計算機程序被處理器執行時,致使處理器實現權利要求1-7任一項所述方法中的步驟。
技術總結
本申請實施例提供一種舞蹈生成方法、裝置、設備及存儲介質。在該方法中,可獲取待合成舞蹈的目標音頻的特征值信息;利用音頻-舞姿匹配模型,從預設的舞姿編碼庫中為多個音頻子片段各自對應的音頻特征值匹配符合預設條件的舞姿編碼,得到舞姿編碼序列;并利用舞姿生成模型,將舞姿編碼序列中的舞姿編碼轉換為對應的舞蹈動作信息,得到目標音頻對應的舞蹈動作序列。其中,音頻-舞姿匹配模型預先通過舞蹈訓練集中的音樂數據和舞蹈數據,學習音樂的音頻特征值和舞蹈的舞姿編碼的匹配關系。通過這種方式,可利用音頻-舞姿匹配模型為音頻中的每個子片段匹配與該音頻子片段更加契合的舞蹈動作,使得整個音頻對應的舞蹈動作更加自然和協調。和協調。和協調。
