一種對當代流行音樂和弦進行分類的方法及裝置
1.本發明涉及音樂信息處理技術領域,尤其涉及一種對當代流行音樂和弦進行分類的方法及裝置。
背景技術:
2.近年來,隨著大容量數字音頻播放器的普及、音樂發行服務的不斷完善,音樂搜索變得更加靈活,用戶需求呈現多樣化,個性化推薦需求不斷加深?,F代歌曲是由旋律和和弦組成的,自動和弦識別(automatic chord recognition,acr)是音樂信息研究(mir)的任務之一。然而和弦識別與轉錄是一項勞動密集型任務,并且它需要人員進行廣泛的音樂訓練。因此,基于音樂信息檢索處理的智能化、自動化處理、自動實現和弦識別是目前計算機音樂處理的一個關鍵問題。和弦識別的過程主要分為聲學特征提取和和弦序列解碼兩個階段。
3.其中,聲學特征提取經歷了從信號處理到神經網絡的轉變。早期的聲學特征是通過信號處理完成的。比較典型的有,fujishima等人
1.提出的pcp(pitch class profiles,音級輪廓圖)模型來表征和弦特征。為了實現更好的和弦分類,herrera等人
2.和王峰等人
3.分別對該模型進行了改進,提出了epcp(enhanced pitch class profiles,增強音級輪廓圖)模型和mpcp(mel pitch class profiles,梅爾音級輪廓圖)模型。一般而言,這些模型在描述和弦的基音特征方面表現良好,但大多和弦在很寬的頻帶范圍內會包含豐富的泛音,因此這些方法很難為和弦提供完整準確的表示。近年來,信號處理與深度學習網絡的結合已成為特征提取方法的主流。例如,楊
4.等人提出了一種深度神經網絡(deep neural network,dnn)來實現自動和弦識別。然而,為了達到較高的識別精度,dnn和dbn(deep belief networks,深度置信網絡)需要大量的參數以及訓練樣本去完成良好的擬合,從而導致系統復雜度相當高。為了解決這個問題,filip
5.等人提出了一種基于全卷積網絡(convolutional network,cnn)的深度聽覺模型,其參數量可以減少到傳統dnn的一半;在此基礎上,ken o'hanlon
6.等人提出了fifthnet
6.音頻數據結構,并構建了更為緊湊的cnn
7.來實現和弦識別。這種網絡可以將參數降低到到傳統dnn網絡的1/20,并達到一個相對不錯的識別率(81%左右)。上述事實表明,cnn不僅可以大大提高和弦特征提取的性能,而且可以從根本上克服傳統dnn網絡的參數冗余的問題。
4.對于和弦序列解碼階段,其本質在于探索和弦序列之間的關聯性。為了實現這一目標,lee
8.等人使用隱馬爾可夫模型(hidden markov model,hmm)解碼和弦序列;mauch
9.等人和yizhao
10.等人分別提出了chordino和harmony progression(hp)系統來改進lee的模型,但其方法并沒有克服hmm訓練過程需要大量訓練樣本的問題。相反,wang
3.等人提出了基于條件隨機場(conditional random field,crf)的識別模型,在一定程度上緩解了hmm的缺陷。隨著一系列帶有記憶網絡的出現,這為發現和弦序列相關性提供了更加有力的工具。比較典型的有,shota
11.等人比較了4種常用的記憶網絡模型,包括rnn、門控循環單元(gated recurrent unit,gru)、長短記憶網絡(long and short memory network,lstm)和雙向長短記憶網絡(bidirectional long and short memory network,bi-lstm)。
5.然而,在這些主流的和弦識別方法
[12-17]
,對和弦相關性挖掘并不夠充分。其原因在于兩個方面:1)使用時頻變換的幀作為和弦識別的基本處理單元很難獲取和弦的全部信息,即使在當前幀前后各加入7幀幫助網絡進行識別;2)由于采用這種基于幀的處理方式,其網絡更多挖掘的是和弦序列之間幀間的相關性而不是和弦間的。因此,當處理那些持續時間較長的和弦以及和弦過渡時,這兩個缺點經常會導致和弦識別錯誤。特別是對于遵循一定和弦走向的當代流行音樂,這種基于幀的處理方法在探索相鄰和弦之間的相互關系時往往效果不佳。
[0006]
參考文獻
[0007]
[1]fujishima t.realtime chord recognition of musical sound:a system using common lisp music[j].proc icmc,1999:464-467.
[0008]
[2]emilia g
ó
mez,ong b,herrera p.automatic tonal analysis from music summaries for version identification[j].proc of the audio engineering society convention,2012.
[0009]
[3]王峰,張雪英,李炳男,等.基于crfs和mpcp特征的和弦識別研究[j].計算機工程與應用,2011,47(18):3.
[0010]
[4]yang m h,li s,yang y h.highlighting root notes in chord recognition using cepstral features and multi-task learning[c]//2016asia-pacific signal and information processing association annual summit and conference(apsipa).ieee,2017.
[0011]
[5]korzeniowski f,widmer g.a fully convolutional deep auditory model for musical chord recognition[c]//2016ieee 26th international workshop on machine learning for signal processing(mlsp).ieee,2016.
[0012]
[6]o'hanlon k,sandler m b.fifthnet:structure compact neural networks for automatic chordrecognition[j].ieee/acm transactions on audio,speech,and language processing,2021,pp(99):1-1.
[0013]
[7]hanlon k o,sandler m b.the fifthnet chroma extractor[c]//icassp 2020-2020ieee international conference on acoustics,speech and signal processing(icassp).ieee,2020.
[0014]
[8]lee,k.,m.slaney.automatic chord recognition from audio using an hmm with supervised learning[c]//international conference on ismir dblp,2006.
[0015]
[9]mauch,m.,s.dixon.mirex 2010:chord detection using a dynamic bayesian network[j].2010.
[0016]
[10]ni y,mcvicar m,santos-rodriguez r,et al.an end-to-end machine learning system for harmonic analysis of music[j].ieee transactions on audio speech&language processing,2012,20(6):1771-1783.
[0017]
[11]shota nakayama,shuichi arai.dnn-lstm-crf model for automatic audio chord recognition[c]//pattern recognition and artificial intelligence.ed.,2018,
[0018]
[12]brown,c.judith.calculation of a constant q spectral transform[j]
.journal of the acoustical society of america 89.1(1998):425
??
434.
[0019]
[13]harte c a,sandler m b.automatic chord identification using a quantised chromagram[j].proceedings of ther audio engineering society spain,2005.
[0020]
[14]korzeniowski f,widmer g.feature learning for chord recognition:the deep chroma extractor[j].2016.
[0021]
[15]simonyan k,zisserman a.very deep convolutional networks for large-scale image recognition[j].computer science,2014.
[0022]
[16]mcvicar m,santos-rodriguez r,ni y,et al.automatic chord estimation from audio:a review of the state of the art[j].ieee/acm transactions on audio,speech,and language processing,2014,22(2):556-575.
[0023]
[17]lee c y,osindero s.recursive recurrent nets with attention modeling for ocr in the wild[j].ieee,2016..
技術實現要素:
[0024]
本發明提供了一種對當代流行音樂和弦進行分類的方法及裝置,本發明通過設計的基于弦關聯性挖掘的識別網絡,可實現高和弦識別率,可識別包含有多種樂器伴奏的復雜音樂中的和弦類型,詳見下文描述:
[0025]
第一方面、一種對當代流行音樂和弦進行分類的方法,所述方法包括:
[0026]
根據給定的和弦時間戳,對二維時頻域表示結果進行cqt和補零或截斷操作,使得時頻表示的時間維度統一為單位和弦處理長度;
[0027]
將統一后的時頻表示逐個饋入到卷積網絡進行和弦特征提取,依次輸出25維的特征向量;
[0028]
對每個和弦特征向量,將其前、后3個和弦特征向量串接起來,以構造出尺寸為25
×
7上下文特征矩陣;
[0029]
將上下文特征矩陣饋入到cnn網絡中,以挖掘各和弦間的依賴關系,輸出最后的和弦標簽。
[0030]
其中,所述方法還包括:
[0031]
基于給定的和弦時間戳,通過完整音樂分割獲得一系列持續時間不同的和弦分段。
[0032]
進一步地,所述對二維時頻域表示結果進行cqt和補零或截斷操作具體為:
[0033]
對cqt的每個t-f點進行對數運算,對于任意一個變換后值為s的t-f點,其壓縮結果為:
[0034]
l=log(1+|s|)
[0035]
其中,t-f為和弦二維時頻表示的基本單位,即時頻點;
[0036]
保證每個和弦分段長度設置為100個時間幀,其持續時間為2.5s。
[0037]
其中,所述cnn網絡由級聯卷積單元、兩個全連接層和一個softmax層組成,
[0038]
所述級聯卷積單元總共有4個卷積單元,每個卷積單元以池化層為結束標志、兩個全連接層用于構建25維特征向量;
[0039]
所述cnn網絡還包括:dropout層和batch normalization層。
[0040]
進一步地,所述和弦特征向量用于送到lstm-attention網絡以學習時間上下文信息。
[0041]
第二方面、一種對當代流行音樂和弦進行分類的裝置,所述裝置包括:處理器和存儲器,處理器和存儲器,所述存儲器中存儲有程序指令,所述處理器調用存儲器中存儲的程序指令以使裝置中的任一項所述的方法步驟。
[0042]
本發明提供的技術方案的有益效果是:
[0043]
1)本發明將主流方法忽略的和弦時間戳納入基本處理單元的構建中,該操作不僅排除了周圍和弦的干擾,還可以通過cnn提取和弦更為完整、準確的特征表示;
[0044]
2)本發明構建了一個lstm-attention網絡作為語言模型處理由cnn生成的特征向量,這被證明在探索和弦相關性方面是有效的;實驗結果表明,本發明提出的方案同時具有識別準確率高、效率高和參數少的特點;
[0045]
3)本發明可識別包含有多種樂器伴奏的復雜音樂中的和弦類型,共計可識別25種和弦(即十二平均律中的每個音的大、小和弦和空和弦);
[0046]
4)本發明通過設計的基于弦關聯性挖掘的識別網絡,可實現高和弦識別率,有機的融合了信號處理理論、深度學習技術,從而能在訓練樣本很少的情況下更準確識別出和弦類型,其對復雜音樂的和弦識別率可達83%以上(目前該方向識別率在83%左右);
[0047]
5)本發明將適合于音樂特征表達的信號處理措施引入到網絡設計中,可大大簡化網絡參數,其空間復雜度(內存資源)和時間復雜度(訓練迭代次數)均可大為降低,實現高的識別效率;
[0048]
6)本發明提出的基于cnn和lstm-attention的深度學習模型通過挖掘和弦間的關聯性可以大量減少待訓練的參數,其參數僅為傳統方法的1/8,從而達到簡化網絡的目的;
[0049]
7)本發明由于其網絡結構簡單,其訓練速度也得到了極大的提升,在geforce rtx3090(顯存24g)上訓練一輪僅花費1分鐘,總訓練時間20分鐘。
[0050]
8)本發明由于其緊湊的網絡結構和高效的識別速率,可以極大降低網絡對設備的需求,這有利于移植到其他移動端軟件且并不會大量占用手機端資源,更好的協助音樂軟件完成聽歌識曲、自動識譜等功能。
附圖說明
[0051]
圖1為本發明提出的和弦識別的流程圖;
[0052]
圖2為音樂預處理單元結構示意圖;
[0053]
圖3為不同幀數和弦占比示意圖;
[0054]
圖4為特征提取單元結構示意圖;
[0055]
圖5為提出的lstm-attention網絡結構示意圖;
[0056]
圖6為cnn模型accuracy和loss曲線示意圖;
[0057]
圖7為兩個網絡的錯誤識別率分析示意圖;
[0058]
a)為cnn(黑)和cnn&lstm-attention(灰)網絡中小和弦被錯誤識別為其他大和弦的錯誤率對比;b)為cnn(黑)和cnn&lstm-attention(灰)網絡中大和弦被錯誤識別為其他大和弦的錯誤率對比;c)為cnn(黑)和cnn&lstm-attention(灰)網絡中小和
弦被錯誤識別為其他小和弦的錯誤率對比;d)為cnn(黑)和cnn&lstm-attention(灰)網絡中大和弦被錯誤識別為其他小和弦的錯誤率對比。
[0059]
圖8為不同和弦類型占比示意圖;
[0060]
圖9為實驗總體流程示意圖;
[0061]
圖10為一種對當代流行音樂和弦進行分類的裝置。
[0062]
表1為提出的cnn架構;
[0063]
表2為提出的lstm-attention架構;
[0064]
表3為不同模型準確度對比。
具體實施方式
[0065]
為使本發明的目的、技術方案和優點更加清楚,下面對本發明實施方式作進一步地詳細描述。
[0066]
實施例1
[0067]
本發明實施例提供了一種對當代流行音樂和弦進行分類的方法,本方法可估計出包含人聲和多種樂器伴奏的復雜音樂的和弦類型,參見圖1,該方法包括以下步驟:
[0068]
101:給定包含有和弦時間戳的音樂樣本集(允許包含各類樂器伴奏),設置單位和弦處理長度為2.5秒;
[0069]
102:根據時間戳,將音樂樣本劃分成若干個和弦分段;
[0070]
103:將各和弦分段依次進行恒q值變換(constant q-value transform,cqt)和幅值壓縮,得到其二維時頻域表示;
[0071]
104:根據給定的和弦時間戳,對二維時頻域表示結果進行補零或者截斷,使這些時頻表示的時間維度統一為單位和弦處理長度(即2.5秒);
[0072]
105:將統一后的和弦時頻表示逐個饋入到卷積網絡進行和弦特征提取,依次輸出25維的特征向量;
[0073]
106:對每個和弦特征向量,將其前、后3個和弦特征向量串接起來,以構造出尺寸為25
×
7上下文特征矩陣;
[0074]
107:將上下文特征矩陣饋入到lstm-attention網絡中,以挖掘各和弦間的依賴關系,輸出最后的和弦標簽(即25類和弦中的一種)。
[0075]
綜上所述,本發明實施例通過上述步驟101-107設計的基于弦關聯性挖掘的識別網絡,可實現高和弦識別率,可識別包含有多種樂器伴奏的復雜音樂中的和弦類型。
[0076]
實施例2
[0077]
下面結合圖2-圖5,具體的計算公式對實施例1中的方案進行進一步地介紹,詳見下文描述:
[0078]
一、acr方案流程
[0079]
圖1展示了基于和弦關聯性挖掘的acr方案的流程圖,其流程包含3個階段:音樂預處理、和弦特征提取以及和弦相關性挖掘。
[0080]
第一階段是通過時間戳將整首歌曲分解成若干個和弦片段,以排除特征提取時和弦間的互相干擾;然后本發明實施例將分解后的和弦片段進行恒q值變換(constant q-value transform,cqt),以在時頻平面上獲得更稀疏的特征。此外,為了滿足后續特征提取
階段統一維度的要求,該cqt特征需要在時間維度上進行零填充或列截斷。在第二階段,本發明實施例采用cnn進行訓練,最終使用dense層輸出的25維特征向量作為提取出的和弦特征。在第三階段,本發明實施例將dense層的特征向量連接后輸入lstm-attention網絡以捕獲時間上下文信息以挖掘了出于歌曲創作相關的和弦序列相關性,從而實現lstm-attention網絡高精度和弦識別。
[0081]
二、音樂預處理
[0082]
此階段旨在以排除特征提取時和弦間的互相干擾。具體來說考慮3個方面:基于時間戳的音頻分割、cqt和零填充/截斷操作,具體流程如圖2所示。
[0083]
1、基于時間戳的音頻分割
[0084]
基于給定的時間戳,通過完整音樂分割獲得一系列持續時間不同的和弦分段。顯然,在時間戳的引導下,本發明實施例可以在相鄰的和弦序列之間產生精確的邊界,同時也能起到排除和弦之間干擾的作用。
[0085]
2、cqt和零填充/截斷
[0086]
對和弦分段進行cqt操作可以得到一個更為稀疏的二維時頻表示,在該變換上音符沿頻率軸呈現均勻分布。具體來說,cqt可以使84個(覆蓋7個八度,每個8度包含12個半音)音符按頻率高低均勻的分布在頻率軸上。
[0087]
值得注意的是,對cqt進行相關參數設置可以簡化后續基于cnn的特征提取。因此,本發明實施例進行了如下的兩個處理:
[0088]
1)為了加快后續的cnn特征提取收斂速度,本發明實施例對cqt的每個t-f點進行對數運算來壓縮幅度范圍。具體來說,對于任意一個值為s(音樂cqt變換后的值)的t-f點,其壓縮結果為:
[0089]
l=log(1+|s|)
????????????????????????????
(1)
[0090]
2)為了向cnn網絡提供相同大小的二維圖像,在上述壓縮后的二維cqt頻譜圖時間軸上進行零填充/截斷操作。
[0091]
即保證每個和弦分段長度設置為100個時間幀,其持續時間為2.5s。也就是說,對于超過100幀的和弦,本發明實施例只保留前100幀,丟棄后面的幀。對于少于100幀的和弦,將在其后面進行補零。此規范主要基于對數據集中和弦序列的長度(幀數)(the beatles'190歌曲)的統計確定的,其在具體分布列于圖4。
[0092]
從圖3的統計結果可以看出,幀數的規范(即100個時間幀)確保了盡可能較少截斷帶來的信息損失。最后,所有送到cnn訓練頻譜圖xi,其維度為xi∈r
84
×
100
。此外,通過上述操作,和弦之間的干擾可以得到極大的抑制,這有利于提升cnn的特征提取效果。
[0093]
三、基于cnn網絡的和弦特征提取
[0094]
對于預處理階段生成的頻譜圖xi∈r
84
×
100
,盡管其t-f分量稀疏分布在整個二維t-f平面上,但該頻譜圖中的冗余度太高。因此,有必要采用深度學習網絡來減少這種冗余。具體來說,考慮到本發明實施例最終將常用和弦分為25類(即12對大和弦和小和弦加上一個空和弦),本發明實施例將和弦特征的維度從84
×
100減少到25
×
1,降低了計算復雜度。
[0095]
1、提出的cnn的結構
[0096]
如圖4所示,本發明實施例提出的cnn主要由級聯卷積單元(總共4個卷積單元,每個卷積單元以池化層為結束標志)、兩個全連接層(構建25維特征向量)和一個softmax層
(實現反向傳播、觀察提取效果)。此外,為了加速收斂和避免模型過擬合,在上述網絡中還加入了一些其他模塊,如dropout層和batch normalization層。
[0097]
表1展示了本發明實施例的模型的具體結構,該模型只有不到90,000個參數。具體來說,對于前3個卷積單元,本發明實施例選擇使用3
×
3卷積核的級聯來擴大感知域。第4個卷積單元,本發明實施例使用更大的7
×
2卷積核作為最后一層卷積層來協助網絡收集更多諧波信息。
[0098]
表1提出的cnn架構
[0099][0100][0101]
此外,如表1所示,除了第一個卷積單元使用了平均池化層,之后每個卷積層后面都和最大池化層相連。原因在于:1)眾所周知,和弦的主要特征是3個主音,其頻譜由3個主音的頻率組成。最大池化操作有利于提取主音對應的峰值譜;2)最大池化操作避免了在特征提取階段為了統一維度而進行零填充對短和弦產生的影響,它避開了cqt值在用平均池化時遭受大幅度衰減的可能。通過以上結構和參數設置,第4個卷積單元輸出的維度為12
×1×
32。
[0102]
在卷積單元之后,本發明實施例使用2個全連接層分別完成維度從384到125再到
25的維度轉換,這可以實現比單個完全連接實現更平滑的特征提取。之后通過softmax層地將這些25維特征向量分類為25類和弦類型。
[0103]
2、和弦相關性挖掘
[0104]
眾所周知,現代音樂是按照一些和弦規則創作的(例如著名的caron和弦就是8個和弦組成和弦走向),這些規則本質上是一首歌曲和弦間相關性的反映。因此,本發明實施例可以利用這些規則來糾正一些特征提取中出現的錯誤,從而提高識別率。
[0105]
在實驗中,本發明實施例使用注意力機制和lstm結合去學習和弦的相關性,從而提高acr識別率。具體來說,在本發明實施例的網絡中,本發明實施例在當前和弦特征向量前后各連接三個相鄰的和弦向量組合成一個大小為xi∈r7×
25
的上下文矩陣,這些向量被送到后續的lstm-attention以學習時間上下文信息。接下來這7個特征向量的權重可以通過后續的注意力層進行量化計算,為最終的acr結果提供可靠的依據,具體結構如圖5所示。值得注意的是,上述lstm-attention非常簡單,只有7000個待訓練的參數,具體參數在表2中列出。這主要歸因于前面cnn將輸入和弦準確地轉化為簡潔的25維特征向量,降低了特征的冗余,同時這也使本發明實施例提出的網絡具有良好的泛化性能。
[0106]
表2提出的lstm-attention架構
[0107][0108]
實施例3
[0109]
下面結合圖6-圖9,表2-表3對實施例1和2中的方案進行可行性驗證,詳見下文描述:
[0110]
1、cnn訓練和結果分析
[0111]
對于cnn網絡,訓練和驗證的收斂曲線如圖6所示,從中可以得出以下結論:
[0112]
1)無論是訓練集還是測試集,都只用了大約50個epochs就進入了穩定階段。cnn的快速收斂反映了本發明實施例所提出的方法(包括cqt對數幅度壓縮、基于時間戳的音頻分割、補零及截斷、最大池化層等)在和弦特征的提取過程中是有效的。
[0113]
2)在穩定階段,訓練和驗證的acr準確率分別達到80%、78%左右,對應的損失值為0.6、1.0。換句話說,驗證集和訓練集只存在微小的差異。這反映了圖4和表1闡述的網絡結構和參數設置是合理的,保證了訓練好的cnn網絡具有良好的泛化能力。
[0114]
2、lstm網絡對精度提升的貢獻分析
[0115]
雖然僅cnn網絡就實現了78%的高acr率,但仍有必要探索lstm網絡在精度提高方面的有效性。為了更好地評估這種有效性,本發明實施例將所提出的cnn-lstm網絡與另外兩個現有網絡進行了比較:全卷積網絡和dnn blocknet,其acr結果和參數量列在表3中。
[0116]
表3不同模型準確度對比
[0117][0118]
從表3可以得出以下結論:
[0119]
1)所提出的網絡在識別準確度上優于全卷積網絡和blocknet,它們的acr率分別為:83.2%、82.5%、82.3%。
[0120]
2)所提出的網絡的參數量(95365)遠低于其他兩個網絡(即分別為970668和1815817)。
[0121]
上述比較結果證實,本發明實施例提出的acr網絡同時具有高acr率和低參數量。這種改進歸因于以下原因:1)所提出的音樂預處理措施在抑制相鄰和弦之間的干擾方面表現良好;2)提出的cnn網絡可以精準提取出和弦特征。3)所提出的lstm網絡很好地完成了和弦相關性挖掘的任務。
[0122]
由于上述原因,所提出的lstm網絡將acr率從77%(僅使用cnn)提高到83.2%,從而超過了現有兩個網絡的性能。
[0123]
為了定量反映這種有效性,本發明實施例針對數據集,對以下4個方面產生的錯誤進行了統計分析,圖7描述了上述誤差統計結果,從中可以得出以下結論。
[0124]
1)觀察兩個網絡的錯誤識別率,可以看到所有類型的錯誤識別率都有所下降,證明lstm-attention網絡在提高和弦識別率方面是有效的;
[0125]
2)小和弦的錯誤識別率較高,可能因為在數據集中小和弦的占比較少,不利于網絡充分學習小和弦特征;
[0126]
3)在圖(a)中,本發明提出的lstm-attention網絡可以有效降低大和弦被識別為小和弦誤識別率。這可能是因為lstm-attention網絡在訓練過程中學到了更多的音樂調性(一首小調歌曲很少有大和弦,從而改善了小調歌曲的識別率)。
[0127]
4)由于不同的音樂流派有不同的和弦走向,在訓練樣本不足的情況下很難學習到和弦走向。但是對比兩種網絡的錯誤率(同類型和弦被識別為其他類型的和弦),可發現總體上識別率還是有3%左右的提升。
[0128]
3、實驗實施規范
[0129]
本發明實施例使用數據集isophonics(190首beatles歌曲)作為acr實驗數據集,該數據集涉及了搖滾、爵士、流行、鄉村音樂等流派。所有歌曲都詳細標記了和弦邊界(即時間戳)以及和弦類型。在實驗操作中,本發明實施例將這190首歌曲串聯起來,構成一個由14340個和弦組成的長序列,其和弦類型的比例如圖8所示。
[0130]
眾所周知,和弦主要由根音、三音和五音組成。就音符之間的距離而言,這14340個和弦可劃分為25類(即12個大和弦、12個小和弦和1個空和弦)。具體來說,基于以下考慮對和弦進行分類。
[0131]
大和弦:指其三音與根音相距4個半音的和弦。典型的大和弦包括大三和弦、增三和弦、七和弦和大七和弦。
[0132]
小和弦:指其三音與根音相距3個半音的和弦。典型的小和弦包括小三和弦、減三
和弦和小七和弦。
[0133]
空和弦:指除大和弦和小和弦之外的所有剩余和弦,也包括休止和弦。
[0134]
在本發明實施例的實驗中,這14340個和弦按10:1:1的比例分為訓練集、驗證集和測試集。而且本發明對cnn和lstm-attention網絡分別進行訓練。對于這兩個網絡,優化器都使用adam,batch size設置為64。考慮到lstm-attention網絡的結構比cnn簡單得多,本發明實施例將lstm-attention網絡和cnn的epochs分別為100、400,保證每個網絡都可以得到充分的訓練。
[0135]
4、實驗流程
[0136]
圖9展示了本發明實驗的總體流程,其具體說明如下:
[0137]
1)音樂預處理:通過時間戳將歌曲分解成若干個和弦片段,將分解后的和弦片段進行cqt變換,以在時頻平面上獲得更稀疏的特征;
[0138]
2)和弦特征提?。翰捎胏nn進行訓練,最終使用dense層輸出的25維特征向量作為提取出的和弦特征;
[0139]
3)和弦關聯性挖掘:將dense層的特征向量連接后輸入lstm-attention網絡以捕獲時間上下文信息以挖掘和弦序列相關性,輸出最后的和弦標簽序列。
[0140]
實施例4
[0141]
一種對當代流行音樂和弦進行分類的裝置,參見圖10,該裝置包括:處理器和存儲器,存儲器中存儲有程序指令,處理器調用存儲器中存儲的程序指令以使裝置執行以下的方法步驟:
[0142]
根據給定的和弦時間戳,對二維時頻域表示結果進行cqt和補零或截斷操作,使得時頻表示的時間維度統一為單位和弦處理長度;
[0143]
將統一后的時頻表示逐個饋入到卷積網絡進行和弦特征提取,依次輸出25維的特征向量;
[0144]
對每個和弦特征向量,將其前、后3個和弦特征向量串接起來,以構造出尺寸為25
×
7上下文特征矩陣;
[0145]
將上下文特征矩陣饋入到lstm-attention網絡中,以挖掘各和弦間的依賴關系,輸出最后的和弦標簽。
[0146]
其中,方法還包括:
[0147]
基于給定的和弦時間戳,通過完整音樂分割獲得一系列持續時間不同的和弦分段。
[0148]
進一步地,所述對二維時頻域表示結果進行cqt和補零或截斷操作具體為:
[0149]
對cqt的每個t-f點進行對數運算,對于任意一個變換后值為s的t-f點,其壓縮結果為:
[0150]
l=log(1+|s|)
[0151]
其中,t-f為和弦二維時頻表示的基本單位,即時頻點;
[0152]
保證每個和弦分段長度設置為100個時間幀,其持續時間為2.5s。
[0153]
其中,cnn網絡由級聯卷積單元、兩個全連接層和一個softmax層組成,
[0154]
級聯卷積單元總共有4個卷積單元,每個卷積單元以池化層為結束標志、兩個全連接層用于構建25維特征向量;
[0155]
cnn網絡還包括:dropout層和batch normalization層。
[0156]
進一步地,和弦特征向量用于送到lstm-attention網絡以學習時間上下文信息。
[0157]
這里需要指出的是,以上實施例中的裝置描述是與實施例中的方法描述相對應的,本發明實施例在此不做贅述。
[0158]
上述的處理器1和存儲器2的執行主體可以是計算機、單片機、微控制器等具有計算功能的器件,具體實現時,本發明實施例對執行主體不做限制,根據實際應用中的需要進行選擇。
[0159]
存儲器2和處理器1之間通過總線3傳輸數據信號,本發明實施例對此不做贅述。
[0160]
本發明實施例對各器件的型號除做特殊說明的以外,其他器件的型號不做限制,只要能完成上述功能的器件均可。
[0161]
本領域技術人員可以理解附圖只是一個優選實施例的示意圖,上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
[0162]
以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
技術特征:
1.一種對當代流行音樂和弦進行分類的方法,其特征在于,所述方法包括:根據給定的和弦時間戳,對二維時頻域表示結果進行cqt和補零或截斷操作,使得時頻表示的時間維度統一為單位和弦處理長度;將統一后的時頻表示逐個饋入到cnn網絡進行和弦特征提取,依次輸出25維的特征向量;對每個和弦特征向量,將其前、后3個和弦特征向量串接起來,以構造出尺寸為25
×
7上下文特征矩陣;將上下文特征矩陣饋入到lstm-attention網絡中,以挖掘各和弦間的依賴關系,輸出最后的和弦標簽。2.根據權利要求1所述的一種對當代流行音樂和弦進行分類的方法,其特征在于,所述方法還包括:基于給定的和弦時間戳,通過完整音樂分割獲得一系列持續時間不同的和弦分段。3.根據權利要求1所述的一種對當代流行音樂和弦進行分類的方法,其特征在于,所述對二維時頻域表示結果進行cqt和補零或截斷操作具體為:對cqt的每個t-f點進行對數運算,對于任意一個變換后值為s的t-f點,其壓縮結果為:l=log(1+|s|)其中,t-f為和弦二維時頻表示的基本單位,即時頻點;保證每個和弦分段長度設置為100個時間幀,其持續時間為2.5s。4.根據權利要求1所述的一種對當代流行音樂和弦進行分類的方法,其特征在于,所述cnn網絡由級聯卷積單元、兩個全連接層和一個softmax層組成,所述級聯卷積單元總共有4個卷積單元,每個卷積單元以池化層為結束標志、兩個全連接層用于構建25維特征向量;所述cnn網絡還包括:dropout層和batch normalization層。5.根據權利要求1所述的一種對當代流行音樂和弦進行分類的方法,其特征在于,所述和弦特征向量用于送到lstm-attention網絡以學習時間上下文信息,所述網絡具有7000個待訓練的參數。6.一種對當代流行音樂和弦進行分類的裝置,其特征在于,所述裝置包括:處理器和存儲器,處理器和存儲器,所述存儲器中存儲有程序指令,所述處理器調用存儲器中存儲的程序指令以使裝置執行權利要求1-5中的任一項所述的方法步驟。
技術總結
本發明公開了一種對當代流行音樂和弦進行分類的方法及裝置,方法包括:根據給定的和弦時間戳,對二維時頻域表示結果進行CQT和補零或截斷操作,使得時頻表示的時間維度統一為單位和弦處理長度;將統一后的時頻表示逐個饋入到卷積網絡進行和弦特征提取,依次輸出25維的特征向量;對每個和弦特征向量,將其前、后3個和弦特征向量串接起來,以構造出尺寸為25
