本文作者:kaifamei

基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法

更新時間:2025-12-26 07:26:44 0條評論

基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法



1.本發(fā)明屬于氣象信息預測技術領域,具體涉及的是一種基于高精度殘缺值的聚類型樣本增廣氣象溫度預測模型,適用于對數(shù)據(jù)集大量殘缺修復和解決時序預測模型過擬合問題。


背景技術:



2.殘缺信息高精度修復與長時序預測是人工智能中的兩個重要基礎課題,在很多情況下,我們需要從海量數(shù)據(jù)中快速而準確地預測未來某一特征的多各時間戳下的數(shù)據(jù)值,這一過程稱之為時序預測。時序預測被廣泛應用于機器學習等領域。目前廣泛采用的預測算法主要是rnn、gru。這些時序預測模型時序過長會導致梯度爆炸或消失問題,因此只能解決短時序預測問題。cnn+lstm算法為解決特征空間學習與長時序預測問題提供了一條有效方法解決多變量多步時序預測問題。
3.在實際應用中輸入進預測器的數(shù)據(jù)會由于傳感器等多方面因素導致異常值或缺失值的出現(xiàn)并且這些異常值對預測的精度存在重要影響,因此需要一款高精度數(shù)據(jù)修復的系統(tǒng)。數(shù)據(jù)修復被廣泛應用于數(shù)據(jù)處理、數(shù)據(jù)挖掘、機器學習等領域,目前主流采用的修復方法是分析缺失數(shù)據(jù)的統(tǒng)計特征,然后采用能夠代表這種特征的數(shù)據(jù)進行填補,例如均值和眾數(shù);但這種方法并不能精確修復,缺失值的數(shù)量直接影響了最終修復效果。機器學習回歸問題算法—回歸決策樹為解決這種問題提供了一條有效方法解決數(shù)據(jù)集高精度修復問題。
4.決策回歸樹是用于回歸的決策樹模型?;貧w樹對輸入空間的劃分采用一種啟發(fā)式方法,即遍歷所有輸入變量,到最優(yōu)的切分變量最優(yōu)的切分點將輸入空間劃分為兩部分,然后重復這個操作。
5.在時序預測中普遍方法是直接將傳感器數(shù)據(jù)輸入進預測模型,然而神經(jīng)網(wǎng)絡很難在訓練過程中學習到多特征之間的相關性,因此cnn與lstm相結合可提升預測精度。cnn用于多變量特征提取,lstm用于長時序預測。卷積神經(jīng)網(wǎng)絡cnn在很多應用中都表現(xiàn)出,例如圖像分類、對象檢測和醫(yī)學圖像分析。cnn背后的主要思想是它可以從高層輸入中獲取局部特征,并將他們轉移到較低層以獲取更為復雜的特征;卷積神經(jīng)網(wǎng)絡包括卷積層、池化層和全連接層。長短期記憶是對循環(huán)神經(jīng)網(wǎng)絡的改進。lstm在解決梯度消失和梯度爆炸問題時提出了記憶塊而不是傳統(tǒng)的rnn單元。


技術實現(xiàn)要素:



6.解決的技術問題:針對具有大量缺失值的氣象數(shù)據(jù)集進行長時序預測并需要解決過擬合的技術問題,本發(fā)明提出了一種基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其精度對比于平均值和眾數(shù)等方法有著大幅提升。
7.技術方案:
8.一種基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,所述聚類型數(shù)據(jù)增
30.式中,(x,y)是被增廣的樣本,(x1,y1)、(x2,y2)、(x3,y3)是隨機選取的與被增廣的樣本所屬類別相同的三個樣本。
31.有益效果:
32.第一,本發(fā)明的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,利用完好的數(shù)據(jù)集,根據(jù)每一個時間點缺失值情況訓練出不同的修復模型,從而能夠精確修復缺失值。
33.第二,本發(fā)明的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,利用k-means聚類后在類中進行數(shù)據(jù)增廣的算法,解決了lstm過擬合問題;相比直接增加噪聲或根據(jù)歐式距離增廣,在其可解釋性及增廣后的預測效果上都有明顯提升。
附圖說明
34.圖1為本發(fā)明實施例的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法流程圖;
35.圖2為基于k-means聚類的流程圖;
36.圖3為基于k-means聚類型數(shù)據(jù)增廣的流程圖;
37.圖4為本發(fā)明實施例的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法細節(jié)流程圖。
具體實施方式
38.下面的實施例可使本專業(yè)技術人員更全面地理解本發(fā)明,但不以任何方式限制本發(fā)明。
39.圖4為本發(fā)明實施例的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法細節(jié)流程圖。本實施例首先對擁有完好數(shù)據(jù)時間節(jié)點下的所有數(shù)據(jù)進行提取并將其輸入給梯度提升回歸樹(gbdtr)進行模型訓練從而最終形成高精度數(shù)據(jù)修復系統(tǒng);接著將具有缺失數(shù)據(jù)時間節(jié)點下的數(shù)據(jù)放入數(shù)據(jù)修復系統(tǒng)進行高精度數(shù)據(jù)修復,從而將殘缺數(shù)據(jù)集還原成完整數(shù)據(jù)集。接著將修復完成后的數(shù)據(jù)集按照滑動窗口長度、輸入時序長度和預測時序長度進行切割,并按70%與30%的比例分為訓練集和測試集。接著將樣本進行主成分分析(pca)降維至三維并按照適當?shù)木垲悢?shù)進行聚類,每個樣本僅在各自集中進行樣本增廣,對被增廣的樣本賦予高權重,輔助增廣樣本賦予低權重,但其總和必須等于1。最后將增廣后的樣本與訓練集合并成新的訓練集并輸入氣象溫度預測系統(tǒng)。本發(fā)明結合了機器學習決策回歸樹算法并使用梯度提升對其進行優(yōu)化;并使用聚類型數(shù)據(jù)增廣解決了時序預測模型欠擬合的解決方案;最終在預測器中使用一維卷積(conv2d)解決空間特征學習、長短期記憶(lstm)解決長時序預測問題。
40.參見圖1,本方法包含如下步驟:
41.步驟10,輸入整個數(shù)據(jù)集,對數(shù)據(jù)集進行異常值檢索后得到異常值位置并對其對應的時間點進行標記;并根據(jù)標記將數(shù)據(jù)集分為三部分:原始數(shù)據(jù)集、完好數(shù)據(jù)集、具有殘缺數(shù)據(jù)的數(shù)據(jù)集。
42.步驟20,將完好數(shù)據(jù)集放入回歸樹或梯度提升回歸樹中進行模型訓練,回歸樹的超參數(shù)使用sklearn中默認參數(shù)即可。決策回歸樹訓練結束后將殘缺數(shù)據(jù)集放入修復模型
中,并將得到的修復數(shù)值返回原始數(shù)據(jù)集中原始殘缺位置。
43.步驟30,將修復過后的原始數(shù)據(jù)集定義為完整數(shù)據(jù)集,并綜合滑動窗口、輸入時序長度、預測時序長度進行樣本劃分并形成完整樣本集,再把完整樣本集按照7:3比例劃分成訓練樣本集和測試樣本集。
44.步驟40,如圖2所示,將完整樣本集中每一個樣本從溫度維度將值取出代表該樣本的數(shù)據(jù)信息,并用主成分分析將維度降至3維(有利于可視化);降至3維后每個樣本可用3條數(shù)據(jù)代表整個樣本,在選取合適k值后再用k-means算法將每個樣本賦予其代表的類別號;用matplotlib將所有樣本用3d圖像顯示,此時不同聚類中的所有樣本顯示相同顏的圓點,再用陀螺儀轉動3d圖像查看是否存在某一視角下將樣本合理聚類;
45.步驟50,如圖3所示,當查到合適的k值后保存每個樣本所屬類別號,并對每個樣本按照其所屬類別進行增廣:被增廣的樣本數(shù)據(jù)(x,y),在該類中隨機選取三個樣本數(shù)據(jù)(x1,y1)、(x2,y2)、(x3,y3),增廣后的新數(shù)據(jù):(x
new
=0.7*x+0.1*x1+0.1*x2+0.1*x3;y
new
=0.7*y+0.1*y1+0.1*y2+0.1*y3),執(zhí)行完成后將增廣數(shù)據(jù)保存為增廣樣本集以備預測模型使用。將增廣樣本集與訓練樣本集合并成訓練樣本集,測試樣本集依然不變。
46.步驟60,用一維卷積對單樣本中每一個時間戳的特征使用,在卷積過程中保持著通道數(shù)加倍,特征數(shù)減半的原則,并在最后一個模塊中將數(shù)據(jù)平鋪并使用dense層與relu激活函數(shù)使特征數(shù)量減半,若存在梯度爆炸問題可使用resnet解決,在預測器最后一個模塊中使用lstm解決長時序預測。
47.以上僅是本發(fā)明的優(yōu)選實施方式,本發(fā)明的保護范圍并不僅局限于上述實施例,凡屬于本發(fā)明思路下的技術方案均屬于本發(fā)明的保護范圍。應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理前提下的若干改進和潤飾,應視為本發(fā)明的保護范圍。

技術特征:


1.一種基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其特征在于,所述聚類型數(shù)據(jù)增廣氣象溫度預測方法包括以下步驟:s1,創(chuàng)建樣本集:對輸入的原始氣象溫度數(shù)據(jù)集進行殘缺值修復,將修復后的原始氣象溫度數(shù)據(jù)集定義為完整數(shù)據(jù)集,結合滑動窗口、輸入時序長度、預測時序長度進行樣本集劃分以形成完整樣本集,將完整樣本集劃分成訓練樣本集和測試樣本集;s2,聚類:將完整樣本集中的每一個樣本從溫度維度將值取出代表該樣本的數(shù)據(jù)信息,并用主成分分析將維度降至3維,使每個樣本的數(shù)據(jù)信息只有3條;在選取k值后再用k-means算法將每個樣本賦予其代表的類別號,保存每個樣本所屬類別號;s3,數(shù)據(jù)增廣:對每個樣本按照其所屬類別進行增廣,將增廣數(shù)據(jù)保存為增廣樣本集,將增廣樣本集和完整樣本集合并成訓練樣本集;s4,訓練時序預測器:構建氣象溫度預測器,將訓練樣本集導入氣象溫度預測器進行空間信息的學習與特征提取,使用mse作為損失函數(shù);其中,采用一維卷積對單樣本中每一個時間步的特征實用,在卷積過程中保持著通道數(shù)加倍、特征數(shù)減半的原則,并在氣象溫度預測器的最后一個模塊中將數(shù)據(jù)平鋪并使用dense層與relu激活函數(shù)使特征數(shù)量減半;在卷積的過程中采用殘差網(wǎng)絡修復網(wǎng)絡以解決梯度爆炸問題;在氣象溫度預測器最后一個模板中使用lstm進行長時序預測;s5,測試時序預測器:氣象溫度預測器訓練完成后,采用測試數(shù)據(jù)集對氣象溫度預測器的模型性能進行檢測。2.根據(jù)權利要求1所述的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其特征在于,步驟s1中,對輸入的原始氣象溫度數(shù)據(jù)集進行殘缺值修復的過程包括以下子步驟:對輸入的原始氣象溫度數(shù)據(jù)集進行異常值檢索,對得到的異常值位置和對應的時間點進行標記;按照標記,將整個原始氣象溫度數(shù)據(jù)集劃分成三個部分:原始數(shù)據(jù)集、完好數(shù)據(jù)集和殘缺數(shù)據(jù)集;完好數(shù)據(jù)集是由原始氣象溫度數(shù)據(jù)集中的非異常值組成的數(shù)據(jù)集,殘缺數(shù)據(jù)集是由原始氣象溫度數(shù)據(jù)集中的異常值組成的數(shù)據(jù)集;將完好數(shù)據(jù)集放入回歸樹或者梯度提升回歸樹中進行模型訓練,得到修復模型;將殘缺數(shù)據(jù)集導入修復模型進行修復,將修復后的數(shù)值覆蓋到原始數(shù)據(jù)集中的原殘缺位置,得到修復后的完整數(shù)據(jù)集。3.根據(jù)權利要求1所述的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其特征在于,步驟s1中,按照7:3的比例將完整樣本集劃分成訓練樣本集和測試樣本集。4.根據(jù)權利要求1所述的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其特征在于,步驟s2中,采用matplotlib將所有樣本用3d圖像顯示,不同聚類中的所有樣本顯示相同顏的圓點。
5.根據(jù)權利要求1所述的基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,其特征在于,步驟s3中,增廣后的新數(shù)據(jù)為(x
new
,y
new
):x
new
=0.7*x+0.1*x1+0.1*x2+0.1*x3y
new
=0.7*y+0.1*y1+0.1*y2+0.1*y3式中,(x,y)是被增廣的樣本,(x1,y1)、(x2,y2)、(x3,y3)是隨機選取的與被增廣的樣本所屬類別相同的三個樣本。

技術總結


本發(fā)明公開了一種基于高精度殘缺值的聚類型數(shù)據(jù)增廣氣象溫度預測方法,包括:S1,創(chuàng)建樣本集:對輸入的原始氣象溫度數(shù)據(jù)集進行殘缺值修復,結合滑動窗口、輸入時序長度、預測時序長度進行樣本集劃分以形成完整樣本集;S2,聚類:將完整樣本集中的每一個樣本從溫度維度將值取出代表該樣本的數(shù)據(jù)信息,并用主成分分析將維度降至3維;在選取K值后再用K-MEAS算法將每個樣本賦予其代表的類別號;S3,數(shù)據(jù)增廣:對每個樣本按照其所屬類別進行增廣;S4,訓練時序預測器;S5,測試時序預測器。對比于平均值和眾數(shù)等方法,本發(fā)明的預測方法的預測精度有著大幅提升。著大幅提升。著大幅提升。


技術研發(fā)人員:

馬廷淮 楊彬 榮歡

受保護的技術使用者:

南京信息工程大學

技術研發(fā)日:

2022.10.10

技術公布日:

2022/12/19


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-56413-0.html

來源:專利查詢檢索下載-實用文體寫作網(wǎng)版權所有,轉載請保留出處。本站文章發(fā)布于 2022-12-22 10:58:18

發(fā)表評論

驗證碼:
用戶名: 密碼: 匿名發(fā)表
評論列表 (有 條評論
2人圍觀
參與討論