本文作者:kaifamei

一種具有難樣本感知的強弱雙分支網(wǎng)絡的長尾識別方法

更新時間:2025-12-25 19:00:32 0條評論

一種具有難樣本感知的強弱雙分支網(wǎng)絡的長尾識別方法



1.本發(fā)明屬于長尾分布視覺識別領域,具體涉及一種具有難樣本感知的強弱雙分支網(wǎng)絡的長尾識別方法。


背景技術:

2.現(xiàn)實世界的數(shù)據(jù)通常呈現(xiàn)長尾分布,其中大多數(shù)示例僅來自少數(shù)幾個類。在這種情況下,每個類的訓練實例數(shù)量差異很大,從尾部類的幾個樣本到頭部類的數(shù)千個樣本。最先進的分類模型的性能通常有利于大多數(shù)類,導致罕見類的泛化性能較差。
3.早期工作通過重新平衡數(shù)據(jù)分布來緩解長尾訓練數(shù)據(jù)的惡化。這些方法可以有效地減少頭類在訓練過程中的主導地位,但由于原始數(shù)據(jù)分布失真,它們往往存在過度擬合尾類的風險。最近,許多兩階段方法與一階段重新平衡方法相比取得了顯著的改進。延遲重采樣和延遲重加權(quán)方法首先在第一階段訓練具有長尾分布的網(wǎng)絡,然后在第二階段使用不同的重采樣或重加權(quán)策略調(diào)整網(wǎng)絡。這種簡單的兩階段訓練方案已被證明能夠處理過度擬合,并在許多長尾基準上設置新的最先進性能。最近還出現(xiàn)了許多將長尾數(shù)據(jù)分組訓練的集成方法,例如lfme和bbn。這些方法通常為每個組訓練一個模型,然后在多分支框架中組合各個模型。具體來說,lfme引用將數(shù)據(jù)集分為多類、中類和少類,并為每個子集分配單獨的分支來學習特征表示。bbn提出了一種雙邊分支網(wǎng)絡,通過動態(tài)組合實例平衡采樣器和反向平衡采樣器來模擬延遲重采樣(drs)過程。


技術實現(xiàn)要素:

4.發(fā)明目的:為了解決長尾數(shù)據(jù)識別中對尾部類識別不準確的問題以及困難樣本難以學習的問題,本發(fā)明提供一種具有難樣本感知的強弱雙分支網(wǎng)絡的長尾識別方法。
5.技術方案:一種具有難樣本感知的強弱雙分支網(wǎng)絡的長尾識別方法,包括如下步驟:
6.(1)構(gòu)建雙分支的網(wǎng)絡結(jié)構(gòu):所述雙分支網(wǎng)路結(jié)構(gòu)為相同的殘差網(wǎng)絡結(jié)構(gòu),包括弱分支和強分支,其中:弱分支基于傳統(tǒng)的數(shù)據(jù)增強策略,對于強分支進行隨機添加灰度、模糊和顏失真處理,包括添加正則化項提高兩個分支之間的差異;
7.(2)從差異到分類的學習策略:在訓練的早期階段通過差異損失獲得盡可能不同的分支,并隨著訓練的進展逐漸將訓練的重點轉(zhuǎn)移到分類;
8.(3)構(gòu)建難樣本感知損失函數(shù),在長尾數(shù)據(jù)識別中,當且僅當訓練接近尾聲且每類精度穩(wěn)定時,通過難樣本感知損失代替分類損失ldam-drw,所述難樣本感知損失函數(shù)的表達式如下:
[0009][0010]
其中是第c類的難樣本感知損失權(quán)重,m是訓練示例的數(shù)量,c是類的數(shù)量,wc是第c類的權(quán)重,是訓練示例m的第c類的目標標簽,由softmax(z)計算;的設置規(guī)則
如下:
[0011][0012]
其中表示第c類在第e輪迭代的權(quán)重,m是動量因子,是第c類在第e輪迭代的驗證集上的精度。
[0013]
進一步的,所述方法對于圖像長尾數(shù)據(jù)識別的總損失定義如下:
[0014]
l
sdn
=λ(l
cls
(y,ps)+l
cls
(y,pw))+(1-λ)l
diff
(ps||pw)
[0015]
其中λ和1-λ分別是分類損失和差異損失的權(quán)重;λ定義如下:
[0016][0017]
上式中,e
max
是總訓練迭代數(shù),e是當前迭代。
[0018]
更進一步的,雙分支的網(wǎng)絡結(jié)構(gòu)的訓練包括如下計算過程:
[0019]
(1.1)令x表示訓練樣本,y∈{1,2,

,c}中的y是其標簽,其中c是類數(shù),分別對“強分支”和“弱分支”應用強增強和弱增強策略,然后獲得兩個增強樣本(x_s,y)和(x_w,y)作為輸入數(shù)據(jù),其中(x_s,y)表示強分支,(x_w,y)表示弱分支;
[0020]
(1.2)將步驟(1.1)得到的兩個樣本發(fā)送到其相應的分支,獲得特征向量f_s和f_w;
[0021]
(1.3)將步驟(1.2)得到的兩個特征向量將分別發(fā)送到分類器w_s和w_w;輸出對數(shù)公式如下:
[0022][0023]
其中zs,zw分別表示強分支和弱分支的預測輸出;
[0024]
其中通過softmax函數(shù)計算類的概率如下所示:
[0025][0026]
此外,該方法通過增加正則化項以確保兩個分支之間的差異。
[0027]
其中,步驟(1)包括將兩個分支在總計c類別上的分類概率的kl發(fā)散最大化為:
[0028][0029]
其中,l
diff
表示差異損失。
[0030]
進一步的,所述方法從針對單標簽分類的交叉熵損失函數(shù)開始引入難樣本感知損失函數(shù),所述交叉熵損失函數(shù)如下:
[0031][0032]
其中,m是訓練示例的數(shù)量,c是類的數(shù)量,是訓練示例m的第c類的目標標簽,是訓練示例m的第c類的估計概率,由softmax(z)計算。
[0033]
進而可得,重新加權(quán)損失公式化表示為:
[0034][0035]
其中,wc是第c類的權(quán)重,所述方法中l(wèi)dam-drw損失引用作為l
wce
。
[0036]
最后可得,難樣本感知損失函數(shù)公式化表示為:
[0037][0038]
其中的設置規(guī)則如下:
[0039][0040]
其中表示第c類在第e輪迭代的權(quán)重,m是動量因子,是第c類在第e輪迭代的驗證集上的精度。
[0041]
有益效果:本發(fā)明所構(gòu)建的雙分支的網(wǎng)絡結(jié)構(gòu)和難樣本損失函數(shù)的有效性與現(xiàn)有的長尾數(shù)據(jù)識別方法有明顯的提高,包括在不平衡率方面的表現(xiàn)均優(yōu)越,極大的提高了長尾數(shù)據(jù)識別過程中的準確率,提高了處理圖像長尾數(shù)據(jù)的識別處理能力。
附圖說明
[0042]
圖1為本發(fā)明所述方法的實施流程圖;
[0043]
圖2為本發(fā)明具有難樣本感知損失的強弱雙分支網(wǎng)絡的總體框架。
具體實施方式
[0044]
為詳細說明本發(fā)明所公開的技術方案,下面結(jié)合說明書附圖做進一步的闡述。
[0045]
目前存在的多分支方法本質(zhì)上增加了分支之間的差異,因此本發(fā)明首先是提出一種簡單而有效的方法來增加分支之間的差異,并取得了良好的效果。此外,還發(fā)現(xiàn)驗證集的準確率與訓練樣本數(shù)不呈正相關。有些類有大量圖片,但準確率不高,而有些類有少量圖片,但準確率高。針對這一現(xiàn)象,本發(fā)明所述方法中,進一步的提供一種新的難樣本感知損失函數(shù),該函數(shù)在訓練過程中動態(tài)調(diào)整困難類和簡單類的權(quán)重,使模型更加關注困難樣本。
[0046]
本發(fā)明所述方法用于解決長尾分布數(shù)據(jù)識別的難題,尤其涉及在圖像處理領域中,本發(fā)明為強表示學習和弱表示學習設計了兩個分支。兩個分支的區(qū)別在于處理輸入數(shù)據(jù)時,一個分支使用強增強數(shù)據(jù),另一個分支使用弱增強數(shù)據(jù)。同時,通過最大化kl散度來增加兩個分支之間的差異。此外,該方法包括為該網(wǎng)絡結(jié)構(gòu)設計一種新的學習策略來將學習的重點從差異轉(zhuǎn)到分類。針對困難樣本設計了一個新的難樣本感知損失函數(shù),該損失函數(shù)能夠更有效地關注到困難樣本,進一步提升預測的準確性。
[0047]
實施例1
[0048]
結(jié)合圖1和圖2,圖2展示了具有難樣本感知損失的強弱雙分支網(wǎng)絡的總體框架。本發(fā)明所述方法的實施過程具體如下:
[0049]
(1)構(gòu)建強弱雙分支網(wǎng)絡結(jié)構(gòu)
[0050]
這兩個分支使用相同的殘差網(wǎng)絡結(jié)構(gòu),分別稱為弱分支和強分支。對于弱分支,遵循傳統(tǒng)的數(shù)據(jù)增強策略,而對于強分支,通過隨機添加灰度、模糊和顏失真來提高訓練及
提高結(jié)果的差異。
[0051]
令x表示訓練樣本,y∈{1,2,

,c}中的y是其標簽,其中c是類數(shù)。分別對強分支和弱分支應用強增強和弱增強策略,然后獲得兩個增強樣本(x_s,y)和(x_w,y)作為輸入數(shù)據(jù),其中(x_s,y)表示強分支,(x_w,y)表示弱分支。將這兩個樣本發(fā)送到其相應的分支,獲得特征向量f_s和f_w。然后,這兩個特征向量將分別發(fā)送到分類器w_s和w_w。輸出對數(shù)公式如下:
[0052][0053]
其中zs,zw分別表示強分支和弱分支的預測輸出。通過softmax函數(shù)計算類的概率為:
[0054][0055]
此外,本發(fā)明添加了正則化項以確保兩個分支之間的差異。將兩個分支在總計c類別上的分類概率的kl發(fā)散最大化為:
[0056][0057]
其中l(wèi)
diff
表示差異損失。
[0058]
結(jié)合重新加權(quán)損失(ldam-drw損失)將分類損失定義為l
cls
,最終損失定義為:
[0059]
l
sdn
=λ(l
cls
(y,ps)+l
cls
(y,pw))+(1-λ)l
diff
(ps||pw)
[0060]
其中λ和1-λ分別是分類損失和差異損失的權(quán)重。λ的具體描述參見步驟(2)。
[0061]
(2)構(gòu)建從差異到分類的學習策略
[0062]
該步驟提出一種新的學習策略,將學習重點從差異轉(zhuǎn)移到分類。具體來說,希望在訓練的早期階段通過差異損失獲得盡可能不同的分支,并隨著訓練的進展逐漸將訓練的重點轉(zhuǎn)移到分類。對此,λ定義如下:
[0063][0064]
其中,e
max
是總訓練迭代數(shù),e是當前迭代。據(jù)此可以看到λ是根據(jù)訓練訓練迭代次數(shù)自動生成的,并將隨著訓練迭代的增加而逐漸增加λ控制學習策略從差異到分類的速度。
[0065]
(3)構(gòu)建新的難樣本損失函數(shù)
[0066]
基于大量的現(xiàn)有技術及試驗表明,在長尾數(shù)據(jù)識別任務中,具有少量樣本的類不一定是難以學習的類,同樣,具有大量樣本的類也不一定是易于學習的類。然而,常見的重加權(quán)損失函數(shù)只是根據(jù)類別數(shù)為不同類別分配不同的權(quán)重,即樣本數(shù)越大的類別,類別的權(quán)重越小。這會導致一些樣本量大的困難類別學習不足,而一些樣本量小的簡單類別學習過度。為了解決上述問題,步驟(3)構(gòu)建一種新的損失函數(shù),稱為難樣本感知損失(hl)。
[0067]
首先從針對單標簽分類的交叉熵損失函數(shù)開始引入難樣本感知損失函數(shù)。
[0068][0069]
其中,m是訓練示例的數(shù)量,c是類的數(shù)量,是訓練示例m的第c類的目標標簽,
是訓練示例m的第c類的估計概率。這里由softmax(z)計算。
[0070]
常見的重新加權(quán)損失可以公式化為:
[0071][0072]
其中,wc是第c類的權(quán)重。本實施例使用ldam-drw損失引用作為l
wce
。
[0073]
形式上,在重新加權(quán)損失函數(shù)中引入權(quán)重項以獲得步驟(3)所述的難樣本感知損失函數(shù):
[0074][0075]
其中是第c類的難樣本感知損失權(quán)重。使用以下規(guī)則設置
[0076][0077]
其中表示第c類在第e輪迭代的權(quán)重,m是動量因子,是第c類在第e輪迭代的驗證集上的精度。
[0078]
注意,當且僅當訓練接近尾聲且每類精度穩(wěn)定時,才使用難樣本感知損失代替分類損失ldam-drw。此外,動量因子還為難樣本感知權(quán)重的變化提供了穩(wěn)定性。
[0079]
綜上,介紹了一種簡單而有效的結(jié)構(gòu),稱為強弱雙分支網(wǎng)絡,具有特殊的差異到分類的學習策略,用于長尾視覺識別。此外,本發(fā)明針對難以學習的樣本提出了一種新的難樣本感知損失。大量實驗表明,該方法優(yōu)于以前的工作,在長尾基準測試上有很大的優(yōu)勢。
[0080]
表1.resnet-32在long-tailed cifar-10/100上的top-1精度
[0081][0082]
表1報告了使用resnet-32的cifar-10-lt和cifar-100-lt的top-1精度。不平衡比率為200、100、50和20。本發(fā)明所述方法在所有數(shù)據(jù)集中表現(xiàn)最好,這證明了該方法的通用性。與之前的重加權(quán)和多分支方法相比,可以看到本發(fā)明所述方法明顯優(yōu)于其他現(xiàn)有技術,這表明了本發(fā)明中損失函數(shù)和架構(gòu)的有效性。與強增強方法相比,本發(fā)明也超越了它們,這表明該方法的改進不僅僅是由于數(shù)據(jù)增強。與其他最近的競爭方法相比,在所有不同的不平衡率方面也優(yōu)于現(xiàn)有技術??梢钥闯?,與cifar-10-lt相比,cifar-100-lt的改進更大,這表明本發(fā)明所述方法在面對更困難的數(shù)據(jù)集時可以獲得更好的結(jié)果。本實施例還根據(jù)每類訓練樣本的數(shù)量報告了多類、中類和少類上的準確性以上。
[0083]
表2.resnet-10/resnet-50在imagenet-lt和inaturalist 2018上的top-1精度
[0084][0085]
在imagenet lt和inaturalist 2018上進一步驗證了本發(fā)明所述方法的有效性。這兩個大規(guī)模不平衡數(shù)據(jù)集的結(jié)果在表2中報告。在imagenet lt上,本發(fā)明比ride分別高出2.2%(resnet-10)和1.9%(resnet-50),在inaturalist2018上,本發(fā)明比ride高出1.1%(resnet-50),表明本發(fā)明可以有效地推廣到大規(guī)模數(shù)據(jù)集。
[0086]
實施例2
[0087]
進一步的結(jié)合圖1,下面通過算法實施例來闡述本發(fā)明的應用。
[0088]
數(shù)據(jù)集采用imagenet-lt,編程語言為python3,框架采用pytorch1.7.1。
[0089]
準備數(shù)據(jù)集imagenet-lt,該數(shù)據(jù)集共有1000個類別,整體呈現(xiàn)長尾分布。訓練集包含11萬多張圖片,每個類別的圖片最多的有1280張,最少的只有5張;測試集包含5萬張圖片,每個類別包含的圖片均為50張。準備特征提取網(wǎng)絡resnet-50,輸出特征維度為512維,分類器采用全連接層,輸入特征維度為512,輸出特征維度為1000,隨機初始化神經(jīng)網(wǎng)絡的參數(shù)。
[0090]
訓練階段:對一張圖片經(jīng)過隨機裁剪-隨機進行水平翻轉(zhuǎn)-自動增強-歸一化后的圖片作為弱增強的圖片,在弱增強的基礎上加入隨機添加灰度、模糊和顏失真的圖片作為強增強的圖片,送入雙分支的網(wǎng)絡進行訓練,訓練的過程中最大化kl散度和最小化分類損失來保證雙分支的差異以及分類的準確度,同時在訓練的過程中使用從差異到分類的學習策略,將重點慢慢從差異轉(zhuǎn)到分類上來。在訓練接近尾聲時,我們將分類損失函數(shù)替換為新提出的難樣本感知損失函數(shù),用于增大難樣本的權(quán)重進行微調(diào)。
[0091]
訓練的批大小為128,一共200次迭代,其中最后20輪迭代使用的難樣本感知損失函數(shù)。初始學習率為0.05,在120和160輪時分別將學習率衰減為原來的0.1和0.01。
[0092]
測試階段:構(gòu)造imagenet-lt test集,每個類別有50張圖片,將圖片經(jīng)過縮放-中心裁剪-歸一化的操作后送入網(wǎng)絡進行預測,集成雙分支的輸出作為最終結(jié)果,整個測試集上的準確率達到了56.31%,取得了目前最好的效果。


文章投稿或轉(zhuǎn)載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-10-1104-0.html

來源:專利查詢檢索下載-實用文體寫作網(wǎng)版權(quán)所有,轉(zhuǎn)載請保留出處。本站文章發(fā)布于 2022-11-27 21:27:42

發(fā)表評論

驗證碼:
用戶名: 密碼: 匿名發(fā)表
評論列表 (有 條評論
,2人圍觀
參與討論