本文作者:kaifamei

基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用

更新時間:2025-12-27 02:09:17 0條評論

基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用



1.本發明涉及圖文檢測與矯正領域的相關問題,具體涉及一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用。


背景技術:

2.在我們的日常生活中存在著大量的包含文字信息的圖片,這些圖片是我們信息交流和感知世界的重要載體。圖文檢測是我們理解這些圖片中文字內容的先決條件,但是由于圖片中文字區域的尺寸、文字的形狀以及背景因素的影響,場景文本的檢測充滿了挑戰,尤其是任意形狀文本的檢測,這里的任意形狀文本包括彎曲的、傾斜的、細長的文本。
3.深度學習方法可以將復雜的計算過程交給神經網絡進行學習,直接由輸入圖像產生相應的輸出結果。此種端到端的學習方法具有學習成本低,性能表現優異。隨著深度學習技術的發展,目前基于深度學習技術的任意形狀文本檢測網絡主要分為兩大類,一類是分割的方法,另一類是回歸的方法。分割的方法是對圖像中的像素進行分類,得到文本的區域,進而得到文本的邊界,但是這種方法需要消耗大量的計算資源,同時對于一些鄰近的文本不能很好地分開。回歸的方法是對文本的邊界進行編碼,讓神經網絡對編碼的的參數進行學習,然后解碼出相應的文本邊界,這種方法雖然簡單易于訓練,但是受編碼方式的影響,對彎曲程度比較大的文本檢測效果不好。


技術實現要素:

4.本發明是為了解決上述現有技術存在的不足之處,提出一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用,以期能用于對自然場景圖片中任意形狀文本的高精度檢測和形狀矯正,從而能提高圖片中任意形狀文本的識別精度。
5.本發明為達到上述發明目的,采用如下技術方案:
6.本發明一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法的特點在于,包括以下步驟:
7.步驟1:構建訓練數據集,包括數據的獲取以及預處理:
8.步驟1.1:獲取文本圖像數據集記為i={i1,i2,...,i
p
,...,iu},i
p
表示文本圖像數據集i中第p張文本圖像,u表示文本圖像數據集i中文本圖像的總數目;
9.步驟1.2:提取第p張文本圖像i
p
中的文本區域,得到相對應的文本區域邊界點集合記為并形成文本區域邊界,其中,表示第p張文本圖像i
p
中文本區域的第q個邊界點坐標,l表示文本區域的邊界點數目;
10.步驟1.3:獲取第p張文本圖像i
p
中文本區域tr
p
的文本中心線區域tcrgt
p
、文本頭部區域thrgt
p
、文本尾部區域ttrgt
p
、文本上下邊界區域tbrgt
p
;從而得到文本圖像數據集i的文本中心線區域集合記為tcrgt={tcrgt1,tcrgt2,...,tcrgt
p
,...tcrgtu};文本頭部區域集合記為thrgt={thrgt1,thrgt2,...,thrgt
p
,...,thrgtu},文本尾部區域集合記為
ttrgt={ttrgt1,ttrgt2,...,ttrgt
p
,...ttrgtu},文本上下邊界區域集合記為tbr={tbrgt1,tbrgt2,...,tbrgt
p
,...,tbrgtu};
11.步驟1.4:在極坐標系下對第p張文本圖像i
p
進行建模,得到相對應的文本圖像從而得到極坐標系下的文本圖像集合為
12.步驟1.5:獲取第p張文本圖像內文本區域的中心點(x
p
,y
p
),且),且以文本區域的中心點(x
p
,y
p
)為發射點,按照相同的角度間隔發射k條射線,并與所述文本區域邊界相交,得到文本區域中心點到文本區域邊界點之間的距離集合記為其中,表示第p張文本圖像內文本區域的中心點(x
p
,y
p
)到文本區域的第s個邊界點間的距離,從而得到文本圖像集合的距離集合記為reggt={reggt1,reggt2,...,reggt
p
,...,reggtu};
13.步驟2:構建任意形狀文本檢測網絡,包括:特征提取器、編碼器和解碼器;并將所述的文本圖像集合輸入所述任意形狀文本檢測網絡中;
14.步驟2.1所述特征提取器由resnet50網絡,反卷積網絡和特征金字塔網絡組成;
15.所述第p張文本圖像依次經過restnet50網絡、反卷積網絡和特征金字塔網絡后輸出第p個特征圖result
p
;從而由特征提取網絡輸出文本圖像集合的特征圖集合result={result1,result2,...,result
p
,...,resultu};
16.步驟2.2所述編碼器,包括:分類編碼器和回歸編碼器;其中,所述分類編碼器由r個卷積核為e
×
e的二維卷積層和r個relu非線性激活層交替連接而成;所述回歸編碼器由v個卷積核為c
×
c的二維卷積層和v個relu非線性激活層交替連接而成;
17.所述特征圖result
p
經過分類編碼器的處理后,輸出第p個分類特征圖cls
p
;
18.所述特征圖result
p
經過回歸編碼器的處理后,輸出第p個回歸特征圖reg
p
;
19.步驟2.3所述解碼器,包括:分類解碼器和回歸解碼器;其中,所述分類解碼器依次由1個卷積核為f
×
f的二維卷積層,1個softmax函數組成;所述回歸解碼器依次由1個卷積核為w
×
w的二維卷積層,1個反傅里葉變換函數組成;
20.所述第p個分類特征圖cls
p
經過分類解碼器的處理后,輸出預測的第p個文本中心線區域tcrpred
p
,預測的第p個文本頭部區域thrpred
p
、預測的第p個文本尾部區域ttrpred
p
、預測的第p個文本上下邊界區域tbrpred
p
;從而由分類解碼器輸出文本圖像集合預測的文本中心線區域集合tcrpred={tcrpred1,tcrpred2,...,tcrpred
p
,...,tcrpredu},預測的文本頭部區域集合thrpred={thrpred1,thrpred2,...,thrpred
p
,...,thrpredu},預測的文本尾部區域集合ttrpred={ttrpred1,ttrpred2,...,ttrpred
p
,...,ttrpredu},預測的文本上下邊界區域集合tbrpred={tbrpred1,tbrpred2,...,tbrpred
p
,...,tbrpredu};
21.所述第p個回歸特征圖reg
p
經過回歸解碼器的處理后,輸出預測的第p個距離集合
其中,表示由任意形狀文本檢測網絡預測的第p張文本圖像內文本區域中心點(x
p
,y
p
)到文本區域的第g個邊界點的距離;從而由回歸解碼器輸出文本圖像集合預測的距離集合記為:
22.regpred={regpred1,regpred2,...,regpred
p
,...,regpredu};
23.步驟2.4使用式(1)建立反向傳播的損失函數l:
24.l=l
tcr
+l
thr
+l
ttr
+l
tbr
+l
reg
????????
(1)
25.式(1)中,l
tcr
,l
thr
,l
ttr
,l
tbr
均為交叉熵損失,并分別由式(2),式(3),式(4),式(5)得到;
[0026][0027][0028][0029][0030]
式(1)中,l
reg
是smoothl1損失,并由式(6)得到;
[0031][0032]
步驟2.5:基于所述文本圖像集合利用梯度下降法對任意形狀文本檢測網絡進行訓練,并計算損失函數l,當訓練迭代次數達到設定的次數或者損失誤差小于設定的閾值時,訓練停止,從而得到最優的任意形狀文本檢測網絡;
[0033]
步驟3:檢測結果后處理,包括:雙線性插值矯正處理;
[0034]
步驟3.1利用最優的任意形狀文本檢測網絡對文本圖像數據集合進行處理并輸出相應的文本區域邊界集合記為txt={txt1,txt2,...,txt
p
,...,txtu},其中,txt
p
表示第p張文本圖像中的文本區域邊界;
[0035]
步驟3.2利用雙線性插值對所述文本區域邊界集合txt進行矯正處理后,得到矯正后的文本集合記為txt

={txt
′1,txt
′2,...,txt

p
,...,txt
′u};其中,txt

p
表示p張文本圖像中的矯正后的文本區域邊界。
[0036]
本發明一種電子設備,包括存儲器以及處理器,其特點在于,所述存儲器用于存儲支持處理器執行所述任意形狀文本的檢測與矯正方法的程序,所述處理器被配置為用于執行所述存儲器中存儲的程序。
[0037]
本發明一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有計算機程序,其
特點在于,所述計算機程序被處理器運行時執行所述任意形狀文本的檢測與矯正方法的步驟。
[0038]
與現有技術相比,本發明的有益效果在于:
[0039]
1、對于復雜的高度彎曲的文本邊界需要較多的邊界點去表示,對于簡單的矩形文本,用較少的邊界點就可以表示,這導致在文本邊界的表示形式上存在差異。而本發明通過將任意形狀的文本建模在極坐標系下,由坐標的極點和由極點發射出的n條射線來表示文本邊界,這樣無論對于復雜的高度彎曲的文本,還是對于簡單的矩形文本,都可以用統一的表示方法,從而使得不同復雜程度的文本邊界具有相同的表達形式。
[0040]
2、為了學習文本邊界的參數分布情況,本發明采用傅里葉級數對文本邊界進行編碼,這樣復雜的文本邊界檢測問題就轉換為簡單的傅里葉級數學習問題,從而降低了任意形狀文本檢測網絡的參數量,提高了任意形狀文本檢測網絡的訓練速度。
[0041]
3、本發明將文本區域分成文本中心線區域、文本頭部區域、文本尾部區域、文本上下邊界區域,并通過對不同區域的特征學習,不僅可以區分出圖片中的前景和背景,還可以區分相鄰的文本,從而提高了任意形狀文本檢測網絡的檢測精度。
[0042]
4、規則的矩形文本相較于彎曲的、傾斜的文本更利于識別網絡的識別,考慮到后續的識別任務,本發明對檢測得到的任意形狀文本進行了雙線性插值矯正,將任意形狀不規則的文本矯正成規則的矩形文本,從而提高了后續識別任務的識別精度。
附圖說明
[0043]
圖1為本發明檢測與矯正方法的流程圖;
[0044]
圖2為本發明網絡的框架圖。
具體實施方式
[0045]
在本實施例中,一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法,具體流程如圖1所示,包含以下步驟:
[0046]
步驟1:構建訓練數據集,包括數據的獲取以及預處理:
[0047]
步驟1.1:獲取文本圖像數據集記為i={i1,i2,...,i
p
,...,iu},i
p
表示文本圖像數據集i中第p張文本圖像,u表示文本圖像數據集i中文本圖像的總數目;在本實施中,使用的是自然場景任意形狀文本數據集ctw1500,數據集分為訓練集和測試集,訓練集中含有1000張圖像,測試集中含有500張圖像,圖像中的文本形狀有傾斜的、彎曲的以及細長的,讀取數據集中的圖像,對圖像進行尺寸的放縮,得到單個圖像的尺寸大小為3
×
800
×
800,其中,3是通道數,800是圖像的尺寸;
[0048]
步驟1.2:提取第p張文本圖像i
p
中的文本區域tr
p
,得到相對應的文本區域邊界點集合記為并形成文本區域邊界,其中,表示第p張文本圖像i
p
中文本區域的第q個邊界點坐標,l表示文本區域的邊界點數目;
[0049]
步驟1.3:獲取第p張文本圖像i
p
中文本區域的文本中心線區域tcrgt
p
、文本頭部區域thrgt
p
、文本尾部區域ttrgt
p
、文本上下邊界區域tbrgt
p
;從而得到文本圖像數據集i的文
本中心線區域集合記為tcrgt={tcrgt1,tcrgt2,...,tcrgt
p
,...tcrgtu};文本頭部區域集合記為thrgt={thrgt1,thrgt2,...,thrgt
p
,...,thrgtu},文本尾部區域集合記為ttrgt={ttrgt1,ttrgt2,...,ttrgt
p
,...ttrgtu},文本上下邊界區域集合記為tbr={tbrgt1,tbrgt2,...,tbrgt
p
,...,tbrgtu};在本實施中第p張文本圖像i
p
中文本區域的文本中心線區域tcrgt
p
由文本區域tr
p
縮小0.3倍獲得,文本頭部區域thrgt
p
為文本區域tr
p
的左半部縮小0.2倍獲得,文本尾部區域ttrgt
p
為文本區域tr
p
的右半部縮小0.2倍獲得,文本上下邊界區域tbrgt
p
為文本區域中心線到文本上下邊界區域的0.2倍獲得;
[0050]
步驟1.4:在極坐標系下對第p張文本圖像i
p
進行建模,得到相對應的文本圖像從而得到極坐標系下的文本圖像集合為
[0051]
步驟1.5:獲取第p張文本圖像內文本區域的中心點(x
p
,y
p
),且),且以文本區域的中心點(x
p
,y
p
)為發射點,按照相同的角度間隔發射k條射線,并與文本區域邊界相交,得到文本區域中心點到文本區域邊界點之間的距離集合記為其中,表示第p張文本圖像內文本區域的中心點(x
p
,y
p
)到文本區域的第s個邊界點間的距離,從而得到文本圖像集合的距離集合記為reggt={reggt1,reggt2,...,reggt
p
,...,reggtu};在本實施中文本區域邊界點的數目k選為90,以文本中心點(x
p
,y
p
)為坐標極點,每間隔4
°
發射1條射線,當某角度下射線與文本區域邊界有多個交點時,選取距離長度最大的交點作為任意形狀文本檢測網絡學習的數據,當射線與文本區域邊界沒有交點時,設定距離長度為ε=10-6
;
[0052]
步驟2:如圖2所示,構建任意形狀文本檢測網絡,包括:特征提取器、編碼器和解碼器;并將的文本圖像集合輸入任意形狀文本檢測網絡中;
[0053]
步驟2.1特征提取器由resnet50網絡,反卷積網絡和特征金字塔網絡組成;
[0054]
第p張文本圖像依次經過restnet50網絡、反卷積網絡和特征金字塔網絡后輸出第p個特征圖result
p
;從而由特征提取網絡輸出文本圖像集合的特征圖集合result={result1,result2,...,result
p
,...,resultu};
[0055]
步驟2.2編碼器,包括:分類編碼器和回歸編碼器;其中,分類編碼器由r個卷積核為e
×
e的二維卷積層和r個relu非線性激活層交替連接而成;回歸編碼器由v個卷積核為c
×
c的二維卷積層和v個relu非線性激活層交替連接而成;在本實施中,分類編碼器的卷積層數r為3,卷積核的大小e為3,回歸編碼器的卷積層數v為4,卷積核的大小c為5;
[0056]
特征圖result
p
經過分類編碼器的處理后,輸出第p個分類特征圖cls
p
;
[0057]
特征圖result
p
經過回歸編碼器的處理后,輸出第p個回歸特征圖reg
p

[0058]
步驟2.3解碼器,包括:分類解碼器和回歸解碼器;其中,分類解碼器依次由1個卷積核為f
×
f的二維卷積層,1個softmax函數組成;回歸解碼器依次由1個卷積核為w
×
w的二維卷積層,1個反傅里葉變換函數組成;在本實施中,分類解碼器的卷積核的大小f為3,回歸解碼器的卷積核的大小w為5。
[0059]
第p個分類特征圖cls
p
經過分類解碼器的處理后,輸出預測的第p個文本中心線區域tcrpred
p
,預測的第p個文本頭部區域thrpred
p
、預測的第p個文本尾部區域ttrpred
p
、預測的第p個文本上下邊界區域tbrpred
p
;從而由分類解碼器輸出文本圖像集合預測的文本中心線區域集合tcrpred={tcrpred1,tcrpred2,...,tcrpred
p
,...,tcrpredu},預測的文本頭部區域集合thrpred={thrpred1,thrpred2,...,thrpred
p
,...,thrpredu},預測的文本尾部區域集合ttrpred={ttrpred1,ttrpred2,...,ttrpred
p
,...,ttrpredu},預測的文本上下邊界區域集合tbrpred={tbrpred1,tbrpred2,...,tbrpred
p
,...,tbrpredu};
[0060]
第p個回歸特征圖reg
p
經過回歸解碼器的處理后,輸出預測的第p個距離集合其中,表示由任意形狀文本檢測網絡預測的第p張文本圖像內文本區域中心點(x
p
,y
p
)到文本區域的第g個邊界點的距離;從而由回歸解碼器輸出文本圖像集合預測的距離集合記為:
[0061]
regpred={regpred1,regpred2,...,regpred
p
,...,regpredu};
[0062]
步驟2.4使用式(1)建立反向傳播的損失函數l:
[0063]
l=l
tcr
+l
thr
+l
ttr
+l
tbr
+l
reg
??????
(1)
[0064]
式(1)中,l
tcr
,l
thr
,l
ttr
,l
tbr
均為交叉熵損失,并分別由式(2),式(3),式(4),式(5)得到;
[0065][0066][0067][0068][0069]
式(1)中,l
reg
是smoothl1損失,并由式(6)得到;
[0070][0071]
步驟2.5:基于文本圖像集合利用梯度下降法對任意形狀文本檢測網絡進行訓練,并計算損失函數l,當訓練迭代次數達到設定的次數或者損失誤差小于設定的閾值時,訓練停止,從而得到最優的任意形狀文本檢測網絡;
[0072]
步驟3:檢測結果后處理,包括:雙線性插值矯正處理;
[0073]
步驟3.1利用最優的任意形狀文本檢測網絡對文本圖像數據集合進行處理并輸出相應的文本區域邊界集合記為txt={txt1,txt2,...,
txt
p
,...,txtu},其中,txt
p
表示第p張文本圖像中的文本區域邊界;在本實施中,第p張文本圖像由任意形狀文本檢測網絡預測產生第p個文本中心線區域tcrpred
p
和第p個距離集合選取文本區域的文本中心線區域內的點(x
p
,y
p
),以點(x
p
,y
p
)為發射點,由距離集合得到文本區域的邊界點集合其中
[0074]
步驟3.2利用雙線性插值對文本區域邊界集合txt進行矯正處理后,得到矯正后的文本集合記為txt

={txt
′1,txt
′2,...,txt

p
,...,txt
′u};其中,txt

p
表示p張文本圖像中的矯正后的文本區域邊界。在本實施中,設定第p張圖片中的文本區域經矯正后的文本邊界為boundary
p
,其中矩形的長寬分別為矯正前文本區域內坐標點p(x,y)處的像素q和矯正后矩形文本區域內對應坐標點p

(x

,y

)處的像素q

之間一一對應,對于矯正后坐標點為小數的像素值通過雙線性插值的方法獲得,對于坐標為p

(x

,y

)的點,取周圍四個坐標點p
′1(x
′1,y
′1),p
′2(x
′2,y
′1),p
′3(x
′1,y
′2),p
′4(x
′2,y
′2),這四個點的像素值分別為q
′1,q
′2,q
′3,q
′4,首先由p
′1(x
′1,y
′1),p
′2(x
′2,y
′1)的像素值求出p

12
(x

,y
′1)的像素值q

12
,再由p
′3(x
′1,y
′2),p
′4(x
′2,y
′2)的像素值求出p

34
(x

,y
′2)像素值q

34
,最后由p

12
(x

,y
′1)和p

34
(x

,y
′2)的像素值求出坐標點p

(x

,y

)的像素值q

;
[0075]q′
12
為:
[0076]q′
34
為:
[0077]q′
為:
[0078]
本實施例中,一種電子設備,包括存儲器以及處理器,該存儲器用于存儲支持處理器執行上述方法的程序,該處理器被配置為用于執行該存儲器中存儲的程序。
[0079]
本實施例中,一種計算機可讀存儲介質,是在計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行上述方法的步驟。


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-16-1026-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-11-27 21:26:51

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
,2人圍觀
參與討論