本文作者:kaifamei

一種基于多模態采集的高幀率超分辨率的提升方法與流程

更新時間:2025-12-26 22:21:20 0條評論

一種基于多模態采集的高幀率超分辨率的提升方法與流程



1.本發明涉及人工智能領域,涉及一種基于多模態采集的高幀率超分辨率的提升方法。


背景技術:

2.超分辨率重建是一種利用人工智能技術提升圖像的視頻質量的重要技術,該技術可以將低分辨率的圖像和視頻提升到較高的分辨率,此外還可以生成高幀率的視頻。例如將2k@30fps的視頻提升到4k@60fps的視頻,提升了視頻圖像的分辨率和視頻的幀率,畫面質量得到明顯的提升了。然而,目前的主要問題是:當前流行的大多數超分辨提升技術,大多針對單一的圖像進行分辨率的提升,或者只基于單個模態進行超分辨提升,忽視了視頻內容的時序性特征,無法有效的利用時空域的信息對分辨率和幀率進行提升。事件相機作為一種基于生物啟發設計的傳感器,對比幀相機,具有高時間分辨率(100mhz)、寬動態(hdr》80db)等優勢,事件相機采集的是異步的獨立的像素,當該像素的變化值超過某個閾值時,該像素會被激活,事件相機更適合采集光線復雜的運動場景的數據,此前有多種方法基于事件相機和幀相機超分辨率提升方法被成功應用,然而,他們的方法沒有充分發揮事件相機優勢。具體地,事件相機的輸出數據是一種獨立的異步的信號,事件數據包含:(x,y,p,t)四個值,其中(x,y)表示事件像素的坐標值,p表示事件數據的極值,為0和1,t表示事件生成的時間點,由于無法適用當前流行的網絡,因此將異步獨立的事件數據信號重建為類似圖像的方法,許多方法采用將一個固定時間段的事件信息聚合成一個二維的圖像矩陣來解決這一問題,然而這種方法無法發揮事件數據的時空優勢。解決現存問題及缺陷的難度為:解決現存問題有較大的難度,如果傳統相機要實現高幀率高分辨的采集圖像信息,會產生大量的數據,同時也會消耗大量的能源,原有的電力供應和數據存儲及傳輸方式已經無法滿足,需要定制化的設計相機的電力供應和數據傳輸存儲方式,技術難度高,成本巨大。解決以上問題及缺陷的意義為:通過本發明的方法對兩種傳感器的有效融合,可以解決高幀率高分辨率的圖像采集難點,通過一種低成本低數據量的手段實現了高分辨率高幀率的數據采集需求,對于圖像采集和超分辨率具有重要的意義。


技術實現要素:

3.本發明提供了一種基于多模態采集的高幀率超分辨率的提升方法,主要采用兩種模態的圖像采集設備的數據進行智能融合,將低幀率、低分辨率的視頻提升成為高幀率、高分辨率的視頻,解決了事件相機的數據重建問題以及兩種模態數據特征的融合問題。
4.本發明的技術方案如下:
5.本發明的基于多模態采集的高幀率超分辨率的提升方法,包括以下步驟:s1.采集數據:利用事件相機和傳統相機在固定位置同時采集相應的數據;s2.獲取幀數據:傳統相機數據采用幀的形式輸入到系統中;s3.獲取事件數據:事件數據采用像素點的傳輸方式,將每個獨立的事件像素點輸入到系統中;s4.滑動重建:將步驟s3中獲取的事件數據重建為
二維的矩陣,使用滑動窗方法實現對事件數據的重建,并將重建后的數據輸入到特征提取網絡中;s5.事件特征提?。豪锰卣魈崛【W絡中的事件數據的特征提取網絡對重建后的事件數據進行特征提??;s6.幀特征提?。豪锰卣魈崛【W絡中的幀數據的特征提取網絡對幀數據進行特征提取;s7.特征融合:將步驟s5和步驟s6中分別提取的事件特征和幀特征,利用時間注意力模型進行特征的融合;s8.內容生成:將步驟s7中融合的特征進行視頻幀超分重建;s9.編碼輸出:將步驟s8中生成的視頻幀利用avs3編碼技術進行視頻編碼后進行輸出;s9.編碼輸出:將步驟s8中生成的視頻幀利用avs3編碼技術進行視頻編碼后進行輸出。
6.優選地,在上述基于多模態采集的高幀率超分辨率的提升方法中,在步驟s1中,事件相機和傳統相機應固定在同一水平線上,相互間隔不超過20cm,同時啟動事件相機和傳統相機進行數據采集。
7.優選地,在上述基于多模態采集的高幀率超分辨率的提升方法中,在步驟s4中,利用滑動時間窗將該窗口囊括的所有事件像素進行二維重建,滑動時間窗可以兼顧事件數據的上下關聯,事件像素分布在x、y、t組成的三維空間內,滑動窗口t1、t2、t3
……
tn,除了初始t1外,其他的窗口都是包含上一個窗口包含內容的一半信息。
8.優選地,在上述基于多模態采集的高幀率超分辨率的提升方法中,在步驟s5中,特征提取網絡分為兩個分支:事件數據的特征提取網絡和幀數據的特征提取網絡,事件數據的特征提取網絡由6層卷積網絡組成,其輸入為重建后的事件數據;幀數據的特征提取網絡由9層卷積網絡組成,其輸入為幀數據,輸入重建的事件數據和幀數據應該對應,事件數據的時間的結束時間應對應幀數據的采集時間。
9.優選地,在上述基于多模態采集的高幀率超分辨率的提升方法中,在步驟s7中,將事件特征和幀特征按照權重比例進行融合,將事件特征和幀特征的權重分別設置為3:7,融合后的特征在時間注意力模型網絡中進行注意力特征提取,時間注意力模型網絡在gru結構中包含著上一時刻幀的信息,通過上一幀的隱藏狀態h
t
,與當前幀的狀態h
t+1
來計算當前幀的注意力權重,并利用注意力權重優化優化融合后的特征,將優化后的特征輸出進行下一個階段的處理。
10.優選地,在上述基于多模態采集的高幀率超分辨率的提升方法中,在步驟s8中,包括兩部分內容:超分重建和插幀重建,基于步驟s7中融合的特征,利用訓練好的生成器來進行圖像的重建,其中生成器來自于styleg絡,并生成具有高分辨率的圖像幀;在插幀重建部分,利用事件數據的光流特征,對相鄰的圖像幀進行加幀,通過利用flownet計算兩個階段的重建事件數據的光流特征,根據光流特征計算像素運動的偏移量,并根據像素運動的偏移量結合前后視頻幀的來進行插幀,前后幀視頻幀是經過超分重建的視頻幀。
11.根據本發明的技術方案,產生的有益效果是:
12.本發明的基于多模態采集的高幀率超分辨率的提升方法,采用事件相機和幀相機兩種模態的相機采集視頻數據,通過滑動窗口的形式重建事件數據,通過特征融合的方法(利用時間注意力網絡對兩種模態的數據特征進行融合),通過對抗生成網絡生成高分辨率及高幀率的視頻內容,利用較低的成本可以實現復雜場景下較高的質量的視頻內容的采集拍攝。
13.為了更好地理解和說明本發明的構思、工作原理和發明效果,下面結合附圖,通過具體實施例,對本發明進行詳細說明如下:
附圖說明
14.為了更清楚地說明本發明具體實施方式或現有技術中的技術方案,下面將對具體實施方式或現有技術描述中所需要使用的附圖作簡單地介紹。
15.圖1是本發明的基于多模態采集的高幀率超分辨率的提升方法的流程圖;
16.圖2是本發明涉及的滑動窗口重建事件數據的方式。
具體實施方式
17.為使本發明的目的、技術方法及優點更加清晰,下面結合附圖及具體實例,對本發明做進一步的詳細說明。這些實例僅僅是說明性的,而并非對本發明的限制。
18.本發明的基于多模態采集的高幀率超分辨率的提升方法的工作原理為:主要利用兩種模態數據的特征進行融合,融合后生成具有高分辨率、高幀率的視頻數據。主要采用事件數據的重建、兩種模態的特征提取、時間注意力的特征融合和超分辨生成這四個主要步驟,通過讓對事件相機數據采用滑動窗口重建,充分發揮事件相機在時間分辨率的優勢,都裝換成光流特征的形式進行融合,融合后的數對原始的幀數據進行超分修復,使得原視頻可以從低幀率提升到高幀率的數據。
19.如圖1所示,本發明的基于多模態采集的高幀率超分辨率的提升方法,包括以下步驟:
20.s1.采集數據:利用事件相機和傳統相機在固定位置同時采集相應的數據。為了保證采集數據差異盡可能的小,事件相機和傳統相機應固定在同一水平線上,相互間隔不超過20cm。同時啟動事件相機和傳統相機進行數據采集。
21.s2.獲取幀數據:傳統相機數據采用幀的形式輸入到系統中。
22.s3.獲取事件數據:事件數據采用像素點的傳輸方式,將每個獨立的事件像素點(x,y,p,t)輸入到系統中。
23.s4.滑動重建:將步驟s3中獲取的事件數據(獨立事件像素)重建為二維的矩陣,使用滑動窗方法實現對事件數據的重建,并將重建后的數據輸入到特征提取網絡中。
24.其中,滑動窗口的事件數據重建為:利用滑動時間窗將該窗口囊括的所有事件像素進行二維重建,滑動時間窗可以兼顧事件數據的上下關聯,滑動窗口的事件數據重建如圖2所示,事件像素分布在(x,y,t)組成的三維空間內,滑動窗口t1、t2、t3
……
tn,其創新點在于除了初始t1外,其他的窗口都是包含上一個窗口包含內容的一半信息,這樣可以有效的關聯事件數據在時域上的關聯,使得運動信息得到完全的保留,有利后續高幀率的生成。
25.s5.事件特征提?。豪锰卣魈崛【W絡中的事件數據的特征提取網絡對重建后的事件數據進行特征提取。
26.本發明采用多模態的特征提取,特征提取網絡分為兩個分支:事件數據的特征提取網絡和幀數據的特征提取網絡,兩支網絡中,事件數據的特征提取網絡由6層卷積網絡組成,其輸入為重建后的事件數據;幀數據的特征提取網絡由9層卷積網絡組成,其輸入為幀數據,此處應注意,輸入重建的事件數據和幀數據應該對應,事件數據的時間的結束時間應對應幀數據的采集時間。事件數據的特征提取網絡采用n-imagenet數據進行預訓練,訓練任務是用于目標識別,幀數據的特征提取網絡采用imagenet大規模數據集進行預訓練,預訓練模型后的卷積網絡可以有效地提取到事件數據和幀數據的特征。
27.s6.幀特征提?。豪脦瑪祿奶卣魈崛【W絡對幀數據進行特征提取。
28.s7.特征融合:將步驟s5和步驟s6中分別提取的事件特征和幀特征,利用時間注意力模型進行特征的融合。
29.時間注意力的特征融合:本發明設計一種基于時間注意力的特征融合機制,可以將特征提取網絡的兩個分支網絡提取的特征進行有效地融合,具體地,時間注意力模型是采用gru(一種國際通用的循環神經網絡的名稱)和注意力網絡結構的編碼解碼結構。首先,將事件特征和幀特征按照權重比例進行融合,根據經驗測試,將事件特征和幀特征的權重分別設置為3:7,融合后的特征在時間注意力模型網絡中進行注意力特征提取,由于本發明的應用場景是基于時序序列的視頻,因此時間注意力模型網絡可以有效地利用在時序上的特性,在gru結構中包含著上一時刻幀的信息,通過上一幀的隱藏狀態h
t
,與當前幀的狀態h
t+1
來計算當前幀的注意力權重,并利用注意力權重優化優化融合后的特征,將優化后的特征輸出進行下一個階段的處理。
30.s8.內容生成:將步驟s7中融合的特征進行視頻幀超分重建。
31.該步驟包括:兩部分內容,超分重建和插幀重建,相比于以往基于單一特征的視頻幀重建,本發明提出基于融合特征的視頻幀重建,其技術的關鍵部分在于將兩種模態特征融合后來進行視頻幀重建。基于步驟s7中融合的特征,利用訓練好的生成器來進行圖像的重建,其中生成器來自于styleg絡,并生成具有高分辨率的圖像幀。在插幀重建部分,其技術關鍵部分在于利用事件數據的光流特征,對相鄰的圖像幀進行加幀,通過利用flownet計算兩個階段的重建事件數據的光流特征,根據光流特征計算像素運動的偏移量,并根據像素運動的偏移量結合前后視頻幀的來進行插幀,前后幀視頻幀是經過超分重建的視頻幀。
32.s9.編碼輸出:將步驟s8中生成的視頻幀利用avs3編碼技術進行視頻編碼后進行輸出。
33.本發明通過利用事件相機和傳統相機同時進行數據采集,將采集的數據分別處理,事件數據采用滑動窗口的方法進行重建,充分發揮出事件數據在時空域的優勢。然后,利用利用特征提取網絡分別對重建后的事件數據和傳統相機輸出的幀數據進行特征提取,利用時間注意力機制將這兩種模態的數據進行融合。融合后特征包含了事件相機的時間域信息和傳統相機的空間域信息,利用對抗生成網絡進行視頻內容的生成,生成具有高幀率和高分辨率的視頻數據。本發明通過滑動窗口事件數據重建、多模態特征提取、時間注意力的特征融合和利用生成模糊對融合后的信息進行生成,充分發揮了事件數據高時間分辨率、寬動態的優勢,彌補了傳統相機在這兩個方面的缺點;本發明實現了兩種模態的結合,利用兩種模態的數據進行充分融合,輸出具有高幀率、高分辨率的視頻數據,使得該系統在暗光、過度曝光、快速運動等場景可以輸出遠高于傳統相機的幀率和分辨率的視頻數據,實現對傳統相機的升級以克服各種具有挑戰的場景。
34.表1表明本發明提出的方法只需要在較低的數據量和功耗就可以實現高幀率的信息獲取,驗證了本發明的有效性和先進性。
35.表1
36.相機方案本發明方法傳統高速相機方法可實現幀率1000fps240fps
原始數據量3~5mb/s.15~20mb/s.消耗功率450mw~1.5w18w~20w
37.以上說明是依據發明的構思和工作原理的最佳實施例。上述實施例不應理解為對本權利要求保護范圍的限制,依照本發明構思的其他實施方式和實現方式的組合均屬于本發明的保護范圍。


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-15-866-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2022-11-27 21:15:04

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
,2人圍觀
參與討論