
龍?jiān)雌诳W(wǎng)
移動(dòng)視覺(jué)搜索技術(shù)研究進(jìn)展及其在數(shù)字人文
領(lǐng)域應(yīng)用實(shí)踐
作者:余婷婷
來(lái)源:《創(chuàng)新科技》2017年第05期
[摘要]隨著云計(jì)算、移動(dòng)智能終端等信息技術(shù)飛速發(fā)展,視覺(jué)搜索開(kāi)始從PC端走向移動(dòng)
終端,自移動(dòng)視覺(jué)搜索(MobileVisualSearch,MVS)提出以來(lái),已成為信息檢索領(lǐng)域重要研
究課題。目前MVS研究主要集中于基本架構(gòu)、視覺(jué)對(duì)象處理、視覺(jué)對(duì)象檢索等關(guān)鍵技術(shù);在
數(shù)字人文領(lǐng)域,MVS主要應(yīng)用于展品導(dǎo)覽,實(shí)現(xiàn)精準(zhǔn)定位,提升閱讀體驗(yàn)等;標(biāo)準(zhǔn)化問(wèn)題、
用戶(hù)體驗(yàn)及視覺(jué)對(duì)象數(shù)據(jù)庫(kù)構(gòu)建則是其未來(lái)重點(diǎn)發(fā)展方向。
[關(guān)鍵詞]移動(dòng)視覺(jué)搜索;數(shù)字人文
[分類(lèi)號(hào)]G250[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1671-0037(2017)5-43-4
Abstract:Withtherapiddevelopmentofinformationtechnologies,suchascloudcomputing
andmobileintelligent,Visual
Search(MVS)hasbecomeanimportantrearchtopicinthefieldofinformationretrievalsinceit
ent,MVSrearchmainlyfocusonthekeytechnologiessuchasbasic
architecture,visualobjectprocessingandvisualobjectretrieval;inthefieldofdigital
humanities,MVSismainlyudinexhibition,achievingprecipositioning,enhancingreading
experienceandsoon;standardization,urexperienceandtheconstructionofvisualobject
databaswillbethekeydirectionsforfuturedevelopment.
Keywords:MobileVisualSearch;digitalhumanities
MVS是基于移動(dòng)搜索發(fā)展起來(lái)的,早在2002年英國(guó)就已出現(xiàn)“手機(jī)搜索音樂(lè)”。雖然目前
國(guó)內(nèi)外對(duì)MVS的研究尚處于初級(jí)階段,但近幾年隨著增強(qiáng)現(xiàn)實(shí)技術(shù)(AugmentedReality,
AR)、跨媒體檢索技術(shù)(Cross-MediaRetrieval)等技術(shù)的發(fā)展,學(xué)術(shù)界對(duì)其日益關(guān)注。目前
MVS的研究仍以理論研究為主、應(yīng)用研究為輔,但是隨著移動(dòng)搜索、圖像檢索、移動(dòng)增強(qiáng)現(xiàn)
實(shí)等技術(shù)不斷發(fā)展與完善,與之相融合的MVS必將成為繼搜索引擎之后互聯(lián)網(wǎng)新一代革命性
服務(wù)模式[1]。
本文以“mobilevisualarch*”“移動(dòng)視覺(jué)搜索”、MVS為主題詞在SCIE、Ei、Scopus、
PQDT、中國(guó)知網(wǎng)、萬(wàn)方、維普等數(shù)據(jù)庫(kù)中檢索,并通過(guò)引文追溯的方法來(lái)進(jìn)一步補(bǔ)充相關(guān)文
獻(xiàn),通過(guò)文獻(xiàn)調(diào)研的方法,來(lái)揭示目前國(guó)內(nèi)外移動(dòng)視覺(jué)搜索技術(shù)研究進(jìn)展,為我國(guó)移動(dòng)視覺(jué)搜
索研究提供參考。
龍?jiān)雌诳W(wǎng)
1移動(dòng)視覺(jué)搜索技術(shù)研究進(jìn)展
目前移動(dòng)視覺(jué)搜索技術(shù)研究主要集于基本架構(gòu)、視覺(jué)對(duì)象處理、視覺(jué)對(duì)象檢索等關(guān)鍵技
術(shù)。
1.1移動(dòng)視覺(jué)搜索基本架構(gòu)
MVS基本架構(gòu)有三種形式:標(biāo)準(zhǔn)架構(gòu)、本地化架構(gòu)和混合架構(gòu)[2]。三種基本架構(gòu)各有優(yōu)
缺點(diǎn),系統(tǒng)功能、應(yīng)用領(lǐng)域不同,效果也不盡一樣,詳見(jiàn)表1。
1.2視覺(jué)對(duì)象處理
視覺(jué)對(duì)象處理是移動(dòng)視覺(jué)搜索的基本問(wèn)題,主要包括視覺(jué)對(duì)象描述和提取、描述子壓縮。
根據(jù)提取特征的廣度不同,視覺(jué)對(duì)象特征可分為局部特征、全局特征及隨機(jī)特征三類(lèi)。
Tuytelaars等人[3]對(duì)三種特征描述子進(jìn)行了對(duì)比分析:全局特征描述子能夠表現(xiàn)圖像的整體特
征,但其計(jì)算量大且無(wú)法從復(fù)雜的背景中區(qū)分目標(biāo);隨機(jī)特征描述子在不同的位置和尺度上采
用不同的部分圖像特征,能夠很好的區(qū)分目標(biāo),但是,計(jì)算量龐大效率較低;局部特征描述子
選取局部信息來(lái)構(gòu)造圖像特征,受圖像變換影響小,識(shí)別準(zhǔn)確,可在復(fù)雜背景中完成目標(biāo)識(shí)
別,雖然數(shù)字建模相對(duì)困難,但是,因?yàn)槠涓咝У淖R(shí)別率是目前移動(dòng)視覺(jué)搜索中視覺(jué)對(duì)象提取
和描述的主要方法。在眾多的局部特征描述子中,應(yīng)用最廣泛的是尺度不變描述子(Scale
InvariantFeatureTransform,SIFT)。
視覺(jué)對(duì)象壓縮主要有基于圖像層面和基于局部特征的。基于圖像層面的視覺(jué)對(duì)象壓縮方法
有兩類(lèi):局部描述符聚合[4]以及詞匯編碼直方圖壓縮[5]。基于局部特征描述子壓縮主要采取
降維法,常用的有PCA-SIFT(PrincipalComponentAnalysisSIFT)[6];SIFT-LDA(SIFT
LinearDiscriminantAnalysis)[7];LLE-SIFT(LocallylinearembeddingSIFT)[8]。
1.3視覺(jué)對(duì)象檢索
為了統(tǒng)一視覺(jué)搜索流程,共享研究成果,斯坦福大學(xué)、美國(guó)高通公司等多家研究機(jī)構(gòu)參與
制定了MPEGCompactDescriptorforVisualSearch(MPEGCDVS)國(guó)際標(biāo)準(zhǔn),并于2015年在
MPEG國(guó)際標(biāo)準(zhǔn)會(huì)議發(fā)布了最新的圖像匹配流程和檢索流程,主要包括視覺(jué)搜索架構(gòu)、視覺(jué)搜
索流程兩項(xiàng)[9]。針對(duì)視覺(jué)對(duì)象檢索,國(guó)內(nèi)外學(xué)者目前主要集中在兩方面:優(yōu)化視覺(jué)搜索性能
和大規(guī)模圖像信息檢索。LiDawei提出一種高效的移動(dòng)視覺(jué)搜索系統(tǒng)(EMOVIS),該系統(tǒng)使
用兩個(gè)獨(dú)特的關(guān)鍵點(diǎn)識(shí)別方案來(lái)提高檢索精度[10];KeGao針對(duì)大規(guī)模移動(dòng)視覺(jué)檢索,提供一
種離線(xiàn)查詢(xún)擴(kuò)展,提取多個(gè)具有代表性的特征,來(lái)支持快速準(zhǔn)確的特征匹配[11]。
2移動(dòng)視覺(jué)搜索在數(shù)字人文領(lǐng)域應(yīng)用實(shí)踐
龍?jiān)雌诳W(wǎng)
移動(dòng)視覺(jué)搜索目前在國(guó)外很多領(lǐng)域已經(jīng)有了很好的應(yīng)用,具有代表性的是Google公司于
2009年開(kāi)發(fā)的GoogleGoggles服務(wù),該服務(wù)可以將手機(jī)拍攝到的圖片在Google里搜尋,可以
搜索書(shū)、商品、建筑、景點(diǎn)等[12]。
數(shù)字人文指將計(jì)算機(jī)處理和分析技術(shù)應(yīng)用到傳統(tǒng)人文研究中去,對(duì)其進(jìn)行更全面、生動(dòng)的
展示,將人文科學(xué)方法論與計(jì)算機(jī)技術(shù)相結(jié)合起來(lái)[13]。將MVS應(yīng)用到數(shù)字人文領(lǐng)域是近幾
年隨著圖書(shū)情報(bào)學(xué)科在MVS研究的深入而出現(xiàn)的,目前主要應(yīng)用的地方有圖書(shū)館、檔案館、
博物館等,MVS在數(shù)字人文領(lǐng)域的應(yīng)用主要有以下幾個(gè)方面:
2.1提供展品導(dǎo)覽
展品導(dǎo)覽一般用于博物館、檔案館及提供展覽功能的圖書(shū)館,隨著信息化不斷發(fā)展,互聯(lián)
網(wǎng)+也將成為這些館舍的發(fā)展方向,傳統(tǒng)的展品展示一般是以明牌解說(shuō)的形式,內(nèi)容方法單
一,將MVS應(yīng)用到展品導(dǎo)覽中,不僅能提供能展品的文字介紹,還能夠提供多媒體信息,為
參觀者帶來(lái)更加生動(dòng)的互動(dòng)體驗(yàn)。國(guó)外在這方面的探索,主要有ErichBruns等人提出的名為
PhoneGuide的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)利用手機(jī)進(jìn)行對(duì)展品進(jìn)行拍攝,來(lái)提供對(duì)象的文本、
視頻、音頻等多媒體信息[14],在2010,2012年,ErichBruns又利用多圖像分類(lèi)技術(shù)(multi-
imageclassificationtechnique)對(duì)其進(jìn)行改進(jìn),提高其自適應(yīng)性[15][16]。鐘志鵬提出一種基于
移動(dòng)視覺(jué)搜索的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)基于移動(dòng)視覺(jué)搜索和GPS定位技術(shù),為用戶(hù)提供語(yǔ)
音解說(shuō)、文字圖片甚至是音頻、視頻等多媒體信息[17]。
2.2實(shí)現(xiàn)精準(zhǔn)定位
精準(zhǔn)定位一般應(yīng)用于圖書(shū)查找,現(xiàn)代圖書(shū)館為了更好的滿(mǎn)足讀者的需求,館舍體量越來(lái)越
大,實(shí)現(xiàn)大開(kāi)架布局,推行“藏、查、借、閱、參”一體化服務(wù),相應(yīng)的功能布局較為分散,對(duì)
圖書(shū)館不熟悉的讀者來(lái)說(shuō),僅憑索書(shū)號(hào)來(lái)找書(shū)是一個(gè)很繁瑣的過(guò)程。將移動(dòng)視覺(jué)搜索技術(shù)應(yīng)用
到圖書(shū)館,讀者可以通過(guò)手機(jī)拍攝圖書(shū)相關(guān)信息,獲得相關(guān)的圖書(shū)的地理位置和導(dǎo)航,不僅會(huì)
大大縮減讀者找書(shū)時(shí)間而且提高了找尋的精度。國(guó)外這方面的應(yīng)用研究較多,邁阿密大學(xué)的
BoBrinkman等人設(shè)計(jì)了名為ShelvAR的排架系統(tǒng),來(lái)實(shí)現(xiàn)圖書(shū)的快速精準(zhǔn)定位[18];印度的
PradeepSiddappa設(shè)計(jì)了librARi應(yīng)用程序,可以直接拍照來(lái)搜索圖書(shū)的物理空間,并通過(guò)對(duì)書(shū)
架進(jìn)行拍攝來(lái)找出相關(guān)書(shū)籍在書(shū)架上的位置[19]。
2.3提升閱讀體驗(yàn)
將移動(dòng)視覺(jué)搜索技術(shù)與閱讀相結(jié)合,用戶(hù)面對(duì)的將不再是文字本身枯燥的內(nèi)容,還可以獲
取圖書(shū)的評(píng)價(jià)、與該圖書(shū)內(nèi)容相關(guān)的音頻視頻,更甚者,可以獲得與之相關(guān)的三維立體形象,
讓用戶(hù)體會(huì)到交互式閱讀的樂(lè)趣。JISC-fundeddatacentreattheUniversityofManchester和John
RylandsLibrary開(kāi)展的SCARLET項(xiàng)目,利用MVS技術(shù)拍攝古籍時(shí),屏幕上就會(huì)顯示古籍的
文字圖片等信息,用戶(hù)還可以對(duì)圖片進(jìn)行翻頁(yè)操作、收聽(tīng)相關(guān)的音頻資料等,突破了傳統(tǒng)閱讀
習(xí)慣,大大提高了古籍的利用率和用戶(hù)的使用體驗(yàn)[20]。
龍?jiān)雌诳W(wǎng)
3移動(dòng)視覺(jué)搜索未來(lái)發(fā)展方向
隨著移動(dòng)智能終端、云計(jì)算等的高速發(fā)展,移動(dòng)視覺(jué)搜索必將在技術(shù)發(fā)展的基礎(chǔ)上,以滿(mǎn)
足用戶(hù)互動(dòng)性、個(gè)性化需求為驅(qū)動(dòng),形成新的服務(wù)模式,未來(lái)MVS有以下幾個(gè)研究重點(diǎn)。
3.1移動(dòng)視覺(jué)搜索標(biāo)準(zhǔn)化問(wèn)題
隨著MVS的高速發(fā)展,移動(dòng)視覺(jué)搜索面臨的對(duì)象數(shù)據(jù)、工具、系統(tǒng)等方面的標(biāo)準(zhǔn)統(tǒng)一問(wèn)
題,特別是多樣化的視覺(jué)搜索需要解決的系統(tǒng)互操作性挑戰(zhàn),為了推進(jìn)這一標(biāo)準(zhǔn)的建立,世界
各國(guó)的科研機(jī)構(gòu)和公司進(jìn)行了相關(guān)研究,北京大學(xué)的數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室,美
國(guó)的斯坦福大學(xué)、意大利電信集團(tuán)等都參與了MPEGCDVS視覺(jué)搜索國(guó)際標(biāo)準(zhǔn)的指定,并已
經(jīng)取得了初步成就,發(fā)布了一系列包括視覺(jué)描述緊湊子提取、視覺(jué)檢索流程等國(guó)際標(biāo)準(zhǔn)。
3.2關(guān)注用戶(hù)體驗(yàn)
由于移動(dòng)終端的高速發(fā)展,用戶(hù)獲取視覺(jué)對(duì)象更加便捷,因此,需要及時(shí)獲取用戶(hù)的需
求,從而滿(mǎn)足不同用戶(hù)的信息服務(wù)需求,目前移動(dòng)視覺(jué)搜索的研究學(xué)科多集中于工程學(xué)科,但
隨著技術(shù)的發(fā)展,基于用戶(hù)需求的應(yīng)用也將是MVS的重要發(fā)展方向,北京大學(xué)的SangJ關(guān)注
用戶(hù)體驗(yàn),理解用戶(hù)意圖,提出了一種基于交互的MVS原型,幫助用戶(hù)制定自己的視覺(jué)意
圖,來(lái)提高用戶(hù)體驗(yàn)[21]。
3.3視覺(jué)對(duì)象數(shù)據(jù)庫(kù)構(gòu)建
視覺(jué)對(duì)象庫(kù)的構(gòu)建是移動(dòng)視覺(jué)搜索的重要方面,相對(duì)于視覺(jué)檢索構(gòu)建的圖像數(shù)據(jù)庫(kù),視覺(jué)
對(duì)象數(shù)據(jù)庫(kù)很明顯不僅包括與之相似的強(qiáng)大的圖像庫(kù),還必須包括與圖片的一系列相關(guān)信息,
但是,目前針對(duì)此方面的研究相對(duì)較少,且大部分研究均集中于圖像數(shù)據(jù)庫(kù)的構(gòu)建,關(guān)聯(lián)信息
研究則是更少。不過(guò),隨著互聯(lián)網(wǎng)科技的發(fā)展,相關(guān)課題也正進(jìn)入人們的視線(xiàn),北京大學(xué)和南
洋理工大學(xué)則是共建ROSE項(xiàng)目,擬建設(shè)成亞洲最大的視覺(jué)對(duì)象數(shù)據(jù)庫(kù),從包括淘寶、
google、flickr、amazon上獲取網(wǎng)頁(yè)、圖片、視頻數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)信息的分析,來(lái)構(gòu)建
objectDataba,該項(xiàng)目將集成在包括電子商務(wù)、旅游、生活方式愛(ài)好等3個(gè)領(lǐng)域[22]。
4結(jié)語(yǔ)
MVS技術(shù)使得圖書(shū)館、博物館、檔案館與用戶(hù)之間有了一種全新的、生動(dòng)的、互動(dòng)式的
溝通方式,其技術(shù)應(yīng)用的研究必將對(duì)數(shù)字人文領(lǐng)域未來(lái)的生存與發(fā)展產(chǎn)生深遠(yuǎn)的影響,在學(xué)術(shù)
界、產(chǎn)業(yè)界的共同努力下,協(xié)同增強(qiáng)現(xiàn)實(shí)、跨媒體檢索等技術(shù)的共同發(fā)展,移動(dòng)視覺(jué)搜索必將
成為Web3.0時(shí)代下互聯(lián)網(wǎng)革命性服務(wù)模式。
參考文獻(xiàn):
[1]張興旺,黃曉斌.國(guó)外移動(dòng)視覺(jué)搜索研究述評(píng)[J].中國(guó)圖書(shū)館學(xué)報(bào),2014(3):114-128.
龍?jiān)雌诳W(wǎng)
[2]GirodB,ChandrakharV,GrzeszczukR,VisualSearch:
Architectures,Technologies,andtheEmergingMPEGStandard[J]。MultimediaIEEE,2011
(3):86-94.
[3]TuytelaarsT,nvariantfeaturedetectors:asurvey[J].Foundations
andTrendsinComputerGraphicsandVision,2007(3):177-280.
[4]JégouH,DouzeM,SchmidC,atinglocaldescriptorsintoacompactimage
reprentation[C].IEEEConferenceonComputerVision&mputer
Society,2010:3304-3311.
[5]ChenD,TsaiS,HsuCH,augmentedrealityforbooksona
shelf[C]//MultimediaandExpo(ICME),,2011:
1-6.
[6]ZhangY,chonwidebalinestereomatchingbadonPCA-SIFT[C]//
AdvancedComputerTheoryandEngineering(ICACTE),20103rdInternationalConferenceon.
IEEE,2010:V5-137-V5-140.
[7]丁湘楠,謝正忠,宋曉寧.基于LDA的SIFT算法在圖像配準(zhǔn)中的應(yīng)用[J].電子設(shè)計(jì)工
程,2013(11):186-189.
[8]YeJ,ShiS,ecognitionalgorithmbadonLLE-SIFTfeature
descriptors[C].ComputerScience&Education(ICCSE),201510thInternationalConferenceon.
IEEE,2015.
[9]del13:Compactdescriptorforvisualarch[S].N15129,ISO/IEC
JTC1/SC29/WG11,Geneva,Switzerland,F(xiàn)eb.2015.
[10]LiD,:AnEfficientMobileVisualSearchSystemforLandmark
Recognition[C]//MobileAd-hocandSensorNetworks(MSN),2013IEEENinthInternational
,2013:53-60.
[11]GaoK,ZhangY,ZhangD,teoff-linequeryexpansionforlarge-scale
mobilevisualarch[J].SignalProcessing,2013(8):2305-2315.
[12]Goggles[EB/OL].https:///wiki/Google_Goggles.2016-
07-02.
龍?jiān)雌诳W(wǎng)
[13]mphlettopixel:thehumanitiesintransition[EB/OL].http:
///rearch/discussion/from-pamphlet-to-pixel-the-humanities-in-transition.2017-07-
10.
[14]BrunsE,BrombachB,ZeidlerT,ngmobilephonestosupportlarge-scale
muumguidance[J].IEEEmultimedia,2007(2).
[15]BrunsE,muumguidanceusingrelationalmulti-image
classification[C]//MultimediaandUbiquitousEngineering(MUE),20104thInternational
,2010:1-8.
[16]BrunsE,zationandclassificationthroughadaptivepathway
analysis[J].IEEEPervasiveComputing,2012(2):74-81.
[17]鐘志鵬,王涌天,陳靖,等.一個(gè)基于移動(dòng)視覺(jué)搜索技術(shù)的博物館導(dǎo)覽系統(tǒng)[J].計(jì)算機(jī)
輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012(4):555-562。
[18]BrinkmanB,elibrary:Apilotstudyofmulti-targetacquisition
usability[C]//MixedandAugmentedReality(ISMAR),2013IEEEInternationalSymposiumon.
IEEE,2013:241-242.
[19]i-Augmentedrealityexperienceforlibrary[EB/OL].http:
///gallery/20711093/librARi-Augmented-Reality-Experience-for-Library.2016-07-
25.
[20]RLETProject:MarryingAugmentedRealityandSpecial
Collections[EB/OL].https:///blog/2012/06/the-scarlet-project-marrying-augmented-
reality-and-special-collections/.2017-07-10.
[21]SangJ,MeiT,XuYQ,ctionDesignforMobileVisualSearch[J].IEEE
TransactionsonMultimedia,2013(7):1665-1676.
[22]uredObjectDataba[EB/OL].http:
///rearch/Structured%20Object%20Databa/Pages/.2016-06-25.
本文發(fā)布于:2023-03-06 20:39:03,感謝您對(duì)本站的認(rèn)可!
本文鏈接:http://m.newhan.cn/zhishi/a/1678106344127772.html
版權(quán)聲明:本站內(nèi)容均來(lái)自互聯(lián)網(wǎng),僅供演示用,請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。
本文word下載地址:移動(dòng)搜索.doc
本文 PDF 下載地址:移動(dòng)搜索.pdf
| 留言與評(píng)論(共有 0 條評(píng)論) |