• <em id="6vhwh"><rt id="6vhwh"></rt></em>

    <style id="6vhwh"></style>

    <style id="6vhwh"></style>
    1. <style id="6vhwh"></style>
        <sub id="6vhwh"><p id="6vhwh"></p></sub>
        <p id="6vhwh"></p>
          1. 国产亚洲欧洲av综合一区二区三区 ,色爱综合另类图片av,亚洲av免费成人在线,久久热在线视频精品视频,成在人线av无码免费,国产精品一区二区久久毛片,亚洲精品成人片在线观看精品字幕 ,久久亚洲精品成人av秋霞

            tokenizer(tokenizer怎么讀)

            更新時間:2023-03-01 18:00:23 閱讀: 評論:0

            夢晨 羿閣 發自 凹非寺

            量子位 | 公眾號 QbitAI

            僅靠19億參數,只用公共數據集,在12個任務上狂刷SOTA。

            微軟這篇多模態論文剛掛上arXiv不久,就在業內引發強烈關注。

            有網友將之總結成“在所有事情上打敗了所有人”。

            怎么回事?先來看這張雷達圖:

            橙色內圈,是各大任務之前的SOTA。

            紫色外圈,就是這篇BEiT-3的結果,不僅超越,而且是全面超越。

            具體一圈看下來,BEiT-3這個多模態模型不光刷遍多模態任務,連右上角的純視覺三大經典任務也都刷到SOTA,簡直是六邊形戰士。

            知乎上一位同樣做多模態研究的選手直呼“殺死了比賽”。

            其實說起來,微軟BEiT這個系列最開始做的是視覺自監督學習。

            其核心思想與何愷明的MAE一致,甚至比MAE提出的還早一段時間,不過當時性能惜敗于MAE。

            如今在多模態方向上繞了一圈后,沒想到能以方式橫掃視覺與多模態榜單。

            取得這種成果的,一般來說還不得是上百億上千億參數的大大大模型?

            但BEiT-3總參數不過19億,甚至訓練數據上也沒什么秘密武器,全都用的公開資源。

            那么,這一切是如何做到的?

            把圖像當成一種外語

            最關鍵的一點,論文標題和摘要就已經指明:

            把圖像當成一種外語。

            這樣一來,文本數據是English,圖像數據作者開了個小玩笑命名為Imglish,那么圖文對數據就相當于平行語料。

            那么多模態也好純視覺也罷,都能用同一個預訓練任務來處理。

            在這個基礎上,論文中把所做突破總結成一個詞,大一統 (Big Convergence) 。

            首先,大一統表現在網絡架構上。

            通過統一多模態表示方式,對于不同任務可以共享一部分參數,采用Multiway(多路)Transformer架構作為骨干網絡。

            具體來說就是共享多頭自注意力層,輸出時再根據具體任務選擇專用的FFN層。

            第二,大一統又表現在預訓練方法上。

            既然所有數據都能當成文本數據,那就可以全都按照BERT的方法,用掩碼-預測來做預訓練,稱為Masked Data Modeling。

            與基于對比學習的訓練方法相比,新方法可以選用更小的Batch Size,又能額外降低顯存消耗。

            第三,大一統還表現在規模效應上。

            統一的預訓練任務讓模型參數擴大到10億數量級后,對下游任務的泛化能力增強。

            另外不同模態的數據集在此方法下也產生規模效應。

            團隊特意只用公開數據的條件下增加訓練數據集規模,結果超越了一些使用高質量私有數據的模型。

            BEiT-v的訓練數據來自5個公開數據集中的約500萬張圖像和2100萬圖像-文本對;單模態數據則使用來自ImageNet-21K的1400萬張圖像和160GB的文本語料庫。

            除此之外,在規模上也遠小于其它的多模態預訓練模型,例如ALIGN(18億圖文對)、CLIP(4億圖文對)、SimVLM(18億圖文對,800GB文本)等。

            所有這些優勢疊加在一起,BEiT-3就以更少的訓練數據、更小的模型參數取得更好的性能。

            在純視覺任務(圖像分類、目標檢測、語義分割)以及多模態任務(視覺推理、視覺問答、圖像描述、微調的跨模態檢索、零樣本跨模態檢索)總共8類任務下超越各自之前的SOTA。

            BEiT-3 這篇論文很簡短,不算參考文獻只有9頁。

            但熟悉微軟BEiT系列歷史的話就會知道,這項研究取得成功的意義不僅在于其自身,也不僅是多模態學習的一項突破——

            還給視覺大規模預訓練這個興起不久的領域,帶來新的可能性。

            BEiT與MAE,視覺自監督的路線之爭

            關于微軟的BEiT系列,全稱為Bidirectional Encoder reprentation from Image Transformers,比大家熟悉的語言模型BERT多了個“Image”。

            其主要思想就是借鑒BERT,把掩碼建模方法用到視覺任務上,做視覺的自監督學習,解決高質量標注數據難以獲得的難題。

            初代BEiT論文于去年6月發表,比同類工作何愷明的MAE還要早一些,也是MAE論文中的主要比較對象之一。

            初代BEiT,惜敗MAE

            兩項研究都是用“先掩碼再預測”來做預訓練任務,最大的區別在于BEiT會把視覺token離散化、最后模型預測的是token,而MAE則是直接預測原始像素。

            △初代BEiT的架構

            在三大視覺任務上,MAE比當時的BEiT略勝一籌。并且因方法更簡單直接,MAE運行起來也要快上不少(3.5倍)。

            為了證明在MAE中token化這一步并無必要,何愷明團隊在論文中還特意做了消融試驗。

            結果表明,兩種方法統計上并無顯著差異,對于MAE來說預測原始像素就足夠了。

            不過BEiT團隊并沒有放棄離散化token這個方法,而是沿著這個思路繼續探索下去。

            VL-BEiT,初探多模態

            一年之后,團隊發表了多模態模型VL-BEiT,可以算作是現在這篇BEiT-3的雛形。

            VL-BEiT已經用上了共享Attenion層、再對不同任務連接不同FFN層的架構。

            這一思想其實來自同一團隊更早之前一篇論文VLMo,對每個模態設置一個專家層的方法稱為MoME(Mixture-of-Modality-Experts)。

            不過,VL-BEiT在預訓練任務上還比較復雜,會對文本數據和圖像數據分別做掩碼建模,至于多模態圖文對數據也是分開處理的。

            最后結果,VL-BEiT在多模態任務和純視覺任務上表現都不錯,但還不像現在的BEiT-3這樣大殺四方。

            不過別急,突破口很快就被找到。

            BEiT v2,把token提升到語義級

            BEiT-3發表僅一周之前,微軟與國科大團隊合作發表了一篇BEiT v2。

            兩者命名方式有細微差別,因為BEiT v2確實代表是BEiT的升級版。

            而BEiT-3的3論文中雖未明說,但說的大概不是“第三代”,而是另有所指(稍后揭秘)。

            說回到BEiT v2,這篇論文重新專注于純視覺,在初代BEiT基礎上提出了新的語義級tokenizer。

            具體來說,BEiT v2引入了矢量量化(Vector-Quantized)和知識蒸餾(Knowledge Distillation)來訓練tokenizer。

            同樣是做離散化token,新方法能重建知識蒸餾中教師模型的語義特征,大大提高token中攜帶的語義信息,從而提高模型性能。

            接下來,教師模型用誰就很關鍵了。

            在對比了FAIR的DINO模型和OpenAI的CLIP模型之后,團隊發現還是CLIP更香。

            最終結果上,BEiTv2性能反超MAE和這段時間出現的其他方法,重回SOTA。

            BEiT-3,集大成者

            了解了整個BEiT系列的發展歷程,最后再來看一下BEiT-3。

            論文共同一作董力,點出了模型命名中“3”的含義:

            多模態統一的預訓練方式+共享Attention的多路Transformer+擴大規模的大一統(Big Convergence)。

            如此一來,BEiT-3能在多模態任務和視覺任務中都取得SOTA也就不奇怪了。

            這樣一篇論文,自然吸引了行業內很多目光。

            魯汶大學一位教授認為,這代表微軟在AI科研方面趕上谷歌/DeepMind、Meta和OpenAI,“重新坐上了牌桌”。

            隨著討論熱度升級,對論文更嚴格的審視目光也多了起來。

            谷歌一位研究員指出,論文結果看起來簡潔又令人印象深刻,就是這雷達圖的坐標取值有點不太嚴謹。

            知乎上也有網友提問,如果用了CLIP作為教師模型的話,那么來自CLIP高質量配對數據的貢獻有多少,直接改改CLIP就用又會如何?

            作者團隊

            最后再來介紹一下作者團隊,BEiT-3相關研究論文的作者都來自微軟。

            三位共同一作分別是Wenhui Wang,Hangbo Bao(鮑航波)和Li Dong(董力)。

            其中,鮑航波和董力都是從初代BEiT就參與了研究,一直貫穿VL-BEiT和BEiT v2的發展,鮑航波更是BEiT和VL-BEiT論文的一作。另一位Wenhui Wang之前也曾參與過VL-BEiT的研究。

            通訊作者是微軟亞洲研究院NLP小組的Partner研究經理Furu Wei(韋福如)。

            BEiT-3論文:https://arxiv.org/abs/2208.10442

            參考鏈接:[1]BEiT:https://arxiv.org/abs/2208.10442[2]VL-BEiT:https://arxiv.org/abs/2206.01127[3]VLMo:https://arxiv.org/abs/2111.02358[4]BEiT v2:https://arxiv.org/abs/2208.06366[5]MAE:https://arxiv.org/abs/2111.06377[6]https://twitter.com/_akhaliq/status/1561883261160259584[7]https://www.zhihu.com/question/549621097

            — 完 —

            量子位 QbitAI · 頭條號簽約

            關注我們,第一時間獲知前沿科技動態

            本文發布于:2023-02-28 20:14:00,感謝您對本站的認可!

            本文鏈接:http://m.newhan.cn/zhishi/a/167766482382408.html

            版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。

            本文word下載地址:tokenizer(tokenizer怎么讀).doc

            本文 PDF 下載地址:tokenizer(tokenizer怎么讀).pdf

            標簽:tokenizer
            相關文章
            留言與評論(共有 0 條評論)
               
            驗證碼:
            推薦文章
            排行榜
            Copyright ?2019-2022 Comsenz Inc.Powered by ? 實用文體寫作網旗下知識大全大全欄目是一個全百科類寶庫! 優秀范文|法律文書|專利查詢|
            主站蜘蛛池模板: 久久久精品成人免费观看| 亚洲男人AV天堂午夜在| 亚洲欧美一区二区三区日产| 成年片免费观看网站| 国产喷水1区2区3区咪咪爱AV| 蜜臀av性久久久久蜜臀aⅴ麻豆| 久久亚洲精品人成综合网| 97国产揄拍国产精品人妻| 日韩在线视频线观看一区| 少妇真人直播app| 亚洲午夜福利网在线观看| 亚洲天堂av在线一区| 人妻久久久一区二区三区| 狠狠五月深爱婷婷网| 亚洲日韩av无码| 日韩精品有码中文字幕| 公交车最后一排| 亚洲无线码中文字幕在线| 亚洲中文字幕无码一久久区| 999国产精品999久久久久久 | 18岁日韩内射颜射午夜久久成人| 亚洲一区二区三区国产精品| 国产精品午夜无码AV天美传媒| 久色伊人激情文学你懂的| 成人福利国产午夜AV免费不卡在线| 国产精品午夜无码AV天美传媒| 天天躁日日躁aaaaxxxx| 一区二区三区成人| 2019国产精品青青草原| 国产精品久久久久久无毒不卡| 中文字幕在线精品国产| 国产99视频精品免费专区| 亚洲一区二区三区蜜桃臀| 在线一区二区中文字幕| 久久久久久久久无码精品亚洲日韩 | 久青草精品视频在线观看| 国产精品毛片一区二区| 人妻另类 专区 欧美 制服| 一本色道久久88精品综合| 国产裸舞福利在线视频合集| 亚洲综合无码AV在线观看|