機器之心專欄。微軟
微軟亞洲研討院。亞研M用
本文提出了 TinyMIM,提出pg電子官方網站它是常識第一個成功地使小模型獲益于 MIM 預練習的模型。
一、蒸餾研討動機。改善
掩碼建模(MIM,小型 MAE)被證明對錯常有用的自監督練習辦法??墒俏④?,如圖 1 所示,亞研M用MIM 關于更大的提出模型作用相對更好。當模型很小的常識時分(比方 ViT-T 5M 參數,這樣的蒸餾模型關于實際國際非常重要),MIM 乃至或許必定程度上下降模型的改善作用。比方用 MAE 練習的小型pg電子官方網站 ViT-L 比一般監督練習的模型在 ImageNet 上的分類作用提高 3.3%,可是微軟用 MAE 練習的 ViT-T 比一般監督練習的模型在 ImageNet 上的分類作用下降了 0.6%。
在這篇工作中咱們提出了 TinyMIM,其在堅持 ViT 結構不變并且不修正結構引進其他概括偏置(inductive bias)的根底上、用蒸餾的辦法搬遷大模型上的常識到小模型。
咱們系統性的研討了蒸餾方針、數據增強、正則化、輔佐丟失函數等關于蒸餾的影響。在嚴厲的只用 ImageNet-1K 作為練習數據的情況下(包含 Teacher model 也只用 ImageNet-1K 練習)和 ViT-B 作為模型,咱們的辦法完成了當時最好的功能。如圖所示:
把咱們的辦法(TinyMIM)和根據掩碼重建的辦法 MAE,以及監督式學習的辦法從頭開始練習的 DeiT 作比較。MAE 在模型比較大的時分有明顯的功能提高,可是在模型比較小的時分提高起伏有限乃至會損傷模型的終究作用。咱們的辦法 TinyMIM 在不同模型的巨細上都有大幅提高。
咱們的奉獻如下:
1. 蒸餾的方針(Distillation targets):1)蒸餾 token 之間的聯系比獨自蒸餾 class token 或許特征圖(feature map)更有用;2)用中心層作為蒸餾的方針更有用。
2. 數據增強和模型正則化(Data and network regularization):1)用帶掩碼的圖片作用更差;2)學生模型需求一點 drop path,可是 teacher 模型不需求。
3. 輔佐丟失函數(auxiliary losses):MIM 作為輔佐丟失函數沒有意義。
4. 微觀蒸餾戰略(Macro distillation strategy):咱們發現序列化的蒸餾(ViT-B -> ViT-S -> ViT-T)作用最好。
二、辦法。
咱們系統性的調研了蒸餾的方針,輸入的圖片,蒸餾方針模塊。
2.1 影響蒸餾作用的要素。
1)特征:
a. 中心 block 特征和輸出特征。
當 i=L 時,指的是 Transformer 輸出層的特征。當 i< L 時,指的是 Transformer 中心層的特征。
b. 留意力(Attention)特征和前饋層(FFN)層特征。
Transformer 每一個 block 有 Attention 層和 FFN 層,蒸餾不同的層會帶來不同的影響。
c.QKV 特征。
在 Attention 層內會有 Q,K,V 特征,這些特征用于核算留意力機制,咱們也調研了直接蒸餾這些特征。
2)聯系。
Q,K,V 用于核算留意力求,這些特征之間的聯系也能夠作為常識蒸餾的方針。
3)輸入:是否帶掩碼。
傳統的常識蒸餾是直接輸入完好的圖片。咱們的辦法為了探究蒸餾掩碼建模模型,所以咱們也探究了帶掩碼的圖片是否合適作為常識蒸餾時分的輸入。
2.2 常識蒸餾辦法比照。
1)Class Token 蒸餾:
最簡略的辦法便是相似 DeiT 直接蒸餾 MAE 預練習模型的 class token:。
其間。
指學生模型的 class token,而。
指教師模型的 class token。
2)特征蒸餾:咱們直接參閱了 feature distillation [1] 作為比照。
3)聯系蒸餾:咱們提出了也是本文默許的蒸餾戰略。
三、試驗。
3.1 首要試驗成果。
咱們的辦法在 ImageNet-1K 上預練習,并且教師模型也是在 ImageNet-1K 預練習。然后咱們將咱們預練習的模型在下流使命(分類、語義切割)進步行了微調。模型體現如圖:
咱們的辦法明顯超越之前根據 MAE 的辦法,尤其是小模型。詳細來講,關于超小的模型 ViT-T,咱們的辦法完成了 75.8% 的分類準確性,比較 MAE 基線模型完成了 4.2 的提高。關于小模型 ViT-S,咱們完成了 83.0% 的分類準確性,比之前最好的辦法提高了 1.4。關于 Base 尺度的模型,咱們的辦法別離超越 MAE 基線模型和曾經最好的模型 CAE 4.1 和 2.0。
一起咱們也測試了模型的魯棒性,如圖所示:
TinyMIM-B 比照 MAE-B,在 ImageNet-A 和 ImageNet-R 別離提高了 + 6.4 和 +4.6。
3.2 融化試驗。
1)蒸餾不同聯系。
一起蒸餾 QK,VV 聯系并且在核算聯系的時分有 Softmax 完成了最好的作用。
2)不同的蒸餾戰略。
TinyMIM 這種蒸餾聯系的辦法完成了比 MAE 基線模型,class token 蒸餾,特征圖蒸餾都更好的作用,在各種尺度的模型上都是如此。
3)蒸餾中心層。
咱們發現蒸餾第十八層完成了最好的作用。
四、定論。
在本文中,咱們提出了 TinyMIM,它是第一個成功地使小模型獲益于掩碼重建建模(MIM)預練習的模型。咱們沒有選用掩碼重建作為使命,而是經過以常識蒸餾的辦法練習小模型模擬大模型的聯系來預練習小模型。TinyMIM 的成功能夠歸功于對或許影響 TinyMIM 預練習的各種要素的全面研討,包含蒸餾方針、蒸餾輸入和中心層。經過很多的試驗,咱們得出定論,聯系蒸餾優于特征蒸餾和類符號蒸餾等。憑仗其簡略性和強壯的功能,咱們期望咱們的辦法能夠為未來的研討供給堅實的根底。
[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2022). Contrastive learning rivals masked image modeling in fine-tuning via feature distillation. arXiv preprint arXiv:2205.14141.。
下一篇:布克談接下來的3連客:喜歡像戰士一樣出征 在別人的主場贏球
上一篇:伊朗剛警告以色列,本土就燒起熊熊大火,數十人命喪火海