^{<big id="qd94c"></big>}

<td id="qd94c"><strike id="qd94c"></strike></td>

<p id="qd94c"><del id="qd94c"></del></p>

<table id="qd94c"><noscript id="qd94c"></noscript></table>

<pre id="qd94c"></pre>

<td id="qd94c"><option id="qd94c"></option></td>

集團首頁
走進pg電子,pg電子官方網站,pg娛樂電子游戲官網
走進pg電子,pg電子官方網站,pg娛樂電子游戲官網

山東pg電子,pg電子官方網站,pg娛樂電子游戲官網集團有限公司是一家綜合體育集IM體育、小金體育、博亞體育、愛游戲等股份制集團公司，集團總部坐落于“世界風箏之都”—濰坊，集團占地面積1079畝，總資產56億元，現有職工3300人，2019年實現產值61.4億元、納稅2億元、創匯5600萬美元。

集團簡介

集團榮譽

資質認證

集團風貌
集團產業
pg電子,pg電子官方網站,pg娛樂電子游戲官網產業

憑借專業的科研團隊和先進的技術工藝，迅速崛起，現已發展為涉足英雄聯盟、新材料，建材，歐冠，英超，西甲，意甲，法甲，LOL競猜，生物科技，五大聯賽，國際貿易，高檔釉料等領域的大型現代化集團公司。

新能源

新材料

建材

現代物流

生物科技

農業科技

國際貿易

高檔釉料
新聞中心
新聞中心

堅持“團結一致，干事創業”的企業理念，提倡“真誠，團結，足協杯，女足敬業，奮斗”的企業精神。
企業文化
企業文化

NBA籃彩，精益求精，追求完美品質，持續改進，超越客戶期望。
申花，誠信為本，打造核心競爭力，強化危機意識，實現百年創業。

企業理念

黨建之窗

員工風采
社會責任
社會責任

長春亞泰樂善好施，是中華民族的傳統美德；扶危助困，是社會各界的共同責任。企業在發展中，只有自覺承擔體彩足球，才能實現經濟與社會效益的雙贏，成就百年基業。

綠色環保

公益事業
人力資源
人力資源

國以才立，業以才興。人才是企業發展的根本，是推動企業跨越式發展的第一生產力。pg電子,pg電子官方網站,pg娛樂電子游戲官網集團重視團隊建設，多渠道引進人才、高效機制培養人才、廣闊平臺晉升人才，為企業在激烈競爭中立于不敗之地提供強有力的保障。

人才招聘

在線應聘
聯系pg電子,pg電子官方網站,pg娛樂電子游戲官網
聯系pg電子,pg電子官方網站,pg娛樂電子游戲官網

pg電子,pg電子官方網站,pg娛樂電子游戲官網集團憑借雄厚的資金實力，高素質的專業人才和優質高效的服務，在社會上樹立起了良好的企業形象，受到了廣大客戶和社會各界普遍的信賴和贊譽！

聯系方式

在線地圖

您的位置:首頁 > 新聞中心新聞中心

【pg電子官方網站】微軟亞研提出TinyMIM，用常識蒸餾改善小型ViT

發布時間:2023-11-05 06:59:36 作者：pg電子,pg電子官方網站,pg娛樂電子游戲官網

機器之心專欄。微軟

微軟亞洲研討院。亞研M用

本文提出了 TinyMIM，提出pg電子官方網站它是常識第一個成功地使小模型獲益于 MIM 預練習的模型。

一、蒸餾研討動機。改善

掩碼建模（MIM,小型 MAE）被證明對錯常有用的自監督練習辦法?？墒俏④?，如圖 1 所示，亞研M用MIM 關于更大的提出模型作用相對更好。當模型很小的常識時分（比方 ViT-T 5M 參數，這樣的蒸餾模型關于實際國際非常重要），MIM 乃至或許必定程度上下降模型的改善作用。比方用 MAE 練習的小型pg電子官方網站 ViT-L 比一般監督練習的模型在 ImageNet 上的分類作用提高 3.3%，可是微軟用 MAE 練習的 ViT-T 比一般監督練習的模型在 ImageNet 上的分類作用下降了 0.6%。

在這篇工作中咱們提出了 TinyMIM，其在堅持 ViT 結構不變并且不修正結構引進其他概括偏置（inductive bias）的根底上、用蒸餾的辦法搬遷大模型上的常識到小模型。

論文地址：https://arxiv.org/pdf/2301.01296.pdf。
代碼地址：https://github.com/OliverRensu/TinyMIM。

咱們系統性的研討了蒸餾方針、數據增強、正則化、輔佐丟失函數等關于蒸餾的影響。在嚴厲的只用 ImageNet-1K 作為練習數據的情況下（包含 Teacher model 也只用 ImageNet-1K 練習）和 ViT-B 作為模型，咱們的辦法完成了當時最好的功能。如圖所示：

把咱們的辦法（TinyMIM）和根據掩碼重建的辦法 MAE，以及監督式學習的辦法從頭開始練習的 DeiT 作比較。MAE 在模型比較大的時分有明顯的功能提高，可是在模型比較小的時分提高起伏有限乃至會損傷模型的終究作用。咱們的辦法 TinyMIM 在不同模型的巨細上都有大幅提高。

咱們的奉獻如下：

1. 蒸餾的方針（Distillation targets）:1）蒸餾 token 之間的聯系比獨自蒸餾 class token 或許特征圖（feature map）更有用；2）用中心層作為蒸餾的方針更有用。

2. 數據增強和模型正則化（Data and network regularization）：1）用帶掩碼的圖片作用更差；2）學生模型需求一點 drop path，可是 teacher 模型不需求。

3. 輔佐丟失函數（auxiliary losses）：MIM 作為輔佐丟失函數沒有意義。

4. 微觀蒸餾戰略（Macro distillation strategy）：咱們發現序列化的蒸餾（ViT-B -> ViT-S -> ViT-T）作用最好。

二、辦法。

咱們系統性的調研了蒸餾的方針，輸入的圖片，蒸餾方針模塊。

2.1 影響蒸餾作用的要素。

1）特征：

a. 中心 block 特征和輸出特征。

當 i=L 時，指的是 Transformer 輸出層的特征。當 i< L 時，指的是 Transformer 中心層的特征。

b. 留意力（Attention）特征和前饋層（FFN）層特征。

Transformer 每一個 block 有 Attention 層和 FFN 層，蒸餾不同的層會帶來不同的影響。

c.QKV 特征。

在 Attention 層內會有 Q，K，V 特征，這些特征用于核算留意力機制，咱們也調研了直接蒸餾這些特征。

2）聯系。

Q，K，V 用于核算留意力求，這些特征之間的聯系也能夠作為常識蒸餾的方針。

3）輸入：是否帶掩碼。

傳統的常識蒸餾是直接輸入完好的圖片。咱們的辦法為了探究蒸餾掩碼建模模型，所以咱們也探究了帶掩碼的圖片是否合適作為常識蒸餾時分的輸入。

2.2 常識蒸餾辦法比照。

1）Class Token 蒸餾：

最簡略的辦法便是相似 DeiT 直接蒸餾 MAE 預練習模型的 class token:。

其間。

指學生模型的 class token，而。

指教師模型的 class token。

2）特征蒸餾：咱們直接參閱了 feature distillation [1] 作為比照。

3）聯系蒸餾：咱們提出了也是本文默許的蒸餾戰略。

三、試驗。

3.1 首要試驗成果。

咱們的辦法在 ImageNet-1K 上預練習，并且教師模型也是在 ImageNet-1K 預練習。然后咱們將咱們預練習的模型在下流使命（分類、語義切割）進步行了微調。模型體現如圖：

咱們的辦法明顯超越之前根據 MAE 的辦法，尤其是小模型。詳細來講，關于超小的模型 ViT-T，咱們的辦法完成了 75.8% 的分類準確性，比較 MAE 基線模型完成了 4.2 的提高。關于小模型 ViT-S，咱們完成了 83.0% 的分類準確性，比之前最好的辦法提高了 1.4。關于 Base 尺度的模型，咱們的辦法別離超越 MAE 基線模型和曾經最好的模型 CAE 4.1 和 2.0。

一起咱們也測試了模型的魯棒性，如圖所示：

TinyMIM-B 比照 MAE-B，在 ImageNet-A 和 ImageNet-R 別離提高了 + 6.4 和 +4.6。

3.2 融化試驗。

1）蒸餾不同聯系。

一起蒸餾 QK,VV 聯系并且在核算聯系的時分有 Softmax 完成了最好的作用。

2）不同的蒸餾戰略。

TinyMIM 這種蒸餾聯系的辦法完成了比 MAE 基線模型，class token 蒸餾，特征圖蒸餾都更好的作用，在各種尺度的模型上都是如此。

3）蒸餾中心層。

咱們發現蒸餾第十八層完成了最好的作用。

四、定論。

在本文中，咱們提出了 TinyMIM，它是第一個成功地使小模型獲益于掩碼重建建模（MIM）預練習的模型。咱們沒有選用掩碼重建作為使命，而是經過以常識蒸餾的辦法練習小模型模擬大模型的聯系來預練習小模型。TinyMIM 的成功能夠歸功于對或許影響 TinyMIM 預練習的各種要素的全面研討，包含蒸餾方針、蒸餾輸入和中心層。經過很多的試驗，咱們得出定論，聯系蒸餾優于特征蒸餾和類符號蒸餾等。憑仗其簡略性和強壯的功能，咱們期望咱們的辦法能夠為未來的研討供給堅實的根底。

[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2022). Contrastive learning rivals masked image modeling in fine-tuning via feature distillation. arXiv preprint arXiv:2205.14141.。

　

下一篇：布克談接下來的3連客：喜歡像戰士一樣出征在別人的主場贏球
上一篇：伊朗剛警告以色列，本土就燒起熊熊大火，數十人命喪火海

© 版權所有：山東pg電子,pg電子官方網站,pg娛樂電子游戲官網集團有限公司

技術支持：

精品久久久久久久久_一级全黄少妇性色生活片_免费国产香蕉视频在线观看

^{<big id="qd94c"></big>}

<td id="qd94c"><strike id="qd94c"></strike></td>

<p id="qd94c"><del id="qd94c"></del></p>

<table id="qd94c"><noscript id="qd94c"></noscript></table>

<pre id="qd94c"></pre>

<td id="qd94c"><option id="qd94c"></option></td>