精度提升方法:自適應Tokens的高效視覺Transformer框架
YOLOv7相同體量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。
01
概述
今天介紹的,是研究者新提出了A-ViT,一種針對不同復雜度的圖像自適應調整vision transformers (ViT) 的推理成本的方法。A-ViT通過在推理進行時自動減少在網絡中處理的視覺轉換器中的tokens數(shù)量來實現(xiàn)這一點。
研究者為這項任務重新制定了自適應計算時間(ACT[Adaptive computation time for recurrent neural networks]),擴展了停止以丟棄冗余空間標記。vision transformers吸引人的架構特性使我們的自適應tokens減少機制能夠在不修改網絡架構或推理硬件的情況下加速推理。A-ViT不需要額外的參數(shù)或子網絡來停止,因為將自適應停止的學習建立在原始網絡參數(shù)的基礎上。與之前的ACT方法相比,進一步引入了分布式先驗正則化,可以穩(wěn)定訓練。在圖像分類任務(ImageNet1K)中,展示了提出的A-ViT在過濾信息空間特征和減少整體計算方面的高效性。所提出的方法將DeiT-Tiny的吞吐量提高了62%,將DeiT-Small的吞吐量提高了38%,準確率僅下降了0.3%,大大優(yōu)于現(xiàn)有技術。
02
背景
Transformers已經成為一類流行的神經網絡架構,它使用高度表達的注意力機制來計算網絡輸出。它們起源于自然語言處理(NLP)社區(qū),已被證明可有效解決NLP中的廣泛問題,例如機器翻譯、表示學習和問答。最近,vision transformers在視覺社區(qū)中越來越受歡迎,它們已成功應用于廣泛的視覺應用,例如圖像分類、目標檢測、圖像生成和語義分割。最流行的范式仍然是vision transformers通過將圖像拆分為一系列有序的補丁來形成tokens并在tokens之間執(zhí)行inter-/intra-calculations以解決基礎任務。使用vision transformers處理圖像在計算上仍然很昂貴,這主要是由于tokens之間的交互次數(shù)的平方數(shù)。因此,在大量計算和內存資源的情況下,在數(shù)據(jù)處理集群或邊緣設備上部署vision transformers具有挑戰(zhàn)性。
03
新框架分析
首先看下圖:
上圖是一種為vision transformers啟用自適應tokens計算的方法。使用自適應停止模塊來增加vision transformers塊,該模塊計算每個tokens的停止概率。該模塊重用現(xiàn)有塊的參數(shù),并從每個塊的最后一個密集層借用單個神經元來計算停止概率,不施加額外的參數(shù)或計算。一旦達到停止條件,tokens就會被丟棄。通過自適應停止tokens,我們僅對被認為對任務有用的活動tokens執(zhí)行密集計算。結果,vision transformers中的連續(xù)塊逐漸接收到更少的tokens,從而導致更快的推理。學習到的tokens停止因圖像而異,但與圖像語義非常吻合(參見上面的示例)。這會在現(xiàn)成的計算平臺上立即實現(xiàn)開箱即用的推理加速。
A-ViT的一個例子:在可視化中,為了簡單起見,省略了(i)其他補丁標記,(ii)類和補丁標記之間的注意力以及(iii)殘差連接。 每個標記的第一個元素保留用于停止分數(shù)計算,不增加計算開銷。我們用下標c表示類標記,因為它有特殊處理。由k索引的每個token都有一個單獨的Nk累加器,并停在不同的深度。與標準ACT不同,平均場公式僅適用于分類標記,而其他標記通過注意力對類別標記做出貢獻。這允許在不聚合圖像/補丁token的情況下進行自適應tokens計算。
04
實驗分析及可視化
Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.
(a) ImageNet-1K驗證集上A-ViT-T的每個圖像補丁位置的平均tokens深度。(b)通過變壓器塊的停止分數(shù)分布。每個點與一個隨機采樣的圖像相關聯(lián),表示該層的平均tokens分數(shù)。
由平均tokens深度確定的ImageNet-1K驗證集中的難易樣本的視覺比較。請注意,上面的所有圖像都被正確分類——唯一的區(qū)別是難樣本需要更多的深度來處理它們的語義信息。與右側圖像相比,左側圖像中的標記退出大約5層。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。