卷積神經(jīng)網(wǎng)絡(luò)在深度學習中新發(fā)展的5篇論文推薦
來源:DeepHub IMBA
1. Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification
Yuya Yamamoto, Juhan Nam, Hiroko Terasawahttps://arxiv.org/pdf/2206.12230
歌唱技術(shù)是利用音色、音高和聲音的其他成分的時間波動來進行富有表現(xiàn)力的聲樂表演。它們的分類是一項具有挑戰(zhàn)性的任務(wù),這主要是因為兩個因素:
- 歌唱技術(shù)的波動種類繁多,受多種因素的影響;
- 現(xiàn)有數(shù)據(jù)集不平衡。
為了解決這些問題,論文開發(fā)了一種新的基于變形卷積的音頻特征學習方法,利用類加權(quán)損失函數(shù)對特征提取器和分類器進行解耦訓練。實驗結(jié)果表明:1)可變形卷積提高了分類效果,特別是應(yīng)用于最后兩層卷積時;2)對分類器進行再訓練,并通過平滑的反頻率加權(quán)交叉熵損失函數(shù),提高了分類性能。
Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahanhttps://arxiv.org/pdf/2206.11127
軟骨缺失的檢測對骨關(guān)節(jié)炎和類風濕關(guān)節(jié)炎的診斷至關(guān)重要。到目前為止已有大量關(guān)于關(guān)節(jié)磁共振圖像軟骨評估的自動分割工具的論文。與膝關(guān)節(jié)或髖關(guān)節(jié)相比,腕關(guān)節(jié)軟骨的結(jié)構(gòu)更為復雜,針對大關(guān)節(jié)開發(fā)的自動工具無法用于腕關(guān)節(jié)軟骨的分割。但是全自動腕關(guān)節(jié)軟骨分割方法具有很高的臨床價值,所以論文通過優(yōu)化U-Net架構(gòu)的深度和增加注意層(U-Net_AL),評估了U-Net架構(gòu)的四種優(yōu)變體的性能。并·將相應(yīng)的結(jié)果與之前設(shè)計的基于patch的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)果進行比較。分割質(zhì)量的評估基于使用幾種形態(tài)學(2D DSC、3D DSC、精度)和體積指標與手動分割進行的比較分析。
這四種網(wǎng)絡(luò)在分割的同質(zhì)性和質(zhì)量上都優(yōu)于基于patch的CNN。U-Net_AL計算的三維DSC中值(0.817)顯著大于其他網(wǎng)絡(luò)計算的相應(yīng)三維DSC值。此外U-Net_AL CNN提供了最小的平均體積誤差(17%)和相對于真實值最高的Pearson相關(guān)系數(shù)(0.765)。使用U-Net_AL計算的再現(xiàn)性比手動分割的再現(xiàn)性更大。帶有附加注意力層的U-net卷積神經(jīng)網(wǎng)絡(luò)提供了最佳的手腕軟骨分割性能。為了在臨床條件下使用,經(jīng)過訓練的網(wǎng)絡(luò)可以對代表一組特定患者的數(shù)據(jù)集進行微調(diào)。
Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khanhttps://arxiv.org/pdf/2206.10589
為了追求精度的不斷提高,通常需要開發(fā)大型和復雜的神經(jīng)網(wǎng)絡(luò)。這種模型需要很高的計算資源,因此不能部署在邊緣設(shè)備上。所以構(gòu)建資源高效的通用網(wǎng)絡(luò)在多個應(yīng)用領(lǐng)域都受到到了很大的關(guān)注。這篇論文的工作有效地結(jié)合了CNN和Transformer模型的優(yōu)勢,并提出了一種新的高效混合架構(gòu)EdgeNeXt。
特別是在EdgeNeXt中,引入了分割深度轉(zhuǎn)置注意力(SDTA)編碼器,該編碼器將輸入分割為多個信道組,并利用深度卷積和跨信道維度的自注意力來隱式增加接收場并編碼多尺度特征。通過在分類、檢測和分割任務(wù)上的大量實驗,證明了提出的方法的優(yōu)點:相對較低的計算要求并優(yōu)于最先進的方法。以 2.2% 的絕對增益和 28% 的 FLOP 減少的絕對增益超過了 MobileViT。EdgeNeXt模型具有5.6M參數(shù),在ImageNet-1K上實現(xiàn)了79.4% top-1精度。
4. Scaling up Kernels in 3D CNNs
Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jiahttps://arxiv.org/abs/2206.10555
2D CNN 和 ViT 的最新進展表明,大內(nèi)核對于足夠的感受野和高性能至關(guān)重要。受這些論文的啟發(fā),該論文研究了 3D 大內(nèi)核設(shè)計的可行性和挑戰(zhàn)。證明了在 3D CNN 中應(yīng)用大卷積核在性能和效率上有更多的困難。在 2D CNN 中運行良好的現(xiàn)有技術(shù)在 3D 網(wǎng)絡(luò)中是無效的,包括流行的 depth-wise convolutions。為了克服這些問題,論文提出了空間組卷積及其大內(nèi)核模塊(SW-LK 塊)。避免了傳統(tǒng)的 3D 大內(nèi)核的優(yōu)化和效率問題。論文提出的大內(nèi)核 3D CNN 網(wǎng)絡(luò),即 LargeKernel3D,對各種 3D 任務(wù)(包括語義分割和對象檢測)產(chǎn)生了重大改進。它在ScanNetv2語義分割上實現(xiàn)了73.9%的mIoU,在NDS nuScenes對象檢測基準上實現(xiàn)了72.8%,在nuScenes LIDAR排行榜上排名第一。通過簡單的多模態(tài)融合,NDS 進一步提升至 74.2%。LargeKernel3D 獲得了與其 CNN 和 Transformer 相當或更好的結(jié)果。并首次證明大內(nèi)核對于 3D 網(wǎng)絡(luò)是可行且必不可少的。
Rohit Choudhary, Mansi Sharma, Uma T V, Rithvik Anilhttps://arxiv.org/pdf/2206.10375
顯示技術(shù)中的HDR捕獲、處理和顯示解決方案是至關(guān)重要的。在開發(fā)高性價比的3D HDR視頻內(nèi)容中,多曝光立體圖像序列的深度估計是一項必不可少的任務(wù)。這篇論文提出并開發(fā)了一種新的深度架構(gòu)用于多重曝光立體聲深度估計。提出的體系結(jié)構(gòu)有兩個新的組件。
- 對傳統(tǒng)的立體深度估計中使用的立體匹配技術(shù)進行了改進,部署了一種立體遷移學習方法,該方法避開了成本體積構(gòu)造的要求,采用基于ResNet的不同權(quán)重的雙編碼器和單****CNN進行特征融合,并使用基于effentnet的塊來學習視差。
- 利用魯棒的視差特征融合方法,將不同曝光水平下立體圖像的視差圖進行組合。用不同的曝光獲得的視差圖合并使用權(quán)重圖計算不同的質(zhì)量。最終得到的預(yù)測視差圖具有更強的魯棒性,并保留了深度不連續(xù)的最佳特征。論文提出的CNN架構(gòu)在具有挑戰(zhàn)性的場景流和不同曝光的Middlebury立體數(shù)據(jù)集上,在定量和定性方面都超過了最先進的單眼和立體深度估計方法。該架構(gòu)在復雜的自然場景中也表現(xiàn)得非常好,證明了它對各種3D HDR應(yīng)用程序都是有用的。
作者:monodeep
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。