常見深度學(xué)習(xí)模型集成方法

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2020-09-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

歷屆kaggle競賽冠軍的做法，或簡單或復(fù)雜，其最后一步必然是集成學(xué)習(xí)，盡管現(xiàn)有的模型已經(jīng)很強(qiáng)大了，但是集成學(xué)習(xí)往往能夠起到錦上添花的作用。一般而言，深度學(xué)習(xí)的集成有兩大層面：數(shù)據(jù)層面和模型層面。下面詳細(xì)介紹這些方法。

01數(shù)據(jù)層面

（1）數(shù)據(jù)擴(kuò)充法

數(shù)據(jù)擴(kuò)充法在訓(xùn)練和測試階段均適用，可以增強(qiáng)模型的魯棒性。

常見的數(shù)據(jù)擴(kuò)充方法有：

· 圖像多尺度(multi-scale)：將圖像resize到不同尺寸，分別輸入網(wǎng)絡(luò)，對結(jié)果進(jìn)行平均或者加權(quán)。

· 隨機(jī)扣取(random crop)：對測試圖片隨機(jī)扣取n張圖像，在測試階段用訓(xùn)練好的深度網(wǎng)絡(luò)模型對n張扣取出來的圖分別做預(yù)測，之后將預(yù)測的各類置信度平均作為測試圖像最終的測試結(jié)果。

（2）簡單集成法

“簡單集成法”是Liu等人提出針對不平衡樣本問題的一種簡單集成學(xué)習(xí)解決方案，好處在于模型集成的同時(shí)還能緩解數(shù)據(jù)不平衡帶來的問題。

簡單集成法，簡單說三點(diǎn)：

1. 對于樣本較多的類采取降采樣(undersampling)，每次采樣數(shù)依據(jù)樣本數(shù)量最少的類別而定，這樣每類取到的樣本數(shù)可保持均等；

2. 采樣結(jié)束后，針對每次采樣得到的子數(shù)據(jù)集訓(xùn)練模型，如此采樣、訓(xùn)練重復(fù)進(jìn)行多次。

3. 最后依據(jù)訓(xùn)練得到若干個(gè)模型的結(jié)果取平均/投****。

02模型層面

2.1 單模型集成

（1）同一模型不同初始化

同一模型不同初始化方法，非常適用于小樣本學(xué)習(xí)場景，會(huì)大幅度緩解模型的隨機(jī)性，提升最終任務(wù)的預(yù)測結(jié)果。

對于同一個(gè)模型來說，不同的參數(shù)初始化方式通過隨機(jī)梯度下降方法得到的訓(xùn)練結(jié)果也會(huì)不同。具體的做法如下：

· 初始：首先對同一模型進(jìn)行不同初始化；

· 集成：將得到的網(wǎng)絡(luò)模型結(jié)果進(jìn)行集成；

（2）同一模型不同訓(xùn)練輪數(shù)

同一模型不同訓(xùn)練輪數(shù)方法，可以有效降低訓(xùn)練輪數(shù)過多帶來的過擬合風(fēng)險(xiǎn)。

若網(wǎng)絡(luò)超參數(shù)設(shè)置得當(dāng)，深度模型隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行會(huì)逐步趨于收斂，但不同訓(xùn)練輪數(shù)的結(jié)果仍有不同。無法確定到底哪一輪得到的模型最適用于測試數(shù)據(jù)，我們將最后幾輪訓(xùn)練結(jié)果做集成。

（3）不同損失函數(shù)

損失函數(shù)是整個(gè)網(wǎng)絡(luò)訓(xùn)練的 “指揮棒”，選擇不同目標(biāo)函數(shù)勢必讓網(wǎng)絡(luò)學(xué)到不同的特征表示。

具體的做法如下，以分類任務(wù)為例：可將包括交叉熵?fù)p失、合頁損失、大間隔交叉熵?fù)p失、中心損失等作為損失函數(shù)分別訓(xùn)練模型。而在測試階段，有兩種做法：

· 置信度融合：直接對不同模型預(yù)測結(jié)果做平均/投****；

· 特征融合：將不同網(wǎng)絡(luò)得到的深度特征抽出后級聯(lián)(concatenate)作為最終特征，然后訓(xùn)練淺層分類器（如支持向量機(jī)）完成預(yù)測工作；

（4）多層特征融合法

由于深度卷積神經(jīng)網(wǎng)絡(luò)特征具有層次性的特點(diǎn)，不同層特征富含的語義信息可以相互補(bǔ)充，因而在目標(biāo)檢測、圖像語義分割、細(xì)粒度圖像檢索這些領(lǐng)域常見多層特征融合策略的使用。

一般地，多層特征融合操作可直接將不同層的網(wǎng)絡(luò)特征進(jìn)行級聯(lián)（concatenate），而對于特征融合應(yīng)該選取哪些網(wǎng)絡(luò)層，選取的經(jīng)驗(yàn)是：最好使用靠近目標(biāo)函數(shù)的幾層卷積特征，因?yàn)橛顚犹卣靼母邔诱Z義愈強(qiáng)，分辨能力也愈強(qiáng)。相反，網(wǎng)絡(luò)較淺層的特征更為普適，用于特征融合反而起不到作用。

（5）網(wǎng)絡(luò)快照法

我們知道深度神經(jīng)網(wǎng)絡(luò)模型復(fù)雜的解空間中存在非常多的局部最優(yōu)解，而傳統(tǒng)的Min-batch SGD往往只能收斂到其中一個(gè)局部最優(yōu)解，如下所示：

圖1 SGD：傳統(tǒng)SGD方法只能收斂到一個(gè)局部最優(yōu)解

相反的，網(wǎng)絡(luò)快照法通過循環(huán)調(diào)整學(xué)習(xí)率，使得網(wǎng)絡(luò)依次收斂到不同的局部最優(yōu)解，利用這些最優(yōu)解對模型進(jìn)行集成，示意圖如下所示：

圖2 快照法：通過循環(huán)調(diào)整學(xué)習(xí)率，使得網(wǎng)絡(luò)依次收斂到不同的局部最優(yōu)解

具體的做法如下，將網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為隨模型迭代輪數(shù)t改變的函數(shù)：

其中：

· 為初始學(xué)習(xí)率，一般設(shè)置為 0.1 或 0.2；

· t為模型迭代輪數(shù)；

· T為模型總的批處理訓(xùn)練次數(shù)；

· M為“循環(huán)退火”次數(shù)，對應(yīng)于模型將收斂到的局部最優(yōu)解的個(gè)數(shù)；

注：退火原先是材料加工的一個(gè)特有名詞，指將金屬加熱到某個(gè)再結(jié)晶溫度并維持一段時(shí)間，再將其緩慢冷卻的過程。這里退火指網(wǎng)絡(luò)模型學(xué)習(xí)率從初始學(xué)習(xí)率逐漸減緩到0的過程。

學(xué)習(xí)率從0.1*1 隨著t增長逐漸減緩到0，之后將學(xué)習(xí)率重新放大，從而跳出該局部最優(yōu)解，如此往復(fù)，分別得到不同權(quán)重參數(shù)的同一模型。測試階段，一般我們挑選最后個(gè)模型“快照”用于集成，這些模型“快照”可以采用“直接平均法”。

2.2 多模型集成

我們可以使用不同架構(gòu)的網(wǎng)絡(luò)訓(xùn)練模型，根據(jù)這些模型結(jié)果做集成。假設(shè)共有N個(gè)模型待集成，對于某測試樣本x，其預(yù)測結(jié)果為N個(gè)維向量：S1,S2,...,Sn（C為數(shù)據(jù)的標(biāo)記空間大?。?。我們介紹常見的四種方法：

（1）直接平均法

直接平均不同模型產(chǎn)生的類別置信度得到最終預(yù)測結(jié)果。

公式：

微信圖片_20200917142829.png