人臉專題知識(shí)鞏固 (一) | 級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)用于人臉檢測(cè)
01 簡(jiǎn) 要
說(shuō)到人臉檢測(cè),應(yīng)該是近幾年不老的話題了,如果要將這技術(shù)真的落實(shí)到現(xiàn)在產(chǎn)品,其實(shí)還有很長(zhǎng)的路,不知道大家有沒(méi)有發(fā)現(xiàn),很多無(wú)人超市開始走下坡路,也許不僅僅是技術(shù)的原因之一吧,但是我們只針對(duì)技術(shù)來(lái)說(shuō),其實(shí)還是有很多不足需要去解決,這也是之后我們?nèi)四樳@個(gè)專集和大家要說(shuō)的,那我們就開始吧!
級(jí)聯(lián)算法在人臉檢測(cè)中得到了廣泛的應(yīng)用,其中首先可以使用計(jì)算量小的分類器來(lái)縮小大部分背景,同時(shí)保持召回。
今天說(shuō)的這個(gè)技術(shù)就是提出了一種由兩個(gè)主要步驟組成的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)方法。第一階段采用低像素候選窗口作為輸入,使淺層卷積神經(jīng)網(wǎng)絡(luò)快速提取候選窗口;在第二階段,調(diào)整來(lái)自前一階段的窗口的大小,并將其分別用作對(duì)應(yīng)網(wǎng)絡(luò)層的輸入。在訓(xùn)練期間,對(duì)hard-樣本進(jìn)行聯(lián)合在線訓(xùn)練,并采用soft非極大抑制算法對(duì)數(shù)據(jù)集進(jìn)行測(cè)試。整個(gè)網(wǎng)絡(luò)在FDDB上實(shí)現(xiàn)了更好的性能。
開始詳細(xì)講解,先和大家回憶經(jīng)典網(wǎng)絡(luò)
02 Fully Convolution Network
如上圖所示,不知道細(xì)心的同學(xué)有發(fā)現(xiàn)差別所在不???
差別:全連接結(jié)構(gòu)和完全卷積結(jié)構(gòu)之間的區(qū)別表現(xiàn)在每一層的圖像大小上。
經(jīng)過(guò)兩次卷積和池化運(yùn)算后,原始圖像的分辨率由227×227變?yōu)?5×55,第二次池化后圖像大小為27×27,輸出到第五層,圖像大小減小到13×13。然而,在FCN中,以H×W大小的圖像為輸入,經(jīng)過(guò)兩次卷積和池化運(yùn)算后,圖像質(zhì)量下降到原來(lái)圖像的四分之一。然后,在每個(gè)池化層之后,圖像的長(zhǎng)度和寬度減少一半。
因此,卷積特征是原來(lái)尺寸輸出的第五層的十六分之一。最后,將特征縮小到原來(lái)大小的三十二分之一。結(jié)果表明,經(jīng)過(guò)多次卷積和池化運(yùn)算后,圖像大小明顯減小。上面提到的最后一層可以得到最小尺寸的熱圖。它可以看作是重要的高維特征圖。隨后,對(duì)圖像進(jìn)行上采樣并將其放大到原始圖像大小,所述位置的像素結(jié)果與分類結(jié)果相對(duì)應(yīng)。由于無(wú)條件圖像大小的顯著優(yōu)勢(shì),在三個(gè)多分辨率網(wǎng)絡(luò)中分別采用全卷積層,使得輸入圖像大小不再受限。
03 Spatial Pyramid Pooling
SPP-Net只在整個(gè)圖像上運(yùn)行一次CNN模型。然后,將通過(guò)選擇性搜索得到的候選區(qū)域映射到特征映射。利用空間金字塔池化和支持向量機(jī)對(duì)候選目標(biāo)進(jìn)行分類。通過(guò)不固定尺寸的輸入圖像可以獲得任意大小的卷積特征,只需保證輸入到全連接層的大小是固定的。
使用FCN結(jié)構(gòu),這樣就不能再限制輸入圖像的大小了。它將產(chǎn)生一個(gè)固定大小的輸出。因此,總體結(jié)構(gòu)不同于RCNN。下圖給出了空間金字塔池層結(jié)構(gòu)的流程圖。
04 Cascade Structure
級(jí)聯(lián)結(jié)構(gòu)在人臉檢測(cè)中得到了廣泛的應(yīng)用,首先可以利用計(jì)算量小的分類器來(lái)去除大部分背景,同時(shí)保持召回。
級(jí)聯(lián)分類器在多個(gè)AdaBoost弱分類器或強(qiáng)分類器上對(duì)不同的特征進(jìn)行順序處理。級(jí)聯(lián)結(jié)構(gòu)如下圖所示。該流程圖不僅通過(guò)對(duì)多個(gè)弱分類器的組合,生成了一個(gè)強(qiáng)級(jí)聯(lián)分類器,而且提高了分類器的速度。然而,以往方法的每個(gè)階段都是獨(dú)立訓(xùn)練的。因此,不同CNN的優(yōu)化是相互獨(dú)立的。
接下來(lái)開始今天技術(shù)的詳解
結(jié)構(gòu)設(shè)計(jì)
在這一部分中,我們將描述一個(gè)級(jí)聯(lián)CNN的人臉檢測(cè)使用三種不同分辨率的輸入圖像(12×12,24×24和48×48)。將輸入圖像調(diào)整到不同的尺度,形成圖像金字塔。
首先,通過(guò)微網(wǎng)絡(luò)(全卷積候選網(wǎng)絡(luò),F(xiàn)CPN)消除大量的非人臉窗口;然后,將候選窗口的其余部分輸入到第二階段(多尺度網(wǎng)絡(luò),MSN)。MSN-24表示輸入大小為24×24的分支,而MSN-48表示輸入大小為48×48的分支。將MSN-24第五層的卷積特征(即概率分布信息)與MSN-48融合。對(duì)不同級(jí)聯(lián)階段進(jìn)行hard-樣本挖掘和聯(lián)合訓(xùn)練,完成人臉?lè)诸惡瓦吔缈蚧貧w兩項(xiàng)任務(wù)。
在工作中,輸入圖像被調(diào)整到不同尺度,以創(chuàng)建一個(gè)圖像金字塔。檢測(cè)過(guò)程分為兩個(gè)階段。第一階段是全卷積候選網(wǎng)絡(luò)(FCPN),它采用低分辨率淺卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),快速有效地消除大量背景窗口,如下圖所示。
第二階段是多尺度網(wǎng)絡(luò)(MSN),它結(jié)合了加權(quán)閾值兩種高分辨率卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn),進(jìn)一步濾除hard-樣本,細(xì)化邊界框。結(jié)構(gòu)如下圖。這兩個(gè)階段詳細(xì)說(shuō)明見“計(jì)算機(jī)視覺協(xié)會(huì)”知識(shí)星球。
接下來(lái)詳細(xì)說(shuō)說(shuō)難樣本挖掘!
與傳統(tǒng)分類器訓(xùn)練中的難樣本挖掘不同,在訓(xùn)練過(guò)程中自適應(yīng)地選擇難樣本。在每一批中,計(jì)算候選區(qū)域的損失函數(shù),并根據(jù)損失值對(duì)它們進(jìn)行排序。選取損失值最高70%的目標(biāo)區(qū)域作為難樣本,忽略其余30%的簡(jiǎn)單樣本。
為了評(píng)估該方法的有效性,訓(xùn)練了兩種不同的比較模型(w/和w/o難樣本的在線訓(xùn)練),并對(duì)測(cè)試集的性能進(jìn)行了評(píng)估。下圖給出了兩個(gè)不同的結(jié)果。實(shí)線顯示了難樣品的挖掘性能。虛線顯示不使用此方法的效果。實(shí)驗(yàn)結(jié)果表明,難樣本的在線訓(xùn)練有助于提高檢測(cè)性能,在FDDB上提供1.5%的性能增益。
Soft極大抑制也會(huì)”計(jì)算機(jī)視覺協(xié)會(huì)“知識(shí)星球詳細(xì)講解,為啥會(huì)有如此高的性能提升!
實(shí) 驗(yàn)
圖 在Pascal Faces數(shù)據(jù)集上的結(jié)果
圖 在FDDB人臉數(shù)據(jù)集上discROC的結(jié)果
圖 在FDDB人臉數(shù)據(jù)集上contROC的結(jié)果
檢測(cè)可視化
Best Paper:https://link.springer.com/journal/11042
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。