博客專欄

EEPW首頁(yè) > 博客 > 人臉專集知識(shí)鞏固3 | 人臉關(guān)鍵點(diǎn)檢測(cè)(下)

人臉專集知識(shí)鞏固3 | 人臉關(guān)鍵點(diǎn)檢測(cè)(下)

發(fā)布人:CV研究院 時(shí)間:2021-04-27 來(lái)源:工程師 發(fā)布文章

Deep learning based methods

近年來(lái),深度學(xué)習(xí)成為解決計(jì)算機(jī)視覺(jué)問(wèn)題的常用工具。對(duì)于人臉關(guān)鍵點(diǎn)檢測(cè)和跟蹤,有從傳統(tǒng)方法向基于深度學(xué)習(xí)的方法轉(zhuǎn)變的趨勢(shì)。

在早期的工作中(Wu, Y., Wang, Z., Ji, Q.: Facial feature tracking under varying facial expressions and face poses based on restricted boltzmann machines. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3452–3459 (2013)),深層Boltzmann模型,一個(gè)概率深度模型,被用來(lái)捕捉由于姿態(tài)和表情而引起的面部形狀變化,用于人臉里程碑的檢測(cè)和跟蹤。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)模型成為人臉關(guān)鍵點(diǎn)檢測(cè),主要是深度學(xué)習(xí)模型,并且大多采用全局直接回歸或級(jí)聯(lián)回歸框架。這些方法大致可分為純學(xué)習(xí)法和混合學(xué)習(xí)法。

純學(xué)習(xí)方法直接預(yù)測(cè)人臉關(guān)鍵點(diǎn)位置,而混合學(xué)習(xí)方法則將深度學(xué)習(xí)方法與計(jì)算機(jī)視覺(jué)投影模型相結(jié)合進(jìn)行預(yù)測(cè)。

Pure-learning methods

純學(xué)習(xí)方法:這類方法使用強(qiáng)大的CNNs模型從人臉圖像中直接預(yù)測(cè)關(guān)鍵點(diǎn)位置。在早期的工作中(Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascade for facial point detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3476–3483 (2013)),它以級(jí)聯(lián)的方式預(yù)測(cè)了五個(gè)人臉關(guān)鍵點(diǎn)。在第一層,它應(yīng)用一個(gè)包含四個(gè)卷積層的CNN模型(下圖)來(lái)預(yù)測(cè)由面部邊界框確定的人臉圖像的關(guān)鍵點(diǎn)位置。然后,幾個(gè)淺層網(wǎng)絡(luò)對(duì)每個(gè)點(diǎn)進(jìn)行局部細(xì)化。

1.jpg

從那以后,在兩個(gè)方向上都比早起某些工作有一些改進(jìn)。在第一個(gè)方向上,(Zhang, Z., Luo, P., Loy, C., Tang, X.: Facial landmark detection by deep multi-task learning. In: European Conference on Computer Vision, Part II, pp. 94–108(2014)和Zhang, Z., Luo, P., Loy, C.C., Tang, X.: Learning deep representation for face alignment with auxiliary attributes. IEEE Transactions on Pattern Analysis and Machine Intelligence 38(5), 918–930 (2016))利用多任務(wù)學(xué)習(xí)的思想來(lái)提高性能。直覺(jué)是,多個(gè)任務(wù)可以共享相同的表示,它們的聯(lián)合關(guān)系將提高單個(gè)任務(wù)的性能。例如,多任務(wù)學(xué)習(xí)與CNN模型相結(jié)合,共同預(yù)測(cè)面部特征、面部頭部姿態(tài)、面部屬性等。在該工作(Ranjan, R., Patel, V.M., Chellappa, R.: Hyperface: A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition. CoRR abs/1603.01249 (2016). URL http://arxiv.org/abs/1603.01249)提出了一個(gè)類似的多任務(wù)CNN框架,以聯(lián)合執(zhí)行人臉檢測(cè)、地標(biāo)定位、姿態(tài)估計(jì)和性別識(shí)別。不同的是它結(jié)合了多個(gè)卷積層的特征,以利用粗特征表示和精細(xì)特征表示。

2.jpg

在第二個(gè)方向上,一些工作改進(jìn)了方法的級(jí)聯(lián)程序(Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascade for facial point detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3476–3483 (2013))。例如,某paper構(gòu)造了類似的級(jí)聯(lián)CNN模型來(lái)預(yù)測(cè)更多的點(diǎn)(68個(gè)關(guān)鍵點(diǎn)而不是5個(gè))(Zhou, E., Fan, H., Cao, Z., Jiang, Y., Yin, Q.: Extensive facial landmark localization with coarse-to-fine convolutional network cascade. In: IEEE International Conference on Computer Vision Workshops, pp. 386–391 (2013))。它從所有68個(gè)點(diǎn)的預(yù)測(cè)開(kāi)始,并逐步將預(yù)測(cè)分解為局部的面部成分。在該paper(Zhang, J., Shan, S., Kan, M., Chen, X.: Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment. In: European Conference on Computer Vision, Part II, pp. 1–16 (2014))中,深層自動(dòng)編碼器模型用于執(zhí)行相同的級(jí)聯(lián)關(guān)鍵點(diǎn)搜索。而在(Trigeorgis, G., Snape, P., Nicolaou, M.A., Antonakos, E., Zafeiriou, S.: Mnemonic descent method: A recurrent process applied for end-to-end face alignment. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4177–4187. Las Vegas, NV, USA (2016))中,Trigeorgis等人沒(méi)有以級(jí)聯(lián)的方式訓(xùn)練多個(gè)網(wǎng)絡(luò),訓(xùn)練了一種深度卷積遞歸神經(jīng)網(wǎng)絡(luò)(RNN),用于端到端面部關(guān)鍵點(diǎn)的檢測(cè),以模擬級(jí)聯(lián)行為。級(jí)聯(lián)階段嵌入到RNN的不同時(shí)間切片中。

Hybrid deep methods

3.png

混合深度方法將CNN與3D視覺(jué)相結(jié)合,如投影模型和三維形變形狀模型(上圖)。它們不是直接預(yù)測(cè)二維面部關(guān)鍵點(diǎn)位置,而是預(yù)測(cè)三維形狀可變形模型系數(shù)和頭部姿態(tài)。然后,通過(guò)計(jì)算機(jī)視覺(jué)投影模型確定二維關(guān)鍵點(diǎn)位置。例如,(Zhu, X., Lei, Z., Liu, X., Shi, H., Li, S.: Face alignment across large poses: A 3d solution. In: IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV (2016))建立了一個(gè)密集的三維人臉模型。然后,采用迭代級(jí)聯(lián)回歸框架和深度CNN模型對(duì)三維人臉形狀系數(shù)和姿態(tài)參數(shù)進(jìn)行更新。在每一次迭代中,利用視覺(jué)投影模型將三維形狀投影到二維,并將二維形狀作為CNN回歸預(yù)測(cè)模型的附加輸入,以融合目前估計(jì)的三維參數(shù)。類似地,(Kanade, T., Cohn, J.F., Tian, Y.: Comprehensive database for facial expression analysis. In: IEEE International Conference on Automatic Face and Gesture Recognition, pp. 46–53)在第一個(gè)級(jí)聯(lián)CNN模型中使用整個(gè)面部外觀來(lái)預(yù)測(cè)三維形狀參數(shù)和姿態(tài)的更新,而在后期級(jí)聯(lián)CNN模型中使用局部斑塊來(lái)細(xì)化關(guān)鍵點(diǎn)。

4.jpg

與純學(xué)習(xí)方法相比,混合方法的三維形狀變形模型和姿態(tài)參數(shù)是表示二維關(guān)鍵點(diǎn)位置的更為緊湊的方法。因此,CNN中需要估計(jì)的參數(shù)較少,形狀約束可以顯式地嵌入到預(yù)測(cè)中。此外,由于引入了三維姿態(tài)參數(shù),它們可以更好地處理姿態(tài)變化。

三大類之間的關(guān)系分析

在之前講解中,我們討論了面部表情三種主要類別中的關(guān)鍵點(diǎn)檢測(cè)方法:整體方法、約束局部方法(CLM)和基于回歸的方法。三種主要的方法存在著相似之處和相互關(guān)系。

5.jpg

首先,整體方法和CLMs都將使用顯式構(gòu)造的面部形狀模型捕捉全局面部形狀模式,這些模型通常在它們之間共享。CLMs改進(jìn)了整體方法,因?yàn)樗鼈兪褂镁植客庥^,而不是整體的面部外觀。所需的動(dòng)機(jī)是將整體的面部外觀建模更困難,并且局部圖像修補(bǔ)程序與整體外觀模型相比,光照改變和面部遮擋更加魯棒。

第二,基于回歸的方法,尤其是用于級(jí)聯(lián)回歸方法與整體AAM共享相似的直覺(jué)。例如,它們通過(guò)擬合外觀來(lái)估計(jì)關(guān)鍵點(diǎn),并且它們?nèi)靠梢员慌渲瞥煞蔷€性的平方問(wèn)題。然而,整體方法預(yù)測(cè)2D形狀,外觀模型系數(shù)通過(guò)擬合整體外觀模型,而級(jí)聯(lián)回歸方法直接通過(guò)擬合局部外觀而不顯式2D形狀模型來(lái)預(yù)測(cè)關(guān)鍵點(diǎn)。該配件整體方法的問(wèn)題可以用基于LearnBased的方法或分析方式來(lái)解決,如前面所討論的那樣,所有級(jí)聯(lián)回歸方法執(zhí)行通過(guò)學(xué)習(xí)進(jìn)行估計(jì)。雖然整體模型的基于學(xué)習(xí)的擬合方法通常使用相同的方法,用于以迭代方式進(jìn)行系數(shù)更新的模型,級(jí)聯(lián)回歸方法以級(jí)聯(lián)方式學(xué)習(xí)不同的回歸模型。

AAM模型在之前討論為一種特定類型的整體方法非常類似于監(jiān)督下降方法(SDM)(Xiong, X., De la Torre Frade, F.: Supervised descent method and its applications to face alignment. In: IEEE International Conference on Computer Vision and Pattern Recognition (2013))作為一種特定類型的方法級(jí)聯(lián)回歸方法。兩個(gè)級(jí)聯(lián)學(xué)習(xí)從形狀索引特征到形狀(系數(shù))更新的映射的模型。經(jīng)訓(xùn)練的模型在當(dāng)前級(jí)聯(lián)階段中,將修改訓(xùn)練用于在下一狀態(tài)下訓(xùn)練回歸模型的數(shù)據(jù)。雖然以前的整體方法適合整體外觀并預(yù)測(cè)模型系數(shù),但SDM擬合局部外觀并預(yù)測(cè)關(guān)鍵點(diǎn)位置。

第三,在CLM中使用的基于regressional的局部外觀模型中存在相似性。之前的基于回歸方法,兩者都預(yù)測(cè)從關(guān)鍵點(diǎn)位置的初始猜測(cè)的位置更新。以前的方法獨(dú)立地預(yù)測(cè)每個(gè)關(guān)鍵點(diǎn)位置,而后來(lái)的方法預(yù)測(cè)它們是聯(lián)合的,形狀約束可以隱式嵌入。以前的方法通常執(zhí)行一步預(yù)測(cè),相同的回歸模型,而后面的方法可以以級(jí)聯(lián)方式應(yīng)用不同的回歸函數(shù)。

第四,與整體方法和約束局部方法相比,基于回歸的方法可能會(huì)更有希望?;诨貧w的方法繞過(guò)顯式面部形狀建模并隱式嵌入人臉形狀模式約束?;诨貧w的方法直接預(yù)測(cè)關(guān)鍵點(diǎn),而不是整體方法中的模型系數(shù)。直接預(yù)測(cè)形狀通??梢杂捎谛∧P拖禂?shù),實(shí)現(xiàn)較好的精度錯(cuò)誤可能導(dǎo)致大的關(guān)鍵點(diǎn)誤差。

預(yù)測(cè)困難

人臉姿勢(shì)

6.jpg

人臉遮擋

7.jpg

人臉表情

8.jpg

下期我們針對(duì)各種因素進(jìn)行講解,并在流行的數(shù)據(jù)集上的實(shí)驗(yàn)效果做詳細(xì)描述,最后給出未來(lái)趨勢(shì)及著重點(diǎn)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電接點(diǎn)壓力表相關(guān)文章:電接點(diǎn)壓力表原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉