人臉專集知識鞏固2 | 人臉關鍵點檢測匯總

發(fā)布人：CV研究院時間：2021-04-27 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

今天應該是“計算機視覺研究院”人臉專集的第2期，我們主要涉及目標檢測與識別，主要在人臉領域做更多的詳解。

接下來，我們針對人臉配準該領域詳細講解一次，今日主要涉及的就是人臉關鍵點檢測，這個基礎是人臉分析的基礎，也是最重要的步驟之一。

簡要

在人臉部分和輪廓周圍的基準人臉關鍵點位置捕獲了由于頭部移動和面部表情造成的剛性和非剛性面部變形。

因此，它們對于各種面部分析任務非常重要。多年來，許多人臉關鍵點檢測算法都是為了自動檢測這些關鍵點而發(fā)展起來的，今天，我們對它們進行了廣泛的綜述。

今天所要講解的，將人臉關鍵點檢測算法分為三大類：整體方法、約束局部模型(CLM)方法和基于回歸的方法。他們利用面部外觀和形狀信息的方式不同，整體方法顯式地建立模型來表示全局的面部外觀和形狀信息；CLMs顯式地利用全局形狀模型，但構建局部外觀模型；基于回歸的方法隱式捕獲人臉形狀和外觀信息。

對于每一類算法，我們今天就討論它們的基本理論以及它們的不同之處。在不同的面部表情、頭部姿勢和遮擋情況下，還比較了它們在受控數(shù)據(jù)集和基準數(shù)據(jù)集上的性能。根據(jù)這些評價，我們指出了它們各自的優(yōu)缺點，最后還單獨回顧最新的基于深度學習的算法。

背景

人臉在視覺傳達中起著重要的作用。通過觀察臉部，人類可以自動提取許多非語言信息，如人類的身份、意圖和情感。

在計算機視覺中，為了自動提取這些人臉信息，基準的人臉關鍵點(下圖)的定位通常是一個關鍵步驟，許多面部分析方法都是建立在對這些關鍵點的準確檢測的基礎上的。

例如，面部表情識別和頭部姿態(tài)估計算法可能嚴重依賴于關鍵點位置提供的面部形狀信息。眼睛周圍的面部關鍵點可以提供瞳孔中心位置的初步猜測，用于眼睛檢測和眼睛凝視跟蹤。對于人臉識別，二維圖像上的關鍵點位置通常與三維頭部模型相結合，以“正面化”人臉，并幫助減少顯著的變化，以提高識別精度。通過面部關鍵點位置獲取的面部信息可以為人機交互、娛樂、安全監(jiān)視和醫(yī)療應用提供重要信息。

人臉關鍵點檢測算法的目的是自動識別面部關鍵點在面部圖像或視頻中的位置。這些關鍵點要么是描述人臉部件的獨特位置(例如眼角)的優(yōu)勢點，要么是將這些優(yōu)勢點與人臉部件和輪廓連接起來的插值點。形式上，給定一個以i表示的面部圖像，一個檢測算法預測d的關鍵點：x={x1，y1，x2，y2，...，xd，yd}的位置，其中x和y是面部圖像關鍵點的坐標。

Holistic methods

整體方法顯式地利用整體面部外觀信息以及全局面部形狀進行面部關鍵點檢測(下圖)。接下來，我先介紹經(jīng)典的整體方法：主動外觀模型（AAM）；然后，介紹它的幾個擴展。

AAM

由Taylor和Cootes引入了主動外觀模型(AAM)。它是一種統(tǒng)計模型，用少量的系數(shù)擬合人臉圖像，控制人臉的外觀和形狀的變化。在建模過程中，AAM建立了基于主成分分析(PCA)的全局人臉形狀模型和整體人臉外觀模型。

在檢測過程中，它通過將學習到的外觀和形狀模型與測試圖像進行擬合來識別關鍵點位置。

圖A 學習形狀變化

圖B 學習外觀變化

基于學習的擬合方法的分析擬合方法

相比于解析擬合方法，用梯度下降算法求解Hissian矩陣和Jacobian矩陣，基于學習的擬合方法采用常量線性或非線性回歸函數(shù)逼近最陡下降方向。因此，基于學習的擬合方法通常是快速的，但它們可能不準確。

分析方法不需要訓練圖像，而擬合方法需要訓練圖像。基于學習的擬合方法通常使用第三PCA來學習形狀系數(shù)和外觀系數(shù)之間的聯(lián)合相關性，從而進一步減少未知系數(shù)的數(shù)量，而解析擬合方法通常不這樣做。但是，對于解析擬合方法，外形系數(shù)和形狀系數(shù)之間的相互作用可以嵌入到聯(lián)合擬合目標函數(shù)中。形狀系數(shù)與外觀系數(shù)之間的相關性可以減少參數(shù)的個數(shù)，這種學到的相關性可能不能很好地推廣到不同的圖像。用聯(lián)合擬合目標函數(shù)進行形狀系數(shù)和外觀系數(shù)聯(lián)合估計可以得到更準確的結果。

其他拓展

特征表示

傳統(tǒng)的AAM方法還有其他擴展。一個特別的方向是改進特征表示。眾所周知，AAM模型泛化能力有限，難以擬合不可見的人臉變化(如：跨對象、光照、部分遮擋等)。

這一限制部分是由于使用原始像素強度作為特征。為了解決這個問題，一些算法使用了更魯棒的圖像特征。例如，不使用原始像素強度，而是使用小波特征來建模面部外觀。另外，僅利用局部外觀信息來提高對局部遮擋和光照的魯棒性；采用高斯混合模型的Gabor小波對局部圖像進行建模，實現(xiàn)了局部點的快速搜索。這兩種方法都提高了傳統(tǒng)AAM方法的性能。

Constrained local methods

如下圖所示，約束局部模型(CLM)方法根據(jù)全局面部形狀模式以及每個關鍵點周圍獨立的局部外觀信息推斷出關鍵點位置x，與整體外觀相比，該方法更容易捕獲，并且對光照和遮擋更有魯棒性。

局部外觀模型

與局部外觀模型相關的問題有幾個。首先，存在準確性-魯棒性權衡。例如，大的局部塊更魯棒，而對于精確的關鍵點定位則不太準確。一個小塊，更獨特的外觀信息，將導致更準確的檢測結果。

為了解決這個問題，一些算法（Ren, S., Cao, X., Wei, Y., Sun, J.: Face alignment at 3000 fps via regressing local binary features. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1685–1692 (2014)）將大塊和小塊結合起來進行估計，并在迭代過程中調(diào)整塊的大小或搜索區(qū)域。其次，在基于分類器的方法和基于回歸的方法之間，還不清楚應該遵循哪種方法？

基于回歸的方法的一個優(yōu)點是，它只需要計算特征和預測幾個樣本塊在測試中的位移向量。它比基于分類的掃描感興趣區(qū)域內(nèi)所有像素位置的方法更有效。經(jīng)驗表明，GentleBoost回歸模型作為基于回歸的外觀模型優(yōu)于GentleBoost分類器作為基于分類器的局部外觀模型。

Regression-based methods

基于回歸的方法直接從圖像外觀到關鍵點位置的映射學習。與整體方法和約束局部模型方法不同的是，它們通常不顯式地建立任何全局人臉模型。相反，面部形狀約束可以隱式嵌入。通常，基于回歸的方法可分為直接回歸法、級聯(lián)回歸法和深度學習回歸法。直接回歸方法在沒有初始化的情況下，在一次迭代中對關鍵點進行預測，而級聯(lián)回歸方法則進行級聯(lián)預測，通常需要初始的關鍵點位置。基于深度學習的方法要么遵循直接回歸，要么遵循級聯(lián)回歸。由于它們使用了獨特的深度學習方法，我們之后會分別討論。

級聯(lián)回歸方法