無需人臉檢測和關(guān)鍵點定位，F(xiàn)acebook等提出實時3D人臉姿態(tài)估計新方法

發(fā)布人：CV研究院時間：2021-07-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來自 Facebook AI 和美國圣母大學(xué)的研究者提出了一種 6 自由度的實時 3D 人臉姿態(tài)估計技術(shù)，可以不依賴人臉檢測和人臉關(guān)鍵點定位獨立運行。

人臉檢測是給照片中的每個人臉指定一個邊界框，人臉關(guān)鍵點檢測則需要定位特殊的人臉特征，如眼睛中心、鼻尖等?；诙叩膬刹阶叻椒ㄊ呛芏嗳四樛评砣蝿?wù)的關(guān)鍵所在，如 3D 重建。

這種方法的處理過程通?？梢员硎鰹椋菏紫葓?zhí)行人臉檢測，然后在每個檢測到的人臉邊界框中執(zhí)行關(guān)鍵點檢測。接下來，將檢測到的關(guān)鍵點與參考 2D 圖像或 3D 模型上對應(yīng)的理想位置進行匹配，然后使用標(biāo)準(zhǔn)方法求解對齊變換。因此，「人臉對齊」和「關(guān)鍵點檢測」這兩個術(shù)語有時可以互換使用。

這種方法應(yīng)用起來非常成功，但計算成本很高，尤其是那些 SOTA 模型。而且，關(guān)鍵點檢測器通常針對由特定人臉檢測器生成的邊界框特性進行優(yōu)化，因此一旦人臉檢測器更新，關(guān)鍵點檢測器就需要重新進行優(yōu)化。最后，在下圖 1 所示的密集人臉圖像場景中，準(zhǔn)確定位標(biāo)準(zhǔn)的 68 個人臉關(guān)鍵點會變得非常困難，進而加大了估計其姿態(tài)和人臉對齊的難度。

為了解決這些問題，來自 Facebook AI 和圣母大學(xué)的研究者提出了以下重要觀察結(jié)果：

首先，估計人臉的 6 自由度（6DoF）剛性變換比人臉關(guān)鍵點檢測要簡單。6DoF 指的是在人體在 3D 空間里的活動情況，在 3 自由度（上下俯仰、左右搖擺和滾動）的基礎(chǔ)上增加了前 / 后、上 / 下、左 / 右三種移動方式。這一觀察結(jié)果啟發(fā)了很多研究者，促使他們提出「跳過關(guān)鍵點檢測，直接進行姿態(tài)估計」的想法，但這些方法還是要為檢測到的人臉估計姿態(tài)。相比之下，F(xiàn)acebook AI 和圣母大學(xué)的研究者的目標(biāo)是在不假設(shè)人臉已經(jīng)被檢測到的情況下估計姿態(tài)。

其次，6DoF 姿態(tài)標(biāo)簽捕獲的不僅僅是邊界框位置信息。與一些研究者提出的 3DoF 姿態(tài)估計不同，6DoF 姿態(tài)可以轉(zhuǎn)換為一個 3D-to-2D 的投影矩陣。假設(shè)有一個已知的內(nèi)在相機，姿態(tài)可以使 3D 人臉與它在照片中的位置一致。因此，姿態(tài)已經(jīng)捕捉了照片中人臉的位置。然而，雖然增加了兩個額外的標(biāo)量（6D 姿態(tài) vs. 每個框的四個值），6DoF 姿態(tài)還可以提供人臉的 3D 位置和方向信息。最近，有些研究用上了這一觀察結(jié)果，通過提出邊界框和人臉關(guān)鍵點的多任務(wù)學(xué)習(xí)來提高檢測準(zhǔn)確率。而本文的研究者則將兩者結(jié)合在單個目標(biāo)中——直接 regress 6DoF 人臉姿態(tài)。

他們提出了一個易于訓(xùn)練的新型實時 6DoF 3D 人臉姿態(tài)估計解決方案，可以跳過人臉檢測步驟，即使在非常擁擠的圖片中也不例外（如圖 1）。該方法在一個基于 Faster R-CNN 的框架中 regress 6DoF 姿態(tài)。

這項研究的創(chuàng)新之處在于，它真正擺脫了人臉對齊和關(guān)鍵點檢測?！肝覀冇^察到，估計人臉的 6DoF 剛性變換比人臉目標(biāo)點檢測要簡單。此外，6DoF 提供的信息要比人臉邊界框標(biāo)簽豐富，」研究者解釋道。

新方法的 pipeline 可以描述為：給定一張包含多張人臉的圖像，首先估計每張人臉的 6DoF 姿態(tài)。由于 6DoF 人臉姿態(tài)可以轉(zhuǎn)換為一個外在相機矩陣，進而將 3D 人臉映射到 2D 圖像平面，因此預(yù)測得到的 3D 人臉姿態(tài)也可用于獲取準(zhǔn)確的 2D 人臉邊界框。因此，人臉檢測將成為這個過程的副產(chǎn)品，計算開銷達到最小。

利用 6DoF 姿態(tài)估計替代人臉邊界框檢測之后，輸入圖像中所有的 3D 人臉形狀都可以得到對齊。而且，由于該姿態(tài)將具有已知幾何形狀的 3D 形狀與圖像中的面部區(qū)域?qū)R，因此我們可以根據(jù)大小和形狀調(diào)整生成的面部邊界框，匹配特定的研究需求。

研究者使用小而快的 ResNet-18 骨干網(wǎng)絡(luò)構(gòu)建 img2pose 模型，并在 WIDER FACE 訓(xùn)練集上進行訓(xùn)練（該數(shù)據(jù)集包含弱監(jiān)督標(biāo)簽和人工標(biāo)注的真值姿態(tài)標(biāo)簽）。他們在兩個領(lǐng)先的基準(zhǔn)數(shù)據(jù)集（ AFLW2000-3D 和 BIWI ）上測試了 img2pose 的實時推斷能力，發(fā)現(xiàn)該模型在實時運行時性能超越當(dāng)前最優(yōu)的人臉姿態(tài)估計器，還在關(guān)鍵點檢測方面超越了具備類似復(fù)雜度的模型，盡管新模型并沒有在邊界框標(biāo)簽上進行優(yōu)化。

以下是論文中的一些實驗結(jié)果：