CVPR 2022|群核前沿院等提出首個基于數(shù)據(jù)驅動的面檢測算法
作者丨叫我佳老師@知乎(已授權)
來源丨h(huán)ttps://www.zhihu.com/question/517340666/answer/2374684918編輯丨極市平臺
項目鏈接:https://manycore-research.github.io/faceformer/
論文鏈接:https://arxiv.org/abs/2203.04229
代碼鏈接:https://github.com/manycore-research/faceformer
肝完了ECCV 2022,來介紹一下我們剛被CVPR 2022接受的基于單張線框圖的三維重建論文。
太長不看(TL;DR)我們提出了首個基于數(shù)據(jù)驅動的面檢測算法;我們基于面檢測結果提出了一個簡易的三維重建解決方案。
前言面檢測是計算機視覺/圖形學中的一個基本問題。傳統(tǒng)方法基于復雜的幾何搜索與推斷,很不直觀。然而,人眼可以迅速地從圖片中找出此類幾何元素,因此我們猜想:人腦的判定方式是基于歷史觀測數(shù)據(jù)。因此提出通過數(shù)據(jù)驅動的方法,訓練神經網(wǎng)絡在進行此類檢測。
基于自回歸模型的面檢測面檢測就是從輸入的單張線框圖(矢量圖)中找到真實三維面所對應邊的集合,如下圖所示。
邊界表達(B-Rep)是CAD中標準模型表達的方式,我們的方法借鑒了其中共邊(co-edge)這一個屬性:
每個邊(edge)對應了兩個共邊(co-edge),且兩個共邊方向相反;
每條邊(edge)嚴格被兩個面(face)共享,這條邊的兩個共邊分別對應了這兩個面;
共邊(co-edge)方向定義:沿環(huán)的方向看,(假設面的方向朝上)面總在邊的左側。
借助共邊, 面就可以方便被表達為共邊的環(huán) (co-edge loops) , 如上圖所示, 三個標記的面的共 邊的集合分貝是 和 。
隨后,我們設計了一種基于Transformer的自回歸模型,從每條共邊出發(fā),網(wǎng)絡自動的尋找其所在的面。如下圖所示,網(wǎng)絡每次基于當前預測的共邊集合,輸出下一條邊,當預測結束后,預測出對應面的類型。
這樣做的好處是,我們的模型可以在共邊這個維度上做到并行,加速網(wǎng)絡的推斷。我們驚訝的方法,基于自回歸的方法能夠達到93.8%的準確率和95.9%的精度(如果訓練更久,達到99%也不在話下)。
三維重建隨后,我們基于面檢測的結果設計了一個三維重建算法。大致的思想是利用面檢測中得到的平面,三維重建提供了一組共面的約束。但是,只依賴面檢測的結果是不夠的,我們假設物體有三個相互垂直的主方向(曼哈頓假設),進一步約束面的朝向(具體算法參見論文吧,在此就不贅述了)。
再來看看我們三維重建的結果吧,與單純基于圖像的三維重建算法相比,我們的方法不僅重建地更好,而且還能保證拓撲的正確性。比較amazing的是最后一行的結果,相信小伙伴們單單通過輸入圖片也很難想象出這個三維物體的形狀吧。
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。