基于Kinect人體動態(tài)三維重建
摘要:從圖像中恢復出三維物體表面模型的方法稱為3D重構,是計算機圖形學研究領域中一個重要的研究方向。準確可靠的三維動態(tài)幾何重建在影視制作和游戲開發(fā)中具有重要作用。不同于靜態(tài)物體表面三維重建,動態(tài)幾何三維重建需要研究幀與幀之間準確的對應信息。本文提出的方法基于單個Kinect硬件系統(tǒng),利用Kinect重建出人體的靜態(tài)三維模型,結合Kinect識別出的骨架進行人物的動態(tài)三維模型重建。
本文引用地址:http://2s4d.com/article/201608/296185.htm1 內(nèi)容介紹
近年來,計算機動畫及計算機視覺的快速發(fā)展使得運動物體的幾何跟蹤變得重要起來。而現(xiàn)代CG動畫中創(chuàng)建準確可靠的動態(tài)幾何三維數(shù)字化也是相當重要的一部分。其應用領域非常廣泛,包含機器人學、生物醫(yī)學、交互游戲式的教育和影視制作等。
人體三維重建就是指通過獲取包括RGB-D信息或者輪廓信息等原始數(shù)據(jù),然后對這些數(shù)據(jù)進行預處理,如濾波、去噪和增強等,再進行針對這些數(shù)據(jù)的分析,如前景分割和特征提取等,最后通過重建算法進行三維表面的重建。
2 相關工作
目前,大多數(shù)的研究機構和高校通過搭建一些由多個相機組成的相機陣列進行360度的人體表面模型重建。大致上可以將其分為四類:實時繪制類、基于人體模板類、無人體模板類及窄基線類等。
實時繪制類系統(tǒng)主要是用于實時的交互編制的三維場景重建方法,在交互式立體游戲和遠程視頻會議等方面有較多的應用。它的核心技術主要是通過輪廓進行形狀的恢復。文獻[1-3]中的系統(tǒng)采用體素離散化的方法進行人體三維對象的實體體素。基于人體模板類系統(tǒng)是單相機或多相機進行非標記的運動捕捉方法的主要策略。該方法通過提取并計算基于骨架信息的模型參數(shù)進行人體姿態(tài)的恢復,同時還可以獲得時間上的運動參數(shù)描述?;诙嘁晥D的無模板主要是基于多視圖的無模板的三維重建方法。這種方法不需要有關場景對象的先驗知識,通過多視圖上的立體匹配方法就可以進行三維重建。這類系統(tǒng)最早的也是最具有代表性的是“Virtualized Reality”項目[4]所搭建的。而窄基線類采集系統(tǒng)是對比有限視角范圍內(nèi)的場景深度信息進行恢復,達到虛擬插值的結果。這種系統(tǒng)相鄰相機間距離較小,不能提取完整的三維信息。這種非全景采集方式的多攝像機系統(tǒng)通常是基于深度圖進行求解和繪制實現(xiàn)的。Zitnick 等[5]在微軟研究院搭建了高質(zhì)量場景虛擬視圖繪制系統(tǒng)。
采用以上的系統(tǒng)進行重建的方法可以統(tǒng)一稱為被動式的方法。而主動式的方法比這類被動式的方法更精準,最常見的主動式的方法是通過激光掃描儀進行三維重建。但這種方法對實驗設備要求高,處理過程也比較復雜。而基于結構光的方法[6]成本較低,但無法恢復物體的紋理信息?;陲w行時間(Time of Flight, ToF)的深度相機[7]是一種可以實時獲得場景深度信息的技術,它通過主動地向待測場景發(fā)射被調(diào)制的光脈沖,用傳感器接收從物體返回的光,并計算光脈沖的飛行(往返)時間來得到場景的深度圖。微軟推出的3D體感器Kinect[8]同時具有了低成本和多傳感捕捉的優(yōu)點,不僅可以采集到精確的深度幾何信息,而且可以輸出場景的紋理信息。所以,本文主要探討通過使用低廉的Kinect相機對運動的人體進行三維重建。
3.1 系統(tǒng)方法概述
本文提出的方法主要利用Kinect fusion[9]掃描出來的演員三維靜態(tài)模型、深度和骨架序列,基于骨架非標記的運動捕捉方法獲取新的骨架序列和每個動作的動態(tài)三維模型。由于Kinect采集的骨架序列無法保持拓撲一致性,本章提出一種新的利用多優(yōu)先級反向運動學方法(inverse kinematics method)[10]進行處理,來獲取動作參數(shù)和拓撲骨架運動序列。三維模型上的每個點對于骨架節(jié)點的權重自動計算出來,該權重描述了靜態(tài)三維模型與骨架之間的關系?;谟嬎愠龅臋嘀?,利用雙四元數(shù)剝皮(dual quaternions skinning (DQS) method)方法[11]計算出新骨架的三維模型。然后通過稀疏表示進行變形后模型的優(yōu)化,如圖3所示。
3.2 自適應多優(yōu)先級運動估計
基于剛性變形理論[12],進行自適應多優(yōu)先級的運動估計。對于基于體感相機骨架姿態(tài)的運動參數(shù)骨架,每個骨架節(jié)點的位置約束不可能同時滿足,因此為經(jīng)典的矛盾性問題。如圖1所示,該問題的解決方法一般有兩類:一是加權方法,二是優(yōu)先級方法。加權方法是最常用、最簡單的方法,優(yōu)先級方法則便于設計優(yōu)先級引導的運動估計方法,使得可以更準確地仲裁各個矛盾。因此,擬根據(jù)體感相機骨架拓撲變化的穩(wěn)定性,即每個節(jié)點所對應肢節(jié)長度的變化,設定優(yōu)先級的高低。越穩(wěn)定的節(jié)點,優(yōu)先級越高,反之亦然。
本部分擬設計三重循環(huán)優(yōu)先級算法來求解經(jīng)典的反向運動學問題。從內(nèi)到外,分別為優(yōu)先級循環(huán)、箝位循環(huán)、收斂循環(huán)。其中,優(yōu)先級循環(huán)按照優(yōu)先級從高到低循環(huán)處理計算,箝位循環(huán)用來檢查并去除已達極限的節(jié)點,收斂循環(huán)用來控制收斂性。如圖2所示,以兩個優(yōu)先級的矛盾性問題為例進行說明。假設一個兩個自由度的鏈{θ1,θ1},鏈的末端有個x方向上的高優(yōu)先級約束Δx1,前臂中段有個y方向上的低優(yōu)先級約束Δx2。那么,線性化求解方案為:
(1)
其中,Δθ為n維姿態(tài)變化向量,Δx為m維的約束,J為m×n的雅可比矩陣,N(J)表示J的零空間,PN(J)為n×n的到N(J)空間的投影算子,阻尼最小二乘逆J+λ定義為:
(2)
其中,r為矩陣J的秩,σi為矩陣J的奇異值,{ui}和{vi}分別是J空間和N(J)的補空間的基向量,λ為阻尼因子。
3.3 保體積真實感變形
為了在模型變形中保持體積和局部細節(jié),本方案擬首先將靜態(tài)三維模型根據(jù)骨架結構分為若干個部分,并采用熱擴散的方法計算蒙皮權重。然后,用埃爾米特徑向基函數(shù),即一個平滑三維標量場fi的0.5等值面,來近似每個部分表面,并采用梯度控制的融合方法將各個部分的fi融合為一個統(tǒng)一的場函數(shù)。保存靜態(tài)模型每個頂點的場值f0(pi)(包含了幾何細節(jié)信息)。每個標量場fi根據(jù)權重和骨架參數(shù)通過對偶四元數(shù)方法進行變換,并同樣采用梯度控制的融合方法將各個部分的fi融合為一個統(tǒng)一的場函數(shù)f。為了保持模型的幾何細節(jié),采用牛頓迭代法將每個頂點pi投影到靜態(tài)姿態(tài)的場值f0(pi)上:
(3)
其中,λ用來調(diào)節(jié)收斂速度和精度。為了避免面片產(chǎn)生較大的失真甚至自相交,采用以下公式迭代計算頂點位置:
(4)
其中,,qi,j是投影到pi切平面的單環(huán)鄰域點,是重心坐標,使得。最后,采用拉普拉斯平滑技術進行平滑:
(5)
其中,的單環(huán)領域的中心。
3.4 優(yōu)化
基于稀疏表示的非剛性配準方法(Sparse Non-Rigid Registration)[13]定義通過DQS變形后的模型Ms上的點為,N是點的個數(shù)。同樣,將深度上的模型面片Mt上的點表示為。然后計算在Kinect深度相機視角下變形后模型的可見點,找出最相似與深度面片的點的對應關系:,其中有關系為代表點標號的映射關系。基于對應關系f,即通過最小化能量方法式,算出模型Ms上每個點的的變換矩陣Ti:
(6)
其中,T是一個4N×3的矩陣,它將Ti作為它的列;是qf(i)的卡笛爾坐標系,Ni表示一個圓形鄰域連接的邊緣。定義一個不同的矩陣,其中G代表Ms上的邊的數(shù)目,L的每一行對應Ms上的一條邊,L的每一列對應Ms上的一個點。對于第r條邊,它的兩個頂點分別為pi和pj,因此,可以得到Lr,i=1和Lr,j=-1。式(6)也可重寫成如下形式:
(7)
其中:
(8)
其中,I4是4×4的單位矩陣,表示克羅內(nèi)克積(Kronecker product)。通過迭代查找最相似對應關系并通過交替方向法(alternate direction method)解式(7)直到收斂。我們?yōu)锳DM算法15外和25內(nèi)迭代。圖3表明了該動作優(yōu)化方法的效果。優(yōu)化前的面片和真實動作連續(xù)性并不是很強,進行算法的優(yōu)化后的結果和真實動作看起來連續(xù)性強,通過投影可以看出結果的不同。圖3中,(a)優(yōu)化前面片,(b)是優(yōu)化后的面片,優(yōu)化前后的結果多少有些不同;具體比對通過投影可以看出來:(c)是優(yōu)化前的模型投影到RGB圖上的結果,可以看出來并不能完全重合,(d)是優(yōu)化后的投影結果,相對于優(yōu)化前,有明顯的改善,與RGB圖更加重合,運動捕捉的結果相對于優(yōu)化前精確度上也有了比較明顯的改善。
4 實驗結果
為了說明實驗結果,本文通過驅(qū)動一個人物靜態(tài)模型模板進行變形得到與實際動作相對應的三維模型。通過與當時模型的RGB信息的對比,投影操作,驗證了所重建出的模型的準確性。如圖4所示,圖中給出了通過一個靜態(tài)模型生成其它對應動作的模型信息,同時也增加了對應時刻Kinect所采集RGB信息。
5 結論
動態(tài)運動模型的空時稀疏采樣實現(xiàn)了魯棒真實感動畫。給出最優(yōu)的視角、運動聯(lián)合采樣數(shù)目和密度,利用壓縮感知方法給出視角和運動的最佳搭配方案。自適應多優(yōu)先級運動估計與保體積真實感變形實現(xiàn)精確真實感動畫。根據(jù)骨架拓撲結構變化規(guī)律設計自適應的多優(yōu)先級運動估計方法,刻畫了表面的幾何流特征,給出表面和變形體的隱性表達,進而實現(xiàn)高真實感的實時表面變形。
參考文獻:
[1] Cheung K M, Kanade T, Bouguet J Y, et al. A real time system for robust 3-D voxel reconstruction of human motions. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Hilton Head, SC, USA, 2000. 714–720.
[2] Grau O, Pullen T, Thomas G. A combined studio production system for 3-D capturing of live action and immersive actor feedback. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(3):370–380.
[3] Hasenfratz J M, Lapierre M, Sillion F. A real-time system for full body interaction with virtual worlds. Proceedings of Eurographics Symposium on Virtual Environments, Grenoble, France, 2004. 147–156.
[4] Matsuyama T, Wu X, Takai T, et al. Real-time 3-D shape reconstruction, dynamic 3-D mesh deformation and high fidelity visualization for 3-D video. Computer Vision and Image Understanding, 2004, 96(3):393–434.
[5] Zitnick C, Kang S B, Uyttendaele M, et al. High-quality video view interpolation using a layered representation. ACM Transactions on Graphics, 2004, 23(3):600–608.
[6] Zhang L, Curless B, and Seitz S. M. Rapid shape acquisition using color structured light and multi-pass dynamic programming. Proceedings of the 1st International Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT), Padova, Italy, June 19-21, 2002. 24-36.
[7] Kolb A, Barth E, and Koch R. ToF-sensors: New dimensions for realism and interactivity. Proceedings of IEEE Conference on Computer Vision & Pattern Recognition, Workshop on ToF-Camera based Computer Vision, 2008.
[8] Microsoft Corp. Redmond WA. Kinect for Xbox 360.
[9] Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]//Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011: 127-136.
[10] Buss S R. Introduction to inverse kinematics with jacobian transpose, pseudoinverse and damped least squares methods[J]. IEEE Journal of Robotics and Automation, 2004, 17(1-19): 16.
[11] Kavan L, Collins S, ?ára J, et al. Skinning with dual quaternions[C]//Proceedings of the 2007 symposium on Interactive 3D graphics and games. ACM, 2007: 39-46.
[12] Vaillant R, Barthe, Lo&#, Guennebaud, Ga&#, et al. Implicit Skinning: Real-Time Skin Deformation with Contact Modeling[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[13] Yang J, Li K, Li K, et al. Sparse Non‐rigid Registration of 3D Shapes[C]// Computer Graphics Forum. 2015:89-99.
本文來源于中國科技期刊《電子產(chǎn)品世界》2016年第8期第35頁,歡迎您寫論文時引用,并注明出處。
評論