不只有結(jié)構(gòu)光：機(jī)器眼中的立體世界還在發(fā)生若干變化

作者：時(shí)間：2018-12-19 來(lái)源：億歐網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

AR/VR中的位姿估計(jì)技術(shù)

本文引用地址：http://2s4d.com/article/201812/395780.htm

　　為什么我們?cè)谕鍭R體驗(yàn)的時(shí)候，經(jīng)常會(huì)覺得手機(jī)里的東西放在攝像頭視野中并不真實(shí)，像是漂浮在地板上一樣。

　　這就是因?yàn)槲蛔斯烙?jì)算法不夠精準(zhǔn)，無(wú)法正確定位物體的空間關(guān)系。在機(jī)器視覺技術(shù)的進(jìn)化下，今天很多位姿估計(jì)技術(shù)正在同步進(jìn)化。比如基于動(dòng)態(tài)特征提取算法，達(dá)成的動(dòng)作定位今天已經(jīng)比較成熟。

　　這東西聽起來(lái)挺玄乎，到底是干啥用的呢?它的最大應(yīng)用場(chǎng)景，就是在VR/AR正確處理場(chǎng)景中動(dòng)態(tài)物體的空間關(guān)系和運(yùn)動(dòng)軌跡。比如你在VR里玩踢球游戲，球應(yīng)該在什么位置挨踢，以什么軌跡撞墻，都有賴于位姿估計(jì)算法來(lái)校準(zhǔn)。

　　在機(jī)器視覺算法的幫助下，更精細(xì)的位姿估計(jì)正在到來(lái)，而這也加速了成熟MR體驗(yàn)的到來(lái)。另一方面，在VR設(shè)備或者手機(jī)當(dāng)中，基于攝像頭與傳感器協(xié)同運(yùn)作來(lái)完成位姿估計(jì)，也是沉浸技術(shù)中即將發(fā)生的一個(gè)亮點(diǎn)。

不只有結(jié)構(gòu)光：機(jī)器眼中的立體世界還在發(fā)生若干變化

　　通過(guò)散亂數(shù)據(jù)達(dá)成三維建模

　　3D機(jī)器視覺的最重要任何，肯定是基于數(shù)據(jù)來(lái)實(shí)現(xiàn)3D建模。這個(gè)應(yīng)用在產(chǎn)業(yè)端十分重要，地理信息系統(tǒng)、勘探、工程，以及無(wú)人駕駛，都需要大量的3D建模工作來(lái)參與。

　　而消費(fèi)者級(jí)的3D建模今天也在到來(lái)，我們已經(jīng)可以看到在手機(jī)端通過(guò)3D結(jié)構(gòu)光來(lái)完成數(shù)據(jù)收集，從而達(dá)成3D建模的玩法。

　　跟3D感知一樣，3D建模也是利用攝像頭或者傳感器來(lái)收集數(shù)據(jù)，最終通過(guò)不同的解決方案完成建模。

　　然而這個(gè)領(lǐng)域還是有很多問(wèn)題等待解決。比如說(shuō)，今天我們進(jìn)行3D建模時(shí)，還需要非常痛苦的一點(diǎn)點(diǎn)收集數(shù)據(jù)，必須保證數(shù)據(jù)的對(duì)齊和精準(zhǔn)排列。否則出來(lái)的3D模型就是雜亂無(wú)章的。這顯然讓大眾完3D建模的熱情減退，并且給很多工程級(jí)項(xiàng)目增添了非常多難度。

　　AI的到來(lái)，正在幫助這種情況有所改變。在深度學(xué)習(xí)算法的幫助下，機(jī)器視覺領(lǐng)域正在研究如何在散亂、不規(guī)則、巨大數(shù)量的數(shù)據(jù)中完成3D建模。這需要對(duì)抗生成以及先驗(yàn)表示等非常多的方案，但帶來(lái)的效果非常值得期待。

　　比如說(shuō)今天已經(jīng)有3D建模方案，在深度學(xué)習(xí)的幫助下實(shí)現(xiàn)對(duì)密林的重建。然而其用來(lái)進(jìn)行點(diǎn)云建模的圖像數(shù)據(jù)中，有很多被樹葉遮擋的部分。這時(shí)候就可以用AI來(lái)增強(qiáng)3D建模的先驗(yàn)知識(shí)，主動(dòng)“腦補(bǔ)”出遮擋物背后的真實(shí)樣子。

　　不僅是修復(fù)遮擋模型和瑕疵數(shù)據(jù)，機(jī)器視覺技術(shù)與3D建模的融合，還可以讓很多無(wú)人設(shè)備具有更雪亮的“眼睛”。比如無(wú)人駕駛汽車，或許可以基于“大腦”中的3D建模算法，來(lái)腦補(bǔ)智能攝像頭尚未發(fā)現(xiàn)的環(huán)境。這點(diǎn)在復(fù)雜立交橋和停車場(chǎng)中格外有用。

　　在消費(fèi)者端，3D建模與機(jī)器視覺的結(jié)合也將帶來(lái)新的想象力，比如消費(fèi)者可以根據(jù)照片來(lái)重建精準(zhǔn)的3D模型，或者傻瓜式完成建模要用的數(shù)據(jù)收集。讓不那么專業(yè)的人也能建設(shè)出專業(yè)的3D模型，這個(gè)改變背后的想象力驚人。

　　更好的深度傳感器解決方案

　　還有一個(gè)機(jī)器視覺技術(shù)和3D的交匯，主要發(fā)生在無(wú)人機(jī)領(lǐng)域。

　　無(wú)人機(jī)今天進(jìn)行測(cè)繪和航拍時(shí)，必須附帶對(duì)空間的理解能力，否則拍照不準(zhǔn)事小，撞了南墻事大。而這個(gè)能力主要來(lái)自于攝像頭和傳感器進(jìn)行空間閱讀。

　　隨著消費(fèi)級(jí)無(wú)人機(jī)的不斷升級(jí)，人們對(duì)無(wú)人機(jī)拍攝效果要求也不斷升高。無(wú)人機(jī)必須不斷在更遠(yuǎn)的距離、更極端的天氣、更復(fù)雜的運(yùn)動(dòng)中拍攝畫面。然而傳統(tǒng)的傳感系統(tǒng)解決方案已經(jīng)快要跟不上用戶的期許。

　　今天的消費(fèi)級(jí)無(wú)人機(jī)，一般采取兩種感知解決方案，一種是雙目視覺技術(shù)，比如大疆的某些產(chǎn)品;一種是結(jié)構(gòu)光傳感器，比如微軟的Kinect。而這兩種主流方案都是有一定局限的，比如感知范圍都有限，難以完成遠(yuǎn)距離作業(yè)。再比如雙目視覺技術(shù)在黑夜中會(huì)失靈，所以無(wú)人機(jī)夜拍一直是個(gè)大坑，然而結(jié)構(gòu)光技術(shù)應(yīng)對(duì)不來(lái)強(qiáng)光，一到中午無(wú)人機(jī)就石樂(lè)志也是很心塞的。

　　更好的解決方案，在于將傳感器與智能攝像頭結(jié)合起來(lái)，達(dá)成可以適應(yīng)不同天候與天氣，并且可以長(zhǎng)距離感知的新型傳感系統(tǒng)解決方案。

　　今天，用機(jī)器視覺技術(shù)中的很多算法，協(xié)調(diào)不同的傳感設(shè)備工作，讓無(wú)人機(jī)變成“多眼無(wú)人機(jī)”，正在成為流行的解決方案。機(jī)器視覺算法大量加入無(wú)人機(jī)傳感器，還可能帶來(lái)軌跡拍攝能力提升，讓無(wú)人機(jī)獲得拍攝整體環(huán)境，或者精準(zhǔn)捕捉動(dòng)態(tài)物體，比如說(shuō)運(yùn)動(dòng)中的動(dòng)物和車輛的能力。

　　以上幾個(gè)技術(shù)趨勢(shì)，都可能成為機(jī)器視覺和圖形學(xué)應(yīng)用的下一步熱點(diǎn)。這個(gè)領(lǐng)域看似偏門，事實(shí)上卻能影響今天科技市場(chǎng)中的風(fēng)吹草動(dòng)。

　　讓機(jī)器看到立體世界的游戲才剛剛開始，機(jī)器與人類在某一天可以用同樣的視角相互凝視，或許才是這個(gè)故事的終點(diǎn)。