博客專欄

EEPW首頁(yè) > 博客 > 視覺(jué)/視覺(jué)慣性SLAM最新綜述:領(lǐng)域進(jìn)展、方法分類與實(shí)驗(yàn)對(duì)比(1)

視覺(jué)/視覺(jué)慣性SLAM最新綜述:領(lǐng)域進(jìn)展、方法分類與實(shí)驗(yàn)對(duì)比(1)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-07-26 來(lái)源:工程師 發(fā)布文章

Visual and Visual-Inertial SLAM: State of the Art, Classification,and Experimental Benchmarking

作者:Myriam Servières, Valérie Renaudin, Alexis Dupuis, and Nicolas Antigny

論文地址: https://www.hindawi.com/journals/js/2021/2054828/

1.png

摘要:SLAM技術(shù)現(xiàn)在被許多應(yīng)用廣泛采用,研究人員已經(jīng)就這個(gè)領(lǐng)域產(chǎn)生了非常多的文獻(xiàn)。隨著智能設(shè)備的出現(xiàn),嵌入攝像頭、慣性測(cè)量單元、視覺(jué) SLAM (vSLAM) 和視覺(jué)-慣性 SLAM (viSLAM) 正在實(shí)現(xiàn)新穎的大眾應(yīng)用。在這種情況下,本文對(duì)現(xiàn)有的 SLAM 方法進(jìn)行了回顧,重點(diǎn)是 vSLAM/viSLAM,無(wú)論是在基礎(chǔ)層面還是實(shí)驗(yàn)層面。從現(xiàn)有 vSLAM 和 viSLAM 設(shè)計(jì)的結(jié)構(gòu)化概述開(kāi)始,并繼續(xù)對(duì)十幾種主要的最先進(jìn)方法進(jìn)行新分類。利用 viSLAM 發(fā)展的時(shí)間順序突出了歷史里程碑,并將更新的方法歸類為一個(gè)分類。最后,在城市環(huán)境中使用手持設(shè)備進(jìn)行行人位姿估計(jì)的用例進(jìn)行SLAM 的性能評(píng)估。使用 EuRoC MAV 數(shù)據(jù)集和與城市行人導(dǎo)航對(duì)應(yīng)的新的視覺(jué)-慣性數(shù)據(jù)集,比較了五種開(kāi)源方法 Vins-Mono、ROVIO、ORB-SLAM2、DSO 和 LSD-SLAM 的性能。對(duì)計(jì)算結(jié)果的詳細(xì)分析確定了每種方法的優(yōu)點(diǎn)和缺點(diǎn)。使用兩個(gè)數(shù)據(jù)集進(jìn)行測(cè)試結(jié)果表明,總的來(lái)說(shuō),ORB-SLAM2 似乎是解決城市行人導(dǎo)航挑戰(zhàn)中最有前途的算法。

I 引言

SLAM 問(wèn)題自 1980 年代提出以來(lái)一直是最活躍的研究課題之一 [1, 2]。SLAM 的目標(biāo)是在重建周圍環(huán)境地圖的同時(shí)獲得設(shè)備路徑的全局一致估計(jì)。這兩個(gè)核心任務(wù)之間的耦合很快被發(fā)現(xiàn)是 SLAM 方法的真正優(yōu)勢(shì)。這種二元性也促進(jìn)了它的多樣化。通過(guò)賦予地圖或定位的重要性,SLAM 已從唯一的機(jī)器人領(lǐng)域擴(kuò)展,成為解決許多不同性質(zhì)問(wèn)題的參考:從微型飛行器 [3] 到智能手機(jī)上的增強(qiáng)現(xiàn)實(shí) (AR) [ 4, 5]。

對(duì)現(xiàn)有的 SLAM 算法(實(shí)時(shí)、廉價(jià)的傳感器)增加了更高的期望,從而導(dǎo)致了 SLAM 的新研究領(lǐng)域。僅使用相機(jī)的視覺(jué) SLAM (vSLAM) 和使用慣性IMU的視覺(jué)-慣性 SLAM (viSLAM) 很好地說(shuō)明了這些新的 SLAM 策略。在過(guò)去的幾十年中,vSLAM 可能吸引了大部分研究。相機(jī)捕獲有關(guān)觀察環(huán)境的大量數(shù)據(jù),可以提取這些數(shù)據(jù)并用于 SLAM 處理。這些相機(jī)也是最便宜的傳感器之一。它們出現(xiàn)在當(dāng)今大多數(shù)智能設(shè)備上,支持針對(duì)普通大眾的新型應(yīng)用程序的持續(xù)開(kāi)發(fā)。

由于存在許多針對(duì)不同目標(biāo)的不同 SLAM 方法,因此比較它們并不容易。為特定應(yīng)用選擇最適合的方法需要對(duì) SLAM 的來(lái)龍去脈有很好的了解,以及對(duì)最先進(jìn)的 SLAM 策略的全局理解。方法的性能取決于應(yīng)用程序上下文和要解決的挑戰(zhàn)。在全局范圍內(nèi),SLAM 往往被錯(cuò)誤地認(rèn)為是一種萬(wàn)能的技術(shù),但在現(xiàn)實(shí)生活中的實(shí)施會(huì)在計(jì)算限制、噪聲抑制甚至用戶友好性方面提出許多問(wèn)題。這只是要克服的困難的一個(gè)選擇。

本文旨在對(duì)現(xiàn)有的 vSLAM 和 viSLAM 方法進(jìn)行分類?;诩夹g(shù)和面向應(yīng)用的標(biāo)準(zhǔn)提出了橫向分類。SLAM 方法的綜述包含 vSLAM 和 viSLAM 發(fā)展的歷史介紹。該分析是通過(guò)在兩個(gè)不同的數(shù)據(jù)集上運(yùn)行五種選定的最先進(jìn)的 SLAM 方法來(lái)完成的,這些方法已被選擇用來(lái)表示現(xiàn)有 SLAM 設(shè)計(jì)的多樣性。這些方法最好地解決了城市環(huán)境中行人位姿估計(jì)的用例。該實(shí)驗(yàn)基準(zhǔn)在著名的公共數(shù)據(jù)集 EuRoC [6] 上進(jìn)行,并使用新的視覺(jué)慣性數(shù)據(jù)集完成,該數(shù)據(jù)集已通過(guò)法國(guó)南特市中心行人手持的智能設(shè)備采集(IRSTV 數(shù)據(jù)集)。

支持此綜述和基準(zhǔn)測(cè)試的主要?jiǎng)訖C(jī)是在城市行人移動(dòng)性的特定背景下評(píng)估 vSLAM 和 viSLAM 方法,并在過(guò)程中使用增強(qiáng)現(xiàn)實(shí) (AR)。在這種情況下,其結(jié)果應(yīng)該有助于選擇最合適的方法來(lái)估計(jì)手持智能設(shè)備的位姿。行人的手正在執(zhí)行 6DoF 運(yùn)動(dòng)。尋找流行的基準(zhǔn)數(shù)據(jù)集,發(fā)現(xiàn)這些運(yùn)動(dòng)與微型飛行器的運(yùn)動(dòng)相似。本文首先根據(jù)文獻(xiàn)中方法的特征和它們對(duì)各種場(chǎng)景的魯棒性(第 6 節(jié))對(duì)來(lái)自文獻(xiàn)的方法進(jìn)行分類,以選擇數(shù)據(jù)集。選擇最接近行人移動(dòng)性要求和環(huán)境的數(shù)據(jù)集與新引入的 IRSTV 行人數(shù)據(jù)集(第 7 節(jié))進(jìn)行比較。

第 2 節(jié)列出了 SLAM 方法的現(xiàn)有綜述論文和基準(zhǔn),其方法與本工作中采用的方法不同。第 3 節(jié)描述了 SLAM 算法設(shè)計(jì)的第一級(jí):硬件和通用軟件選擇。第 4 節(jié)描述了 vSLAM 算法的一般架構(gòu)。它確定并詳細(xì)說(shuō)明了四個(gè)組成“塊”。第 5 節(jié)概述了 SLAM 的歷史,分為三個(gè)時(shí)期。第 6 節(jié)介紹了 vSLAM 和 viSLAM 方法的新分類。最后,第 7 節(jié)介紹了基于 EuRoC 和 IRSTV 數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)基準(zhǔn)測(cè)試,并對(duì)選定數(shù)據(jù)集上的 SLAM 結(jié)果進(jìn)行詳細(xì)分析。

2. 現(xiàn)有綜述和基準(zhǔn)

幾篇綜述論文簡(jiǎn)要介紹了特定時(shí)間 SLAM 的研究狀況。各種論文提出了其他實(shí)驗(yàn)基準(zhǔn)。它們告知了最著名的 SLAM 方法在給定數(shù)據(jù)集上的性能。本節(jié)列出了其中一些論文以進(jìn)行理論基準(zhǔn)測(cè)試。還列出了它們以支持將第 7 節(jié)中進(jìn)行的實(shí)驗(yàn)基準(zhǔn)與其他最先進(jìn)的評(píng)估進(jìn)行比較。

2.1. Survey Papers

在 [7] 中可以找到關(guān)于 vSLAM 算法的有趣且完整的綜述,盡管有些陳舊。在 [8] 中,作者介紹了最先進(jìn)的 SLAM 方法與 vSLAM 中最著名的算法之間的一些主要區(qū)別,并對(duì) viSLAM 進(jìn)行了非常有用的介紹。但是,作為綜述,它主要提供了有關(guān)該主題的高級(jí)解釋??梢栽?[9] 中找到僅限于視覺(jué)里程計(jì)和視覺(jué) SLAM 的概述。兩篇了解 SLAM 研究起源的創(chuàng)始論文在 [10, 11] 中。他們還主要專注于視覺(jué)里程計(jì)和 viSLAM 的子部分。Durrant-Whyte 和 Bailey [12, 13] 的 2006 年論文提供了關(guān)于 viSLAM 的豐富教程。它們包含對(duì) SLAM 問(wèn)題數(shù)學(xué)公式詳細(xì)介紹,但缺乏對(duì)最近 vSLAM 的更新介紹。Cadena 等人的論文 [14] 可以被認(rèn)為是 viSLAM 領(lǐng)域的一本手冊(cè)。最近的綜述[15] 列出并分類了基于濾波和基于優(yōu)化的 viSLAM 算法,并使用 EuRoc 數(shù)據(jù)集對(duì)它們進(jìn)行了比較。發(fā)現(xiàn)這些論文都沒(méi)有完整地介紹該領(lǐng)域,即從技術(shù)和歷史瑣事到實(shí)際性能比較。因此,本文的工作旨在促進(jìn)新研究工作與 SLAM 的比較,并協(xié)助未來(lái)的位姿估計(jì)研究?,F(xiàn)有技術(shù)提出了主要的 vSLAM 方法來(lái)解釋設(shè)計(jì)和硬件選擇對(duì)性能的影響。vSLAM/viSLAM 分類提供了許多現(xiàn)有實(shí)現(xiàn)的多樣性的概述和比較。此外,隨后在第 6 節(jié)中提出的分類將在其他評(píng)論中部分發(fā)現(xiàn)但不一定一起呈現(xiàn)的特征組合在一起。

2.2. Benchmarks

第一個(gè)基準(zhǔn) [16] 僅關(guān)注 RGB-D SLAM。另一個(gè)專門用于視覺(jué)慣性方法的基準(zhǔn) [3],在多個(gè)平臺(tái)上評(píng)估緊耦合的視覺(jué)慣性里程計(jì) (VIO) 和 viSLAM 方法,以模擬飛行無(wú)人機(jī)的實(shí)際應(yīng)用。測(cè)試僅在 EuRoC 數(shù)據(jù)集(即中等室內(nèi)環(huán)境)上執(zhí)行。它通過(guò)比較六種最先進(jìn)算法的準(zhǔn)確性、內(nèi)存和 CPU 使用率以及計(jì)算時(shí)間,為 viSLAM 算法提供了最完整的基準(zhǔn)測(cè)試之一。S-MSCKF 論文 [17] 也比較了一些 viSLAM 方法。vSLAM 方法通常在不包含慣性數(shù)據(jù)的the new college [18]、TUM 單目 [19] 或 TUM RGB-D 數(shù)據(jù)集 [16] 上進(jìn)行測(cè)試。EuRoC數(shù)據(jù)集不能用于比較最新的 viSLAM 方法。

3. 硬件和一般設(shè)計(jì)選擇

SLAM 和視覺(jué)里程計(jì) (VO) 在文獻(xiàn)中通常是同義詞,因?yàn)樗鼈兌际墙鉀Q類似問(wèn)題的潛在選擇,但它們針對(duì)不同的目標(biāo)。VO 專注于實(shí)時(shí)估計(jì)相機(jī)的路徑。它是按順序完成的,每次捕獲一個(gè)新幀。VO 僅提供局部/相對(duì)估計(jì),并通過(guò)窗口優(yōu)化在線細(xì)化路徑。相反,SLAM 提供了對(duì)設(shè)備路徑的全局一致估計(jì)?;丨h(huán)檢測(cè)通過(guò)執(zhí)行集調(diào)整 (BA) 來(lái)減少地圖和軌跡估計(jì)中的漂移。為簡(jiǎn)化起見(jiàn),VO 和 vSLAM 的行為類似,直到關(guān)閉回環(huán)。VO 通常用作 vSLAM 的結(jié)構(gòu)模塊,它也借用了3D 重建中的SfM方法。

在不需要構(gòu)建精確地圖的應(yīng)用中,可以想象純 VO 和 vSLAM。

3.1. Hardware for Visual SLAM

傳統(tǒng)上,vSLAM 使用三種硬件類型:?jiǎn)文肯鄼C(jī)、雙目相機(jī)和 RGB-D 相機(jī)。viSLAM 最近引起了越來(lái)越多的興趣,因?yàn)?IMU 和相機(jī)具有互補(bǔ)的功能。相機(jī)在慢動(dòng)作中是準(zhǔn)確的,并提供豐富的信息源,但它們的輸出速率有限,導(dǎo)致單目設(shè)置中的尺度模糊,并且在運(yùn)動(dòng)模糊或光照變化的情況下可能缺乏魯棒性。另一方面,IMU 以高采樣率對(duì)環(huán)境變化具有魯棒性,但它們僅提供載體運(yùn)動(dòng)測(cè)量,并且受到傳感器偏差的影響,這會(huì)降低加速度和角速度記錄。隨著同時(shí)嵌入 IMU 和攝像頭的智能設(shè)備的出現(xiàn),許多面向大眾的應(yīng)用都采用了 viSLAM 算法。它們是一種很有前途的替代方案,可以結(jié)合多個(gè)來(lái)源來(lái)提高跟蹤質(zhì)量 [20]。

3.2. Filter-Based and Keyframe-Based Approaches

如圖 1 所示,vSLAM 方法使用兩種主要設(shè)計(jì)。第一個(gè)設(shè)計(jì)對(duì)應(yīng)于基于濾波器的解決方案。該類別包含以下內(nèi)容:

(i) 基于擴(kuò)展卡爾曼濾波(EKF-) 的算法,例如 MonoSLAM [21]

(ii) 基于粒子濾波的方法,例如 FastSLAM 及其單目 SLAM 替代方案 [22, 23]

(iii) 基于多狀態(tài)約束卡爾曼濾波(MSCKF-)的方法,例如 MSCKF 2.0 [24] 或 SMSCKF [17]。

2.png

圖1當(dāng)前 vSLAM 算法

傳統(tǒng)上,基于濾波器的方法在狀態(tài)向量中估計(jì)相機(jī)的位姿和地標(biāo)的位置,這是可擴(kuò)展性低效的潛在來(lái)源。Mourikis 和 Roumeliotis [25] 的 MSCKF 以及最近基于 EKF 的 VIO 解決方案,例如 ROVIO [26],使用限制性的地標(biāo)剔除以僅保留狀態(tài)向量中最近檢測(cè)到的特征。這種解決問(wèn)題的局部方法對(duì)于純視覺(jué)里程計(jì)方法(VO 或 VIO)很常見(jiàn)。也可以將從狀態(tài)向量中提取的 3D 特征保留在靜態(tài)地圖中。該地圖被認(rèn)為是靜態(tài)的,因?yàn)樗谡麄€(gè) SLAM 過(guò)程中保持不變。建圖是在定位之后而不是同時(shí)進(jìn)行的。

第二種設(shè)計(jì)利用源自 PTAM [27] 的并行方法。這些方法基于關(guān)鍵幀。這些特征相對(duì)于關(guān)鍵幀進(jìn)行參數(shù)化,從而能夠在多個(gè)線程上并行運(yùn)行不同的 SLAM 任務(wù)?;陉P(guān)鍵幀的方法有時(shí)也稱為“基于優(yōu)化”的方法。它們?cè)谛阅芊矫娴闹饕獌?yōu)勢(shì)之一是它們使用全局優(yōu)化集束調(diào)整 (BA),而不是讓濾波管理地圖和位姿。全局優(yōu)化能夠糾正漂移效應(yīng),從而提高精度。然而,它們的計(jì)算成本很高,這就是為什么在 PTAM [27] 引入并行化各種 SLAM 任務(wù)的可能性之前,它們大多被離線使用。就像基于濾波器的方法已經(jīng)演變成窗口方法以提高計(jì)算效率和可擴(kuò)展性一樣,基于關(guān)鍵幀的優(yōu)化只能在關(guān)鍵幀的窗口上進(jìn)行。關(guān)鍵幀也可以排列在圖表中。根據(jù)它們的設(shè)計(jì),可以使用不同的標(biāo)準(zhǔn)來(lái)定義窗口,而不是使用最后一個(gè)關(guān)鍵幀的簡(jiǎn)單時(shí)間窗口。優(yōu)化也因優(yōu)化標(biāo)準(zhǔn)而異。位姿圖優(yōu)化(或僅運(yùn)動(dòng) BA)側(cè)重于關(guān)鍵幀之間的位姿,而僅結(jié)構(gòu) BA 僅優(yōu)化地圖,BA 管理地圖和位姿。然而,應(yīng)該注意的是,vSLAM 方法也可以結(jié)合各種類型的優(yōu)化設(shè)計(jì):例如,在每個(gè)新的關(guān)鍵幀上進(jìn)行閉環(huán)的全局 BA 和局部位姿圖優(yōu)化。正如圖 1 總結(jié)的那樣,設(shè)計(jì)的選擇通常是由精度和速度之間的折衷決定的。

4. vSLAM算法的經(jīng)典結(jié)構(gòu)

四個(gè)主要塊(圖 2)描述了所有 vSLAM 算法的整體操作。它們?nèi)缦拢?/p>

(i) 輸入搜索:在傳感器測(cè)量中找到所需的信息;

(ii) 位姿跟蹤:根據(jù)新的感知確定當(dāng)前相機(jī)位姿;

(iii) 建圖:在地圖上添加一個(gè)地標(biāo);

(iv) 閉環(huán):生成合適的地圖和無(wú)漂移的定位。

3.png

圖2 vSLAM 算法的四個(gè)主要模塊

4.1. Input Search

在處理相機(jī)時(shí),首先必須提取幀中包含的數(shù)據(jù)。一些方法使用像素強(qiáng)度來(lái)匹配不同的幀:它們被稱為直接方法。在這種情況下,建圖元素可以是像素圖,即幀在 3D 圖中重新定位,并且每個(gè)像素都有相應(yīng)的深度(第 4.3 節(jié))。其他方法提取每一幀中的特征(圖像感興趣區(qū)域中的點(diǎn),即易于識(shí)別,直線或曲線段)并使用幾何約束進(jìn)行匹配。特征提取是計(jì)算機(jī)視覺(jué)的一個(gè)眾所周知的領(lǐng)域。特征描述符通常使用強(qiáng)度梯度來(lái)檢測(cè)感興趣的區(qū)域。在這種情況下,建圖元素可以是特征的 3D 位姿。著名的描述符包括 Harris [28]、SURF [29]、SIFT [30]、FAST [31] 和 ORB [32]。選擇通常是由健壯性和計(jì)算效率之間的權(quán)衡決定的。最后這些方法稱為間接方法或基于特征的方法。

直接和間接之間的選擇與輸入空間有關(guān),而稠密和稀疏建圖之間的選擇取決于輸出空間。構(gòu)建的地圖從稀疏到稠密。稀疏地圖僅包含稀疏特征云(即,僅圖像幀中像素的一小部分選定子集)并且是專注于軌跡正確性的典型 vSLAM 方法。稠密方法使用所有幀的信息(即,每個(gè)接收幀中的大部分或全部像素信息)來(lái)重建具有盡可能多的環(huán)境數(shù)據(jù)的地圖。半稠密方法介于兩者之間。它們是稠密的方法,其中僅將特定的感興趣區(qū)域建圖。基于此分析可以想象的四種輸入/輸出組合各有利弊。表 1 總結(jié)了可能的組合,給出了使用它們的算法示例。

表 1 根據(jù)第一個(gè) vSLAM 模塊的輸入和輸出方法進(jìn)行分類

4.png

直接和間接之間的選擇仍在爭(zhēng)論中。特征描述符對(duì)圖像噪聲具有魯棒性。最近的描述符對(duì)于幾何失真可能是穩(wěn)健的,甚至是不變的,例如,由于卷簾快門、自動(dòng)曝光變化和鏡頭漸暈。直接方法允許使用每個(gè)幀中包含的所有信息。它們避免提取特征并更快地收集地圖數(shù)據(jù)。使用基本相機(jī)(例如網(wǎng)絡(luò)攝像頭或智能手機(jī))時(shí),間接方法因其穩(wěn)健性而受到青睞。然而,對(duì)于參數(shù)化良好的全局快門相機(jī),直接方法可能是首選。稠密方法產(chǎn)生更有趣的環(huán)境 3D 重建,但它們通常需要在高端 GPU 上進(jìn)行大量并行化。

間接/稀疏方法是最常用的方法。他們提取幀中的特征,并在確定坐標(biāo)后將其添加為 3D 點(diǎn)以進(jìn)行建圖。直接/稠密(或半稠密)方法也很常見(jiàn)。觀察到的像素由圖像幀中的一個(gè) 3D 點(diǎn)表示,構(gòu)成所有像素的深度圖。為了保持建圖期間在每一幀中觀察到的內(nèi)部一致性,添加了幾何先驗(yàn)。它們使用對(duì)場(chǎng)景幾何形狀的假設(shè)來(lái)限制從同一幀看到的點(diǎn)的位置。直接/稀疏方法相當(dāng)不常見(jiàn),并且在沒(méi)有先驗(yàn)數(shù)據(jù)的情況下使用光度誤差最小化,以保持幾何參數(shù)之間的相關(guān)性更輕,優(yōu)化耗時(shí)更少,如 DSO [33]。間接/稠密方法很少見(jiàn),并且不使用特征描述符。相反,他們將幾何誤差計(jì)算為與幀中觀察到的光流場(chǎng)的偏差。

4.2. Pose Tracking

位姿跟蹤塊包括視覺(jué)里程計(jì)部分。根據(jù)兩個(gè)連續(xù)幀中的特征對(duì)應(yīng)是 2D 還是 3D,有三種不同的方式來(lái)執(zhí)行視覺(jué)里程計(jì) [11]。

(i) 2D-2D 對(duì)齊:特征匹配直接在連續(xù)幀上檢測(cè)到的 2D 特征之間完成。這是純VO方法的常見(jiàn)解決方案;

(ii) 2D-3D(有時(shí)稱為 2.5D)對(duì)齊:給定世界中的一組 3D 點(diǎn)(來(lái)自先前幀的地圖點(diǎn))及其在新幀中相應(yīng)的 2D 投影,估計(jì)相機(jī)的位姿。這個(gè)問(wèn)題被稱為視角點(diǎn)。單目 pureVO 方法只能使用 2.5D 對(duì)齊,方法是保留幀、動(dòng)態(tài)三角特征,并在這些三角點(diǎn)被新傳入數(shù)據(jù)剔除之前重用 3D 位姿。相反,vSLAM 受益于完整的地標(biāo)地圖可供選擇進(jìn)行重投影,因此 vSLAM 中通常使用 2.5D 對(duì)齊

(iii) 3D-3D 對(duì)齊:使用雙目相機(jī),可以直接確定新檢測(cè)到的特征的 3D 位置,因此也可以考慮 3D-3D 對(duì)齊。然而,3D 特征位置估計(jì)通常會(huì)產(chǎn)生比 3D-2D 重投影誤差更大的不確定性,這就是為什么很少使用這種方法的原因。

對(duì)于單目 EKF-SLAM,地圖點(diǎn)的重投影用于校正階段 [38]。MSCKF 沿著一條“路徑”跟蹤檢測(cè)到的特征,該路徑由特征的每次檢測(cè)組成,從第一次檢測(cè)到它消失的那一刻。然后,它使用路徑完整的所有特征執(zhí)行高斯-牛頓最小化 [24]。對(duì)于并行方法,VO 可以在每一幀之間完成,而地圖重投影可以用于提高新關(guān)鍵幀位姿估計(jì)的準(zhǔn)確性。計(jì)算新相機(jī)位姿的先決條件是匹配當(dāng)前幀和前一幀之間的特征。自 2003 年 MonoSLAM [21] 以來(lái),“自下而上”方法(嘗試通過(guò)測(cè)試所有可能性來(lái)匹配特征)已被更有效的“自上而下”方法所取代?;舅枷胧怯?jì)算前一幀特征周圍的不確定性橢圓,其中應(yīng)該對(duì)該特征進(jìn)行新的觀察,并在新幀上限制該橢圓中的搜索空間。跟蹤這個(gè)橢圓需要對(duì)兩幀之間的相機(jī)運(yùn)動(dòng)進(jìn)行一些假設(shè),例如,CVCAV 運(yùn)動(dòng)模型(恒定速度,恒定角速度)[21]。通??梢酝ㄟ^(guò)確定最小化每個(gè)圖像中三角點(diǎn)的重投影誤差的變換來(lái)找到解決方案。通過(guò) 2D-3D 對(duì)齊,我們搜索最小化 3D 地標(biāo)到新 2D 幀的重投影誤差的變換。

使用幾何參數(shù)完成特征的 2D-2D 對(duì)齊,再通過(guò)使用對(duì)極幾何(5 點(diǎn)或 8 點(diǎn)算法)計(jì)算基本矩陣并將其分解為平移向量 t 和旋轉(zhuǎn)矩陣 R(使用奇異值分解),并形成幀到幀的變換 T。在直接方法中,給定一個(gè)點(diǎn) p,其像素坐標(biāo)是圖像 I1 中的 x 和 I2 中的 x',x'(T,x) 是運(yùn)動(dòng) T 的函數(shù),真實(shí)運(yùn)動(dòng) T* 應(yīng)該最小化光度差 I1(x)-I2(x')。因此,通過(guò)最小化圖像中的整體光度差異來(lái)找到 T* 的最佳估計(jì),這是像素級(jí)光度誤差的總和(在某些區(qū)域可能加權(quán),例如,具有高梯度)。這稱為直接圖像對(duì)齊 (DIA),相當(dāng)于直接方法的 2D-2D 對(duì)齊。

在處理稠密模型時(shí),通常使用迭代最近點(diǎn) (ICP) [39-41] 使用當(dāng)前幀的深度圖和 3D 稠密模型進(jìn)行跟蹤。請(qǐng)注意,基于稠密模型重投影的跟蹤可以受益于預(yù)測(cè)能力,例如提高對(duì)遮擋的魯棒性,以及對(duì)運(yùn)動(dòng)模糊的魯棒處理。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 計(jì)算機(jī)視覺(jué)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉