挑戰(zhàn)傳統(tǒng)!首個數(shù)據(jù)驅(qū)動的事件相機特征追蹤框架橫空出世?。?)
本文在常用的事件相機數(shù)據(jù)集EC(參考論文:The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM)上比較了提出的數(shù)據(jù)驅(qū)動跟蹤模型,該數(shù)據(jù)集包括APS幀(24 Hz)和分辨率為240 × 180的事件,使用DAVIS240C相機記錄。此外,該數(shù)據(jù)集利用外部運動捕捉系統(tǒng)以200 Hz的速率提供實際的相機姿態(tài)。此外,為了在更新的傳感器設(shè)置下評估跟蹤性能,本文在新發(fā)布的Event-aided Direct Sparse Odometry(EDS)數(shù)據(jù)集(參考文獻:Event-aided Direct Sparse odometry)上測試了本文的方法。與EC數(shù)據(jù)集相比,EDS數(shù)據(jù)集包含更高分辨率的幀和事件(640×480像素)。與EC數(shù)據(jù)集類似,它包含了來自外部運動捕捉系統(tǒng)的150 Hz速率的真實姿態(tài)。由于EDS和EC的主要目的是評估相機位姿估計,因此兩個數(shù)據(jù)集中的大多數(shù)場景都是靜態(tài)的。
4.1.2 評價指標為了評估不同的特征跟蹤模型,本文首先用Harris角點檢測器對每個序列提取特征。在初始特征集的基礎(chǔ)上,每個被測跟蹤模型根據(jù)其特定的更新率預(yù)測特征位移。遺憾的是,EDS和EC這兩個數(shù)據(jù)集沒有可以作為真值的特征軌跡。為了評估沒有真值的特征跟蹤模型,先前的工作使用基于幀的KLT跟蹤模型預(yù)測的軌跡作為真值。相反,為了提高KLT軌跡的精度,基于本文提出的位姿監(jiān)督方法設(shè)計評估方案。具體來說,作為真實值的軌跡是通過使用相機實際的姿態(tài)對KLT軌跡進行三角剖分,然后將其重新投影到每個選定的目標幀中得到的。對KLT軌跡進行三角剖分的好處是KLT的微小跟蹤誤差可以被濾除,從而得到幾何一致的真實軌跡。為了驗證所提出的評估方法,本文進行了一個真實特征軌跡可得的仿真實驗。在這個模擬實驗中,本文計算了KLT重投影誤差與真實特征軌跡之間的皮爾森相關(guān)系數(shù),其值為0.716。這表明本文提出的評估方案與真實特征軌跡之間存在顯著的相關(guān)性,驗證了本文的評估方案的有效性。由于每個測試的跟蹤模型都有其更新率,因此本文對所有特征軌跡進行線性插值,保證與真實姿勢時間步長相同,以計算評估指標。此外,為了有效測試方法基于事件的跟蹤能力,本文在評估期間不更新特征模板。此外,我們停用所有終端標準并報告特征與真實值超過一定距離的時間,稱為 Feature Age(FA)。本文沒有像之前的工作那樣選擇一個錯誤閾值,而是以1像素的步長評估1-31像素范圍內(nèi)的多個錯誤閾值的軌跡。因此,不報告端點誤差,因為使用不同的誤差閾值測試每個軌跡,這有效地將距離誤差納入 FA 中。作為第一個性能指標,本文計算由真實軌跡持續(xù)時間歸一化的跟蹤 FA,以考慮不同的軌跡長度。。然而,由于一些特征軌跡在開始時被丟棄掉,本文展示穩(wěn)定軌跡的 FA。第二個誤差度量通過穩(wěn)定軌跡和真實軌跡之間比率來表示被丟失的軌跡。然后將該比率乘以 FA,計算的結(jié)果作為第二個性能指標。該指標結(jié)合了方法跟蹤的特征軌跡的質(zhì)量和數(shù)量。
4.1.3 模型訓練首先在有3000個特征軌跡的Multiflow數(shù)據(jù)集上使用ADAM優(yōu)化器進行模型訓練。學習率設(shè)置為。最初從 4 個unroll step開始,在 80000 和 120000 個訓練步后,逐漸將unroll step分別增加到 16 和 24。在Multiflow數(shù)據(jù)集上訓練完成之后,使用本文提出的監(jiān)督方法進行700次優(yōu)化迭代進行參數(shù)的微調(diào)。在達到指定訓練次數(shù)時學習率降低至。這些數(shù)據(jù)集不用于評估。
4.2 Benchmark Results - 基準測試結(jié)果4.2.1 Baselines本文將本文的方法與當前最先進的方法 EKLT 進行比較,后者的每個特征均從灰度圖像中提取對應(yīng)模板塊,并通過事件跟蹤該特征,類似于本文所提的跟蹤模型。作為另一個依賴灰度模板的跟蹤模型,本文還比較了 ICP 跟蹤模型用于基于事件的視覺里程計。此外,還針對純基于事件的跟蹤模型 HASTE 和 EM-ICP 進行評估。對于 EKLT、HASTE 和 EM-ICP,采用公開可用的代碼來進行實驗。ICP 的實施取自相關(guān)工作(參考論文:Standard and event cameras fusion for feature tracking)。所有方法的超參數(shù)都針對特定數(shù)據(jù)集進行了調(diào)整,這需要多個小時才能實現(xiàn)最佳性能。
4.2.2 EC Results - EC數(shù)據(jù)集結(jié)果在常用的跟蹤數(shù)據(jù)集 EC 上,本文提出的數(shù)據(jù)驅(qū)動方法在非零 FA 和預(yù)期 FA 方面均優(yōu)于其他方法,詳細如表 1。性能處在第二位的方法為 EKLT,它跟蹤特征的持續(xù)時間與本文提出的方法相近,如表 1 中的非零 FA 指標所示。然而,本文的方法能夠從預(yù)期 FA 生成初始特征集中跟蹤更多特征。成功跟蹤特征的比例越高,F(xiàn)A 越長,使本文的方法更適合姿態(tài)估計等下游任務(wù)。從圖 5 的第一行可以看出,與 EKLT 和 HASTE 相比,本文的方法產(chǎn)生了更多的平滑特征軌跡。正如預(yù)期的那樣,純粹基于事件的方法(HASTE、EM-ICP)和使用灰度圖像作為模板的方法(本文的、EKLT)之間存在性能差距。這證實了利用灰度圖像提取模板(隨后基于事件進行跟蹤)的好處。
4.2.3 EDS Results - EDS數(shù)據(jù)集結(jié)果與在 EC 數(shù)據(jù)集上的性能表現(xiàn)類似,本文提出的方法在 EDS 數(shù)據(jù)集上優(yōu)于所有現(xiàn)有跟蹤方法,在非零 FA 和預(yù)期 FA 方面具有更大的優(yōu)勢,如表 1 所示。性能的顯著提升證實了本文方法能夠處理不同光照條件和噪聲模式的 3D 場景中獲得的高分辨率數(shù)據(jù)。由于使用 Splitter 設(shè)置來記錄 EDS 數(shù)據(jù)集的數(shù)據(jù),因此事件和圖像之間存在未對準偽影,并且由于入射光的減少而導致事件中存在低光噪聲。此外,與 EC 數(shù)據(jù)集相比,EDS 包括更快的相機運動,導致所有方法的總體跟蹤性能較低。盡管如此,本文的方法能夠處理不同的噪聲源,同時可以預(yù)測大量的特征軌跡,如圖 5 第二行和第三行所示。最后,除了性能增益之外,本文方法不需要數(shù)小時的手動微調(diào)來將跟蹤模型從小分辨率轉(zhuǎn)移到具有不同對比度閾值設(shè)置的高分辨率事件相機上。
4.2.4 Runtime Comparison - 運行時間比較要在實際應(yīng)用中使用特征跟蹤模型,提供低延遲的特征位移更新至關(guān)重要。因此,根據(jù)實際影響事件的因素評價不同方法的運行時間,即計算時間除以接收數(shù)據(jù)的時間,圖 6 展示了各個方法的跟蹤性能。應(yīng)該指出的是,大多數(shù)跟蹤方法并不是為了運行效率而實現(xiàn)的,此外由于使用不同的編程語言實現(xiàn),無法做到絕對的公平。此外,本文對所有方法進行調(diào)整,重點關(guān)注跟蹤性能,這解釋了為什么 EKLT 的運行時間很長,因為本文顯著增加了優(yōu)化迭代的次數(shù)。盡管如此,不同方法的運行時間可以粗略地認為不同方法的推理速度。對于 HASTE,本文還展示了理想 HASTE 的運行時間,在圖 6 中名為 HASTE。理想的 HASTE 假設(shè) HASTE 代碼框架完美并行,按順序跟蹤每個特征。即使沒有優(yōu)化部署代碼,本文方法也能在 EC 數(shù)據(jù)集上展現(xiàn)出接近實時的性能,同時也是 EDS 數(shù)據(jù)集上最快的方法,具有更高的跟蹤性能。在 EDS 數(shù)據(jù)集上,本文的方法并行處理 19.7 個補丁平均需要 17 毫秒,而在使用 Nvidia Quadro RTX 8000 GPU 的 EC 上處理 14.2 個補丁需要 13 毫秒。本文方法的快速推理能力可以通過深度學習架構(gòu)的批量處理和高度并行化框架來解釋。這表明本文的方法具有應(yīng)用于低延遲場景的潛力。
4.3 Combination of Events and Frames - 事件與幀結(jié)合為了結(jié)合灰度圖像的上下文信息和事件的高延遲信息,本文使用流行的 KLT 幀跟蹤方法擴展了基于事件的跟蹤方法。具體來說,本文使用事件跟蹤方法來跟蹤兩幀之間盲區(qū)內(nèi)的特征,并在新幀到達后使用跟蹤模型的位移預(yù)測作為 KLT 跟蹤器的初始猜測。這樣做的好處是可以有效減輕高速運動造成的兩幀之間基線過大的負面影響。此外,與本文事件跟蹤模型的結(jié)合提供了兩幀之間的特征位置,顯著增加了特征位置更新的頻率。另一方面,一旦獲得可靠的幀信息,KLT 跟蹤器就可以糾正特征位置。當基于相機姿態(tài)構(gòu)建真值時,使用具有三個層次尺度的 KLT 跟蹤器來處理更大的運動。將本文的方法和 KLT 跟蹤器(Ours+KLT)的組合與純 KLT 跟蹤器的幀間不同像素運動進行比較,如圖 7 所示。不同的像素運動是通過在 EC 數(shù)據(jù)集序列中跳幀來實現(xiàn)的,這對應(yīng)于增加兩幀之間的像素運動。從圖 7 中可以看出,對于幀間的小像素位移,本文的跟蹤模型和 KLT 組合的性能與純 KLT 跟蹤器相當。然而,隨著像素運動的增加,本文方法提供的初始猜測有助于 KLT 跟蹤器在更長的時間內(nèi)跟蹤特征。此外,本文基于事件的跟蹤方法可以在高速運動期間,即當幀遭受運動模糊時提供強大的特征跟蹤。這可以在圖 1 中可以觀察到,圖 1 顯示了本文的跟蹤模型由于高速運動而導致的運動模糊幀上預(yù)測的平滑特征軌跡。
4.4 Ablations - 消融研究為了測試每個網(wǎng)絡(luò)模塊對整個模型的具體貢獻,本文基于參考模型進行了幾次消融實驗,參考模型沒有幀注意模塊,詳情參見表 1。合成數(shù)據(jù)訓練期間的增強顯著促進了從合成數(shù)據(jù)到現(xiàn)實世界數(shù)據(jù)的零樣本傳輸。此外,特征編碼器中的循環(huán)導致更長的 FA(w/recurrence),這也是通過引入相關(guān)圖(w/o correlation)在較小規(guī)模上實現(xiàn)的。雖然在 EC 數(shù)據(jù)集上沒有任何改進,但本文提出的幀注意力模塊顯著提高了 EDS 數(shù)據(jù)集上序列的性能。這種性能的提高證實了在相似的特征軌跡之間共享信息的好處。通過使用本文的自我監(jiān)督方案將基于幀注意模塊(Ref+Frame Attention)的網(wǎng)絡(luò)適應(yīng)真實數(shù)據(jù),實現(xiàn)了最高的跟蹤性能。最后,幀注意力模塊依賴狀態(tài)變量(無狀態(tài))來充分利用幀中特征之間共享信息。
5 總結(jié)本文提出了第一個用于事件相機的數(shù)據(jù)驅(qū)動特征跟蹤模型,它利用低延遲事件來跟蹤在灰度幀中檢測到的特征。借助本文提出的幀注意力模塊,該模塊融合特征軌跡上的信息,本文的跟蹤模型在兩個數(shù)據(jù)集上的性能優(yōu)于最先進的方法,同時推理時間更短。此外,本文提出的方法不需要進行大量的手動參數(shù)調(diào)整,并且可以通過本文的自監(jiān)督策略適應(yīng)新的事件相機。最后,本文可以將基于事件的跟蹤模型與 KLT 跟蹤模型結(jié)合起來,用于在具有挑戰(zhàn)性的場景中進行穩(wěn)定軌跡的預(yù)測。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。