真實時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

發(fā)布人：機(jī)器之心時間：2023-08-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

實驗

重建質(zhì)量

在與神經(jīng)圖像圖譜的比較分析中，如圖所示，本文提出的模型對非剛性運(yùn)動表現(xiàn)出卓越的魯棒性，能夠以更高的精度有效地重建細(xì)微的運(yùn)動（例如眨眼、面部紋理）。

流媒體視頻處理

(a) 視頻到視頻的重建。定性比較包括幾種基線方法，分為三個不同的類別：(1) 使用圖像翻譯模型的逐幀推理，如 ControlNet ；(2) 分層視頻編輯，如 Text-to-live ；(3) 基于擴(kuò)散模型的視頻翻譯，包括 Tune-A-Video 和 FateZero 。

如圖 4 所示，每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容，并伴有明顯的閃爍。其他基線的生成質(zhì)量或時間一致性相對較低。本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻，保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量，同時確保時間一致性。

（b）視頻關(guān)鍵點跟蹤。通過估計每個單獨幀的變形場，可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點的位置，然后識別所有幀中存在的對應(yīng)點，如圖 5 所示。本文在項目頁面的視頻中展示了在非剛性對象（如流體）中跟蹤點的演示。

（c）視頻對象跟蹤。使用規(guī)范圖像上的分割算法，本文能夠利用內(nèi)容變形場促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示，本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。

（d）視頻超分辨率算法。通過將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像，可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻，如圖 7 所示。假設(shè)變形由連續(xù)場表示，那么超分辨率的應(yīng)用不會產(chǎn)生閃爍。

（e）用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨特風(fēng)格的對象，而不會影響圖像的其他部分。如圖 8 所示，用戶可以手動調(diào)整規(guī)范圖像上的內(nèi)容，以在自動編輯算法可能無法實現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。

消融實驗

為了驗證本文所提出模塊的效果，作者進(jìn)行了消融實驗研究。在用位置編碼代替 3D 散列編碼時，視頻的重建 PSNR 顯著降低了 3.1dB。在沒有退火散列的情況下，規(guī)范圖像失去了其自然外觀，如圖 9 中的顯示。此外，在不考慮流信息損失的情況下，平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較，請參閱項目頁面上的視頻。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

真實時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

真實時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

相關(guān)推薦

技術(shù)專區(qū)

真實時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）