真實(shí)時、強(qiáng)細(xì)節(jié)、高保真:更強(qiáng)大的視頻重建算法,性能明顯提升(2)
實(shí)驗(yàn)
重建質(zhì)量
在與神經(jīng)圖像圖譜的比較分析中,如圖所示,本文提出的模型對非剛性運(yùn)動表現(xiàn)出卓越的魯棒性,能夠以更高的精度有效地重建細(xì)微的運(yùn)動(例如眨眼、面部紋理)。
流媒體視頻處理
(a) 視頻到視頻的重建。定性比較包括幾種基線方法,分為三個不同的類別:(1) 使用圖像翻譯模型的逐幀推理,如 ControlNet ;(2) 分層視頻編輯,如 Text-to-live ;(3) 基于擴(kuò)散模型的視頻翻譯,包括 Tune-A-Video 和 FateZero 。
如圖 4 所示,每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容,并伴有明顯的閃爍。其他基線的生成質(zhì)量或時間一致性相對較低。 本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻,保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量,同時確保時間一致性。
(b) 視頻關(guān)鍵點(diǎn)跟蹤。通過估計(jì)每個單獨(dú)幀的變形場,可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點(diǎn)的位置,然后識別所有幀中存在的對應(yīng)點(diǎn),如圖 5 所示。本文在項(xiàng)目頁面的視頻中展示了在非剛性對象(如流體)中跟蹤點(diǎn)的演示。
(c)視頻對象跟蹤。使用規(guī)范圖像上的分割算法,本文能夠利用內(nèi)容變形場促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示,本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。
(d) 視頻超分辨率算法。通過將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像,可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻,如圖 7 所示。假設(shè)變形由連續(xù)場表示,那么超分辨率的應(yīng)用不會產(chǎn)生閃爍。
(e) 用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨(dú)特風(fēng)格的對象,而不會影響圖像的其他部分。如圖 8 所示,用戶可以手動調(diào)整規(guī)范圖像上的內(nèi)容,以在自動編輯算法可能無法實(shí)現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。
消融實(shí)驗(yàn)
為了驗(yàn)證本文所提出模塊的效果,作者進(jìn)行了消融實(shí)驗(yàn)研究。在用位置編碼代替 3D 散列編碼時,視頻的重建 PSNR 顯著降低了 3.1dB。在沒有退火散列的情況下,規(guī)范圖像失去了其自然外觀,如圖 9 中的顯示。此外,在不考慮流信息損失的情況下,平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較,請參閱項(xiàng)目頁面上的視頻。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。