加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（2）

發(fā)布人：機(jī)器之心時間：2023-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

方法

就研究目的而言，從內(nèi)容和結(jié)構(gòu)的角度來考慮一個視頻將是有幫助的。對于結(jié)構(gòu)，此處指的是描述其幾何和動態(tài)的特征，比如主體的形狀和位置，以及它們的時間變化。對于內(nèi)容，此處將其定義為描述視頻的外觀和語義的特征，比如物體的顏色和風(fēng)格以及場景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容，同時保留其結(jié)構(gòu)。

為了實(shí)現(xiàn)這一目標(biāo)，研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c)，其條件是結(jié)構(gòu)表征（用 s 表示）和內(nèi)容表征（用 c 表示）。他們從輸入視頻推斷出形狀表征 s，并根據(jù)描述編輯的文本 prompt c 對其進(jìn)行修改。首先，描述了對生成模型的實(shí)現(xiàn)，作為一個條件潛在的視頻擴(kuò)散模型，然后，描述了對形狀和內(nèi)容表征的選擇。最后，討論了模型的優(yōu)化過程。

模型結(jié)構(gòu)如圖 2 所示。

實(shí)驗(yàn)

為了評估該方法，研究者采用了 DAVIS 的視頻和各種素材。為了自動創(chuàng)建編輯 prompt，研究者首先運(yùn)行了一個字幕模型來獲得原始視頻內(nèi)容的描述，然后使用 GPT-3 來生成編輯 prompt。

定性研究

如圖 5 所示，結(jié)果證明，本文的方法在一些不同的輸入上表現(xiàn)良好。

用戶研究

研究者還使用 Amazon Mechanical Turk（AMT）對 35 個有代表性的視頻編輯 prompt 的評估集進(jìn)行了用戶研究。對于每個樣本，均要求 5 個注解者在基線方法和本文方法之間對比對視頻編輯 prompt 的忠實(shí)度（「哪個視頻更好地代表了所提供的編輯過的字幕？」），然后以隨機(jī)順序呈現(xiàn)，并使用多數(shù)****來決定最終結(jié)果。

結(jié)果如圖 7 所示：

定量評估

圖 6 展示了每個模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型（即，在圖的右上角位置較高）。研究者還注意到，在基線模型中增加強(qiáng)度參數(shù)會有輕微的 tradeoff：更大的強(qiáng)度縮放意味著更高的 prompt 一致性，代價是更低的框架一致性。同時他們還觀察到，增加結(jié)構(gòu)縮放會導(dǎo)致更高的 prompt 一致性，因?yàn)閮?nèi)容變得不再由輸入結(jié)構(gòu)決定。

定制化

圖 10 展示了一個具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到，定制化提高了對人物風(fēng)格和外觀的保真度，因此，盡管使用具有不同特征的人物的驅(qū)動視頻，但結(jié)合較高的 ts 值，還是可以實(shí)現(xiàn)精確的動畫效果。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（2）

相關(guān)推薦

技術(shù)專區(qū)