博客專欄

EEPW首頁 > 博客 > 加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(2)

加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(2)

發(fā)布人:機(jī)器之心 時間:2023-03-19 來源:工程師 發(fā)布文章

方法


就研究目的而言,從內(nèi)容和結(jié)構(gòu)的角度來考慮一個視頻將是有幫助的。對于結(jié)構(gòu),此處指的是描述其幾何和動態(tài)的特征,比如主體的形狀和位置,以及它們的時間變化。對于內(nèi)容,此處將其定義為描述視頻的外觀和語義的特征,比如物體的顏色和風(fēng)格以及場景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容,同時保留其結(jié)構(gòu)。


為了實(shí)現(xiàn)這一目標(biāo),研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c),其條件是結(jié)構(gòu)表征(用 s 表示)和內(nèi)容表征(用 c 表示)。他們從輸入視頻推斷出形狀表征 s,并根據(jù)描述編輯的文本 prompt c 對其進(jìn)行修改。首先,描述了對生成模型的實(shí)現(xiàn),作為一個條件潛在的視頻擴(kuò)散模型,然后,描述了對形狀和內(nèi)容表征的選擇。最后,討論了模型的優(yōu)化過程。


模型結(jié)構(gòu)如圖 2 所示。


圖片


實(shí)驗(yàn)


為了評估該方法,研究者采用了 DAVIS 的視頻和各種素材。為了自動創(chuàng)建編輯 prompt,研究者首先運(yùn)行了一個字幕模型來獲得原始視頻內(nèi)容的描述,然后使用 GPT-3 來生成編輯 prompt。


定性研究


如圖 5 所示,結(jié)果證明,本文的方法在一些不同的輸入上表現(xiàn)良好。


圖片


用戶研究


研究者還使用 Amazon Mechanical Turk(AMT)對 35 個有代表性的視頻編輯 prompt 的評估集進(jìn)行了用戶研究。對于每個樣本,均要求 5 個注解者在基線方法和本文方法之間對比對視頻編輯 prompt 的忠實(shí)度(「哪個視頻更好地代表了所提供的編輯過的字幕?」),然后以隨機(jī)順序呈現(xiàn),并使用多數(shù)****來決定最終結(jié)果。


結(jié)果如圖 7 所示:


圖片


定量評估


圖 6 展示了每個模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型(即,在圖的右上角位置較高)。研究者還注意到,在基線模型中增加強(qiáng)度參數(shù)會有輕微的 tradeoff:更大的強(qiáng)度縮放意味著更高的 prompt 一致性,代價是更低的框架一致性。同時他們還觀察到,增加結(jié)構(gòu)縮放會導(dǎo)致更高的 prompt 一致性,因?yàn)閮?nèi)容變得不再由輸入結(jié)構(gòu)決定。


定制化


圖 10 展示了一個具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到,定制化提高了對人物風(fēng)格和外觀的保真度,因此,盡管使用具有不同特征的人物的驅(qū)動視頻,但結(jié)合較高的 ts 值,還是可以實(shí)現(xiàn)精確的動畫效果。


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉