奧斯卡大贏家影片:《瞬息全宇宙》背后的AI技術(shù)揭秘
關(guān)鍵詞:瞬息全宇宙 Runway Gen-1
北京時間 3 月 13 日上午,2023 年奧斯卡頒獎禮在洛杉磯舉行,影片《瞬息全宇宙》一舉斬獲七項大獎,成為最大贏家。主演楊紫瓊也憑借該片將奧斯卡最佳女主角獎收入囊中,成為奧斯卡歷史上首位華裔影后。楊紫瓊奧斯卡封后,圖源網(wǎng)絡(luò)
據(jù)了解,這部正在被熱議的科幻電影背后的視覺效果團隊僅有 5 人,為了盡快完成這些特效鏡頭,他們選擇了 Runway 公司的技術(shù)來幫助創(chuàng)建某些場景,比如為圖像去除背景的綠幕工具 (The Green Screen)。
「僅僅幾次點擊就讓我節(jié)省幾個小時,我可以用這些時間嘗試三四種不同的效果,讓影片效果更好?!箤?dǎo)演兼編劇 Evan Halleck 受訪時談道。手指進化成熱狗宇宙,圖源網(wǎng)絡(luò)
Runway:參與初代Stable Diffusion開發(fā)
2018 年底,Cristóbal Valenzuela 聯(lián)合其他成員創(chuàng)立 Runway。它是一家人工智能視頻編輯軟件提供商,致力于利用計算機圖形學(xué)及機器學(xué)習(xí)的最新進展,為設(shè)計師、藝術(shù)家和開發(fā)人員降低內(nèi)容創(chuàng)作的門檻、推動創(chuàng)意內(nèi)容的發(fā)展。據(jù) Forbes 報道,該公司年收入將近 500 萬美元,員工僅 40 人左右
2023 年 2 月 6 日,Runway 官方推特發(fā)布 Gen-1 模型,可以通過應(yīng)用文本提示或者參考圖像所指定的任意風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為新視頻。Runway Twitter 官宣 Gen-1
Gen-1:structure + content 雙管齊下
科研人員提出了一個結(jié)構(gòu) (structure) 和內(nèi)容 (content) 引導(dǎo)的 video diffusion model--Gen-1,可以依據(jù)預(yù)期輸出的視覺或文本描述,對視頻進行編輯。Gen-1 模型原理展示
所謂 content,是指描述視頻的外表 (appearance) 和語義的特征,如目標物體的顏色、風(fēng)格以及場景的燈光。
而 structure 則是指描述其幾何和動態(tài)的特征,如目標物體的形狀、位置以及時間變化。
Gen-1 模型的目標是在保留視頻 structure 的同時,編輯視頻 content。
在模型訓(xùn)練過程中,科研人員用到了一個由未加字幕的視頻及 text-image pair 構(gòu)成的大規(guī)模數(shù)據(jù)集,同時,用單目場景深度預(yù)測 (monocular depth estimates) 來表示 structure,用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測的 embedding 來表示 content。
該方法在生成過程中提供了幾種強大的控制模式:
1. 參考圖像合成模型,訓(xùn)練模型使得推理的視頻 content(如呈現(xiàn)或風(fēng)格)與用戶提供的 image 或 prompt 相匹配。
Guided Video Synthesis 示例
在保留輸入視頻(中間)structure 的同時
基于文本提示或圖像合成的視頻(上及下)
2. 參考 diffusion 過程,對結(jié)構(gòu)表征 (structure representation) 進行 information obscuring,這使得開發(fā)者可以自行設(shè)定 model adhere 對于給定 structure 的相似程度。
3. 參考 classifier-free guidance,借助自定義 guidance 方法,調(diào)整推理過程,從而控制生成 clip 的時間一致性。
在該實驗中,科研人員:
- 通過在預(yù)訓(xùn)練的圖像模型中引入 temporal layer,并對圖像和視頻進行聯(lián)合訓(xùn)練,將 latent diffusion model 擴展到視頻生成中。
- 提出了一個 structure 和 content-aware 模型,可以在示例圖像或文本的指導(dǎo)下修改視頻。視頻編輯完全是在推理階段進行的,無需逐個視頻進行訓(xùn)練或預(yù)處理。
- 對 temporal、content 和 structure 一致性的完全控制。實驗表明,在圖像和視頻數(shù)據(jù)上的聯(lián)合訓(xùn)練,能夠在推理期間上控制一致性 (temporal consistency)。對于結(jié)構(gòu)一致性 (structure consistency),在表征的不同細節(jié)水平上訓(xùn)練,使用戶得以在推理過程中選擇所需的設(shè)置。
- 一項用戶調(diào)研表明,該方法比其他幾種方法更受歡迎。
- 通過對一小部分圖像進行微調(diào),可以進一步定制訓(xùn)練過的模型,以生成更準確的特定 subject 的視頻。
為了評估 Gen-1 的性能,科研人員用 DAVIS 數(shù)據(jù)集中的視頻以及其他各種素材進行了評估。為了自動創(chuàng)建編輯 prompt,研究人員首先運行了一個 captioning 模型來獲得原始視頻內(nèi)容的描述,然后使用 GPT3 生成編輯 prompt。
實驗結(jié)果表明,在對所有方法生成效果的滿意度調(diào)研中,75% 的用戶更傾向 Gen-1 的生成效果。
AIGC:爭議中前行
2022 年,生成式人工智能成為自十多年前移動和云計算興起以來最引人注目的技術(shù),我們正有幸見證其應(yīng)用層的萌芽,許多大模型正迅速從實驗室中走出來,撲向真實世界的各個場景。
然而,盡管有提高效率、節(jié)省成本等諸多好處,我們也需要看到,生成式人工智能依然面臨多種挑戰(zhàn),包括如何提高模型的輸出質(zhì)量和多樣性、如何提高其生成速度,以及應(yīng)用過程中的安全、隱私和倫理宗教等問題。
有些人對 AI 藝術(shù)創(chuàng)作提出質(zhì)疑,更有甚者認為這是一種 AI 對藝術(shù)的「入侵」,面對這種聲音,Runway 聯(lián)合創(chuàng)始人兼 CEO Cristóbal Valenzuela 認為,AI 只是工具箱中一個用來給圖像等內(nèi)容上色或修改的工具,與 Photoshop、LightRoom 并無二致。雖然生成式人工智能還存在一些爭議,但它為非技術(shù)人員和創(chuàng)意人員打開了創(chuàng)作的大門,并將帶領(lǐng)內(nèi)容創(chuàng)作領(lǐng)域走向新的可能。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。