博客專欄

EEPW首頁 > 博客 > ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場(chǎng)方案AutoTransition,數(shù)據(jù)集和代碼已開源

ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場(chǎng)方案AutoTransition,數(shù)據(jù)集和代碼已開源

發(fā)布人:機(jī)器之心 時(shí)間:2022-08-20 來源:工程師 發(fā)布文章
字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場(chǎng)推薦方案 AutoTransition。目前,AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。


隨著短視頻的迅猛發(fā)展和普及,每天都有海量用戶通過視頻來記錄和分享生活。對(duì)于缺乏專業(yè)剪輯和視頻編輯知識(shí)的普通用戶而言,視頻的制作和剪輯卻具有很高的門檻。近期,字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場(chǎng)推薦方案 AutoTransition,致力于解決目前視頻剪輯中存在的學(xué)習(xí)成本高,編輯效率低等問題,該項(xiàng)成果目前已入選計(jì)算機(jī)視覺領(lǐng)域頂會(huì) ECCV2022(European Conference on Computer Vision)。
AutoTransition 兼顧靈活性與高性能,面向轉(zhuǎn)場(chǎng)這一視頻剪輯中最常使用的編輯元素,通過將轉(zhuǎn)場(chǎng)推薦任務(wù)建模為多模態(tài)匹配和檢索問題,從大量視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)轉(zhuǎn)場(chǎng)匹配關(guān)系,實(shí)現(xiàn)了對(duì)任意視頻和音頻輸入推薦高質(zhì)量的轉(zhuǎn)場(chǎng)效果。借助 AutoTransition,用戶可以快速一鍵生成優(yōu)質(zhì)轉(zhuǎn)場(chǎng)視頻,使剪輯效率得到顯著提升。相比人工剪輯和第三方軟件方案,AutoTransition 有如下顯著優(yōu)勢(shì):
相比于基于一系列預(yù)定義的策略或隨機(jī)選取的剪輯方式,能夠有效地從海量數(shù)據(jù)中學(xué)習(xí)到專業(yè)的剪輯知識(shí),并基于對(duì)視頻和音頻的理解推薦高質(zhì)量轉(zhuǎn)場(chǎng)。
相比于人工剪輯,模型能夠在極短時(shí)間內(nèi)完成推薦,顯著提升編輯效率,并且推薦結(jié)果可媲美甚至超越專家剪輯的效果。
得益于優(yōu)秀的擴(kuò)展性,AutoTransition 可以方便地和其他的視頻處理技術(shù)結(jié)合(例如視頻高光提取、視頻聚類和排序等),以實(shí)現(xiàn)更全面的視頻剪輯能力,幫助視頻工作者進(jìn)一步提升視頻編輯的效率。
目前,AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。團(tuán)隊(duì)表示:首個(gè)視頻轉(zhuǎn)場(chǎng)數(shù)據(jù)集和 AutoTransition 代碼均已開源,以期吸引更多同行關(guān)注這一新領(lǐng)域,共同推動(dòng)智能視頻剪輯的快速發(fā)展。

圖片


論文鏈接:https://arxiv.org/abs/2207.13479
在介紹具體的方法之前,先來體驗(yàn)幾組 AutoTransition 實(shí)際生成的轉(zhuǎn)場(chǎng)效果。
可以看到轉(zhuǎn)場(chǎng)類型能夠完美匹配視頻和背景音樂,視頻觀感自然,順滑,整體效果不輸專業(yè)人員的剪輯結(jié)果。注:打開聲音播放體驗(yàn)更好哦!

圖片


從數(shù)據(jù)出發(fā),挖掘剪輯的規(guī)律
為使 AI 模型學(xué)習(xí)通用的轉(zhuǎn)場(chǎng)添加的技巧,需要從構(gòu)建高質(zhì)量的視頻轉(zhuǎn)場(chǎng)數(shù)據(jù)集開始。由于人工對(duì)數(shù)據(jù)進(jìn)行標(biāo)注需要耗費(fèi)大量的時(shí)間和精力,成本較高,為此,團(tuán)隊(duì)首先選擇了利用網(wǎng)絡(luò)上公開的視頻轉(zhuǎn)場(chǎng)結(jié)果。例如,剪映 app 中有大量的用戶剪輯腳本和對(duì)應(yīng)的成片視頻,天然就包含了豐富的視頻轉(zhuǎn)場(chǎng)和相關(guān)時(shí)間信息。團(tuán)隊(duì)以此為基礎(chǔ)搜集了一個(gè)大規(guī)模的訓(xùn)練數(shù)據(jù),包含近 35000 條視頻和近 140000 轉(zhuǎn)場(chǎng)效果。數(shù)據(jù)集統(tǒng)計(jì)信息見下表。而對(duì)于不同的用戶群體,還可以拓展更多的類似數(shù)據(jù)來應(yīng)對(duì)不同的剪輯風(fēng)格和習(xí)慣。

圖片


實(shí)現(xiàn)方案
為了實(shí)現(xiàn) “推薦” 合理的轉(zhuǎn)場(chǎng)效果,需要給每一個(gè)轉(zhuǎn)場(chǎng)類型打分,評(píng)判和當(dāng)前視頻銜接位置的契合度。為此,團(tuán)隊(duì)將轉(zhuǎn)場(chǎng)推薦建模為一個(gè)多模態(tài)檢索問題,通過計(jì)算輸入的視頻 / 音頻模態(tài)和轉(zhuǎn)場(chǎng)特效之間的特征相似度來獲取不同轉(zhuǎn)場(chǎng)類型的排序。而為了實(shí)現(xiàn)這一步,首先需要具有一系列能夠代表各個(gè)轉(zhuǎn)場(chǎng)類型的特征向量。
如何獲取這樣的一系列特征?為此團(tuán)隊(duì)訓(xùn)練了一個(gè)對(duì)視頻轉(zhuǎn)場(chǎng)進(jìn)行分類的網(wǎng)絡(luò)來實(shí)現(xiàn)這一點(diǎn):

圖片

視頻轉(zhuǎn)場(chǎng)類別分類網(wǎng)絡(luò),訓(xùn)練 Transition Embedding 作為轉(zhuǎn)場(chǎng)的特征表示。
團(tuán)隊(duì)用線性分類器的前一層網(wǎng)絡(luò)輸出作為各轉(zhuǎn)場(chǎng)類型的特征嵌入表示(即 Transition Embedding)。通過對(duì)這些特征進(jìn)行 t-SNE 可視化,可以觀察到轉(zhuǎn)場(chǎng)之間視覺效果的差距符合特征空間的分布,即越是相似的轉(zhuǎn)場(chǎng),特征之間越相近,如下圖中的左滑,右滑,下滑三類轉(zhuǎn)場(chǎng)(類別標(biāo)號(hào)分別為 8,11,9)彼此接近。這說明團(tuán)隊(duì)方法學(xué)習(xí)到的轉(zhuǎn)場(chǎng)表示具有很好的語義特征和判別性。

圖片


隨后團(tuán)隊(duì)提出了一個(gè)多模態(tài)轉(zhuǎn)場(chǎng)匹配網(wǎng)絡(luò),端到端完成提取原始的剪輯素材特征和對(duì)以上的學(xué)習(xí)到的轉(zhuǎn)場(chǎng)特征的檢索。視頻中轉(zhuǎn)場(chǎng)的使用需要借助對(duì)于畫面內(nèi)容的理解以及對(duì)于視頻美感的判斷,以保證畫面能夠絲滑地銜接起來,不顯得突兀。為了讓模型能夠理解視頻中復(fù)雜的元素,團(tuán)隊(duì)將視頻的圖像、音頻兩個(gè)模態(tài),以及一整個(gè)視頻中多個(gè)轉(zhuǎn)場(chǎng)的上下文信息結(jié)合了起來,一起通過 Transformer 進(jìn)行建模融合。
具體的,首先團(tuán)隊(duì)提取圖像和音頻各自的特征。采用 SlowFast 和 Harmonious Filters 作為視頻和音頻各自的骨干網(wǎng)絡(luò),也可以方便替換為其他網(wǎng)絡(luò)提取對(duì)應(yīng)特征的模型。同時(shí),同一視頻中的多個(gè)連續(xù)轉(zhuǎn)場(chǎng)一起輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,以更好地建模各個(gè)轉(zhuǎn)場(chǎng)間存在的相互依賴關(guān)系。
最后為了緩解對(duì)于數(shù)據(jù)中噪聲的過度擬合,在訓(xùn)練中團(tuán)隊(duì)采用基于 margin 的 triplet loss 優(yōu)化轉(zhuǎn)場(chǎng)特征與視頻銜接處特征之間的相似度關(guān)系。

圖片


其中,M 是預(yù)設(shè)的 margin 參數(shù),a,p,n 分別代表當(dāng)前樣本,正樣本和負(fù)樣本對(duì)應(yīng)的歸一化特征。\Phi(,)是相似度度量函數(shù),在實(shí)驗(yàn)中取向量?jī)?nèi)積形式。

圖片

多模態(tài)轉(zhuǎn)場(chǎng)匹配網(wǎng)絡(luò)。
算法測(cè)評(píng)
通過詳盡的客觀和主觀評(píng)測(cè)充分驗(yàn)證了 AutoTransition 的有效性。下表是和這一方法和基于分類模型方法的對(duì)比,結(jié)果顯示新方法在 Recall 和 Mean Rank 等指標(biāo)上顯著優(yōu)于對(duì)比方法。

圖片


同時(shí)團(tuán)隊(duì)也分析了不同模態(tài)的輸入對(duì)于轉(zhuǎn)場(chǎng)推薦的效果的影響。通過下表中對(duì)比可知,對(duì)視頻,音頻兩種模態(tài)綜合建模以及考慮轉(zhuǎn)場(chǎng)的序列上下文對(duì)結(jié)果均有助于提升推薦性能。

圖片


在主觀評(píng)測(cè)方面,團(tuán)隊(duì)邀請(qǐng)了多位視頻剪輯專家和普通用戶分別對(duì)基于專家剪輯以及隨機(jī)的轉(zhuǎn)場(chǎng)結(jié)果進(jìn)行對(duì)比。從下圖的統(tǒng)計(jì)結(jié)果中可以看到,模型推薦的結(jié)果的平均得分和專家結(jié)果的得分相當(dāng),在最優(yōu)結(jié)果的得****率上甚至超過專家結(jié)果。在編輯時(shí)間上,模型推薦的平均用時(shí)只需要 1.5 秒,和人工剪輯相比大大提升了編輯效率(300 倍)。以上結(jié)果充分顯示了 AutoTransition 在效果和性能上的優(yōu)勢(shì)。

圖片


字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)提出的通用視頻轉(zhuǎn)場(chǎng)推薦方案 AutoTransition 可以高效自動(dòng)生成媲美專業(yè)剪輯師的視頻結(jié)果。AutoTransition 的優(yōu)秀表現(xiàn)彰顯了智能視頻剪輯的巨大潛力,未來,團(tuán)隊(duì)準(zhǔn)備將本方案擴(kuò)展到更多的視頻剪輯元素,包括但不限于視頻動(dòng)畫,視頻貼紙和裁剪變換等,同時(shí)還將嘗試和其他視頻處理技術(shù)結(jié)合,以實(shí)現(xiàn)更全面視頻剪輯功能。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉