又被AI騙了!73%的人無法分辨“真假”音效
又一次,AI 欺騙了人類。
本文引用地址:http://2s4d.com/article/202008/416983.htm在一次試驗(yàn)中,AI 讓 73% 的人相信 AI 合成音效是真實(shí)的。這一最新研究成果有望應(yīng)用于電影、電視劇等影視制作工作中。
想象一下,假如你正在看一部恐怖片:女主戰(zhàn)戰(zhàn)兢兢地走在黑暗的地下室中,背景音樂十分恐怖,同時(shí)一些看不見的邪惡生物也在黑暗中蠕動(dòng),然后突然一聲巨響,一個(gè)物體被撞倒了…… 如果沒有這種令人緊張又恰到好處的音效,只通過眼睛看到的場(chǎng)景很難讓人產(chǎn)生這種恐懼感。
通常,這些音效是由錄音室中的 Foley 藝術(shù)家錄制的,他們會(huì)使用特定的物體來產(chǎn)生特殊的聲音。比如,如果導(dǎo)演想要在視頻中加入玻璃破碎的聲音,可能需要 Foley 藝術(shù)家打碎很多塊玻璃,直到聲音與視頻片段匹配起來。(DeepTech 注:Foley,即擬聲音效,用于增強(qiáng)電影的聽覺體驗(yàn),是日常聲音效果的再現(xiàn),后期制作中會(huì)添加到電影、視頻和其他媒體中,以提高音頻質(zhì)量。這些再現(xiàn)的聲音以音效藝術(shù)家 Jack Foley 的名字命名,可以是從衣服和腳步聲,到吱吱作響的門和碎玻璃的任何聲音。)
圖 | 一位早期 Foley 藝術(shù)家(右二)在現(xiàn)場(chǎng)為廣播節(jié)目添加音效,他手中的效果板可以模擬電話鈴響和關(guān)門的效果(來源:維基百科)
如今,為解決這一問題,來自美國(guó)得克薩斯大學(xué)圣安東尼奧分校的研究人員創(chuàng)建了一個(gè)基于機(jī)器學(xué)習(xí)的自動(dòng)程序,它可以確定一個(gè)視頻剪輯中正在發(fā)生的動(dòng)作,并據(jù)此創(chuàng)建逼真的音效,而且已經(jīng)讓大多數(shù)人相信假的聲音效果是真實(shí)的。
相關(guān)研究成果以論文的形式發(fā)表在由 IEEE 計(jì)算機(jī)協(xié)會(huì)、IEEE 通信協(xié)會(huì)等出版的科學(xué)期刊《IEEE 多媒體匯刊》(IEEE Transactions on Multimedia)上。
(來源:論文)
對(duì)于此項(xiàng)工作,論文通訊作者、得克薩斯大學(xué)圣安東尼奧分校教授杰夫 · 普雷沃斯特(Jeff Prevost)表示,“自 20 世紀(jì) 30 年代以來,在電影和電視劇的后期制作中,通過使用 Foley 藝術(shù)為特定場(chǎng)景添加音效,一直是一個(gè)比較復(fù)雜的事情。如果沒有逼真的 Foley 音效,電影就會(huì)顯得空洞、不真實(shí),但是 Foley 音效合成增加了電影和電視劇的創(chuàng)作周期和成本?!?/p>
在普雷沃斯特和他的博士生桑奇塔 · 高斯(Sanchita Ghose)創(chuàng)建的多層機(jī)器學(xué)習(xí)程序中,他們針對(duì)包括識(shí)別視頻中的動(dòng)作和確定合適的聲音這一步,分別創(chuàng)建了兩種不同的模型,來檢驗(yàn)音效的合成效果。
第一種模型,可以從快速移動(dòng)的動(dòng)作剪輯的幀中提取圖像特征(比如,顏色和運(yùn)動(dòng)),以確定適當(dāng)?shù)穆曇粜Ч?;第二種模型,分析一個(gè)物體在不同幀中的時(shí)間關(guān)系,通過使用關(guān)系推理來比較不同時(shí)間段的不同幀,這一模型可以預(yù)測(cè)在視頻中發(fā)生了什么動(dòng)作。
在最后一步中,通過合成聲音來匹配模型預(yù)測(cè)的活動(dòng)或運(yùn)動(dòng)。目前,他們?yōu)?nbsp;1000 個(gè)電影片段創(chuàng)建了聲音,并捕捉了一些常見的動(dòng)作,比如下雨、奔騰的馬和滴答作響的鐘表。
圖 | 涉及應(yīng)用場(chǎng)景(來源:論文)
結(jié)果顯示,他們的模型最適合用在時(shí)間不需要與視頻完全一致的場(chǎng)景(比如,下雨聲和火的噼啪聲)中,但當(dāng)視頻中包含隨時(shí)間變化的隨機(jī)動(dòng)作(比如,打字、雷暴)時(shí),表現(xiàn)得就不太好。
此外,他們也對(duì)當(dāng)?shù)氐?nbsp;57 位大學(xué)生進(jìn)行了調(diào)查,看他們是否可以分辨出哪些電影片段中包含了原始音效。在評(píng)估第一個(gè)模型時(shí),73% 的學(xué)生選擇了合成音效作為原始音效,在評(píng)估第二個(gè)模型時(shí),這一數(shù)字為 66%??梢?,這兩個(gè) AI 模型已經(jīng)騙過了大多數(shù)人。
但是,普雷沃斯特表示,該方法還存在一個(gè)明顯的不足,必須要求分類的主體出現(xiàn)在整個(gè)視頻幀序列中,而且依賴于具有有限 Foley 類別的數(shù)據(jù)集。
對(duì)此,普雷沃斯特認(rèn)為,這些不足將會(huì)在未來的研究中得以解決。
評(píng)論