又被AI騙了！73%的人無法分辨“真假”音效

作者：時間：2020-08-12 來源：DeepTech深科技

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　又一次，AI 欺騙了人類。

本文引用地址：http://2s4d.com/article/202008/416983.htm

　　在一次試驗中，AI 讓 73% 的人相信 AI 合成音效是真實的。這一最新研究成果有望應用于電影、電視劇等影視制作工作中。

　　想象一下，假如你正在看一部恐怖片：女主戰(zhàn)戰(zhàn)兢兢地走在黑暗的地下室中，背景音樂十分恐怖，同時一些看不見的邪惡生物也在黑暗中蠕動，然后突然一聲巨響，一個物體被撞倒了…… 如果沒有這種令人緊張又恰到好處的音效，只通過眼睛看到的場景很難讓人產(chǎn)生這種恐懼感。

　　通常，這些音效是由錄音室中的 Foley 藝術家錄制的，他們會使用特定的物體來產(chǎn)生特殊的聲音。比如，如果導演想要在視頻中加入玻璃破碎的聲音，可能需要 Foley 藝術家打碎很多塊玻璃，直到聲音與視頻片段匹配起來。（DeepTech 注：Foley，即擬聲音效，用于增強電影的聽覺體驗，是日常聲音效果的再現(xiàn)，后期制作中會添加到電影、視頻和其他媒體中，以提高音頻質(zhì)量。這些再現(xiàn)的聲音以音效藝術家 Jack Foley 的名字命名，可以是從衣服和腳步聲，到吱吱作響的門和碎玻璃的任何聲音。）

圖 | 一位早期 Foley 藝術家（右二）在現(xiàn)場為廣播節(jié)目添加音效，他手中的效果板可以模擬電話鈴響和關門的效果（來源：維基百科）

　　如今，為解決這一問題，來自美國得克薩斯大學圣安東尼奧分校的研究人員創(chuàng)建了一個基于機器學習的自動程序，它可以確定一個視頻剪輯中正在發(fā)生的動作，并據(jù)此創(chuàng)建逼真的音效，而且已經(jīng)讓大多數(shù)人相信假的聲音效果是真實的。

　　相關研究成果以論文的形式發(fā)表在由 IEEE 計算機協(xié)會、IEEE 通信協(xié)會等出版的科學期刊《IEEE 多媒體匯刊》（IEEE Transactions on Multimedia）上。

（來源：論文）

　　對于此項工作，論文通訊作者、得克薩斯大學圣安東尼奧分校教授杰夫 · 普雷沃斯特（Jeff Prevost）表示，“自 20 世紀 30 年代以來，在電影和電視劇的后期制作中，通過使用 Foley 藝術為特定場景添加音效，一直是一個比較復雜的事情。如果沒有逼真的 Foley 音效，電影就會顯得空洞、不真實，但是 Foley 音效合成增加了電影和電視劇的創(chuàng)作周期和成本?！?/p>

　　在普雷沃斯特和他的博士生桑奇塔 · 高斯（Sanchita Ghose）創(chuàng)建的多層機器學習程序中，他們針對包括識別視頻中的動作和確定合適的聲音這一步，分別創(chuàng)建了兩種不同的模型，來檢驗音效的合成效果。

　　第一種模型，可以從快速移動的動作剪輯的幀中提取圖像特征（比如，顏色和運動），以確定適當?shù)穆曇粜Ч坏诙N模型，分析一個物體在不同幀中的時間關系，通過使用關系推理來比較不同時間段的不同幀，這一模型可以預測在視頻中發(fā)生了什么動作。

　　在最后一步中，通過合成聲音來匹配模型預測的活動或運動。目前，他們?yōu)?nbsp;1000 個電影片段創(chuàng)建了聲音，并捕捉了一些常見的動作，比如下雨、奔騰的馬和滴答作響的鐘表。

圖 | 涉及應用場景（來源：論文）

　　結果顯示，他們的模型最適合用在時間不需要與視頻完全一致的場景（比如，下雨聲和火的噼啪聲）中，但當視頻中包含隨時間變化的隨機動作（比如，打字、雷暴）時，表現(xiàn)得就不太好。

　　此外，他們也對當?shù)氐?nbsp;57 位大學生進行了調(diào)查，看他們是否可以分辨出哪些電影片段中包含了原始音效。在評估第一個模型時，73% 的學生選擇了合成音效作為原始音效，在評估第二個模型時，這一數(shù)字為 66%?？梢?，這兩個 AI 模型已經(jīng)騙過了大多數(shù)人。

　　但是，普雷沃斯特表示，該方法還存在一個明顯的不足，必須要求分類的主體出現(xiàn)在整個視頻幀序列中，而且依賴于具有有限 Foley 類別的數(shù)據(jù)集。

　　對此，普雷沃斯特認為，這些不足將會在未來的研究中得以解決。