只用一張RTX 4090顯卡,開發(fā)者用AI視頻生成技術模擬《超級馬里奧兄弟》
近期,AI 技術在游戲開發(fā)領域取得了令人矚目的進展。
繼谷歌的 GameNGen AI 模型展示了使用圖像擴散技術生成可玩版《毀滅戰(zhàn)士》(Doom)的能力后,一個新研究項目又將目光投向了另一款經(jīng)典游戲——任天堂的《超級馬里奧兄弟》(Super Mario Bros)。
這個項目展示了 AI 如何通過視頻生成技術來模擬這款 1985 年發(fā)行的經(jīng)典游戲,為未來的游戲開發(fā)開辟了新的可能性。
公開資料顯示,MarioVGG 項目主要由 GitHub 用戶歐尼·周(Ernie Chew)和布瑞恩·林(Brian Lim)管理,其相關論文由加密貨幣相關的 AI 公司 Virtuals Protocol 發(fā)表。
該項目主要利用機器學習技術,通過研究游戲視頻和輸入數(shù)據(jù),來推斷游戲的物理規(guī)則和游戲動態(tài)。
研究人員使用了一個包含 280 個游戲關卡的公開數(shù)據(jù)集,游戲畫面超過 737000 幀。
為了簡化游戲情況,他們只關注兩種潛在輸入:向右跑和向右跑并跳躍。經(jīng)過約 48 小時的訓練(使用單塊 RTX 4090 顯卡),模型就能夠從靜態(tài)的初始游戲圖像和文本輸入生成新的視頻幀序列。
MarioVGG 采用了文本到視頻生成的方法來重現(xiàn)《超級馬里奧兄弟》。模型通過學習游戲畫面,能夠根據(jù)玩家的文本輸入(“跑”或“跳”)生成相應的游戲畫面序列。
具體來說,模型只需要接收一個初始的游戲畫面幀和所需動作的文本描述(例如“跳躍”),然后學習生成一系列可視化描述所需動作的幀。
為了提高效率,研究人員將輸出幀的分辨率從原始 NES(注:Nintendo Entertainment System,是任天堂生產(chǎn)的第一代家用游戲機)的 256×240 降低到了 64×48 或 128×96。
此外,他們將 35 幀的視頻時間壓縮為僅 7 個生成幀,這些幀以均勻的間隔分布,從而創(chuàng)造出比實際游戲畫質更粗糙的游戲視頻。
盡管采用了這些方法,MarioVGG 模型仍然面臨著接近實時視頻生成的挑戰(zhàn)。研究人員只用了一張 RTX 4090 顯卡,需要大約 6 秒鐘才能生成 6 幀視頻序列,視頻長度僅僅超過半秒,這還是在極其有限的幀率下。
研究人員承認這“對于交互式視頻游戲來說既不實用也不友好”,但他們希望未來的優(yōu)化可以改善這一速率。
盡管存在上述限制,MarioVGG 仍然展現(xiàn)出了一些令人印象深刻的特性。
首先,模型能夠純粹從訓練數(shù)據(jù)中學習游戲的物理規(guī)則,包括馬里奧從懸崖邊跌落時的重力效果,以及在遇到障礙物時停止前進。
其次,雖然 MarioVGG 主要關注模擬馬里奧的動作,但它也能有效地為馬里奧生成新的障礙物,這些障礙物“與游戲的圖形語言相一致”。
此外,MarioVGG 能夠生成獨特的馬里奧關卡,只有第一幀輸入來自真實游戲狀態(tài)。
然而,MarioVGG 也面臨著一些顯著的挑戰(zhàn),比如研究人員觀察到,輸入動作文本并不總是被模型所遵守。
有時還會出現(xiàn)明顯的視覺問題,如馬里奧有時會穿過障礙物和敵人、顏色閃爍、在幀之間縮小/增大,或在多個幀中完全消失后又重新出現(xiàn)。
模型并不懂得游戲邏輯,即使在馬里奧死掉之后,它還是會繼續(xù)渲染視頻幀,而不是回到最后的檢查點。此外,關卡和物體的生成也不可控,只能通過程序化生成。
MarioVGG 項目為未來游戲開發(fā)開辟了新的可能性,展示了 AI 如何通過學習視頻數(shù)據(jù)來理解和重現(xiàn)復雜的游戲機制。
研究人員希望這代表著“產(chǎn)生和展示可靠和可控的視頻游戲生成器”的第一步,甚至可能在未來“完全使用視頻生成模型取代游戲開發(fā)和游戲引擎”。
然而,要實現(xiàn)這一愿景,還需要解決諸如實時性能、畫面質量、游戲邏輯一致性等一系列挑戰(zhàn)。例如,如何在生成的游戲中決定終止狀態(tài),這仍然是一個開放的研究問題。
盡管如此,考慮到 MarioVGG 項目僅使用了相對較小的訓練數(shù)據(jù)集和單個消費級圖形處理器(GPU,Graphics Processing Unit),其取得的成果已經(jīng)相當令人印象深刻。
Virtual Protocols 公司在推特上樂觀地表示:“無限交互世界的時代已經(jīng)到來。”
總的來說,雖然視頻生成制作游戲的方法還無法完全替代傳統(tǒng)的游戲開發(fā)方法,但它為游戲產(chǎn)業(yè)注入了新的活力,讓我們得以一窺 AI 驅動的游戲未來。
這些新項目為游戲設計和開發(fā)提供了新的思路,展示了 AI 如何通過學習視頻數(shù)據(jù)來理解和重現(xiàn)復雜的游戲機制。
未來,我們可能會看到,隨著技術的發(fā)展有望出現(xiàn)更多 AI 輔助的游戲開發(fā)工具,甚至是完全由 AI 生成的游戲世界。
運營/排版:何晨龍
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。