強(qiáng)化學(xué)習(xí)三大方法,改善AI的游戲表現(xiàn)
編者按:近年來,強(qiáng)化學(xué)習(xí)為游戲開發(fā)帶來了新的機(jī)遇,Paidia 項(xiàng)目便是最近的成果之一。該項(xiàng)目由微軟劍橋研究院與游戲開發(fā)商 Ninja Theory 合作開發(fā),不僅推進(jìn)了強(qiáng)化學(xué)習(xí)的前沿技術(shù),創(chuàng)造了全新的游戲體驗(yàn),還開發(fā)了能夠真正與人類玩家展開團(tuán)隊(duì)合作的游戲智能體。本文將詳細(xì)介紹 Paidia 項(xiàng)目的三項(xiàng)最新研究成果,以及它們將如何引領(lǐng)現(xiàn)代視頻游戲的開發(fā),和其他現(xiàn)實(shí)應(yīng)用領(lǐng)域中的AI創(chuàng)新。本文編譯自微軟研究院博客文章“Three new reinforcement learning methods aim to improve AI in gaming and beyond”。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱 RL)近些年的發(fā)展為游戲開發(fā)帶來了令人興奮的新機(jī)遇,與傳統(tǒng)技術(shù)相比,強(qiáng)化學(xué)習(xí)可以提供指向高等級(jí)目標(biāo)的獎(jiǎng)勵(lì)信號(hào),并讓游戲角色為游戲互動(dòng)中自然出現(xiàn)的數(shù)據(jù)驅(qū)動(dòng)行為,制定出獲得高額獎(jiǎng)勵(lì)的最優(yōu)策略,從而有助于設(shè)計(jì)出更加生動(dòng)的游戲角色。
由微軟劍橋研究院游戲智能組與游戲開發(fā)商 Ninja Theory 合作開發(fā)的 Paidia 項(xiàng)目(點(diǎn)擊閱讀原文,了解更多項(xiàng)目信息),致力于推進(jìn)強(qiáng)化學(xué)習(xí)的前沿技術(shù),以創(chuàng)造全新的游戲體驗(yàn)。特別值得一提的是,該項(xiàng)目專注于開發(fā)能夠真正與人類玩家展開團(tuán)隊(duì)合作的游戲智能體。
Paidia 項(xiàng)目研究面臨的關(guān)鍵挑戰(zhàn)在于,對(duì)于游戲開發(fā)者而言,如何讓強(qiáng)化學(xué)習(xí)變得高效且可靠(例如,通過將其與不確定性估計(jì)和模仿學(xué)習(xí)相結(jié)合);如何構(gòu)建深度學(xué)習(xí)架構(gòu),并賦予游戲智能體合適的能力(例如長(zhǎng)期記憶);以及如何讓游戲智能體快速適應(yīng)新的游戲情境。下面將重點(diǎn)介紹一下基于這三個(gè)主要挑戰(zhàn),所進(jìn)行的最新的研究進(jìn)展。
深度學(xué)習(xí)決策系統(tǒng)的不確定性估計(jì),可以更準(zhǔn)確
從計(jì)算機(jī)視覺到強(qiáng)化學(xué)習(xí)和機(jī)器翻譯,深度學(xué)習(xí)無處不在,并在很多實(shí)驗(yàn)中取得了近乎完美的效果。只需提供一個(gè)數(shù)據(jù)集,系統(tǒng)就能夠根據(jù)深度學(xué)習(xí)模型的“最佳推斷”進(jìn)行預(yù)測(cè)。未來,深度學(xué)習(xí)將會(huì)越來越多地應(yīng)用于預(yù)測(cè)具有深遠(yuǎn)影響,且一旦判斷失誤便會(huì)付出沉重代價(jià)的場(chǎng)景中。
不過大多數(shù)深度學(xué)習(xí)模型所采用的“最佳推斷”方法的確定性并不充分。實(shí)際上,人們需要技術(shù)不僅能提供預(yù)測(cè)結(jié)果,還要提供相關(guān)的確定性程度。微軟在 ICLR 2020 上發(fā)表的論文“通過擬合先驗(yàn)網(wǎng)絡(luò)進(jìn)行保守的不確定性估計(jì)”(Conservative Uncertainty Estimation By Fitting Prior Networks)便對(duì)這一問題進(jìn)行了探索,并提出了隨機(jī)網(wǎng)絡(luò)蒸餾(RND,Random Network Distillation)的分析方法,該方法可用于估計(jì)深度學(xué)習(xí)模型的置信度。
圖1:預(yù)測(cè)函數(shù)(綠色)和先驗(yàn)函數(shù)(紅色)在可見數(shù)據(jù)上達(dá)成共識(shí)(左),而在不可見數(shù)據(jù)上未達(dá)成共識(shí)(右)。研究員們將某一點(diǎn)上不確定性的估計(jì)值定義為“先驗(yàn)值與預(yù)測(cè)值之間的差距”。
在分析的 RND 版本中,不確定性模型和預(yù)測(cè)模型是相互獨(dú)立的。其中有兩種類型的神經(jīng)網(wǎng)絡(luò):預(yù)測(cè)函數(shù)(綠色)和先驗(yàn)函數(shù)(紅色)。先驗(yàn)神經(jīng)網(wǎng)絡(luò)是固定的,不會(huì)在訓(xùn)練期間發(fā)生改變。當(dāng)發(fā)現(xiàn)一個(gè)新的數(shù)據(jù)點(diǎn)時(shí),模型會(huì)訓(xùn)練預(yù)測(cè)變量對(duì)該點(diǎn)上的先驗(yàn)函數(shù)值進(jìn)行適配??梢钥吹剑跀?shù)據(jù)點(diǎn)附近,預(yù)測(cè)函數(shù)和先驗(yàn)函數(shù)是重疊的。而如果觀察右側(cè)的值,則會(huì)發(fā)現(xiàn)預(yù)測(cè)函數(shù)和先驗(yàn)函數(shù)之間存在巨大差距,與已觀察到的數(shù)據(jù)點(diǎn)相差甚遠(yuǎn)。
論文結(jié)果表明,先驗(yàn)值和預(yù)測(cè)值之間的差距準(zhǔn)確地反應(yīng)了模型對(duì)其輸出結(jié)果確定性的影響。實(shí)際上,在對(duì)比了所獲得的不確定性估計(jì)值與不確定性量化的黃金標(biāo)準(zhǔn)——通過貝葉斯推斷得出的后驗(yàn)值之后,可以看到兩個(gè)很有吸引力的理論特性。首先,RND 返回的方差總是高于貝葉斯后驗(yàn)方差,這就是說,盡管 RND 返回的不確定性偏高,但它不會(huì)低估不確定性;其次,也證明了不確定性會(huì)收斂,也就是說,在用觀察數(shù)據(jù)對(duì)模型進(jìn)行多次訓(xùn)練后,不確定性最終會(huì)變小。換言之,隨著數(shù)據(jù)越來越多,該模型對(duì)于自己的預(yù)測(cè)將更加確定。
順序無關(guān)的匯總記憶,提高游戲智能體的回憶能力
在許多游戲中,玩家對(duì)周圍的世界僅有局部的可觀察性。要采取行動(dòng),玩家需要回憶早前在游戲中曾經(jīng)見過但不在當(dāng)前視線范圍內(nèi)的物品、地點(diǎn)和其他玩家。深度強(qiáng)化學(xué)習(xí)智能體利用遞歸網(wǎng)絡(luò)(例如 LSTM 或 GRU),或者外部存儲(chǔ)器讀取和寫入能力(如差分神經(jīng)計(jì)算機(jī),簡(jiǎn)稱 DNC)就可以解決上述問題。
自然語言處理中經(jīng)常會(huì)使用遞歸網(wǎng)絡(luò)去回憶較早的內(nèi)容,因?yàn)橥ǔG闆r下,單詞順序?qū)ζ淅斫馐种匾?。但是,智能體與游戲環(huán)境的互動(dòng)過程會(huì)影響它們對(duì)周圍環(huán)境的觀察順序,而這與它們的行為方式可能并無關(guān)聯(lián)。舉一個(gè)與日常生活相關(guān)的例子,如果一個(gè)人在一座新建筑物中行走時(shí)看到過一個(gè)消防通道,那么無論此后他經(jīng)歷了什么或者做過哪些事情,在某些情況下可能都需要回憶起消防通道的確切位置。在 ICLR 2020 論文 “AMRL:用于強(qiáng)化學(xué)習(xí)的匯總記憶”(AMRL: Aggregated Memory For Reinforcement Learning)中,微軟的研究員們建議在智能體的策略網(wǎng)絡(luò)中使用順序無關(guān)的匯總記憶(到目前為止所看到的值的總和或其中的最大值)來解決這個(gè)問題。
圖2:模型架構(gòu)。從左到右分別是 LSTM、DNC、SET 和 AMRL。AMRL 基于 SET 的匯總記憶,對(duì) LSTM 加以擴(kuò)展(例如,所觀察到的平均值或最大值)。
雖然培養(yǎng)外部存儲(chǔ)器的讀寫能力(例如 DNC)也可以學(xué)習(xí)直接回憶先前的觀察結(jié)果,但實(shí)際證明,其架構(gòu)的復(fù)雜性要求模型具備更多與環(huán)境交互的樣本,而這有可能阻礙它們?cè)诠潭ǖ挠?jì)算預(yù)算內(nèi)學(xué)習(xí)高性能的策略。
實(shí)驗(yàn)中,研究員們?cè)凇拔业氖澜纭庇螒虻哪骋魂P(guān)開始時(shí),向智能體展示了一個(gè)紅色或綠色立方體,告訴它們?cè)诒娟P(guān)結(jié)束時(shí)必須采取某種行動(dòng)。在觀察到某個(gè)綠色或紅色立方體之后,直至觀察到下一個(gè)綠色或紅色立方體之前的時(shí)間里,智能體可以在當(dāng)前環(huán)境中自由移動(dòng),這樣可以創(chuàng)建出一個(gè)長(zhǎng)度不定且互不相關(guān)的觀察值序列,從而分散智能體的注意力,并讓它們忘記在開始時(shí)觀察到的立方體顏色。
圖3:用于測(cè)試智能體記憶能力的“我的世界”迷宮俯視圖(下方),以及智能體在該環(huán)境中移動(dòng)時(shí)可能看到的觀察樣本(上方)。
通過遞歸網(wǎng)絡(luò)與順序無關(guān)的匯總記憶的整合,AMRL 既可以從最近的觀察序列中推斷出狀態(tài)的隱藏特征,又可以回憶起過去任何時(shí)間曾經(jīng)觀察到的信息。這樣,智能體就能夠有效地回憶起立方體的顏色,并在游戲某一關(guān)結(jié)束時(shí)做出正確的決定。借助這種新的能力,智能體可以玩更復(fù)雜的游戲,甚至可以部署在非游戲應(yīng)用中,即在這些應(yīng)用中智能體必須在局部可見的環(huán)境中調(diào)出很久以前的回憶。
VariBAD,自適應(yīng)探索未知游戲環(huán)境
目前,幾乎所有的強(qiáng)化學(xué)習(xí)任務(wù)以及大多數(shù)為視頻游戲應(yīng)用訓(xùn)練的強(qiáng)化學(xué)習(xí)智能體,都是針對(duì)單個(gè)游戲場(chǎng)景進(jìn)行優(yōu)化的。但在交互性強(qiáng)的游戲中,智能體的關(guān)鍵特征之一是不斷學(xué)習(xí)和適應(yīng)新挑戰(zhàn)的能力。微軟與牛津大學(xué)的研究人員合作開發(fā)的新方法,讓智能體能夠探索并快速適應(yīng)給定的任務(wù)或場(chǎng)景。
在論文 “VariBAD:一種通過元學(xué)習(xí)實(shí)現(xiàn)貝葉斯自適應(yīng)深度強(qiáng)化學(xué)習(xí)的良好方法”(VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning)中,研究員們將關(guān)注點(diǎn)放在了“貝葉斯自適應(yīng)馬可夫決策過程”(Bayes-Adaptive Markov Decision Processes)的問題上。簡(jiǎn)單來說,在這種情況下,智能體將學(xué)會(huì)與各種任務(wù)進(jìn)行交互,并學(xué)會(huì)如何盡快就當(dāng)前所執(zhí)行任務(wù)做出推斷。該研究的目標(biāo)是訓(xùn)練出可根據(jù)對(duì)當(dāng)前任務(wù)的判斷,做出最佳表現(xiàn)的智能體,也就是“貝葉斯最優(yōu)智能體”。例如,設(shè)想一個(gè)智能體,它經(jīng)過訓(xùn)練后可以抵達(dá)各個(gè)目標(biāo)位置,在游戲的某一關(guān)開始時(shí),智能體并不確定自己應(yīng)該抵達(dá)的目標(biāo)位置。而“貝葉斯最優(yōu)智能體”會(huì)依據(jù)自己對(duì)可能目標(biāo)位置的最初設(shè)定,采取最佳的步數(shù)來降低不確定性,并達(dá)到正確的目標(biāo)位置。
VariBAD 方法引入了一種靈活的編****體系結(jié)構(gòu),對(duì)智能體的設(shè)定分布進(jìn)行建模,并根據(jù)當(dāng)前設(shè)定調(diào)節(jié)其策略,以學(xué)習(xí)最優(yōu)行動(dòng)。通過實(shí)驗(yàn)證明,這種方法能夠產(chǎn)生一種強(qiáng)大而靈活的解決方案,在多項(xiàng)研究任務(wù)中均實(shí)現(xiàn)了貝葉斯最優(yōu)行為。目前,研究人員也正在研究如何利用此類方法讓游戲智能體可以迅速適應(yīng)新的游戲情境。
圖4:不同探索策略的圖示。(a)場(chǎng)景:智能體從左下方開始,在灰色區(qū)域的某處存在一個(gè)目標(biāo)位置,但智能體并不知道。(b)貝葉斯最優(yōu)智能體策略,系統(tǒng)地搜索可能的網(wǎng)格單元以找到目標(biāo)位置,以藍(lán)實(shí)線(到目前為止的互動(dòng))和藍(lán)虛線(未來的互動(dòng))標(biāo)示,在背景中,以灰色(p = 1 /(余下可能目標(biāo)位置數(shù)量,或可能包含目標(biāo)位置的格子數(shù)量)和白色(p = 0))顯示簡(jiǎn)化的后驗(yàn)值。(c)后驗(yàn)采樣機(jī)制對(duì)可能的目標(biāo)位置(紅色方塊)反復(fù)采樣,并采用最短路徑到達(dá)該位置,這是次優(yōu)策略,一旦發(fā)現(xiàn)目標(biāo)位置,每個(gè)樣本都將與真實(shí)的目標(biāo)位置相匹配,則表明智能體采取了最佳行動(dòng)。(d)VariBAD 學(xué)習(xí)的探索策略?;疑尘氨硎局悄荏w已學(xué)習(xí)到的后驗(yàn)近似值。
游戲智能研究,繼續(xù)開拔
微軟劍橋研究院的獨(dú)立研究以及與 Ninja Theory 的合作探索,圍繞游戲智能主題做了不少創(chuàng)新性的研究。其中,研究的關(guān)鍵方向之一就是創(chuàng)建能夠真正學(xué)會(huì)與人類玩家展開合作的 AI 游戲智能體——無論是基于團(tuán)隊(duì)作戰(zhàn)的游戲,還是在游戲之外真實(shí)世界中的應(yīng)用(例如虛擬助手)。研究人員希望能夠讓游戲智能體更好地偵測(cè)陌生場(chǎng)景,并利用示例信息加速學(xué)習(xí),創(chuàng)建能夠根據(jù)較少數(shù)據(jù)學(xué)習(xí)記憶長(zhǎng)效依存關(guān)系及其后果的智能體,并讓智能體可以迅速適應(yīng)新的情況或人類合作者。而文章上述所介紹的研究成果,正是實(shí)現(xiàn)這些目標(biāo)的關(guān)鍵步驟。
其實(shí)強(qiáng)化學(xué)習(xí)的入門比你想象的更容易,微軟 Azure 提供了包括 Azure 機(jī)器學(xué)習(xí)在內(nèi)的工具和資源,其中就包括強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境、資料庫(kù)和虛擬機(jī)等。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。