博客專欄

EEPW首頁(yè) > 博客 > DeepMind VS Meta:實(shí)現(xiàn)納什均衡理性最優(yōu)解,還是多人非零和博弈算法更強(qiáng)大?

DeepMind VS Meta:實(shí)現(xiàn)納什均衡理性最優(yōu)解,還是多人非零和博弈算法更強(qiáng)大?

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-12-23 來源:工程師 發(fā)布文章
DeepMind被谷歌收購(gòu)之后,一直開啟著“敗家燒”的模式。不過也著實(shí)“燒”出了不少成果。曾經(jīng)大火的AlphaGo,編程機(jī)器人系統(tǒng)Alpha Code,智能體Gato……都是讓業(yè)界認(rèn)可的手筆。不過,盡管在AI技術(shù)上全面開花,DeepMind仍沒有放棄曾經(jīng)的看家本領(lǐng)——AI棋牌競(jìng)技。隨著DeepNash的推出,棋牌界出現(xiàn)又一亂入者,因?yàn)樗饺祟悓I(yè)棋手的技能,登上了近期的《Nature》雜志。
而它或?qū)?huì)和Meta家的AI產(chǎn)品Cicero展開競(jìng)技,究竟是怎么回事呢?


編譯 & 整理 | 楊陽(yáng)
出品 | AI科技大本營(yíng)記得豆瓣高分電影《美麗心靈》中的約翰·納什嗎?
作為獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的數(shù)學(xué)家,納什在博弈論、微分幾何學(xué),以及偏微分方程等各個(gè)領(lǐng)域都作出卓越貢獻(xiàn)。為表彰他在非合作博弈理論中對(duì)均衡(納什均衡)的開創(chuàng)性分析,1994年瑞典中央****授予納什諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。
納什均衡在社科中的應(yīng)用可謂成功,而在科技領(lǐng)域中,也經(jīng)常引用博弈論的邏輯來進(jìn)行技術(shù)實(shí)現(xiàn),比如,通過密碼學(xué)和博弈論的結(jié)合實(shí)現(xiàn)大數(shù)據(jù)安全。當(dāng)下,這一邏輯也開始應(yīng)用在AI的算法上。DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即為紀(jì)念納什而命名。在AlphaGo之后,谷歌已降低在棋牌領(lǐng)域的關(guān)注,之所以推出DeepNash,在于借鑒納什均衡的邏輯設(shè)定基礎(chǔ)上,這款A(yù)I模型得以在西洋陸軍棋Stratego(策略)中擊敗專業(yè)玩家,這比在國(guó)際象棋、圍棋和****的比賽中擊敗人類更加困難。DeepNash是怎么做到的呢?圖片超越圍棋的走法量,訴求“無模型”和強(qiáng)化學(xué)習(xí)
相較其他棋牌游戲,Stratego在規(guī)則上就包含了更多不確定性,包括玩家之間的信息非對(duì)稱。比如,象棋和圍棋的牌面和走位都是公開的,但Stratego的牌面卻是看不到的,這點(diǎn)和玩****一樣。另一方面,相較于圍棋只有一個(gè)初始定位,德州****有106個(gè),而Stratego有驚人的超過1066個(gè)可以選擇的起始點(diǎn)。要知道,1066這個(gè)量級(jí)已經(jīng)超過了宇宙中所有星辰的總量。

圖片

在博弈樹的算法統(tǒng)計(jì)量上,Stratego可能的走法達(dá)到不可思議的10535種,圍棋的這一數(shù)量為10360。
信息非對(duì)稱、路徑解極多,極度復(fù)雜性意味著通過通用的“蒙特卡洛樹”模型玩轉(zhuǎn)Stratego并不可行。DeepNash的研究者之一,DeepMind研究員Perolat表示:“那些適用于****的算法在Stratego中是完全行不通的,可能的結(jié)果量級(jí)太過龐大,因而非常復(fù)雜,信息的處理需要更為完備的方法。”

最終,團(tuán)隊(duì)找到的方法是“無模型”強(qiáng)化算法,意味著在任何模型都無法實(shí)現(xiàn)精確模擬的情況下,讓DeepNash就像一個(gè)嬰兒或者一張白紙一樣進(jìn)行從0開始的積累。但這使得預(yù)測(cè)變得困難,甚至完全不可能。

為了解決這個(gè)問題,團(tuán)隊(duì)使用了深度強(qiáng)化學(xué)習(xí)為DeepNash提供動(dòng)力源,目的是找到最優(yōu)的納什均衡。

圖片

運(yùn)用納什均衡,在信息不對(duì)稱中訴諸最優(yōu)解強(qiáng)化學(xué)習(xí)算法如同“鋼鐵俠”,可以處理大規(guī)模數(shù)據(jù)量的問題,但牌面的信息不對(duì)稱又該如何解決?該DeepNash中“Nash”發(fā)揮作用了。納什均衡,也是非合作博弈均衡分析,社會(huì)學(xué)和經(jīng)濟(jì)學(xué)專業(yè)學(xué)生對(duì)這個(gè)名詞非常熟悉。其中最著名的實(shí)驗(yàn)就是后來經(jīng)常應(yīng)用在犯罪心理中的囚徒困境。這一理論給出的現(xiàn)實(shí)命題是:對(duì)于處于非合作博弈中的雙方,無論對(duì)方如何選擇,當(dāng)事一方只有一種確定的策略對(duì)自己來說是最優(yōu)解,因而兩方都會(huì)選擇自己的最優(yōu),最后達(dá)成彼此最優(yōu)下的博弈均衡。比如,兩個(gè)共同犯罪的嫌疑人分別接受審訊,如果雙方都不坦白,兩人各自獲刑一年;其中只有一方坦白,坦白的無罪釋放,不坦白的獲刑十年;而如果雙方都坦白,各獲刑五年。在這個(gè)假想實(shí)驗(yàn)中,都不坦白才是整體最優(yōu)。然而,對(duì)于兩位囚徒來說,肯定都希望無罪釋放,而無論對(duì)方是否坦白,自己坦白都是理性最優(yōu)解,所以最終的結(jié)果就是各獲刑五年。如果將納什均衡的邏輯放到DeepNash的算法設(shè)定中,游戲中互相看不到牌面的雙方就像囚徒困境中無法串通的兩個(gè)囚徒,彼此是非合作博弈。在信息不確定的情況下,只有走無論對(duì)方出什么牌“我”都是最優(yōu)選的牌,才能確保在多輪博弈中獲勝。圖片DeepNash獲得同類競(jìng)技97%勝率納什均衡和加上強(qiáng)化學(xué)習(xí),最終達(dá)成均衡下的最優(yōu)解:通過“每位玩家獲得任何收益都會(huì)導(dǎo)致對(duì)手損失”的邏輯,憑借強(qiáng)化學(xué)習(xí)在游戲的每一步中計(jì)算下一步的最佳算法。就這樣,DeepNash開啟了自我對(duì)抗訓(xùn)練。訓(xùn)練的獎(jiǎng)懲機(jī)制是:當(dāng)DeepNash—A獲勝時(shí),該網(wǎng)絡(luò)參數(shù)將會(huì)增強(qiáng);同時(shí),對(duì)手方DeepNash—B的參數(shù)將會(huì)被削弱。通過55億次的對(duì)弈,DeepNash取得了很好的成績(jī),失誤率越來越小,無限接近納什均衡最優(yōu)。在算法測(cè)試中,DeepNash以97%的勝率壓制了其他機(jī)器選手。而在Gravon游戲平臺(tái)上,通過和人類專業(yè)棋手進(jìn)行兩周多的競(jìng)技,DeepNash最終在有20年歷史的積分排名榜中升至第三位。除了學(xué)習(xí)能力驚人,DeepNash更讓人驚訝的地方在于,它在開局不會(huì)固定自己的起始位置,而是不斷優(yōu)化起始點(diǎn)。這樣做究竟是隨機(jī)在10535種可能性中尋找最優(yōu)解,還是“有意識(shí)”地避免對(duì)手對(duì)自己出牌套路的破解而故意為之,目前不得而知。如果是后者,就讓人不寒而栗了。不過,DeepNash確實(shí)會(huì)用一些看上去“誘騙”的方式來“引誘”對(duì)手落入陷阱,通過一些看似無意義(棋子重復(fù)跳動(dòng)),或者犧牲高級(jí)棋子(讓對(duì)方放松警惕),從而進(jìn)行伏擊。圖片加入非理性測(cè)算后的多方博弈
DeepNash確實(shí)相當(dāng)厲害,但如果你仔細(xì)觀察也不難發(fā)現(xiàn),納什均衡的狀態(tài)是發(fā)生在兩方之間的,而現(xiàn)實(shí)世界往往并非兩者的零和博弈。當(dāng)博弈均衡需要發(fā)生在多方,又會(huì)呈現(xiàn)怎樣的態(tài)勢(shì)呢?對(duì)此,Meta AI研究員們的發(fā)明或許更具挑戰(zhàn)性:創(chuàng)建了能夠玩多方博弈游戲的AI模型——Cicero。在一款名為Diplomacy(外交風(fēng)云)的游戲中,多個(gè)玩家每人代表一個(gè)國(guó)家,最多可以有7個(gè)玩家一起玩。游戲規(guī)則是進(jìn)行軍隊(duì)和戰(zhàn)艦的戰(zhàn)略部署,從而獲得對(duì)供應(yīng)中心的控制權(quán)。圖片和DeepNash在Stratego中展現(xiàn)的非合作博弈下的純零和狀態(tài)不同,Cicero的博弈模式設(shè)定更加開放,包括每個(gè)玩家都可以私下進(jìn)行交流和合作,而當(dāng)合作博弈與非合作博弈都構(gòu)建在多玩家的算法模型中時(shí),預(yù)期結(jié)果更加不可控。Cicero的開發(fā)者之一Noam Brown表示說:“當(dāng)你超越雙人的零和游戲時(shí),納什均衡的概念對(duì)于與人類打好關(guān)系不再那么有用?!?/span>目前,Cicero已經(jīng)在Diplomacy的125,261場(chǎng)游戲中進(jìn)行了訓(xùn)練,它的推理模塊(SRM)已經(jīng)學(xué)會(huì)預(yù)測(cè)自身的狀態(tài),包括其他玩家可能采取的策略。通過預(yù)測(cè),SRM會(huì)選擇最佳的行動(dòng)路徑,并向其擁有27億參數(shù)語(yǔ)言模型的對(duì)話模塊上發(fā)出意圖信號(hào)。在Brown看來,像Cicero這樣能夠與人類進(jìn)行互動(dòng),并且可以對(duì)人類的非理性次優(yōu)行為進(jìn)行解釋的人工智能才能越來越接近現(xiàn)實(shí)世界,從而為未來的應(yīng)用鋪平道路。他以智能駕駛舉例:“你不能設(shè)想道路上其他司機(jī)都是理性的?!?/span>圖片唯理派 PK 經(jīng)驗(yàn)論:哪個(gè)更接近現(xiàn)實(shí)?
在應(yīng)用上,盡管DeepNash是為Stratego而開發(fā)的,但它的實(shí)際用途遠(yuǎn)不止在游戲世界里“搗亂”。未來將會(huì)用在便利人們生活的各個(gè)方面,比如交通或者市場(chǎng)預(yù)測(cè)。和DeepNash一樣,Cicero未來也會(huì)應(yīng)用于現(xiàn)實(shí)世界,“我們雖然有一只腳在游戲世界里,但現(xiàn)在我們也有一只腳在現(xiàn)實(shí)世界里?!?/span>對(duì)于DeepNash和Cicero,你認(rèn)為它們哪個(gè)更可能實(shí)現(xiàn)在現(xiàn)實(shí)世界的落地呢?請(qǐng)留言投****。參考鏈接:https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/https://www.nature.com/articles/d41586-022-04246-7


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

存儲(chǔ)器相關(guān)文章:存儲(chǔ)器原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉