DeepMind VS Meta：實現(xiàn)納什均衡理性最優(yōu)解，還是多人非零和博弈算法更強大？

發(fā)布人：AI科技大本營時間：2022-12-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

DeepMind被谷歌收購之后，一直開啟著“敗家燒”的模式。不過也著實“燒”出了不少成果。曾經(jīng)大火的AlphaGo，編程機器人系統(tǒng)Alpha Code，智能體Gato……都是讓業(yè)界認可的手筆。不過，盡管在AI技術(shù)上全面開花，DeepMind仍沒有放棄曾經(jīng)的看家本領(lǐng)——AI棋牌競技。隨著DeepNash的推出，棋牌界出現(xiàn)又一亂入者，因為它超越人類專業(yè)棋手的技能，登上了近期的《Nature》雜志。
而它或?qū)蚆eta家的AI產(chǎn)品Cicero展開競技，究竟是怎么回事呢？

編譯 & 整理 | 楊陽
出品 | AI科技大本營記得豆瓣高分電影《美麗心靈》中的約翰·納什嗎？
作為獲得諾貝爾經(jīng)濟學(xué)獎的數(shù)學(xué)家，納什在博弈論、微分幾何學(xué)，以及偏微分方程等各個領(lǐng)域都作出卓越貢獻。為表彰他在非合作博弈理論中對均衡（納什均衡）的開創(chuàng)性分析，1994年瑞典中央****授予納什諾貝爾經(jīng)濟學(xué)獎。
納什均衡在社科中的應(yīng)用可謂成功，而在科技領(lǐng)域中，也經(jīng)常引用博弈論的邏輯來進行技術(shù)實現(xiàn)，比如，通過密碼學(xué)和博弈論的結(jié)合實現(xiàn)大數(shù)據(jù)安全。當下，這一邏輯也開始應(yīng)用在AI的算法上。DeepNash——DeepMind制造的最新款人工智能，它名字中的“Nash”即為紀念納什而命名。在AlphaGo之后，谷歌已降低在棋牌領(lǐng)域的關(guān)注，之所以推出DeepNash，在于借鑒納什均衡的邏輯設(shè)定基礎(chǔ)上，這款A(yù)I模型得以在西洋陸軍棋Stratego（策略）中擊敗專業(yè)玩家，這比在國際象棋、圍棋和****的比賽中擊敗人類更加困難。DeepNash是怎么做到的呢？超越圍棋的走法量，訴求“無模型”和強化學(xué)習
相較其他棋牌游戲，Stratego在規(guī)則上就包含了更多不確定性，包括玩家之間的信息非對稱。比如，象棋和圍棋的牌面和走位都是公開的，但Stratego的牌面卻是看不到的，這點和玩****一樣。另一方面，相較于圍棋只有一個初始定位，德州****有106個，而Stratego有驚人的超過1066個可以選擇的起始點。要知道，1066這個量級已經(jīng)超過了宇宙中所有星辰的總量。

在博弈樹的算法統(tǒng)計量上，Stratego可能的走法達到不可思議的10535種，圍棋的這一數(shù)量為10360。
信息非對稱、路徑解極多，極度復(fù)雜性意味著通過通用的“蒙特卡洛樹”模型玩轉(zhuǎn)Stratego并不可行。DeepNash的研究者之一，DeepMind研究員Perolat表示：“那些適用于****的算法在Stratego中是完全行不通的，可能的結(jié)果量級太過龐大，因而非常復(fù)雜，信息的處理需要更為完備的方法?！?/span>

最終，團隊找到的方法是“無模型”強化算法，意味著在任何模型都無法實現(xiàn)精確模擬的情況下，讓DeepNash就像一個嬰兒或者一張白紙一樣進行從0開始的積累。但這使得預(yù)測變得困難，甚至完全不可能。

為了解決這個問題，團隊使用了深度強化學(xué)習為DeepNash提供動力源，目的是找到最優(yōu)的納什均衡。

運用納什均衡，在信息不對稱中訴諸最優(yōu)解強化學(xué)習算法如同“鋼鐵俠”，可以處理大規(guī)模數(shù)據(jù)量的問題，但牌面的信息不對稱又該如何解決？該DeepNash中“Nash”發(fā)揮作用了。納什均衡，也是非合作博弈均衡分析，社會學(xué)和經(jīng)濟學(xué)專業(yè)學(xué)生對這個名詞非常熟悉。其中最著名的實驗就是后來經(jīng)常應(yīng)用在犯罪心理中的囚徒困境。這一理論給出的現(xiàn)實命題是：對于處于非合作博弈中的雙方，無論對方如何選擇，當事一方只有一種確定的策略對自己來說是最優(yōu)解，因而兩方都會選擇自己的最優(yōu)，最后達成彼此最優(yōu)下的博弈均衡。比如，兩個共同犯罪的嫌疑人分別接受審訊，如果雙方都不坦白，兩人各自獲刑一年；其中只有一方坦白，坦白的無罪釋放，不坦白的獲刑十年；而如果雙方都坦白，各獲刑五年。在這個假想實驗中，都不坦白才是整體最優(yōu)。然而，對于兩位囚徒來說，肯定都希望無罪釋放，而無論對方是否坦白，自己坦白都是理性最優(yōu)解，所以最終的結(jié)果就是各獲刑五年。如果將納什均衡的邏輯放到DeepNash的算法設(shè)定中，游戲中互相看不到牌面的雙方就像囚徒困境中無法串通的兩個囚徒，彼此是非合作博弈。在信息不確定的情況下，只有走無論對方出什么牌“我”都是最優(yōu)選的牌，才能確保在多輪博弈中獲勝。DeepNash獲得同類競技97%勝率納什均衡和加上強化學(xué)習，最終達成均衡下的最優(yōu)解：通過“每位玩家獲得任何收益都會導(dǎo)致對手損失”的邏輯，憑借強化學(xué)習在游戲的每一步中計算下一步的最佳算法。就這樣，DeepNash開啟了自我對抗訓(xùn)練。訓(xùn)練的獎懲機制是：當DeepNash—A獲勝時，該網(wǎng)絡(luò)參數(shù)將會增強；同時，對手方DeepNash—B的參數(shù)將會被削弱。通過55億次的對弈，DeepNash取得了很好的成績，失誤率越來越小，無限接近納什均衡最優(yōu)。在算法測試中，DeepNash以97%的勝率壓制了其他機器選手。而在Gravon游戲平臺上，通過和人類專業(yè)棋手進行兩周多的競技，DeepNash最終在有20年歷史的積分排名榜中升至第三位。除了學(xué)習能力驚人，DeepNash更讓人驚訝的地方在于，它在開局不會固定自己的起始位置，而是不斷優(yōu)化起始點。這樣做究竟是隨機在10535種可能性中尋找最優(yōu)解，還是“有意識”地避免對手對自己出牌套路的破解而故意為之，目前不得而知。如果是后者，就讓人不寒而栗了。不過，DeepNash確實會用一些看上去“誘騙”的方式來“引誘”對手落入陷阱，通過一些看似無意義（棋子重復(fù)跳動），或者犧牲高級棋子（讓對方放松警惕），從而進行伏擊。加入非理性測算后的多方博弈
DeepNash確實相當厲害，但如果你仔細觀察也不難發(fā)現(xiàn)，納什均衡的狀態(tài)是發(fā)生在兩方之間的，而現(xiàn)實世界往往并非兩者的零和博弈。當博弈均衡需要發(fā)生在多方，又會呈現(xiàn)怎樣的態(tài)勢呢？對此，Meta AI研究員們的發(fā)明或許更具挑戰(zhàn)性：創(chuàng)建了能夠玩多方博弈游戲的AI模型——Cicero。在一款名為Diplomacy（外交風云）的游戲中，多個玩家每人代表一個國家，最多可以有7個玩家一起玩。游戲規(guī)則是進行軍隊和戰(zhàn)艦的戰(zhàn)略部署，從而獲得對供應(yīng)中心的控制權(quán)。和DeepNash在Stratego中展現(xiàn)的非合作博弈下的純零和狀態(tài)不同，Cicero的博弈模式設(shè)定更加開放，包括每個玩家都可以私下進行交流和合作，而當合作博弈與非合作博弈都構(gòu)建在多玩家的算法模型中時，預(yù)期結(jié)果更加不可控。Cicero的開發(fā)者之一Noam Brown表示說：“當你超越雙人的零和游戲時，納什均衡的概念對于與人類打好關(guān)系不再那么有用?！?/span>目前，Cicero已經(jīng)在Diplomacy的125,261場游戲中進行了訓(xùn)練，它的推理模塊（SRM）已經(jīng)學(xué)會預(yù)測自身的狀態(tài)，包括其他玩家可能采取的策略。通過預(yù)測，SRM會選擇最佳的行動路徑，并向其擁有27億參數(shù)語言模型的對話模塊上發(fā)出意圖信號。在Brown看來，像Cicero這樣能夠與人類進行互動，并且可以對人類的非理性次優(yōu)行為進行解釋的人工智能才能越來越接近現(xiàn)實世界，從而為未來的應(yīng)用鋪平道路。他以智能駕駛舉例：“你不能設(shè)想道路上其他司機都是理性的?！?/span>唯理派 PK 經(jīng)驗論：哪個更接近現(xiàn)實？
在應(yīng)用上，盡管DeepNash是為Stratego而開發(fā)的，但它的實際用途遠不止在游戲世界里“搗亂”。未來將會用在便利人們生活的各個方面，比如交通或者市場預(yù)測。和DeepNash一樣，Cicero未來也會應(yīng)用于現(xiàn)實世界，“我們雖然有一只腳在游戲世界里，但現(xiàn)在我們也有一只腳在現(xiàn)實世界里?！?/span>對于DeepNash和Cicero，你認為它們哪個更可能實現(xiàn)在現(xiàn)實世界的落地呢？請留言投****。參考鏈接：https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/https://www.nature.com/articles/d41586-022-04246-7