AlphaGo對(duì)局李世石兩周年紀(jì)：AI算法的秘密

作者：時(shí)間：2018-03-22 來源：科技行者

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　這篇文章的主角是AlphaGo，谷歌DeepMind團(tuán)隊(duì)開發(fā)出的圍棋AI。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。圍棋是一種古老的棋類游戲，每一步都存在諸多選擇，因此接下來的落子位置很參議會(huì)預(yù)測(cè)——要求對(duì)弈棋手擁有強(qiáng)大的直覺與抽象思維能力。正因?yàn)槿绱耍藗冮L(zhǎng)久以來一直認(rèn)為只有人類擅長(zhǎng)下圍棋。大多數(shù)研究人員甚至認(rèn)定，還需要數(shù)十年才會(huì)出現(xiàn)真正具備這種思考能力的AI。但如今距離AlphaGo對(duì)李世石的比賽已經(jīng)過去了兩年(3月8日至3月15日)，而本篇文章正是為了紀(jì)念這個(gè)偉大的日子!

本文引用地址：http://2s4d.com/article/201803/377220.htm

　　不過更可怕的是，AlphaGo并沒有停止自己的前進(jìn)腳步。8個(gè)月之后，它在某圍棋網(wǎng)站上以“Master”為名與全球各地的冠軍棋手進(jìn)行了60盤職業(yè)對(duì)弈，且拿下全勝成績(jī)。

　　這當(dāng)然是人工智能領(lǐng)域的一項(xiàng)巨大成就，并在全球引起了一股新的討論熱潮——我們到底該對(duì)人工智能的發(fā)展速度感到興奮，還是擔(dān)心?

　　今天，我們將以DeepMind在《自然》雜志上發(fā)表的原始研究論文作為基礎(chǔ)，逐段對(duì)其內(nèi)容進(jìn)行簡(jiǎn)單清晰的解讀，詳細(xì)介紹AlphaGo是什么以及它的工作原理。我也希望大家能夠在閱讀本文之后，不再被媒體頭條拋出的聳人聽聞的標(biāo)題所恐嚇，而真正對(duì)關(guān)于人工智能的發(fā)展感到振奮。

　　當(dāng)然，你不需要掌握圍棋技巧，也同樣可以理解本文的觀點(diǎn)。事實(shí)上，我本人只讀過網(wǎng)絡(luò)百科上的一丁點(diǎn)圍棋說明。相反，我其實(shí)會(huì)使用基礎(chǔ)的國(guó)際象棋示例來解釋相關(guān)算法。大家只需要了解雙人棋類游戲的基本規(guī)則即可——每位選手輪流行動(dòng)，最后將產(chǎn)生一位贏家。除此之外，你不需要了解任何物理學(xué)或高數(shù)知識(shí)。

　　這樣盡可能降低入門門檻，是為了能讓剛剛接觸機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)的朋友更容易接受。本文也刻意降低了表述復(fù)雜度，也是希望大家能把注意力盡量集中在內(nèi)容本身。

　　眾所周知，AlphaGo項(xiàng)目的目標(biāo)在于建立一款AI程序，并保證其能夠與世界頂級(jí)人類選手在圍棋領(lǐng)域一較高下。

　　為了理解圍棋帶來的挑戰(zhàn)，我們首先聊聊與之類似的另一種棋類運(yùn)動(dòng)——國(guó)際象棋。早在上世紀(jì)九十年代初，IBM公司出打造出深藍(lán)計(jì)算機(jī)，其在國(guó)際象棋比賽中擊敗了偉大的世界冠軍加里·卡斯帕羅夫。那么，深藍(lán)是如何做到這一點(diǎn)的?

　　事實(shí)上，深藍(lán)使用了一種非常“暴力”的作法。在游戲的每一步，深藍(lán)都會(huì)對(duì)所有可能作出的合理棋步作出考量，并沿著每種棋步探索以分析未來的局勢(shì)變化。在這樣的前瞻性分析之下，計(jì)算結(jié)果很快形成一種千變?nèi)f化的巨大決策樹。在此之后，深藍(lán)會(huì)沿著樹狀結(jié)構(gòu)返回原點(diǎn)，觀察哪些棋步最可能帶來積極的結(jié)果。然而，何謂“積極的結(jié)果”?事實(shí)上，眾多優(yōu)秀的國(guó)際象棋棋手為深藍(lán)精心設(shè)計(jì)出了國(guó)際象棋策略，旨在幫助其作出更好的決策——舉例來說，是決定保護(hù)國(guó)王，還是在盤面的其它位置獲得優(yōu)勢(shì)?他們針對(duì)此類目的構(gòu)建起特定的“評(píng)估算法”，從而比較不同盤面位置的優(yōu)勢(shì)或劣勢(shì)權(quán)重(IBM公司將專家們的象棋策略以硬編碼形式引入該評(píng)估函數(shù))。最終，深藍(lán)會(huì)據(jù)此選擇出經(jīng)過精心計(jì)算的棋步。在接下來的回合中，整個(gè)過程再次重復(fù)。

　　這意味著，深藍(lán)在每一步之前都會(huì)考量數(shù)百萬個(gè)理論位置。因此，深藍(lán)最令人印象深刻的表現(xiàn)并不在于人工智能軟件層面，而體現(xiàn)在其硬件之上——IBM公司宣稱，深藍(lán)是當(dāng)時(shí)市場(chǎng)上最為強(qiáng)大的計(jì)算機(jī)之一。其每秒能夠計(jì)算2億個(gè)盤面位置。

　　現(xiàn)在讓我們回到圍棋方面。圍棋顯然更為開放，因此如果在這里重復(fù)深藍(lán)的戰(zhàn)略，將根本無法獲得理想效果。由于每個(gè)棋步都擁有過多可選擇的位置，因此計(jì)算機(jī)根本無法涵蓋這么多潛在的可能性。舉例來說，在國(guó)際象棋的開局當(dāng)中，只有20種可能的下法; 但在圍棋方面，先手選手將擁有361個(gè)可能的落子點(diǎn)——而且這種選擇范圍在整個(gè)對(duì)弈過程中一直非常廣泛。

　　這就是所謂“巨大搜索空間”。而且在圍棋當(dāng)中，判斷某個(gè)特定盤面位置的有利或不利權(quán)重并沒那么容易——在官子階段，雙方甚至還需要再排布一陣才能最終確定誰才是勝利者。但有沒有一種神奇的方法能夠讓計(jì)算機(jī)在圍棋領(lǐng)域有所建樹?答案是肯定的，深度學(xué)習(xí)能夠完成這項(xiàng)艱巨的任務(wù)!

　　因此在本次研究當(dāng)中，DeepMind方面利用神經(jīng)網(wǎng)絡(luò)來完成以下兩項(xiàng)任務(wù)。他們訓(xùn)練了一套“策略神經(jīng)網(wǎng)絡(luò)(policy neural network)”以決定哪些才是特定盤面位置當(dāng)中最為明智的選項(xiàng)(這類似于遵循某種直觀策略選擇移動(dòng)位置)。此外，他們還訓(xùn)練了一套“估值神經(jīng)網(wǎng)絡(luò)(value neural network)”以估算特定盤面布局對(duì)選手的有利程度(或者說，下在這個(gè)位置對(duì)贏得游戲這一目標(biāo)的實(shí)際影響)。他們首先使用人類棋譜對(duì)這些神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練(也就是最傳統(tǒng)但也非常有效的監(jiān)督式學(xué)習(xí)方法)。經(jīng)歷了這樣的訓(xùn)練，我們的人工智能已經(jīng)可以在一定程度上模仿人類的下棋方式——這時(shí)的它，就像一位菜鳥級(jí)人類選手。而后，為了進(jìn)一步訓(xùn)練神經(jīng)網(wǎng)絡(luò)，DeepMind方面讓AI與自己進(jìn)行數(shù)百萬次對(duì)弈(也就是“強(qiáng)化學(xué)習(xí)”的部分)。如此一來，憑借著更為充分的練習(xí)，AI的棋力得到了極大提升。

　　憑借這兩套網(wǎng)絡(luò)，DeepMind的人工智能方案就足以擁有等同于此前最先進(jìn)的圍棋程序的棋藝水平。二者的區(qū)別在于，原有程序使用了此前更為流行的預(yù)置游戲算法，即“蒙特卡洛樹搜索(Monte Carlo Tree Search，簡(jiǎn)稱MCTS)”，我們將在稍后具體進(jìn)行介紹。

　　不過很明顯，到這里我們還沒有談到真正的核心。DeepMind的人工智能方案絕不僅僅依賴于策略與估值網(wǎng)絡(luò)——其并非利用這兩套網(wǎng)絡(luò)來替代蒙特卡洛樹搜索; 相反，其使用神經(jīng)網(wǎng)絡(luò)以進(jìn)一步提升MCTS算法的成效。實(shí)際結(jié)果也確實(shí)令人滿意——MCTS的表現(xiàn)達(dá)到了超人的高度。這種經(jīng)過改進(jìn)的MCTS變種正是“AlphaGo”，其成功擊敗了李世石，并成為人工智能發(fā)展歷史上最大的突破之一。

　　下面讓我們回想一下本文的第一段內(nèi)容。上述提到，深藍(lán)計(jì)算機(jī)是如何在國(guó)際象棋的每一步當(dāng)中構(gòu)建起包含數(shù)以百萬計(jì)盤面位置與棋步的決策樹——計(jì)算機(jī)需要進(jìn)行模擬、觀察并比較每一種可能的落點(diǎn)——這是一種簡(jiǎn)單且非常直接的方法，如果一般的軟件工程師必須要設(shè)計(jì)出一種棋類程序，那么他們很可能會(huì)選擇類似的解決方案。

　　但讓我們想想，人類是怎樣下棋的?假設(shè)目前您身處比賽中的特定階段。根據(jù)游戲規(guī)則，你可以作出十幾種不同的選擇——在此處移動(dòng)棋子或者在那里移動(dòng)皇后等等。然而，你真的會(huì)在腦袋里列出所有能走的棋步，并從這份長(zhǎng)長(zhǎng)的清單中作出選擇嗎?不不，你會(huì)“直觀地”將可行范圍縮小至少數(shù)幾種關(guān)鍵性棋步(這里假定您提出了3種明智的棋步)，而后思考如果選擇其中某一種，那么棋盤上的局勢(shì)將發(fā)生怎樣的轉(zhuǎn)變。對(duì)于其中每一種棋步，你可能需要15到20秒的時(shí)間進(jìn)行考量——但請(qǐng)注意，在這15秒內(nèi)，我們并不是在非常精確地推衍接下來的交鋒與變化。事實(shí)上，人類往往會(huì)在未經(jīng)太多思考的情況下“拋出”一些由直覺引導(dǎo)的選擇結(jié)果(當(dāng)然，優(yōu)秀的選手會(huì)比普通選手想得更遠(yuǎn)更深)。之所以這樣做，是因?yàn)槟愕臅r(shí)間有限，而且無法準(zhǔn)確預(yù)測(cè)你的對(duì)手會(huì)勾勒出怎樣的后續(xù)應(yīng)對(duì)策略。因此，你只能讓直覺引導(dǎo)自己。我將這一部分思考過程稱為“鋪展”，請(qǐng)大家在后文中注意這一點(diǎn)。

　　在完成了對(duì)幾種明智棋步的“鋪展”之后，你最終決定放棄這種令人頭痛的思考，直接下出你認(rèn)為最科學(xué)的一步。

　　在此之后，對(duì)手也會(huì)作出對(duì)應(yīng)的回應(yīng)。這一步可能早在你的預(yù)料當(dāng)中，這意味著你對(duì)于下一步要做的事情更具信心——換言之，不必耗費(fèi)太多時(shí)間進(jìn)行后續(xù)“鋪展”?；蛘撸部赡苣愕膶?duì)手下出了一手妙招，導(dǎo)致你被迫回防并不得不更謹(jǐn)慎地思考下一步選擇。

　　游戲就這樣持續(xù)進(jìn)行，而隨著局勢(shì)的推進(jìn)，你將能夠更輕松地預(yù)測(cè)每步棋的結(jié)果，鋪展耗時(shí)也將相應(yīng)縮短。

　　之所以說了這么多，是希望以較為淺顯的方式為大家講述MCTS算法的作用——它通過反復(fù)構(gòu)建棋步與位置“搜索樹”以模擬上述思考過程。但其創(chuàng)新之處在于，MCTS算法不會(huì)在每個(gè)位置(與深藍(lán)有所不同)都進(jìn)行潛在棋步推衍; 相反，其會(huì)更智能地選擇一小組合理棋步并加以探索。在探索過程中，它會(huì)“鋪展”這些棋步引發(fā)的局勢(shì)變化，并根據(jù)計(jì)算出的結(jié)果對(duì)其加以比較。

　　(好了，只要理解了以上內(nèi)容，本文的閱讀就算基本達(dá)標(biāo)。)

　　現(xiàn)在，讓我們回到論文本身。圍棋是一種“完美信息游戲”。也就是說，從理論層面講，無論您身處這類游戲的哪個(gè)階段(即使剛剛走出一、兩步)，大家都有可能準(zhǔn)確猜出最終誰輸誰贏(假定兩位選手都會(huì)以‘完美’的方式下完整盤)。我不知道是誰提出了這項(xiàng)基本理論，但作為本次研究項(xiàng)目的前提性假設(shè)，其確實(shí)非常重要。

　　換句話來說，在游戲狀態(tài)下，我們將可通過一條函數(shù)v*(s)來預(yù)測(cè)最終結(jié)果——例如你贏得這盤對(duì)弈的概率，區(qū)間為0到1。DeepMind的研究人員將其稱為“最優(yōu)估值函數(shù)”。由于某些盤面位置比其它盤面位置更有可能帶來獲勝結(jié)果，因此前者可能比其它位置擁有“更高估值”。讓我再?gòu)?qiáng)調(diào)一次，估值=贏得比賽的0到1間概率值。

　　但先別急——假設(shè)一位名叫Foma的女孩坐在您的身邊，在每下一步棋時(shí)，她都會(huì)告訴您這次決定會(huì)導(dǎo)致您勝利還是失敗。“你贏了……你辦理了……不，還是辦理了……”我認(rèn)為這樣的提示對(duì)您的棋步選擇并沒有多大幫助，而且非常煩人。相反，真正能夠幫得上忙的其實(shí)應(yīng)該是勾勒出所有可能的棋步樹，以及這些棋步將會(huì)引發(fā)的狀態(tài)——而后，F(xiàn)oma會(huì)告訴你在整個(gè)樹狀結(jié)構(gòu)中，哪些狀態(tài)會(huì)將你推向勝利，而哪些會(huì)招致失敗。突然之間，F(xiàn)oma就成了您的完美伙伴——而非討厭的插嘴者。在這里，F(xiàn)oma將作為您的最優(yōu)估值函數(shù)v*(s)。此前，人們一直認(rèn)為像圍棋這樣的游戲，不可能擁有Foma這樣的準(zhǔn)確估值函數(shù)——因?yàn)槠渲写嬖谥嗖淮_定性。

　　然而，即使您真的擁有了Foma，她對(duì)所有可能盤面位置的估算在現(xiàn)實(shí)對(duì)弈當(dāng)中恐怕也無法奏效。因?yàn)樵趪?guó)際象棋或圍棋這樣的游戲當(dāng)中，正如之前所提到，即使是想要預(yù)測(cè)七到八步之后的整體局勢(shì)，過多的可能性選擇也會(huì)令Foma需要耗費(fèi)大量時(shí)間才能得出分析結(jié)果。

　　也就是說，單憑Foma還遠(yuǎn)遠(yuǎn)不夠。大家還需要進(jìn)一步縮小明智棋步的具體范圍，并據(jù)此推衍接下來的局勢(shì)走向。那么我們的程序該如何做到這一點(diǎn)?Lusha在這里閃亮登場(chǎng)。Lusha是一位擁有相當(dāng)技巧的國(guó)際象棋選手加熱心人，她曾花費(fèi)數(shù)十年時(shí)間觀看國(guó)際象棋大師賽。她可以觀看你的盤面位置，快速思考您所能做出的全部合理選擇，并告訴你專業(yè)選手作出各種判斷的可能性。因此，如果您在某一特定時(shí)間點(diǎn)上擁有50種可能的棋步選項(xiàng)，Lusha會(huì)告訴你職業(yè)棋手選擇每種選項(xiàng)的具體概率。當(dāng)然，其中一些明智的棋步會(huì)擁有更高的概率，而其它無意義的棋步則概率極低。她就是你的策略函數(shù)，p(as)。對(duì)于給定狀態(tài)s，她能夠?yàn)槟峁I(yè)選手可能作出的全部選擇的對(duì)應(yīng)概率。

　　接下來，你可以在Lusha的幫助下尋找更為合理的棋步選項(xiàng)，而Foma則會(huì)告訴我們這些棋步對(duì)對(duì)弈結(jié)果的實(shí)際影響。在這種情況下，大家可以選擇由Foma與Lusha協(xié)商給出落子建議，或者也可以先由Lusha提供建議，再由Foma對(duì)結(jié)果作出評(píng)估。接下來，挑選其中一些選項(xiàng)進(jìn)行后續(xù)影響分析，再由Foma與Lusha繼續(xù)進(jìn)行預(yù)測(cè)指導(dǎo)——通過這種方式，我們將能夠更為高效地掌握盤面局勢(shì)走向。而這，正是所謂“減少搜索空間”的實(shí)際意義所在。利用估值函數(shù)(Foma)預(yù)測(cè)結(jié)果，利用策略函數(shù)(Lusha)提供棋藝層面的概率取舍以縮小值得進(jìn)一步探索的落子范圍。這套體系就是所謂“蒙特卡洛鋪展(Monte Carlo rollouts)”。接下來，當(dāng)重新回到當(dāng)前棋步時(shí)，你將能夠得到各種選項(xiàng)所對(duì)應(yīng)的平均估值結(jié)論，并據(jù)此找到最適合的落子位置。不過到這里，其在圍棋水平方面仍然表現(xiàn)不佳——因?yàn)檫@兩種函數(shù)的實(shí)際指導(dǎo)能力還比較孱弱。

　　不過沒關(guān)系。

　　首先進(jìn)行具體解釋。在MCTS當(dāng)中，起步階段的Foma與Lusha的功能還不夠精熟。但對(duì)弈數(shù)量越多，二者在預(yù)測(cè)可靠結(jié)果與落子位置方面就越強(qiáng)大。論文指出，“縮小高可能性棋步的具體范圍”其實(shí)是種較為復(fù)雜的表達(dá)，“Lusha實(shí)際上是通過提供專業(yè)棋手的落子概率幫助縮小需要考量的選項(xiàng)。以往的工作主要利用這種技術(shù)在策略函數(shù)較為簡(jiǎn)單的情況下，提供強(qiáng)大且成熟的AI選手解決方案。

　　是的，卷積神經(jīng)網(wǎng)絡(luò)非常適合圖像處理類任務(wù)。而且由于神經(jīng)網(wǎng)絡(luò)需要特定輸入內(nèi)容并給出對(duì)應(yīng)的輸出結(jié)果，所以其在本質(zhì)上其實(shí)也相當(dāng)于一條函數(shù)。這意味著大家可以利用神經(jīng)網(wǎng)絡(luò)來充當(dāng)一種高度復(fù)雜的函數(shù)。從這個(gè)思路出發(fā)，大家可以將其傳遞一份盤面位置圖像，并由神經(jīng)網(wǎng)絡(luò)自行判斷當(dāng)前局勢(shì)。如此一來，創(chuàng)建出的神經(jīng)網(wǎng)絡(luò)將擁有非常準(zhǔn)確的策略與估值能力。

　　下面，我們將討論Foma與Luha的具體訓(xùn)練方式。為了訓(xùn)練策略網(wǎng)絡(luò)(負(fù)責(zé)預(yù)測(cè)專業(yè)棋手的落子位置判斷)，我們只需要將人類對(duì)弈棋譜作為素材，并利用其進(jìn)行傳統(tǒng)的監(jiān)督式學(xué)習(xí)即可。

　　另外，我們還希望能夠構(gòu)建起一套略有不同的策略網(wǎng)絡(luò)版本; 其應(yīng)該更小巧且速度更快。可以想象，如果Lusha的經(jīng)驗(yàn)非常豐富，那么其用于處理每個(gè)位置的時(shí)間也將相應(yīng)延長(zhǎng)。在這種情況下，雖然她能夠更好地縮小合理落子范圍，但由于整個(gè)過程會(huì)不斷重復(fù)，因此耗費(fèi)時(shí)間可能會(huì)過長(zhǎng)。所以，我們需要為這項(xiàng)工作訓(xùn)練出一套速度更快的策略網(wǎng)絡(luò)(我們將其稱為……Lusha的弟弟，Jerry?姑且就這么稱呼吧)。接下來，一旦利用人類選手的數(shù)據(jù)訓(xùn)練出滿足需求的策略網(wǎng)絡(luò)，我們就可以讓Lusha在圍棋棋盤上進(jìn)行自我對(duì)抗以獲得更多練習(xí)機(jī)會(huì)。這正是強(qiáng)化學(xué)習(xí)的體現(xiàn)——構(gòu)建起更強(qiáng)大的策略網(wǎng)絡(luò)版本。

　　此后，我們需要訓(xùn)練Foma進(jìn)行估值：確定獲勝的概率。人工智能將在模擬環(huán)境當(dāng)中反復(fù)進(jìn)行自我練習(xí)，每一次觀察其最終綶，并從錯(cuò)誤當(dāng)中學(xué)習(xí)到更好、更先進(jìn)的經(jīng)驗(yàn)。

　　受到篇幅所限，這里我就不具體介紹網(wǎng)絡(luò)的訓(xùn)練方式了。您可以在本文末尾提供的論文鏈接中(參閱‘方法’部分)了解更多細(xì)節(jié)信息。事實(shí)上，這篇論文的主要目的并非說明研究人員如何在這些神經(jīng)網(wǎng)絡(luò)之上進(jìn)行強(qiáng)化學(xué)習(xí)。DeepMind在之前發(fā)表的一篇文章中，已經(jīng)談到過他們?nèi)绾卫脧?qiáng)化學(xué)習(xí)技術(shù)教會(huì)AI掌握雅達(dá)利游戲。因此在本文當(dāng)中，我只在內(nèi)容摘要部分稍微提到一點(diǎn)相關(guān)內(nèi)容。這里再次強(qiáng)調(diào)，AlphaGo的最大創(chuàng)新在于DeepMind研究人員們利用強(qiáng)化學(xué)習(xí)加神經(jīng)網(wǎng)絡(luò)來改進(jìn)已經(jīng)廣泛流行的游戲算法MCTS。強(qiáng)化學(xué)習(xí)確實(shí)是一種很酷的工具，研究人員們?cè)诔Ｒ?guī)監(jiān)督式訓(xùn)練之后利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)策略與估值函數(shù)神經(jīng)網(wǎng)絡(luò)的微調(diào)。但是，這篇研究論文的主要作用在于證明這款工具的功能多樣性與優(yōu)秀性，而非教導(dǎo)大家如何實(shí)際使用。

　　好了，現(xiàn)在大家對(duì)AlphaGo應(yīng)該已經(jīng)建立起比較完整的印象。下面，我們會(huì)進(jìn)一步深入探討之前提到的各個(gè)議題。當(dāng)然，其中不可避免要涉及一些看似“危險(xiǎn)”的數(shù)學(xué)公式及表達(dá)式，但相信我，它們都很簡(jiǎn)單(我會(huì)作出詳盡解釋)。因此，請(qǐng)放松心態(tài)。

　　所以，第一步就是訓(xùn)練我們的策略神經(jīng)網(wǎng)絡(luò)(Lusha)，其負(fù)責(zé)預(yù)測(cè)專業(yè)棋手可能作出的判斷。神經(jīng)網(wǎng)絡(luò)的目標(biāo)是讓人工智能發(fā)揮類似于人類專家的作用。這套卷積神經(jīng)網(wǎng)絡(luò)(正如之前提到，這種特殊的神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)圖像處理)采用電路板式布局以簡(jiǎn)化圖像內(nèi)容。我們可以向該網(wǎng)絡(luò)架構(gòu)的各個(gè)層中添加“整流器非線性”，其將賦予整體網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜技能的能力。如果大家以前曾經(jīng)訓(xùn)練過神經(jīng)網(wǎng)絡(luò)，可能對(duì)“ReLU”層不會(huì)感到陌生。這里我們同樣使用ReLU層。

　　這里的訓(xùn)練數(shù)據(jù)以隨機(jī)盤面位置對(duì)的形式存在，而標(biāo)簽則為人類所作出的落子選擇。這部分訓(xùn)練采用常規(guī)的監(jiān)督式學(xué)習(xí)。

　　在這里，DeepMind使用了“隨機(jī)梯度ASCENT”。這是一種反向傳播算法。通過這種方式，我們希望最大程度發(fā)揮獎(jiǎng)勵(lì)函數(shù)的作用。獎(jiǎng)勵(lì)函數(shù)代表的是人類專家作出不同行動(dòng)預(yù)測(cè)的概率; 我們的目標(biāo)則是盡可能提升這一概率。但是，在實(shí)際網(wǎng)絡(luò)訓(xùn)練當(dāng)中，我們一般只需要讓丟失函數(shù)盡可能降低即可——這在實(shí)質(zhì)上是縮小預(yù)測(cè)結(jié)果與實(shí)際標(biāo)簽之間的誤差/差異，也就是所謂梯度下降。在研究論文的實(shí)際實(shí)現(xiàn)部分，他們確實(shí)使用了常規(guī)的梯度下降方法。大家可以輕松找到與獎(jiǎng)勵(lì)函數(shù)相對(duì)的丟失函數(shù)，并通過盡可能降低后者最大程度提升前者。

　　這套策略網(wǎng)絡(luò)擁有13層，我們將其稱為“SL策略(SL policy)”網(wǎng)絡(luò)(SL代表監(jiān)督式學(xué)習(xí))。其使用的數(shù)據(jù)來自某個(gè)高人氣網(wǎng)站，有數(shù)百萬用戶在這里進(jìn)行圍棋對(duì)弈。那么，SL策略網(wǎng)絡(luò)的實(shí)際表現(xiàn)如何?

　　首先，其圍棋水平要高于其他研究人員的早期開發(fā)成果。至于“鋪展策略”方面，大家可能還記得之前我們?cè)岬?，研究人員們訓(xùn)練出一套速度更快的Lusha版本——我們稱其為Jerry。在這里，Jerry負(fù)責(zé)發(fā)揮作用。如大家所看到，Jerry的準(zhǔn)確度只有Lusha的一半，但速度卻快了數(shù)千倍!當(dāng)我們應(yīng)用MCTS算法時(shí)，Jerry將幫助我們更快地完成對(duì)后續(xù)局勢(shì)變化的模擬。

　　要理解下一節(jié)的內(nèi)容，大家可以不了解強(qiáng)化學(xué)習(xí)，但需要認(rèn)同一項(xiàng)前提——即我所作出的闡述真實(shí)有效。如果您希望探究更多細(xì)節(jié)并加以嘗試，可能需要首先閱讀一些關(guān)于強(qiáng)化學(xué)習(xí)的背景信息。

　　一旦擁有了這套SL網(wǎng)絡(luò)，接下來要做的就是利用人類選手的判斷數(shù)據(jù)以監(jiān)督式方式對(duì)其進(jìn)行訓(xùn)練。在此之后，就是由其自我對(duì)弈以不斷磨練判斷能力。具體實(shí)現(xiàn)方法也很簡(jiǎn)單——選擇SL策略網(wǎng)絡(luò)，將其保存在一個(gè)文件中，而后再?gòu)?fù)制一份副本。

　　然后，你可以利用強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行微調(diào)。如此一來，這套網(wǎng)絡(luò)就能夠自我對(duì)抗并從結(jié)果中學(xué)習(xí)經(jīng)驗(yàn)。

　　不過這樣的訓(xùn)練方式其實(shí)存在一個(gè)問題。

　　如果其只在練習(xí)中對(duì)抗同一個(gè)對(duì)手，且該對(duì)手也一直貫穿訓(xùn)練始終，那么可能無法獲得新的學(xué)習(xí)經(jīng)驗(yàn)。換言之，該網(wǎng)絡(luò)所學(xué)到的只是如何擊敗對(duì)方，而非真正掌握圍棋的奧秘。沒錯(cuò)，這就是過度擬合問題：你在對(duì)抗某一特定對(duì)手時(shí)表現(xiàn)出色，但卻未必?fù)碛袑?duì)付各類選手的能力。那么，我們?cè)撊绾谓鉀Q這個(gè)問題?

　　答案很簡(jiǎn)單，當(dāng)我們對(duì)一套神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)時(shí)，其就會(huì)變成另一個(gè)風(fēng)格上略有不同的選手。如此一來，我們可以將各個(gè)版本的神經(jīng)網(wǎng)絡(luò)保存在一份“選手”列表當(dāng)中，并確保每位選手的表現(xiàn)都有所區(qū)別。很好，在接下來的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，我們可以從列表中隨機(jī)選擇不同的版本作為對(duì)抗對(duì)象。它們雖然源自同一套神經(jīng)網(wǎng)絡(luò)，但表現(xiàn)卻略有區(qū)別。而且訓(xùn)練得越多，選手的版本也就越多。問題就此解決!

　　在這樣的訓(xùn)練過程中，惟一指導(dǎo)訓(xùn)練過程的只有最終目標(biāo) ——即贏得比賽。到這里，我們已經(jīng)不再需要對(duì)網(wǎng)絡(luò)進(jìn)行針對(duì)性訓(xùn)練，例如捕捉盤面上的更多位置等。我們只需要為其提供所有可能的合理選項(xiàng)，并下面目標(biāo)“你必須獲勝”。也正因?yàn)槿绱?，?qiáng)化學(xué)習(xí)才如此強(qiáng)大——其能夠被用于訓(xùn)練任何游戲策略或估值網(wǎng)絡(luò)，而絕不僅限于圍棋。

　　到這里，DeepMind的研究人員們測(cè)試了這套R(shí)L策略網(wǎng)絡(luò)的準(zhǔn)確性——不使用任何MCTS算法。之前我們?cè)?jīng)提到，這套網(wǎng)絡(luò)能夠直接獲取盤面位置并思考專業(yè)棋手的判斷概率。到這里，它已經(jīng)能夠獨(dú)立進(jìn)行對(duì)弈了。結(jié)果是，強(qiáng)化學(xué)習(xí)微調(diào)后的網(wǎng)絡(luò)戰(zhàn)勝了僅利用人類棋譜進(jìn)行訓(xùn)練的監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。不僅如此，它還能夠戰(zhàn)勝其它強(qiáng)大的圍棋程序。

　　必須強(qiáng)調(diào)的是，即使是在訓(xùn)練這套強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)之前，監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)也已經(jīng)擁有了超越現(xiàn)有技術(shù)的對(duì)弈水平——而如今我們又更進(jìn)一步!更重要的是，我們甚至不需要使用估值網(wǎng)絡(luò)這類其它輔助方案。

　　到這里，我們終于完成了對(duì)Lusha的訓(xùn)練。接下來重新回到Foma這邊，它代表的是最優(yōu)估值函數(shù)v*(s)——即只有兩位選手皆完美執(zhí)行其預(yù)期內(nèi)的落子判斷時(shí)，她才能提供在目前盤面局勢(shì)下獲得優(yōu)勝的可能性。很明顯，為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)充當(dāng)我們的估值函數(shù)，這里需要一位完美的對(duì)手……遺憾的是，目前我們還沒有這樣一位對(duì)手。因此，我們派出了最強(qiáng)大的選手——RL策略網(wǎng)絡(luò)。

　　其會(huì)提取當(dāng)前盤面狀態(tài)state_s，而后輸出您贏得本場(chǎng)對(duì)弈的概率。每一項(xiàng)游戲狀態(tài)都將充當(dāng)數(shù)據(jù)樣本，并以標(biāo)簽的形式用于注釋游戲結(jié)果。因此，在經(jīng)過 50次落子之后，我們就獲得了50份估值預(yù)測(cè)樣本。

　　但這種作法實(shí)際上非常幼稚——畢竟我們不可能也不應(yīng)該將對(duì)弈中的全部50次落子全部添加到數(shù)據(jù)集當(dāng)中。

　　換言之，我們必須認(rèn)真選擇訓(xùn)練數(shù)據(jù)集以避免過度擬合的發(fā)生。由于每次落子都會(huì)與一個(gè)新位置對(duì)應(yīng)，因此圍棋中的每一次落子都非常相似。如果將所有落子選擇的狀態(tài)都添加到具有相同標(biāo)簽的訓(xùn)練數(shù)據(jù)當(dāng)中，那么其內(nèi)容將存在大量“重復(fù)”，并必然導(dǎo)致過度擬合。為了防止這種情況的發(fā)生，我們只能選擇那些更具代表性的游戲狀態(tài)。舉例來說，我們可以只選擇對(duì)弈過程中的五個(gè)狀態(tài)——而非全部50個(gè)狀態(tài)——添加到訓(xùn)練數(shù)據(jù)集內(nèi)。DeepMind從3000萬盤不同對(duì)弈過程中提取了3000萬種狀態(tài)，從而減少重復(fù)數(shù)據(jù)的出現(xiàn)可能性。事實(shí)證明，這種作法效果極佳!

　　現(xiàn)在，我們談?wù)劯拍睿?我們可以通過兩種方法評(píng)估盤面位置的價(jià)值。第一是選擇最佳估值函數(shù)(即之前訓(xùn)練完成的函數(shù))。另一種則是使用現(xiàn)有策略(Lusha)直接推導(dǎo)盤面局勢(shì)，并預(yù)測(cè)本次落子帶來的最終結(jié)果。很明顯，真正的對(duì)弈很少會(huì)完全按照我們的計(jì)劃推進(jìn)。但DeepMind仍然比較了這兩種方法的實(shí)際效果。此外，大家也可以將這兩種選項(xiàng)混合使用。稍后，我們將了解這一“混合參數(shù)”，請(qǐng)各位記住這個(gè)重要概念。

　　在這里，我們的一套神經(jīng)網(wǎng)絡(luò)會(huì)嘗試給出最近似的最優(yōu)估值函數(shù)，其效果甚至優(yōu)于經(jīng)過數(shù)千次模擬而得出的鋪展策略!Foma在這里的表現(xiàn)真的超贊。在另一方面，DeepMind方面也嘗試使用了準(zhǔn)確度翻倍但速度極慢的Lusha RL策略，其需要進(jìn)行成千上萬次模擬以得出結(jié)論——最終效果略好于Foma。但也只是略好，而速度卻慢了太多。因此，F(xiàn)oma在這場(chǎng)比拼中勝出，她證明自己擁有著不可替代的價(jià)值。

　　現(xiàn)在，我們已經(jīng)完成了策略與估值函數(shù)的訓(xùn)練，接下來可以將其與MCTS結(jié)合起來，從而帶來我們的前任世界冠軍、大師中的大量、一個(gè)世代的突破、體重268磅的……Alphaaaa GO!

　　在本節(jié)中，大家應(yīng)該對(duì)MCTS算法的工作原理擁有更為深入的理解。請(qǐng)別擔(dān)心，迄今為止提到的全部?jī)?nèi)容應(yīng)該足以支持您順利掌握相關(guān)內(nèi)容。惟一需要注意的是我們?nèi)绾问褂貌呗愿怕逝c估值方法。我們?cè)阡佌惯^程中將二者結(jié)合在一起，從而縮小每次落子時(shí)需要探索的具體范圍。Q(s，a)表示估值函數(shù)，u(s，a)則代表該位置的已保存概率。下面我將具體作出解釋。

　　另外需要注意的是，策略網(wǎng)絡(luò)是使用監(jiān)督學(xué)習(xí)來預(yù)測(cè)專業(yè)棋手落子判斷的。其不僅能夠提供概率最高的落子選項(xiàng)，同時(shí)也會(huì)提供各個(gè)選項(xiàng)的具體概率。這一概率可被存儲(chǔ)在各個(gè)落子判斷當(dāng)中。在這里，DeepMind方面將其稱為“先驗(yàn)概率”，并利用其選擇有必要進(jìn)行探索的落子選項(xiàng)。基本上，要決定是否需要對(duì)某一特定落子選項(xiàng)進(jìn)行探索，我們需要考慮以下兩點(diǎn)：首先，通過這步棋，我們有多大概率獲勝?是的，我們已經(jīng)擁有了能夠回答這個(gè)問題的“估值網(wǎng)絡(luò)”。第二個(gè)問題是，專業(yè)棋手有多大概率會(huì)考慮這一棋步?(如果專業(yè)棋手不太可能考慮這步棋，那么我們?yōu)槭裁匆速M(fèi)時(shí)間進(jìn)行探索?這部分結(jié)論由策略網(wǎng)絡(luò)負(fù)責(zé)提供。)

　　接下來，讓我們聊聊“混合參數(shù)”。如前文所述，為了評(píng)估各個(gè)盤面位置，我們有兩種選擇：其一，直接利用一直用于評(píng)估盤面狀態(tài)的估值網(wǎng)絡(luò)。第二，我們也可以使用現(xiàn)有策略網(wǎng)絡(luò)快速推導(dǎo)對(duì)弈情況(假定對(duì)方選手也采取符合預(yù)測(cè)的下法)，從而判斷我們是輸還是贏。一般來講，估值函數(shù)的效果要比常規(guī)鋪展更好。在這里，將二者結(jié)合將能夠提供每項(xiàng)預(yù)測(cè)的權(quán)重估值，例如五五開、四六開等等。如果大家以百分比形式對(duì)估值X進(jìn)行處理，則另一項(xiàng)就是(100-X)%。這就是混合參數(shù)的意義所在。后文中將對(duì)其實(shí)際效果進(jìn)行說明。

　　在每一次鋪展之后，大家都可以利用在模擬當(dāng)中獲得的任何信息對(duì)搜索樹進(jìn)行更新，從而進(jìn)一步提升未來模擬的明智度。在所有模擬結(jié)束之后，您從中選擇最佳落子選項(xiàng)即可。

　　下面來看有趣的結(jié)論!

　　大家應(yīng)該還記得，RL微調(diào)策略神經(jīng)網(wǎng)絡(luò)擁有比SL人力訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時(shí)，使用人工訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反過來超越了微調(diào)神經(jīng)網(wǎng)絡(luò)。與此同時(shí)，在估值函數(shù)(可以理解成以無限趨近方式提供完美判斷)方面，利用RL策略進(jìn)行Foma訓(xùn)練能夠帶來超越使用SL策略的實(shí)際效果。

　　“執(zhí)行上述評(píng)估需要耗費(fèi)大量計(jì)算資源，我們必須拿出壓箱底的硬貨才能搞定這些該死的程序。”

　　但DeepMind的言下之意其實(shí)是……

　　“吼吼，跟我們的程序相比，以前的那些圍棋程序簡(jiǎn)直就是唐氏兒童級(jí)別。”

　　這里再說回“混合參數(shù)(mixing parameter)”。在評(píng)估位置時(shí)，對(duì)估值函數(shù)及鋪展二者的重視程度要高于其中任意一者。其余部分是DeepMind方面的深入解釋，可以看到其中昭示了一項(xiàng)有趣的結(jié)論!

　　請(qǐng)?jiān)僮x一次標(biāo)有紅色下劃線的句子。相信大家已經(jīng)能夠理解，這句話基本就是對(duì)整個(gè)研究項(xiàng)目的全面總結(jié)。

新聞中心

AlphaGo對(duì)局李世石兩周年紀(jì)：AI算法的秘密

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)