人類如何向AlphaGo學(xué)習(xí)出人頭地?　

作者：高煥堂時間：2018-04-26 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

作者高煥堂 臺灣VR產(chǎn)業(yè)聯(lián)盟主席、廈門VR/AR榮譽(yù)會長兼總顧問

本文引用地址：http://2s4d.com/article/201804/379049.htm

　　在當(dāng)今AI潮流下，企業(yè)和年輕人，如何出人頭地呢? AI機(jī)器人AlphaGo打敗天下無敵手，已經(jīng)出人頭地了。人們何不向AlphaGo(及AlphaGo Zero)學(xué)習(xí)呢?

　　因?yàn)锳lphaGo懂得如何征服自己面對的巨大不確定性棋局，因而超越了人類頂尖高手。學(xué)習(xí)AlphaGo如何探索機(jī)會之后，創(chuàng)客就懂得了如何面對AI的不確定市場。企業(yè)就像AlphaGo一樣，可以超越頂尖的人類競爭對手，出人頭地了。

　　傳統(tǒng)上，人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識，去發(fā)揮所長，解決問題。如果人類(如創(chuàng)客)能從AI強(qiáng)化學(xué)習(xí)得到啟示，強(qiáng)化探索能力，則人人能探索更多可能，得到更多機(jī)會，如圖1所示。

　　在高度不確定性的環(huán)境里，唯有懂得降低風(fēng)險，才敢大膽探索、提高勝率。一旦你選擇了創(chuàng)客/創(chuàng)業(yè)之路，若能向它學(xué)會探索機(jī)會的方法，將會協(xié)助你在創(chuàng)業(yè)路途上心想事成，鴻圖大展。

1 強(qiáng)化學(xué)習(xí)：探索和利用之間找到平衡

　　強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的算法又稱為近似動態(tài)規(guī)劃(approximate dynamic programming，簡稱ADP)。它在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識)之間找到平衡。探索就是嘗試以前從未想過或做過的事情，以求獲得更高的報酬。利用就是做當(dāng)前條件下能產(chǎn)生最大回報的事情。

人類如何-1.jpg

　　例如，假設(shè)在你家的附近有十個餐館，到目前為止，你只在其中的八家餐館吃過飯，了解了這八家餐館中哪家是最好吃的。如果有一天，你的女朋友來看你，你想請她去最棒的餐館晚餐。請問您會如何選擇餐館呢?在這個例子里，利用就意味著你帶她去所知道的八家中最好吃餐館;而探索則是帶她去你從沒吃過的第九家或第十家餐館晚餐。

　　如果你選擇八家中最好吃的餐館，那么，也許第九家或第十家比這八家都好吃呢?反之，如果你選擇第九家或第十家，也許這兩家也可能比那八家都難吃。

　　那么，你該如何選擇呢?這就是“探索-利用”困境。強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)，一個標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法必然要包括探索和利用，強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)。

　　谷歌的專家們(即人類老師)已經(jīng)把這種“探索和利用”平衡的技巧(算法)教給了AlphaGo(機(jī)器學(xué)生)，讓AlphaGo(及AlphaGo Zero)超越了人類的圍棋頂尖高手。

　　傳統(tǒng)的人類學(xué)習(xí)是學(xué)以致用(利用所學(xué))為依歸，由于常常受限于現(xiàn)有知識，無論是人類或機(jī)器學(xué)生都只能得到區(qū)域最優(yōu)，如圖2所示。

　　因此，無論是機(jī)器學(xué)生或人類學(xué)生，一旦具有強(qiáng)化學(xué)習(xí)能力，都能大大提升其探索未知機(jī)會的能力，有信心去探索更大的狀態(tài)空間，從而得到全局最優(yōu)，讓學(xué)生們成為AI時代的大贏家，人人能探索更多可能，也捕捉到更多好機(jī)會。

2 懂得避風(fēng)險，才敢大膽探索、才有熱情創(chuàng)新

　　大膽探索的同時，必須要有效降低風(fēng)險。這是AI時代人類可以向機(jī)器學(xué)習(xí)的重要一課。AI強(qiáng)化學(xué)習(xí)已經(jīng)把這種“探索-利用”最佳平衡的算法效益發(fā)揮出來，然而需要搭配一種降低風(fēng)險的策略。AlphaGo的目標(biāo)總是將獲勝機(jī)率最大化放在第一位，它會透過尋找確定的搜索途徑實(shí)現(xiàn)最低風(fēng)險的獲勝機(jī)會。例如，AlphaGo的行為會傾向?yàn)榱巳俣艞壐嘹A子數(shù)，只為了降低不能取勝的風(fēng)險。

人類如何-2.jpg

　　AlphaGo的蒙地卡羅算法給出的是搜索之后的勝率評估，然后AI會根據(jù)這個勝率來選擇落子點(diǎn)。懂得避免風(fēng)險，才敢大膽探索、熱情創(chuàng)新。因而，AlphaGo能在高度不確定性的圍棋棋局中超越人類高手。俗語說，商場如戰(zhàn)場，它們都跟圍棋競賽一樣具有高度的不確定性。因而人們(如企業(yè)家)可以從AlphaGo學(xué)會如何在商場上，善于面對如圍棋棋局中高度不確定性的市場環(huán)境，超越其他競爭者!

3 與不確定性共舞(Living with uncertainty)

　　向AlphaGo學(xué)習(xí)，有助于提升人們(如學(xué)生)的避風(fēng)險能力和信心，以便更具備創(chuàng)新精神。就如同，下述這句名言：

　　“When you focus on problems，you’ll have more problems. When you focus on possibilities，you’ll have more opportunities.”(當(dāng)你專注于問題時，您就會有更多的問題;當(dāng)您專注于可能性時，您就會有更多的機(jī)會。)

　　當(dāng)人們一直專注于問題時，是基于過去經(jīng)驗(yàn)，評估具有現(xiàn)實(shí)條件支撐，力求化解問題或避免問題發(fā)生的或然性(probability)，在心中逐漸萌生具有高度的明確感。這種通過或然性思維而得到地明確感稱為或然性明確感。

　　大家都知道，當(dāng)面對不確定情況時，人們總是需要明確感才會安心。大多數(shù)人習(xí)慣于或然性思維，一直專注于問題，力求化解問題或避免問題發(fā)生的或然性。于是，在心中逐漸萌生具有高度安心的明確感

　　這種或然性思維得到的明確感稱為或然性明確感，但是，常常會基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過濾掉機(jī)率小的可能方案，而失去許多機(jī)會。

　　可能性明確感試圖涵蓋未來各種可能的機(jī)會，避免基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過濾掉或機(jī)率小的可能方案。然后，逐步探索經(jīng)驗(yàn)和現(xiàn)實(shí)進(jìn)行否證而去蕪存菁，逐漸提升心中的明確感。即面對復(fù)雜和新的未知世界，培養(yǎng)先容納內(nèi)心的不確定性，規(guī)劃方案并采取行動試驗(yàn)(試錯)，逐漸提升明確性和信心。

　　可能性意味著或然性很小的事件，有人稱之為“黑天鵝”。它的出現(xiàn)，初期并不起眼，經(jīng)過一段時間，逐漸產(chǎn)生乘數(shù)效果的巨大效應(yīng)。為什么會是“當(dāng)你專注于可能性時，你就會有更多的機(jī)會”呢? 因?yàn)樯鲜龅囊欢螘r間是一項(xiàng)寶貴的資產(chǎn)，例如，張榮發(fā)先生也是洞悉到物流集裝箱(黑天鵝)而獲得寶貴時間，并且預(yù)做準(zhǔn)備，因而獲得更多機(jī)會。而后來才進(jìn)入的競爭者，就因缺乏時間資源而失去競爭力。

　　大多數(shù)人習(xí)慣于或然性思維者，他們常常成為失去寶貴時間的后知后覺者，因?yàn)樗麄儠X得黑天鵝，還沒普及流行，尚未成氣候。這種面對不確定，逐步提升心中的明確感，通稱為與不確定性共舞。人們總是需要明確感才會安心?；蛉恍悦鞔_感與可能性明確感，其目的是一致的：滿足內(nèi)心所需的明確感。只是手段不同而已。

　　例如，一只小獅子肚子餓了，依據(jù)成功經(jīng)驗(yàn)奮力去追兔子，只是捕獲的兔子日漸減少(可能兔子變敏感了)，有些困惑(明確感降低)。這只小獅子的媽媽就教他：肚子餓了，就閉上眼睛睡大覺，不要亂跑。小獅子滿腦困惑，不確定感急速上升，非常不安。但母命難違，只好勉強(qiáng)為之，果然耳朵變靈敏了，清晰地聽見兔子聲音越來越近，然后猛然奔出一抓，輕易捕獲，飽餐一頓，繼續(xù)睡大覺。

　　君不見，身為野獸之王的雄獅、母獅，常?？此葡胨X的表情，真是“總裁獅子心”呀! 小獅子專注于問題(如肚子餓了)，卻引來更多的問題(如追累了，走不動，引來生命危險)。媽媽教小獅子不要圍繞問題，而專注于可能性(如原來以為兔子不可能自動送上門)，反而發(fā)現(xiàn)更多的機(jī)會(如更容易填飽肚子的新途徑)。

4 結(jié)論

　　從AlphaGo下圍棋可以發(fā)現(xiàn)，在面對高度不確定性的環(huán)境時，它懂得專注于可能性，探索更多機(jī)會，獲得全局最優(yōu)而出人頭地。人類可以從AlphaGo學(xué)習(xí)到與不確定性共舞的能力，就會如同小獅子一般，探索到更多贏家之道。

　　參考文獻(xiàn)：

　　[1] 高煥堂. VR內(nèi)容、素材及其行業(yè)應(yīng)用[J].電子產(chǎn)品世界, 2016(11):88.

　　[2]王瑩.人工智能的進(jìn)展及發(fā)展建議[J].電子產(chǎn)品世界, 2017(2-3):23-26.

　　[3]王瑩,王金旺.異構(gòu)計算帶來AI視覺新突破[J].電子產(chǎn)品世界, 2017(7):28-29.

　　本文來源于《電子產(chǎn)品世界》2018年第5期第76頁，歡迎您寫論文時引用，并注明出處。