博客專欄

EEPW首頁 > 博客 > IJCAI 2021 | 一文了解微軟亞洲研究院機(jī)器學(xué)習(xí)方向前沿進(jìn)展(1)

IJCAI 2021 | 一文了解微軟亞洲研究院機(jī)器學(xué)習(xí)方向前沿進(jìn)展(1)

發(fā)布人:MSRAsia 時(shí)間:2021-09-20 來源:工程師 發(fā)布文章

編者按:第30屆國際人工智能聯(lián)合大會(huì) IJCAI 2021 于8月19日-26日在線上正式召開。此次大會(huì)共收到4204篇投稿,其中587篇論文被接收,接收率為13.9%。在本屆會(huì)議中,微軟亞洲研究院也有多篇論文入選,今天我們精選了其中的5篇來為大家進(jìn)行簡要介紹。歡迎大家積極參與文末的投****活動(dòng),我們將邀請大家最感興趣的論文的作者進(jìn)行深度講解,與大家線上交流!

01 利用獨(dú)立性的優(yōu)勢函數(shù)估計(jì)方法

1.png

論文鏈接:

https://www.ijcai.org/proceedings/2021/0461.pdf

在強(qiáng)化學(xué)習(xí)中,優(yōu)勢函數(shù)  (advantage function)  普遍采用蒙特卡洛  (MC)、時(shí)間差分  (TD),以及一種將前兩者結(jié)合的優(yōu)勢函數(shù)估計(jì)算法(GAE)  等進(jìn)行估計(jì),而這些算法都存在方差較高的問題。因此,微軟亞洲研究院的研究員們首次提出通過利用環(huán)境中存在于當(dāng)前動(dòng)作和未來狀態(tài)之間的獨(dú)立性,來降低優(yōu)勢函數(shù)估計(jì)中的方差。

在該方法中,存在于環(huán)境中的獨(dú)立性可以用來構(gòu)建一個(gè)基于重要性采樣 (importance sampling) 的優(yōu)勢函數(shù)估計(jì)量。該估計(jì)量可以忽略未來無關(guān)的部分獎(jiǎng)勵(lì),從而減小估計(jì)中的方差。為了進(jìn)一步減少優(yōu)勢函數(shù)估計(jì)的方差,研究員們把該估計(jì)量和已有的蒙特卡洛估計(jì)量進(jìn)行融合,并將最終的優(yōu)勢函數(shù)估計(jì)量命名為 IAE (Independence-aware Advantage Estimation)。實(shí)驗(yàn)結(jié)果表明,在策略優(yōu)化算法中,IAE 與現(xiàn)有的優(yōu)勢函數(shù)估計(jì)方法  (GAE, MC)  相比,達(dá)到了更高的樣本利用率。

事實(shí)上,現(xiàn)有方法往往先估計(jì)值函數(shù) Q(s,a) 和 V(s),再將二者相減,進(jìn)而估計(jì)優(yōu)勢函數(shù)。但當(dāng)值函數(shù)覆蓋的時(shí)間范圍較大時(shí),估計(jì)值函數(shù)就需要考慮未來較長時(shí)間內(nèi)的總獎(jiǎng)勵(lì),因此導(dǎo)致了高方差的問題。

當(dāng)環(huán)境中存在獨(dú)立性時(shí),優(yōu)勢函數(shù)的估計(jì)就不需要考慮環(huán)境中的部分獎(jiǎng)勵(lì),從而使得估計(jì)中的方差減小。舉個(gè)例子:假設(shè)智能體當(dāng)前的任務(wù)是打乒乓球,在該環(huán)境下,智能體每贏得一分或輸?shù)粢环趾螅螒虻臓顟B(tài)都會(huì)被重新設(shè)置到起始狀態(tài),并繼續(xù)進(jìn)行下一輪游戲。當(dāng)對智能體每一個(gè)動(dòng)作的優(yōu)勢函數(shù)進(jìn)行估計(jì)時(shí),由于智能體每個(gè)動(dòng)作的影響都被限制在當(dāng)前回合內(nèi),所以下一輪及之后的獎(jiǎng)勵(lì)實(shí)質(zhì)上不影響優(yōu)勢函數(shù)的估計(jì)。

上述例子表明,如果執(zhí)行當(dāng)前的動(dòng)作不影響未來某些狀態(tài)的概率,那么這些未來狀態(tài)上的獎(jiǎng)勵(lì)在估計(jì)優(yōu)勢函數(shù)時(shí)就可以被忽略。研究員們對上述觀察進(jìn)行了概括和抽象,并提出了基于重要性采樣的優(yōu)勢函數(shù)估計(jì)量。下面給出的是基于重要性采樣推導(dǎo)出來的該估計(jì)量的形式:

2.png

此公式證明了如下的估計(jì)量是優(yōu)勢函數(shù)的無偏估計(jì)量:

3.png

在后續(xù)推導(dǎo)中,研究員們進(jìn)一步將上述基于重要性采樣的估計(jì)量與基于蒙特卡洛的優(yōu)勢函數(shù)估計(jì)量進(jìn)行結(jié)合,并通過優(yōu)化結(jié)合后估計(jì)量的方差,使優(yōu)勢函數(shù)估計(jì)的方差更小。同時(shí),研究員們將組合后的優(yōu)勢函數(shù)估計(jì)量命名為 IAE,并在實(shí)驗(yàn)中測量了 IAE  的估計(jì)性能。最后,研究員們還提出了上述公式中重要性采樣的概率比值的估計(jì)方法,并且還利用其對該概率比值進(jìn)行了準(zhǔn)確的估計(jì)。

在 tabular 設(shè)置下,研究員們構(gòu)建了多種包含3個(gè)狀態(tài)的馬爾可夫決策過程 (MDP),并且在這些設(shè)置中包含了不同的轉(zhuǎn)移函數(shù)設(shè)置和不同的獎(jiǎng)勵(lì)設(shè)置。研究員們比較了  IAE、蒙特卡洛、重要性采樣三種優(yōu)勢函數(shù)估計(jì)量在不同設(shè)置下的標(biāo)準(zhǔn)差,結(jié)果見表1。實(shí)驗(yàn)結(jié)果表明,IAE 的估計(jì)量的標(biāo)準(zhǔn)差顯著小于蒙特卡洛和重要性采樣的估計(jì)量的標(biāo)準(zhǔn)差。

4.png

表1:不同設(shè)置下 IAE、MC、IS 的標(biāo)準(zhǔn)差

為了驗(yàn)證 IAE 在策略優(yōu)化中的作用,研究員們將 IAE、蒙特卡洛、GAE 分別作為 PPO 算法中的優(yōu)勢函數(shù)估計(jì)方法,使用 PPO 算法進(jìn)行策略優(yōu)化,并觀察不同優(yōu)勢函數(shù)估計(jì)方法在策略優(yōu)化中的性能。該實(shí)驗(yàn)使用高維圖像作為狀態(tài),即智能體的策略和優(yōu)勢函數(shù)的估計(jì)均只使用圖像輸入。PPO 算法在不同優(yōu)勢函數(shù)估計(jì)方法下的訓(xùn)練曲線圖1,兩幅圖對應(yīng)于兩種不同的獎(jiǎng)勵(lì)設(shè)置。實(shí)驗(yàn)結(jié)果表明,IAE 作為優(yōu)勢函數(shù)估計(jì)算法時(shí),策略優(yōu)化過程的樣本利用率更高。

5.png

圖1:PPO 算法在不同優(yōu)勢函數(shù)估計(jì)方法下的訓(xùn)練曲線

02 面向合作與非合作任務(wù)的多智能體強(qiáng)化學(xué)習(xí)方法MFVFD

6.png

論文鏈接:

https://www.ijcai.org/proceedings/2021/0070.pdf

多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning, MARL) 有望幫助解決各種現(xiàn)實(shí)世界中的問題。然而,追求有效的MARL 面臨著兩大挑戰(zhàn):部分可觀察性和可擴(kuò)展性限制。為了應(yīng)對這兩大挑戰(zhàn),并使得 MARL 適用于競爭任務(wù)、合作任務(wù)以及混合任務(wù),微軟亞洲研究院和北京大學(xué)的研究員們在中心訓(xùn)練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)的框架下,從個(gè)體值函數(shù)分解 (Value Function Decomposition,VFD)的角度,結(jié)合平均場理論(Mean Field Theory,共同提出了一種新穎的多智能體 Q 學(xué)習(xí)方法——MFVFD。

正所謂“非宅是卜,唯鄰是卜”,如果鄰里和睦,則利人利己;而鄰里不和,則多是非。也就是說,在多智能體系統(tǒng)中,個(gè)體不僅要考量最大化自身的利益,也要考量其臨近智能體的行為對齊本身的影響。比如,在足球環(huán)境中,球員射門得分與否,除去依賴球員個(gè)體自身的射門能力之外,還會(huì)受到近鄰智能體的影響,即優(yōu)秀的隊(duì)友與糟糕的對手會(huì)促進(jìn)得分,而糟糕的隊(duì)友和優(yōu)秀的對手則會(huì)阻礙得分。

為了研究多智能體如何在既有合作又有競爭的環(huán)境下的表現(xiàn),研究員們基于平均場理論將個(gè)體在多智能體系統(tǒng)中基于全局信息的動(dòng)作值函數(shù),近似為基于局部信息估計(jì)的個(gè)體動(dòng)作值函數(shù)與基于近鄰信息的平均場影響函數(shù)的和,公式如下:

7.png

其中,Q_LOC^i 為基于局部信息的個(gè)體 i 的動(dòng)作值函數(shù),用于動(dòng)作選擇;Q_MF^i 為基于近鄰信息的平均場影響函數(shù),用于輔助對 Q_LOC^i 的估計(jì)??紤]到智能體不同近鄰的重要性不同,所以研究員們使用注意力機(jī)制(Attention)建立了單體與近鄰的權(quán)重 λ^i (o^i,o^k,a^i,a^k),并基于此計(jì)算帶有重要性權(quán)重的近鄰觀測分布  μ_o (o^(-i) ) 和動(dòng)作分布 μ_a (a^(-i) ) ,以構(gòu)建平均場影響函數(shù) Q_MF^i。

8.png

圖2:MFVFD 網(wǎng)絡(luò)結(jié)構(gòu)圖

在主試驗(yàn)部分,研究員們選取了 MAgent Battle 任務(wù),對 MFVFD 在具有大規(guī)模智能體且具有部分觀測的限制下的性能進(jìn)行了驗(yàn)證。在該任務(wù)中,紅藍(lán)雙方各具有400個(gè)智能體,每個(gè)智能體具有局部觀測,且無法通訊,其通過消滅敵人來獲得獎(jiǎng)勵(lì)。由于每個(gè)智能體以優(yōu)化各自的獎(jiǎng)勵(lì)為目標(biāo),所以單體會(huì)與同伴競爭殺敵數(shù)量,來獲取更多的個(gè)人獎(jiǎng)勵(lì)。除此之外,單體還會(huì)與同伴配合避免被殺害,以消滅所有敵人獲取更多的團(tuán)隊(duì)獎(jiǎng)勵(lì)。因此,這是一個(gè)合作和競爭混合的復(fù)雜任務(wù)。如圖3所示,MFVFD(紅色)與基線方法的(藍(lán)色)相比,學(xué)會(huì)了更難的團(tuán)體配合的圍殲策略,取得了勝利。從對抗勝率上可以看出,MFVFD 在所有的基線方法中,幾乎處于不敗地位。

9.png

圖3:MFVFD 與基線方法相比

此外,研究員們還選取了三個(gè)任務(wù)對 MFVFD 方法進(jìn)行了理論分析,分別是:重復(fù)矩陣博弈任務(wù)----鷹鴿博弈與非單調(diào)合作博弈;合作導(dǎo)航任務(wù)----Cooperative Navigation;交通任務(wù)----Traffic Benchmark。從長遠(yuǎn)來看,MFVFD 在實(shí)際環(huán)境中能夠有實(shí)際可行的研究價(jià)值。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉