強(qiáng)化學(xué)習(xí)機(jī)器人也有很強(qiáng)環(huán)境適應(yīng)能力，伯克利AI室驗(yàn)室賦能元訓(xùn)練+在線自適應(yīng)

作者：時(shí)間：2019-05-20 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：人類可以輕易地適應(yīng)環(huán)境的變化，但機(jī)器在適應(yīng)力方面卻表現(xiàn)得一般，要如何讓機(jī)器像人一樣能夠快速適應(yīng)現(xiàn)實(shí)世界呢？

在現(xiàn)實(shí)生活中，人類可以輕易地適應(yīng)環(huán)境的變化，但機(jī)器人在適應(yīng)力方面卻表現(xiàn)得一般，要如何讓機(jī)器人像人一樣能夠快速適應(yīng)現(xiàn)實(shí)世界呢？加州大學(xué)伯克利分校人工智能實(shí)驗(yàn)室 BAIR 近期介紹了自己研究具有很高的環(huán)境適應(yīng)能力的機(jī)器人的最新成果，雷鋒網(wǎng)全文編譯如下。

本文引用地址：http://2s4d.com/article/201905/400667.htm

圖一【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

人類能夠無縫地適應(yīng)環(huán)境的變化：成年人能夠在幾秒內(nèi)學(xué)會(huì)拄拐走路；人們幾乎在瞬間可以撿起意料之外的重物體；不用重新學(xué)走路，兒童也能夠讓自己的步法快速適應(yīng)從平地到上坡的轉(zhuǎn)變。這種適應(yīng)力在現(xiàn)實(shí)世界中起著很重要的作用。

另一方面，機(jī)器人通常被部署了固定行為（無論編碼還是學(xué)習(xí)），這讓它們?cè)谔囟ǖ沫h(huán)境中做的很好，但也導(dǎo)致了它們?cè)谄渌矫孀霾缓茫合到y(tǒng)故障、遇到陌生地帶或是碰上環(huán)境改變（比如風(fēng)）、需要處理有效載荷或是其他意料之外的變化。BAIR 最新研究的想法是，在目前階段，預(yù)測(cè)和觀察之間的不匹配應(yīng)該告訴機(jī)器人，讓它去更新它的模型，去更精確地描述現(xiàn)狀。舉個(gè)例子，當(dāng)我們意識(shí)到我們的車在路上打滑時(shí)（如圖二），這會(huì)告知我們，我們的行為出現(xiàn)了意料之外的不同影響，因此，這讓我們相應(yīng)地規(guī)劃我們后續(xù)的行動(dòng)。要讓機(jī)器人能夠更好地適應(yīng)現(xiàn)實(shí)世界，就要讓它們能夠利用它們過去的經(jīng)驗(yàn)，擁有快速地、靈活地適應(yīng)的能力，這是重要的一點(diǎn)。為此，BAIR 開發(fā)了一個(gè)基于模型的快速自適應(yīng)元強(qiáng)化學(xué)習(xí)算法。

圖二【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

快速適應(yīng)

先前的工作使用的是試錯(cuò)適應(yīng)方法(Cully et al., 2015)以及自由模型的元強(qiáng)化學(xué)習(xí)方法(Wang et al., 2016; Finn et al., 2017)，通過一些訓(xùn)練，讓智能體去適應(yīng)。然而，BAIR 研究人員的工作是要讓適應(yīng)能力發(fā)揮到極致。人類的適應(yīng)不需要在新設(shè)置下體驗(yàn)幾回，這種適應(yīng)是在線發(fā)生的，僅在幾個(gè)時(shí)間步內(nèi)（即毫秒），太快了以至于不能被注意到。

通過在基于模型學(xué)習(xí)設(shè)置中適應(yīng)元學(xué)習(xí)（下文會(huì)討論），BAIR研究人員實(shí)現(xiàn)了這種快速適應(yīng)。用于更新模型的數(shù)據(jù)應(yīng)該在基于模型中設(shè)置，而不是根據(jù)推算過程中獲得的獎(jiǎng)勵(lì)而進(jìn)行調(diào)整，根據(jù)近期經(jīng)驗(yàn)，這些數(shù)據(jù)以模型預(yù)測(cè)錯(cuò)誤的形式在每一個(gè)時(shí)間步長(zhǎng)中發(fā)揮作用。這個(gè)基于模型的方法能夠讓機(jī)器人利用僅有的少量近期數(shù)據(jù)，有意圖地更新模型。

方法概述

圖三【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

BAIR研究人員的方法遵循圖三中的普適公式，利用對(duì)近期數(shù)據(jù)的觀察去自適應(yīng)模型，類似于自適應(yīng)控制的總體框架(Sastry and Isidori, 1989; ?str?m and Wittenmark, 2013)。然而，真正的挑戰(zhàn)是，當(dāng)模型是復(fù)雜的、非線性的、高容量的函數(shù)近似者（如神經(jīng)網(wǎng)絡(luò)）時(shí)，模型該如何成功地自適應(yīng)。為了進(jìn)行有意義的學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)需要很多數(shù)據(jù)，因此，在模型權(quán)重上實(shí)行SGD是無效的。

因此，通過在（元）訓(xùn)練時(shí)間里明確地按照這個(gè)適應(yīng)目標(biāo)進(jìn)行培訓(xùn)，能夠在測(cè)試的時(shí)候快速自適應(yīng)，如下節(jié)所述。在多種不同設(shè)置的數(shù)據(jù)中進(jìn)行元訓(xùn)練，一旦得到了一個(gè)善于自適應(yīng)的先驗(yàn)?zāi)Ｐ停?quán)重用θ?來表示）之后，這個(gè)機(jī)器人就能夠在每個(gè)時(shí)間步內(nèi)（圖三）根據(jù)這個(gè) θ?來適應(yīng)，把先驗(yàn)?zāi)Ｐ秃彤?dāng)前的經(jīng)驗(yàn)相結(jié)合，把它的模型調(diào)整到適合當(dāng)前狀況的樣子，從而實(shí)現(xiàn)了快速在線自適應(yīng)。

元訓(xùn)練：

給定任意時(shí)間步長(zhǎng)t，我們處于st階段，我們?cè)赼t時(shí)刻采取措施，根據(jù)底層動(dòng)力學(xué)函數(shù)st+1=f(st,at)，我們最終將得到st+1的結(jié)果。對(duì)我們來說，真實(shí)的動(dòng)態(tài)是未知的，所以我們反而想要擬合一些學(xué)習(xí)過的動(dòng)力學(xué)模型s^t+1=fθ(st,at)，通過觀察表單(st,at,st+1)的數(shù)據(jù)點(diǎn)，做出盡可能好的預(yù)測(cè)。為了執(zhí)行行為選擇，策劃者能夠利用這個(gè)評(píng)估過的動(dòng)態(tài)模型。

假定在首次展示過程中，任何細(xì)節(jié)和設(shè)置都能夠在任何時(shí)間步長(zhǎng)內(nèi)發(fā)生改變，我們將把暫時(shí)接近的時(shí)間步看做能夠告訴我們近況的“任務(wù)”細(xì)節(jié)：在任何空間狀態(tài)下運(yùn)行，持續(xù)的干擾，嘗試新的目標(biāo)/獎(jiǎng)勵(lì)，經(jīng)歷系統(tǒng)故障等等。因此，為了模型能夠在規(guī)劃上變成最有用的模型，BAIR研究人員想要利用近期觀察到的數(shù)據(jù)進(jìn)行首次更新。

在訓(xùn)練時(shí)間里（圖四），這個(gè)總和是選擇一個(gè)連續(xù)的(M+K)數(shù)據(jù)點(diǎn)的序列，使用第一個(gè)M來更新模型權(quán)重，從θ到 θ′，然后優(yōu)化新的 θ′，讓它擅長(zhǎng)為下一個(gè)K時(shí)間步預(yù)測(cè)狀態(tài)轉(zhuǎn)換。在利用過去K點(diǎn)的信息調(diào)整權(quán)重后，這個(gè)新表述的損失函數(shù)代表未來K點(diǎn)的預(yù)測(cè)誤差。

【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

換句話說， θ不需要導(dǎo)致好的動(dòng)態(tài)預(yù)測(cè)。相反，它需要能夠使用具體任務(wù)的數(shù)據(jù)點(diǎn)，將自身快速適應(yīng)到新的權(quán)重中去，依靠這個(gè)新的權(quán)重得到好的動(dòng)態(tài)預(yù)測(cè)結(jié)果。有關(guān)此公式的更多直觀信息，可參閱MAML blog post。

圖四【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

模擬實(shí)驗(yàn)

BAIR研究人員在模擬機(jī)器人系統(tǒng)上進(jìn)行實(shí)驗(yàn)，測(cè)試他們的方法在環(huán)境中適應(yīng)瞬間變化的能力，并且在訓(xùn)練環(huán)境之外，這種方法是否也能夠泛化。值得注意的是，BAIR研究人員對(duì)所有智能體進(jìn)行任務(wù)/環(huán)境分布的元訓(xùn)練（詳見本文），但是研究人員在測(cè)試的時(shí)候評(píng)估了它們對(duì)未知的和不斷變化的環(huán)境的適應(yīng)能力。圖五的獵豹機(jī)器人在不同隨機(jī)浮力的漂浮板上訓(xùn)練，然后在一個(gè)水里具有不同浮力的漂浮板上進(jìn)行測(cè)試。這種環(huán)境表明不僅需要適應(yīng)，還需要快速/在線適應(yīng)。圖六通過一個(gè)有不同腿部殘疾的螞蟻機(jī)器人做實(shí)驗(yàn)，也表明了在線適應(yīng)的必要性，但是在首次展示的時(shí)候，一條看不見的腿半途發(fā)生了故障。在下面的定性結(jié)果中，BAIR研究人員將基于梯度的適應(yīng)學(xué)習(xí)者(‘GrBAL’)和標(biāo)準(zhǔn)的基于模型的學(xué)習(xí)者(‘MB’)進(jìn)行比較，這個(gè)基于模型的學(xué)習(xí)者是在同樣的訓(xùn)練任務(wù)變化但是沒有明確的適應(yīng)機(jī)制中進(jìn)行訓(xùn)練的。

圖五【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

圖六【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

這個(gè)基于模型的元強(qiáng)化學(xué)習(xí)方法的快速適應(yīng)能力讓這個(gè)模擬機(jī)器人系統(tǒng)在表現(xiàn)和/或樣本效率方面相比之前的最好的方法取得了顯著的提升，以及在這同一個(gè)方法的對(duì)照實(shí)驗(yàn)中，有在線適應(yīng)相比沒有在線適應(yīng)、有元訓(xùn)練相比沒有元訓(xùn)練、有動(dòng)態(tài)模型相比沒有動(dòng)態(tài)模型，都可以看到系統(tǒng)表現(xiàn)和/或樣本效率的提升。這些定量比較的詳情可參閱論文。

硬件實(shí)驗(yàn)

圖七①【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

圖七②【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

不僅要強(qiáng)調(diào)元強(qiáng)化學(xué)習(xí)方法的樣本效率，而且還要強(qiáng)調(diào)在現(xiàn)實(shí)世界中快速在線適應(yīng)的重要性，BAIR研究人員在一個(gè)真實(shí)的動(dòng)態(tài)的有足微型機(jī)器人演示了這個(gè)方法（見圖七）。這個(gè)小型的6足機(jī)器人以高度隨機(jī)和動(dòng)態(tài)運(yùn)動(dòng)的形式，展示了一個(gè)建模和控制的挑戰(zhàn)。這個(gè)機(jī)器人是一個(gè)優(yōu)秀的在線適應(yīng)候選人，原因有很多：構(gòu)造這個(gè)機(jī)器人使用了快速制造技術(shù)和許多定制設(shè)計(jì)步驟，這讓它不可能每次都復(fù)制相同的動(dòng)力學(xué)，它的連桿機(jī)構(gòu)和其他身體部位會(huì)隨著時(shí)間的推移而退化，并且，它移動(dòng)的速度非?？欤⑶視?huì)隨著地形的變化而進(jìn)行動(dòng)態(tài)改變。

BAIR的研究人員們?cè)诙喾N不同的地形上元訓(xùn)練了這個(gè)步行機(jī)器人，然后他們測(cè)試了這個(gè)智能體在線適應(yīng)新任務(wù)（在運(yùn)行的時(shí)候）的學(xué)習(xí)的能力，包括少了一條腿走直線任務(wù)、從未見過的濕滑地形和斜坡、位姿估計(jì)中帶有校正錯(cuò)誤或誤差，以及首次讓它牽引載荷。在硬件實(shí)驗(yàn)中，BAIR的研究人員們把他們的方法和兩個(gè)方法做了比較，1，標(biāo)準(zhǔn)的基于模型學(xué)習(xí)(‘MB’)的方法，這個(gè)方法既沒有自適應(yīng)也沒有元學(xué)習(xí)；2，一個(gè)帶有適應(yīng)能夠力的動(dòng)態(tài)評(píng)估模型（‘MB’+“DE”），但它的適應(yīng)能力是來自非元學(xué)習(xí)得到的先驗(yàn)。結(jié)果（圖8-10）表明，不僅需要適應(yīng)力，而且需要從顯式的元學(xué)習(xí)得到的先驗(yàn)進(jìn)行適應(yīng)。

圖八【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

圖九【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

圖十【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

通過有效地在線適應(yīng)，在少了一條腿走直線的實(shí)驗(yàn)中，BAIR的方法阻止了漂移，阻止了滑下斜坡，解釋了位姿錯(cuò)誤校準(zhǔn)，以及調(diào)整到牽引有效載荷。值得注意的是，這些任務(wù)/環(huán)境和在元訓(xùn)練階段學(xué)習(xí)的運(yùn)動(dòng)行為有足夠的共性，從先前的知識(shí)（不是從零開始學(xué)習(xí)）中提取信息是有用的，但是他們的差異很大，需要有效的在線適應(yīng)才能成功。

圖十一【圖片來源：BERKELEY BAIR 所有者：BERKELEY BAIR 】

未來方向

通過使用元學(xué)習(xí)，這項(xiàng)工作能夠讓高容量神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型在線適應(yīng)。從以前的元學(xué)習(xí)開始，通過讓模型的局部微調(diào)，BAIR研究人員排除了對(duì)精確全球模型的需求，而且能夠快速適應(yīng)到新情景中，例如意料之外的環(huán)境變化。盡管BAIR研究人員展現(xiàn)了模擬和硬件在不同任務(wù)中的適應(yīng)結(jié)果，但是，仍存在許多相關(guān)的改進(jìn)途徑。

首先，雖然這種設(shè)置很強(qiáng)大，它總是從提前訓(xùn)練的先驗(yàn)中進(jìn)行微調(diào)，但這個(gè)方法有一個(gè)限制，就是即使看了幾遍這個(gè)新的設(shè)置，也會(huì)得到像第一次看到的同樣的表現(xiàn)。在后續(xù)工作中，BAIR研究人員將采取措施，精確地解決這個(gè)隨時(shí)間而變得嚴(yán)重的問題，同時(shí)不要也因?yàn)樵囼?yàn)了新技能而忘記舊技能。

另一個(gè)提高的領(lǐng)域包含了制定條件或分析性能，以及適應(yīng)的限制：鑒于前面所包含的知識(shí)，什么是能夠適應(yīng)的？什么是不能夠適應(yīng)的？舉個(gè)例子，兩個(gè)人正在學(xué)騎自行車，誰會(huì)突然在路面滑行呢？假定這兩個(gè)人之前都沒騎過自行車，因此他們也不可能從自行車上摔下來過。在這個(gè)實(shí)驗(yàn)中，第一個(gè)人A可能會(huì)摔倒，手腕受傷，然后需要進(jìn)行幾個(gè)月的物理治療。相反，另一個(gè)人B可能借鑒與他先前學(xué)過的武術(shù)知識(shí)，從而執(zhí)行了一個(gè)良好的“跌倒”程序（也就是說，摔倒的時(shí)候翻滾背部來緩沖而不是嘗試用手腕來減弱下降的力量）。這就是一個(gè)實(shí)例，當(dāng)這兩個(gè)人都在嘗試執(zhí)行一項(xiàng)新任務(wù)的時(shí)候，那些他們先前知識(shí)中的其他經(jīng)驗(yàn)會(huì)顯著地影響他們適應(yīng)嘗試的結(jié)果。因此，在現(xiàn)有的知識(shí)下，有某種機(jī)制來理解適應(yīng)的局限性，應(yīng)該會(huì)很有趣。

原論文地址：https://arxiv.org/abs/1803.11347（已被 ICLR 2019 接收）

項(xiàng)目主頁(yè)：https://sites.google.com/berkeley.edu/metaadaptivecontrol

代碼開源地址：https://github.com/iclavera/learning_to_adapt

雷鋒網(wǎng)注：本文編譯自BERKELEY BAIR

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

原文章地址為強(qiáng)化學(xué)習(xí)機(jī)器人也有很強(qiáng)環(huán)境適應(yīng)能力，伯克利AI室驗(yàn)室賦能元訓(xùn)練+在線自適應(yīng)