倫敦大學學院計算機系教授汪軍:決策大模型
不久之前,在機器之心舉辦的「決策智能產(chǎn)業(yè)應用」在線圓桌論壇上,倫敦大學學院計算機系教授汪軍發(fā)表了主題演講《決策大模型》。
機器之心對汪軍教授的演講內(nèi)容進行了不改變原意的整理。感興趣的小伙伴可以點擊閱讀原文查看回顧視頻。
謝謝機器之心的邀請,我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領域做的一些研究,同時我認為大模型很重要,它代表了其在現(xiàn)在技術上的一個思路,不管從技術突破層面,還是實際應用層面,大模型可能給大家?guī)聿灰粯拥臇|西,同時大模型也有不足之處,學術界、工業(yè)界也在不斷地推進大模型發(fā)展,所以這是一個不斷發(fā)展的研究領域,最后我會點題大模型。
決策智能和預測智能是有差別的。需要強調(diào)的是在人工智能應用領域,一開始我們是在做感知智能、預測智能,這相當于在數(shù)據(jù)里面找規(guī)律,有了規(guī)律以后,我們希望能夠反饋到數(shù)據(jù)來改變數(shù)據(jù),甚至能夠優(yōu)化決策,對數(shù)據(jù)產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個名為「數(shù)字大腦研究院」的機構,這是一家以科技創(chuàng)新與資本聯(lián)動方式加速科技成果快速商業(yè)化的新型科研機構,已經(jīng)研發(fā)出全球第一個多智能體決策大模型。其目的也是想把決策智能應用,進行更清楚地梳理,特別是用大模型大數(shù)據(jù)來解決決策智能問題,驅動各產(chǎn)業(yè)全面智能化升級。
今天我講的內(nèi)容主要分成幾個部分。
首先我會介紹決策在數(shù)學上是怎么表達的,以及為何如此重要。
第二部分我會介紹決策智能最重要、最關鍵的問題:安全性和魯棒性問題。決策智能可應用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對安全要求其實并不高,其本質(zhì)就是推薦內(nèi)容,推薦錯了也不會造成大的財產(chǎn)損失,只要平均能提高百分之幾的點擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個從理論上、實際上都要保證它是安全、魯棒的。因此我會介紹一下這方面的思路是什么、研究方法,以及可能的實現(xiàn)方法,此外我還會介紹各個技術點。
第三部分我會介紹因果分析。
第四部分我會介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數(shù)據(jù)樣本效率特別高,使得我們在小數(shù)據(jù)的情況下也可以做決策。
最后我會介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀作為哲學家和數(shù)學家,就開始思考人是怎樣做決策的。當然那時的科學還是比較落后的,給出的解釋是比較機械的。大家都知道所謂的二元論觀點,即在大腦里面,二元論觀點認為有一個特定的器官:松果體。心靈和肉體之間有一個交互的地方,這個地方就是在大腦的松果體里。心靈是沒法解釋的,但是心靈可以控制人體行為動作,通過心靈的引導人類能夠進行一些日常決策、行動等。以上是對人的決策解釋。
其實再往前、往大的地方考慮的話,有一個思路可以去解釋人、生命,即熵增熵減。整個宇宙是一個熵增的過程,即從有序變無須的狀態(tài)。假設某個封閉的空間被抽成了真空,在一邊劃一個裂縫,將氣體放進去,慢慢擴散到整個空間,這種氣體的擴散就是從有序變成無序的狀態(tài)。生命體則相反,吸收能量,是從無序走向有序的狀態(tài);于是從人生下來到死亡是一個熵減的過程。人的生活日常其實是在找規(guī)律,即使生活環(huán)境在變,人內(nèi)環(huán)境的很多東西是不會變的,比如說身體的體溫,身體體液的成分等。所以作為一個生命體,無論外界的情況如何變化,其內(nèi)部總是希望保持一個恒定的狀態(tài)。
人類開發(fā)了人工智能以及各種技術,必然是幫助我們解決不變性的,或者說是解決熵減。所以按照這個思路進行思考,就會比較容易理解一個生命體如何去做決策,或者說生命體做決策原理是什么。我們用一個最簡化的數(shù)學模型來描述這個過程。
如下圖,比如說整個世界假設它是不可知的,我們可以用一個隱變量 s* 來描述這個世界(或者說代表世界運行的規(guī)律或真理)。然后作為個體,比如生命體或是細胞,存在于這個世界當中,受這個世界運行影響。這個生命體不知道 S * 但會觀察這個外部世界,假設這個觀察量是 o (因為 s * 是不可觀察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過 o,生命體對 s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規(guī)律。比如說重力,牛頓根據(jù)蘋果落地這樣一個事實,他觀察到了這種現(xiàn)象 o,對真實世界產(chǎn)生一定認知和理解,這個認知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因為其代表了個體對外界的理解。當個體理解以后,個體就會采取行動(下圖的 u)改變世界,比如說人,人可以改變世界,細胞可以釋放某些東西,與病毒做斗爭,所有這些都是個體對外界的影響。在外界影響的情況下,改變自然界,自然界然后又會出現(xiàn)新的狀態(tài)規(guī)律,個體在根據(jù)觀察做出理解和改變,依次反復。
所以對于感知智能來說,感知是從觀察到發(fā)現(xiàn)規(guī)律 o -> s;決策智能,就是從規(guī)律再返回事件 s -> u,來改變數(shù)據(jù)環(huán)境。
感知是主觀的,它是個體的感知,每個人可能不一樣,難以用語言來描述,但可以通過其他方式來描述。人與人之間會產(chǎn)生共鳴,這是為什么?因為你的感知和另外一個人的感知,對于觀察到的同一個東西或者觀察到的同一現(xiàn)象可能不一樣,但是會產(chǎn)生共鳴。所以當你看到這些繪畫的時候,就會和這些繪畫的作者產(chǎn)生共鳴。所以這就是感知方面的一個規(guī)律,這個也就是藝術存在的本源。
決策是如何進行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著名的數(shù)學家,同時也是計算機學科的奠基人,他同時也創(chuàng)立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數(shù)學工具來告訴大家怎樣去做決策。其數(shù)學表達可以認為是優(yōu)化某一個特定的函數(shù),選擇能夠最大化函數(shù)的值。
如果一個智能體是理性的話,那么怎樣做決策呢?我們還是用上面的這個例子來講,假設人或者機器都可以,他們存在于一個世界中,我從外界觀察到一個信號 o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說,當我觀察 o 的時候,其實對 s 到底長什么樣已經(jīng)有了一定的估計,比如說一個分布和描述。通過觀察 o 之后的后驗知識,那么我對自然界的一些規(guī)律和法則有了一定的了解。這個了解反映在它的分布和后驗概率上 p(s|o)。也就是說,我對它的了解有一定的不確定性。
再來看所謂的獎勵函數(shù)。如果自然界長成這個樣子 s,我采取了行動 u,那么我的獲利應該是多少,我們用 R(s,u) 這個函數(shù)來描述?只要你可以定義這個獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預期利益或者說平均利益。貝葉斯決策理論可以告訴你,這個就是最優(yōu)的決策。剛才其他演講者講到強化學習和優(yōu)化,無外乎就是上述公式,優(yōu)化一個特定的(獎勵)函數(shù)。我選擇的這個決策變量使得這個函數(shù)值是最大化的。
另外一個更基礎的問題來了,什么是智能呢?其實,智能可以用函數(shù)來解決。我使得自己的長期收益是最好的,比如說經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽到鈴聲就會產(chǎn)生唾液呢?這是因為它學習到了你經(jīng)常一敲鈴便會給它食物,這樣狗當然就迅速行動了。
從長期角度來講,對狗這個生命體來說,它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現(xiàn)是它可以適應環(huán)境獲取食物,從長時間來達到它的受益。
但實際上,我們說做(機器)決策智能的時候,包括將來講的應用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應用到了。我之前做聯(lián)合創(chuàng)始人的公司就是專門做強化學習用于互聯(lián)網(wǎng)廣告。除了強化學習,決策智能有其他的表現(xiàn)形式或數(shù)學表達,能夠解決不一樣的東西。
剛才有演講者講到了運籌優(yōu)化的內(nèi)容。運籌優(yōu)化本質(zhì)是個優(yōu)化問題,就是我給定一個目標函數(shù) f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數(shù) f。這個函數(shù)可以是剛才說到的 utility 獎勵函數(shù),也可以是其他各種各樣的函數(shù)。那么如果從這個角度來講的話,它就有很廣泛的用途。
比如其他演講者所講的電廠和 EDA 優(yōu)化的問題。生物化學上,我們甚至可以用它來尋找抗體,就是用機器學習或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時允許去試錯。我們找一些 x「喂」到 f 里面,然后去測試(給出 f 的值)。如果說我們的任務是找抗體的話,則允許做一些黑盒實驗,看看化學反應如何。然后我們再去建一個對 f 了解的模型,叫做代理模型(surrogate model)。接著再創(chuàng)建一個采集函數(shù) (acquisition function),告訴我們下一個實驗應該怎么做 (下一個測試的輸入值 x 應該是什么),然后無限循環(huán)往復,直到實現(xiàn)最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時它也能減少做實驗的次數(shù),所以貝葉斯優(yōu)化可以幫助我們在數(shù)據(jù)稀疏的情況下,去優(yōu)化決策。
大約一年前,我?guī)еA為團隊一起做了一個貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統(tǒng)已經(jīng)開源,被研究者廣泛使用,該研究應用領域包括在 Auto ML、蛋白質(zhì)設計、 MindSpore 超參數(shù)優(yōu)化、機器學習系統(tǒng)里的 rate 超參數(shù)優(yōu)化,此外還包括各種各樣的實際場景應用。接下來我會介紹幾個例子,我認為這是比強化學習更容易落地、更接地氣的方法,因為這種方法對數(shù)據(jù)要求不高。
以上是我介紹的決策智能一些重點內(nèi)容。那么決策智能難點在哪?剛才有演講者講了安全的知識,安全在決策智能中非常重要,我會稍微介紹一下最近的一些算法,然后我再講一些因果分析的內(nèi)容(對決策的可解釋性提供了理論基礎)。
大約十多年前,我剛去 UCL 的時候,對互聯(lián)網(wǎng)搜索的問題很感興趣。其中很關心搜索引擎的不確定性問題,比如用戶使用百度搜索 iPhone 4 代,能搜索出結果。但是當用戶搜索了一個困難的主題關鍵字,可能沒有一個跟用戶的需求相關的,那么用戶就會不在用這個搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個有效的方法避免以上問題出現(xiàn)。
我們該如何看待這個問題?其實就是最大化用戶滿意度。我們在 2009 年做過一套理論,參考了投資的一些原則,就是不要把所有的錢都投到同一個地方。為什么這樣做?因為股****價值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時,不要把你認為用戶相關的都展示出來,萬一判斷有錯怎么辦,所以你要多樣化你的文件列表。當時在學術圈,大家都已經(jīng)開始做 多元化排序了,但其實沒有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時候多樣化,多樣化多少的的。SIGIR 對這個工作非常認可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對這個工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時代,需要做更加精細的決策,安全與風險是其中重要的部分。我之前帶領了華為諾亞實驗室倫敦團隊,在 2022 年發(fā)表在機器學習會議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿足安全約束對于在現(xiàn)實應用中部署強化學習 (RL) 至關重要。例如,飛機著陸和起飛在理想情況下應該以概率 1 發(fā)生。我們團隊通過引入安全增強的馬爾可夫決策過程(MDP)來解決這個問題,其中通過將安全約束增強到狀態(tài)空間并重塑目標來消除安全約束。團隊證明了 “炒” (Saute)過的馬科夫決策過程( MDP) 滿足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿足約束的安全強化學習。團隊認為 Saute MDP 采用了一個不同角度對待安全決策問題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強允許跨安全約束的策略泛化。最終表明,當約束滿足非常重要時,Saute RL 算法可以超越其最先進的算法。在下圖所示的實驗中,可以 Saute RL 算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線表示 100% 安全。Saute RL 算法在一些安全性要求較高的場景廣泛應用,比如電力、自動駕駛等。
這是我們做的一個實驗,可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們在一些嚴格的安全性場景里,比如電力、自動駕駛等,我們就可以廣泛地使用這些強化學習和優(yōu)化決策的方法了。
另外一個更難的問題是如何保證模型訓練安全。我們將類似的方法運用到訓練中。訓練過程中加入一個安全狀態(tài),它會記錄歷史上的操作是否安全,在學習的過程中可以根據(jù)安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數(shù)字孿生,這其中涉及模型和數(shù)據(jù)的關系。所謂數(shù)字孿生,本質(zhì)就是對真實世界建模,如果僅憑自己想象建模,那結果和真是世界差別很大。同樣的道理,假如你有數(shù)據(jù),但數(shù)據(jù)不代表真實情況,數(shù)據(jù)在采樣的情況下就存在偏差,用存在偏差的數(shù)據(jù)建立模型,顯然不能真實地反映情況,導致模型和數(shù)據(jù)之間有差別。如果你用這些數(shù)據(jù)建立數(shù)字孿生去仿真、去學習,顯然不準確。所以數(shù)字孿生的核心問題就是建立必須要讓它與環(huán)境一致、與數(shù)據(jù)一致 。舉例來說,在推薦系統(tǒng)里面,我們可以去做推薦的仿真 ,可以去仿真數(shù)據(jù),但是要強調(diào)的是仿真必須跟真實情況保持一致。
我認為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎。他提出的 結構化的因果模型(structure causal model)對 因果關系提供了一個系統(tǒng)的描述。從我個人理解來講,如果將其與 圖模型或者主流的統(tǒng)計方法相比的話,主要區(qū)別在于增加了外生變量,這些外生變量對系統(tǒng)會造成改變。我們必須有一套理論去理解它,而不是假設它不存在,假如這些外生變量不存在,你就沒有規(guī)則去完全消除這些偏差( bias)的問題。只有對這些外生變量建模,模型才會有效。Judea Pearl 的一個思路很有意思,就是系統(tǒng)的介紹了干預和想象的操作。比如 A 和 B 經(jīng)常在一起,當有 A 的時候,預測 B 的存在。但實際上 A 和 B 的存在可能是另外一個 confounding 干擾變量的影響, A 和 B 實際上沒有任何內(nèi)在的因果關系,他們只是關聯(lián)(association)的關系。
第二個就是 DO 操作,就是去干預 ,假如改變某一個量,另外一個量會不會隨之改變。如果我看到 A ,就說明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因為另外一個 confounding 的存在導致 B 一直存在,所以你可以通過此方法進行分析 。
第三個是想象 (imagine),你可以問 what if 問題,剛才我們在講運籌優(yōu)化的時候,會進行 what if 分析,問如果當初我們執(zhí)行另外一個策略,會給我們帶來什么。沒有進行 what if 推論,就把一個策略執(zhí)行到實際中是不科學的。所以,我們需要在仿真器里問「what if question」問題,即如果這樣做結果會怎么樣,是不是有更好的決策,這就是所謂的反事實(counterfactual),它實際沒有出現(xiàn),需要在腦子里進行想象,用數(shù)字孿生去想象,但必須保證 counterfactual 是無偏見的。所以,如果我們要做數(shù)字孿生,就必須解決 counterfactual 的問題。
舉例來說,在智能推薦系統(tǒng)里,首要的問題是數(shù)據(jù)偏差問題,如下圖標記的有用戶 user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個物品 items 要被用戶喜歡并且被觀察到,必須滿足兩個條件,首先要被推薦,如果沒有推薦,用戶就看不到,所以必須和 R 有關系;同時要跟用戶 U 有關系,就是用戶可能喜歡、也可能不喜歡。同時喜歡并且被推薦了,那么這個 item 是被觀察了 S, 在數(shù)據(jù)里面它是有 bias 的,如果它不在推薦系統(tǒng)里面,但用戶是喜歡的,這種情況下是觀察不到的。如果你使用觀察到的這些數(shù)據(jù)來構建仿真器,必然存在一個偏差項,是被推薦過去,只有被推薦過的東西你才會看見被仿真。但實際上還有那些沒有被推薦,實際上用戶可能喜歡的,所以你需要問 what if question,用戶是不是喜歡,如果用戶喜歡,你就推薦,如果用戶不喜歡,你就不推薦。
我們需要構建一個所謂的 數(shù)據(jù)產(chǎn)生模型 data impression model 和用戶反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統(tǒng)里面,它是不存在建模問題的。圖中的 beta 也是個外層變量 ,需要對它進行建模并估計。當出現(xiàn)新數(shù)據(jù)時,我們需要估計 alpha 、beta ,然后再去糾正當前狀態(tài), 進行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統(tǒng),數(shù)據(jù)多事效果會更好。這就面臨一個問題,有了數(shù)據(jù)以后,我是用數(shù)據(jù)來構建仿真器再去做決策,還是直接用數(shù)據(jù)做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構建到這個模型里面,這樣用仿真器才有意義。
小數(shù)據(jù)決策
然后我再講一下貝葉斯優(yōu)化。
我?guī)ьI華為團隊解決電子設計自動化 EDA 問題 時,我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問題。EDA 問題其實是一個離散優(yōu)化 combination optimization 的問題,比如我們研究的一系列序列決策問題。我們在邏輯綜合里面,想把整個的邏輯 數(shù)據(jù)轉換成另一個 更實際的簡化的邏輯實際,使它的邏輯功能完全不變,對于是否完全不變,我可以用 QoR 來橫量它,QoR 值是多少,我是不知道的,我沒有任何的數(shù)學表達,但是經(jīng)過不斷的試錯,可以達到最優(yōu),但怎么提高試錯效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對 QoR 進行建模,然后去解決這個問題。
今年我們也發(fā)表了論文來闡述怎樣用貝葉斯優(yōu)化來做邏輯綜合。順便提一下,我們?yōu)槿A為團隊做的研究達到 SOTA 水平,該研究在公開測試數(shù)據(jù)里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問題提供了一個比較好的思路。
我再舉另外一個例子,我想設計一個抗體能夠抗擊抗原,這兩種蛋白質(zhì)會發(fā)生一些反應。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的,因為可能性空間太大了。小數(shù)據(jù)決策就需要貝葉斯優(yōu)化了。
另外,我們?nèi)绾涡纬蓱么竽P秃痛髷?shù)據(jù)的思路?我們組做了很多多智能體強化學習方向的研究。那么,智能交互相關的研究只能用在游戲上嗎,是不是可以用到其他應用上?回答是肯定的。我們最近做了一個游戲場景的「AI 奧林匹克」系列競賽,因為游戲場景可以放大決策中的關鍵問題,使我們能夠找到其中的規(guī)律。我們的目的是通過游戲的方式弄清楚決策中的技術方法,以用到其他各種場景中。
這個「AI 奧林匹克」競賽和其他仿真游戲的區(qū)別是什么呢?首先在目的上,我們做這個比賽是為了探究智能體泛化性,以用于實際場景。第二,在「AI 奧林匹克」競賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統(tǒng)如何解決問題。
我們只有把一個跨任務的,信息不完備的場景弄清楚,才能夠解決一些實際問題,模型的泛化能力也就增強了。
我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智能的思路。關于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場景」這個問題,我們認為在多智能體場景下可以「重新制定(reformulate)」實際問題。比如在運籌優(yōu)化里,包括經(jīng)典的旅行推銷員問題(TSP,travel salesman problem) 多智能體學習能發(fā)揮 跨任務的優(yōu)勢,也在 meta level 層面解決這個問題。
TSP 是一系列問題,這一系列問題是有共性的。我們要在 meta level 上找到這個共性,建模一個新的 TSP 問題,只需少量數(shù)據(jù)就能很快找到答案,進而對提出解決方案提供指導作用。
傳統(tǒng)的優(yōu)化算法只能解決一個 TSP 問題,對于第二個第三個等等 TSP 問題沒有泛化性。第二,傳統(tǒng)方法中能夠提升模型能力的只有數(shù)據(jù)。解決第一個問題的數(shù)據(jù)可以和之后新添加的數(shù)據(jù)結合起來,讓模型的能力進一步提高。因此這種方法是數(shù)據(jù)驅動的(data driven)。
我們用多智能體的方式,把數(shù)據(jù)驅動和 meta level 結合到 TSP server 里。簡單來說,我會做一個 meta level 的 求解方法,然后有一個 Oracle 評價系統(tǒng)與之對抗。我讓 求解方法 和評價系統(tǒng) Oracle 之間就產(chǎn)生一個對于 TSP 問題的競賽。顯然我們可以用互相競爭的多智能體方法來解決這個問題,例如提供一個跨任務的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運籌優(yōu)化的重要問題。
我們發(fā)現(xiàn)這里存在一個趨勢:從單一問題遷移到 多個任務(meta level) 后,我們可以很快地 pre-solve 預先解決新問題,這類似于 NLP 自然語言問題中預訓練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱為離線學習「offline training」的方法,拉近了 NLP 自然語言和 CV 機器視覺的距離。offline 的意思是運用一些策略(policy)得到一些數(shù)據(jù),然后完全拋開仿真器,直接拿數(shù)據(jù)進行有監(jiān)督訓練。
我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的,因為數(shù)據(jù)有局限性。而 online 方法通過微調(diào)和添加數(shù)據(jù)能夠不斷改進訓練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強,這一個模型幾乎在所有任務上的效果都很好。以前每個任務都單獨用一個模型,而現(xiàn)在一個模型就能解決所有任務。前段時間 DeepMind 發(fā)布了一個大模型,可以解決 CV、NLP 等任務。當然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個模型解決多個領域任務是大勢所趨。我們應該創(chuàng)建一個在跨任務、聯(lián)合 CV、NLP 的通用模型。
在預訓練方面,我們認為多智能體訓練可以用語言模型來做,把所有的智能體和決策都生成出來。因此,語言模型的方法可以直接遷移到多智能體上,以達到一個非常好的效果。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。