AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

作者：明敏羿閣時間：2022-11-23 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

AI 都學(xué)會和人類談判了？還能成功說服人類聽它安排？

本文引用地址：http://2s4d.com/article/202211/440783.htm

話術(shù)一流到人類完全分辨不出它是 AI。

這就是 Meta AI 的最新成果 ——AI 模型 CICERO（西塞羅），現(xiàn)已登上 Science。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

嗯，就是和古羅馬著名政治家、演說家西塞羅同名。

研究人員讓這個 AI 西塞羅隱藏身份加入到一個外交游戲里，82 名人類玩家在 40 場游戲中，都沒有懷疑過它其實是個 AI。

而且還戰(zhàn)績斐然，全程平均分達到 25.8%，是人類玩家平均分的 2 倍，并且最終排名為前 10%。

成果一經(jīng)發(fā)布，就在網(wǎng)上引發(fā)熱議。

有人評價：這意味著 AI 在最具人類特點的游戲里戰(zhàn)勝人類，超乎想象…

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

LeCun 都稱它為：里程碑式的研究！

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

目前，模型代碼已在 GitHub 上開源。

真有 AI 縱橫家那感覺了

AI 嘮嗑其實一直都引人詬病，更別提外交這種需要超高話術(shù)的場景了。

它需要理解對方的語言、動機，制定自己的話術(shù)策略，并調(diào)整好措辭。

有時甚至還需要“耍心眼”，故意說一些假話給對方設(shè)套。

這種超高難度任務(wù)，怎么挑戰(zhàn)？

俗話說一口吃不成胖子。

Meta AI 就想到了先從游戲場景來切入（畢竟 AI 在玩游戲上是老手了）。

不過和之前棋類或競技游戲不同，外交游戲并沒有那么強的規(guī)則性，運籌帷幄、隨機應(yīng)變的環(huán)節(jié)不少。

實驗中用到的游戲是 webDiplomacy（以下用“外交游戲”指代它）。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

這款游戲的背景是 1901 年的歐洲，7 位玩家每人控制一個大國，通過相互合作、協(xié)商，盡可能地占領(lǐng)更多領(lǐng)土。

西塞羅的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅(qū)動的。

簡單理解，這里的對話引擎和 GPT-3、LaMDA 類似，戰(zhàn)略推理引擎和 AlphaGo 相近。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

用到的對話模型，是從一個類似于 2.7 億參數(shù)的 BART 模型訓(xùn)練而來。

BART 吸收了 GPT 和 BERT 各自的特點，它比 BERT 更適合文本生成的場景，還能雙向理解上下文語境信息。

具體來看，研究人員先從互聯(lián)網(wǎng)上獲取文本訓(xùn)練對話模型，然后再在實際的外交游戲場景中微調(diào)。

戰(zhàn)略推理引擎用到的是一個規(guī)劃算法（planning algorithm）。

該算法能夠基于現(xiàn)況計算出一個最優(yōu)選擇。再通過強化學(xué)習(xí)訓(xùn)練，懲罰模型做出的“不像人”的策略，以此讓模型給出的策略更合理。

畢竟，在外交游戲中是和人打交道，讓 AI 更像人也是最基本的要求之一。

而且強化學(xué)習(xí)這種迭代式的訓(xùn)練，可以不斷改進 AI 做出的策略預(yù)測。比傳統(tǒng)方法中常用的監(jiān)督學(xué)習(xí)（即打標(biāo)簽的方式）效果更好。

實操中，西塞羅首先會根據(jù)目前為止的游戲狀態(tài)和對話，對每個人的會采取的動作做一個初步預(yù)判。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

接下來，在不斷地協(xié)商過程中，它都會不斷地改進預(yù)測，然后使用這些預(yù)測為自己和合作伙伴設(shè)置一個共同的目標(biāo)。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

其次，它會根據(jù)局勢狀態(tài)、對話及其目標(biāo)，從對話模型中生成幾個候選消息，使用分類器等過濾機制過濾掉無意義的，生成最終的高質(zhì)量輸出文本。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

例如，以下圖為例，在這一局中，西塞羅扮演“奧地利”。

當(dāng)玩家“意大利”向它詢問意見，自己是否應(yīng)該攻擊土耳其時，西塞羅會根據(jù)場上局勢 —— 土耳其正在攻擊俄羅斯，判斷出這是一個兩面夾擊的好機會，然后勸意大利跟進攻打土耳其。

這一步既建立了與意大利的伙伴關(guān)系，又消滅了一個潛在的對手。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不僅如此，談判也是西塞羅的拿手好戲。

這次西塞羅扮演的是“德國”，與玩家“法國”一直在交戰(zhàn)。這時法國南部同時受到了意大利的攻擊，于是向西塞羅請求和談。

西塞羅則趁機獅子大開口，要求法國歸還侵略的領(lǐng)土，并保證不攻擊荷蘭。雙方在討價還價中順利達成了協(xié)議。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

就像上述展示的例子一樣，兩個月間，西塞羅共參與了 40 場外交游戲，與 82 名人類參賽者交鋒。

在每場比賽中，西塞羅都會發(fā)送和接收平均 130 條消息。

其游戲水平甚至強過了人類：平均得分是人類玩家的 2 倍以上，甚至在玩過一場以上游戲的參與者中也能排到前 10% 。

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

看完西塞羅在外交上的精彩表現(xiàn)，有網(wǎng)友感慨 AI 的發(fā)展速度：

Deep Blue 擊敗了卡斯帕羅夫，Watson 擊敗了智力競賽的兩位人類冠軍，現(xiàn)在輪到 Meta AI 敲響馬基雅維利（近代政治思想奠基人）的大門了。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

還有人表示，這難道是邁向通識語言大模型的第一步嗎？

LeCun 給出了肯定回復(fù)：

至少語言是基于事實的。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不過由于這款外交游戲以爾虞我詐著稱，不少人也對此表示擔(dān)憂：

這是直接鼓勵研究人員開發(fā)更多擅長騙人的模型。

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

有網(wǎng)友就表示，玩這游戲甚至?xí)ヅ笥雅丁?/span>

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

而從 AI 西塞羅的戰(zhàn)績來看，它可以迷惑人類玩家，并且說服人類聽從它的策略。

所以有人就表示，這不是 AI 控制人類的選擇乃至生活？

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

不過 Meta AI 表示，AI 西塞羅不是全沒有失誤的。

并且游戲中也還有很多需要和人類協(xié)作的環(huán)節(jié)，西塞羅的表現(xiàn)同樣很好。

目前，它還只被放在游戲場景中測試過，并沒有嘗試過在開放語境下和人類談判。

參考鏈接：

[1]https://www.science.org/doi/10.1126/science.ade9097
[2]https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/
[3]https://twitter.com/ylecun/status/1595081004108206088

新聞中心

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果

網(wǎng)友：雖然它表現(xiàn)好但我很害怕

評論

相關(guān)推薦

技術(shù)專區(qū)

AI 都會和人類談判了？Meta AI 最新研究登上 Science，LeCun 稱里程碑式成果