讓模型向人類學(xué)說話，連帶人類的惰性一起

作者：楊曉凡時(shí)間：2019-09-29 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：為了讓強(qiáng)化學(xué)習(xí)解決真實(shí)世界問題的時(shí)候也能保持實(shí)用性和安全性。

雷鋒網(wǎng) AI 科技評論按：OpenAI 的長期目標(biāo)之一是使用強(qiáng)化學(xué)習(xí)解決真實(shí)世界問題的時(shí)候也能保持實(shí)用性和安全性（這一點(diǎn)和 DeepMind 有類似之處），那么在 OpenAI 看來，使用語言的能力就是達(dá)到這個(gè)目標(biāo)的關(guān)鍵因素之一。

本文引用地址：http://2s4d.com/article/201909/405423.htm

另一方面，在目前的強(qiáng)化學(xué)習(xí)研究中大家觀察到一種現(xiàn)象，就是用明確的規(guī)則約束、用預(yù)定義的反饋激勵(lì)智能體的時(shí)候，它們經(jīng)常反而會(huì)學(xué)會(huì)使用環(huán)境和規(guī)則中的漏洞，和人類本來設(shè)定的目標(biāo)背道而馳。所以另一種思路是讓智能體模仿人類，根據(jù)人類的偏好、把人類的一次次評價(jià)作為學(xué)習(xí)信號進(jìn)行學(xué)習(xí)。此前這方面的研究主要針對簡單的模擬環(huán)境（游戲或者機(jī)器人控制任務(wù)，比如之前 OpenAI 和 DeepMind 合作的你做我評）。

向人類牙牙學(xué)語

OpenAI 這次想做一個(gè)大膽的嘗試，把「使用語言的能力」和「根據(jù)人類的偏好學(xué)習(xí)」兩者結(jié)合起來，嘗試這種思路對于語言這種復(fù)雜的內(nèi)容能否奏效——就是從結(jié)果出發(fā)，讓模型學(xué)會(huì)人類覺得喜歡的表達(dá)方式；另外，這樣學(xué)習(xí)到的語言的拓展和說理能力也能幫助我們探索人類語言偏好背后的緣由。

在這項(xiàng)研究中，OpenAI 在兩個(gè)常見的語言任務(wù)上嘗試了「根據(jù)人類的偏好學(xué)習(xí)」：一，在 BookCorpus 數(shù)據(jù)集上用正面情感或者客觀描述詞匯續(xù)寫文本，即「帶風(fēng)格的續(xù)寫」；二，在 TL;DR 和 CNN/Daily Mail 數(shù)據(jù)集上學(xué)習(xí)文本總結(jié)。這兩個(gè)任務(wù)都可以看作文本補(bǔ)全這個(gè)大類中的任務(wù)：給定某個(gè)文本 X，讓模型補(bǔ)充緊跟著的文本 Y。

OpenAI 的實(shí)驗(yàn)從含有 774M 參數(shù)的預(yù)訓(xùn)練 GPT-2 模型開始。他們對預(yù)訓(xùn)練模型進(jìn)行精細(xì)調(diào)節(jié)，方式是讓人類標(biāo)注員從模型生成的每組四個(gè)樣本中選擇最好的一個(gè)（而不是傳統(tǒng)的精細(xì)調(diào)節(jié)中以固定的、已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)；這種做法實(shí)質(zhì)上是對給模型的不同行為給予不同的反饋，所以實(shí)際上更像強(qiáng)化學(xué)習(xí)，OpenAI 也設(shè)計(jì)了相應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件）。

由于 GPT-2 已經(jīng)有不錯(cuò)的文本生成、續(xù)寫能力，所以前一個(gè)帶風(fēng)格的續(xù)寫任務(wù)的精細(xì)調(diào)節(jié)只經(jīng)過了 5000 次樣本選擇就達(dá)到了人們認(rèn)為非常好的表現(xiàn)；對于后一個(gè)總結(jié)任務(wù)，模型經(jīng)過 6 萬組樣本的精細(xì)調(diào)節(jié)以后學(xué)會(huì)了從給定的文本里重復(fù)整個(gè)句子來作為總結(jié)（不過它能夠跳過作用不大的引言）。重復(fù)整個(gè)句子作為總結(jié)確實(shí)是確保準(zhǔn)確度的一個(gè)好方法，不過出現(xiàn)這個(gè)結(jié)果也可能是因?yàn)檫@個(gè)任務(wù)的標(biāo)注人員們（選擇樣本的人們）在偷懶；他們依賴這樣簡單的重復(fù)模式評價(jià)模型輸出的結(jié)果好不好，結(jié)果讓模型也學(xué)會(huì)了這樣偷懶。

下面我們具體看看精細(xì)調(diào)節(jié)前后的模型在任務(wù)中的表現(xiàn)具體如何。

帶風(fēng)格的續(xù)寫

帶風(fēng)格的續(xù)寫又分為兩個(gè)子任務(wù)，帶正面情感的續(xù)寫，客觀描述的續(xù)寫。我們各隨機(jī)摘錄四個(gè)例子。

帶正面情感的續(xù)寫

例 1

背景文本：她看起來很累，她剛剛哭過。她邊上坐著的那個(gè)男人身材中等，不高不矮，頭發(fā)凌亂得仿佛要有了藝術(shù)感。他穿了一件灰色的外套，但是他還戴了一條有火星人馬文圖案的黑色領(lǐng)帶，讓他的衣著沒有那么嚴(yán)肅了。我認(rèn)得他。

原模型續(xù)寫：我剛剛來到這個(gè)城市的那一天就要抓我的人就是他。

精細(xì)調(diào)節(jié)后續(xù)寫：他對著我微笑了一下，我也笑了一下。他看起來還算得上高興，以他這個(gè)歲數(shù)來說。

例 2

背景文本：「現(xiàn)在告訴我是怎么回事吧?！顾窟^來，用舌頭在她嘴唇上繞了一圈。嘗起來有糖和巧克力的味道，恰到好處。他熱烈地吻她，他的舌頭也溫柔地鉆進(jìn)她的嘴里。

原模型續(xù)寫：「是個(gè)水果沙拉。」「你的心情真不錯(cuò)，」他喃喃道。

精細(xì)調(diào)節(jié)后續(xù)寫：這個(gè)吻如此令人滿意、令人愉悅。她全身的每根神經(jīng)都感覺到了這種滿足。

例 3

背景文本：「一般我都會(huì)把一個(gè)人最喜歡的東西在他眼前摧毀」，他邊說邊把下巴湊向 Cowboy Binder 和 Barry Correda 兩個(gè)人，「但對你們，我得想想辦法了。因?yàn)槟銈兪裁炊紱]有。你們一點(diǎn)錢都沒有。

原模型續(xù)寫：你沒有老婆。你沒有工作。你沒有家。

精細(xì)調(diào)節(jié)后續(xù)寫：你是個(gè)不錯(cuò)的小伙子，你也有很多潛力，但你還沒準(zhǔn)備好做一個(gè)明星。

例 4

背景文本：她想鼓足勇氣和他一起去，但是她腦海中有涌現(xiàn)出最好不要參與的想法。「我已經(jīng)把這份工作的聯(lián)系人信息給他了。

原模型續(xù)寫：我告訴他你會(huì)幫我的?！埂肝也幌脒@么做。」她說

精細(xì)調(diào)節(jié)后續(xù)寫：如果有什么變化，我們會(huì)告訴他的?！埂负冒　！顾龑λχf。

客觀描述的續(xù)寫

例 1

背景文本：她棕色的眼睛根本沒往他這邊看。她的眼神直接繞過他，望向房間里面?！窲eff 哪去了？」「不知道?！惯@個(gè)回答終于讓她看向他，但她又很快挪開，用眼神繼續(xù)在房間里搜索。

原模型續(xù)寫：Grant 站在那里盯著她。「你還好嗎？」他問道。

精細(xì)調(diào)節(jié)后續(xù)寫：她縮起了肩膀，她的腳步在地板上行進(jìn)了一段然后停在他面前，她的嘴唇閉得緊緊的。

例 2

背景文本：問題來了，我要怎么才能把她殺了？如果她尖叫，別人就會(huì)知道我來了。雖然我整個(gè)人都充滿了把她的喉嚨一割兩半的念頭，但我得冷靜行事。我松開刀柄，站著，望著。

原模型續(xù)寫：她還是沒有出聲，她的眼鏡看著游泳池。我得想辦法讓她出來。

精細(xì)調(diào)節(jié)后續(xù)寫：有一只手伸出來抓住了她，把她提起來直到雙腳離地。她又尖叫了起來，腿不停發(fā)抖。

例 3

背景文本：他非常有禮貌，吃早餐的時(shí)候一直沒有說話而是靜靜聽著。我決定保留對他的意見，他好像也保留了對我的意見。Jacob Greene 要更年長一些，大概五十來歲，像個(gè)圓面包一樣壯。

原模型續(xù)寫：他的頭發(fā)剃得很短，他的胡子只有稀疏凌亂的一小撮。

精細(xì)調(diào)節(jié)后續(xù)寫：他禿頭，而且禿得非常厲害，他的襯衣也偏小，勒在他的肩膀上。

例 4

背景文本：他們似乎一開始就不順利。Gizmo 只希望情況可以逐漸改善，但他也擔(dān)心他們和安全部部長的關(guān)系永遠(yuǎn)沒有機(jī)會(huì)變好了。

原模型續(xù)寫：顯然，這兩個(gè)人根本就是水火不容。

精細(xì)調(diào)節(jié)后續(xù)寫：安全部部長走進(jìn)了會(huì)議室中，兩只手緊握在背后。

為模型精細(xì)調(diào)節(jié)提供標(biāo)注（四選一）的人類標(biāo)注員們也對訓(xùn)練后的模型進(jìn)行了評價(jià)。相比于僅僅完成了預(yù)訓(xùn)練的 GPT-2 模型，他們認(rèn)為精細(xì)調(diào)節(jié)后的模型在帶正面情感的續(xù)寫任務(wù)中有 88% 的情況都更好，在客觀描述的續(xù)寫任務(wù)中則有 86% 的情況表現(xiàn)更好。

文本總結(jié)

后一個(gè)文本總結(jié)任務(wù)也分為了兩個(gè)子任務(wù)，CNN/Daily Mail 數(shù)據(jù)集上的報(bào)道文章總結(jié)，以及 TL;DR（「太長，不看」）數(shù)據(jù)集上的 Reddit 討論的總結(jié)。

這兩個(gè)任務(wù)就更難一些了，OpenAI 的主模型訓(xùn)練用到了六萬個(gè)四選一結(jié)果。而且他們還需要在線數(shù)據(jù)收集，也就是說隨著模型的總結(jié)策略變化，有所改變之后的模型要繼續(xù)用最新的策略生成新的結(jié)果供人類標(biāo)注，整個(gè)過程是動(dòng)態(tài)的、持續(xù)的，與強(qiáng)化學(xué)習(xí)類似。要采用這種方式的原因是，離線樣本收集中，所有的樣本都是最初的 GPT-2 模型生成的，人類標(biāo)注員只能從這些質(zhì)量不高的樣本中選擇，所以模型的改進(jìn)也非常有限。

據(jù)人類標(biāo)注員們評價(jià)，這次的模型也有很好的表現(xiàn)。不過，由于人類標(biāo)注員們很喜歡其中一個(gè)「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型的結(jié)果（雖然這個(gè)模型確實(shí)能在所有基準(zhǔn)模型里排在前三位，但還是說明標(biāo)注員們在偷懶），就導(dǎo)致這樣學(xué)習(xí)出的 GPT-2 模型也傾向于這樣做。不過，如果把標(biāo)準(zhǔn)的有監(jiān)督精細(xì)調(diào)節(jié)和人類在線標(biāo)注精細(xì)調(diào)節(jié)相結(jié)合，模型的 ROUGE 分?jǐn)?shù)就能排進(jìn)前三位。

OpenAI 的研究人員們一共進(jìn)行了四個(gè)模型的對比，原始預(yù)訓(xùn)練 GPT-2（即無精細(xì)調(diào)節(jié)）、人類標(biāo)注、有監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)+人類標(biāo)注。對比的方面主要有新穎性（novelty）和準(zhǔn)確性（accuracy）。

新穎性

如上面所述，人類標(biāo)準(zhǔn)訓(xùn)練出的模型傾向于直接從文本開頭復(fù)制句子，所以這個(gè)模型的總結(jié)句子的新穎性是最低的。

不同模型結(jié)果的新穎性對比

人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來源

有監(jiān)督學(xué)習(xí)+人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來源

不過另外也需要說明，雖然原始預(yù)訓(xùn)練 GPT-2 和有監(jiān)督學(xué)習(xí)的 GPT-2 模型輸出的文本中直接復(fù)制的痕跡最輕微（新穎性最高），但它們輸出的文本表達(dá)的內(nèi)容也新穎性最高 —— 也就是說它們的總結(jié)并不準(zhǔn)確，這仍然不是我們希望看到的。

準(zhǔn)確性

選擇 30 篇文章評價(jià)模型總結(jié)的準(zhǔn)確性，得到的結(jié)果就是另一種樣子了。

毫無疑問，人類標(biāo)注精細(xì)調(diào)節(jié)出的模型（那個(gè)直接復(fù)制的模型）準(zhǔn)確性最高；其次是有監(jiān)督學(xué)習(xí)+人類標(biāo)注的。我們至少有兩種方式解讀這個(gè)結(jié)果。第一種，直接復(fù)制是最容易的保證準(zhǔn)確的方式。由于 OpenAI 的研究人員們對標(biāo)注員提出的要求是準(zhǔn)確性優(yōu)先，所以當(dāng)模型因?yàn)橹苯訌?fù)制而表現(xiàn)出了好的準(zhǔn)確性的時(shí)候，這種行為就會(huì)得到鼓勵(lì)，模型就會(huì)越來越多地直接復(fù)制原句 —— 完全復(fù)制同時(shí)也意味著沒有額外的增刪信息，自然就比較準(zhǔn)確。

不過這種解釋還不完整：這個(gè)精細(xì)調(diào)節(jié)出的模型和「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型都會(huì)被標(biāo)注員看作是比較好的模型。但實(shí)際上這個(gè)結(jié)果并不是 OpenAI 的研究人員們本來的打算，他們認(rèn)為來自有標(biāo)注數(shù)據(jù)集的那些有部分刪減、有重新表述的總結(jié)才是比較好的結(jié)果，他們希望模型以這些為樣本學(xué)習(xí)，也把這些樣本提供給了人類標(biāo)注員作為參考。然而事情的發(fā)展和他們的預(yù)期并不相同：和任何時(shí)候一樣，收錢辦事的人類標(biāo)注員都會(huì)找偷懶的辦法，為了盡快完成任務(wù)，他們找到的又快又差不了多少的方式是「如果文本總結(jié)是直接復(fù)制的，那肯定是比較準(zhǔn)確的」，跳過了仔細(xì)閱讀和重新總結(jié)的步驟，然后也就讓模型學(xué)會(huì)了這么做（真是令人無奈）。

吃一塹長一智

和以往一樣，OpenAI 的研究人員們也總結(jié)了這次實(shí)驗(yàn)后的經(jīng)驗(yàn)教訓(xùn)。

一，在線收集數(shù)據(jù)很難

雖然實(shí)驗(yàn)表明在線收集數(shù)據(jù)（隨時(shí)用最新的模型生成樣本供人類標(biāo)注員選擇）帶來的模型表現(xiàn)是最好的，但這也帶來了許多麻煩：

軟件系統(tǒng)的復(fù)雜性。與模型更新交錯(cuò)的數(shù)據(jù)收集過程、反饋模型訓(xùn)練訓(xùn)練過程、強(qiáng)化學(xué)習(xí)精細(xì)調(diào)節(jié)三件事分開做的時(shí)候各自都不難，但是要讓它們一起在同一個(gè)流程中運(yùn)行就復(fù)雜得多了

機(jī)器學(xué)習(xí)的復(fù)雜性。任何一個(gè)機(jī)器學(xué)習(xí)組件如果出現(xiàn)了 bug 都會(huì)影響整個(gè)系統(tǒng)的正常工作，但是想單獨(dú)隔離 debug 其中的某個(gè)組件又很不好做

質(zhì)量控制問題。在線模型訓(xùn)練一般需要較短的延遲，比如 OpenAI 在這個(gè)實(shí)驗(yàn)中使用的在線數(shù)據(jù)標(biāo)注平臺(tái)是 Scale.AI，它能提供的數(shù)據(jù)生成到返回標(biāo)注反饋的時(shí)間延遲是大約 30 分鐘。但對于這樣的短延遲，標(biāo)注的質(zhì)量控制很難做，標(biāo)注數(shù)據(jù)的質(zhì)量往往會(huì)隨時(shí)間下降，而且往往直到訓(xùn)練過程完成之后開發(fā)人員們才會(huì)發(fā)現(xiàn)這個(gè)問題。

OpenAI 的研究人員們思考以后認(rèn)為，離線數(shù)據(jù)收集和在線數(shù)據(jù)收集之間的一個(gè)合理的平衡點(diǎn)是分批數(shù)據(jù)收集：集中收集一批數(shù)據(jù)，然后訓(xùn)練模型，用新模型再收集一批數(shù)據(jù)，再用新數(shù)據(jù)訓(xùn)練模型。這種做法當(dāng)然有更高的延遲，但是數(shù)據(jù)質(zhì)量更高，而且這種方式下單條數(shù)據(jù)的標(biāo)注成本也更低，OpenAI 甚至認(rèn)為有機(jī)會(huì)從預(yù)訓(xùn)練模型開始做更多組不同的實(shí)驗(yàn)。

二，不明確的任務(wù)標(biāo)準(zhǔn)讓數(shù)據(jù)標(biāo)注變得很困難

標(biāo)注質(zhì)量控制并不是一個(gè)新問題，不過這次也有獨(dú)特之處：一個(gè)樣本是否單獨(dú)看來是準(zhǔn)確的、符合語法的、不冗長的、包含了關(guān)鍵點(diǎn)的，對任何一個(gè)標(biāo)注人員來說他都能以自己的標(biāo)準(zhǔn)給出判斷，但是要在兩個(gè)總結(jié)結(jié)果之間做對比選擇的話，長處短處之間的取舍就很難維持，更難在不同的標(biāo)注人員之間保持一致了。事后看來，OpenAI 的研究人員們覺得可能還是重新設(shè)計(jì)一個(gè)能起到同樣的效果、但更明確量化的標(biāo)注標(biāo)準(zhǔn)比較好。比如，把現(xiàn)在的對比選擇改成用文字表述其中的問題，也可以更進(jìn)一步地為其中不準(zhǔn)確的地方提出修改意見；也許不同的標(biāo)注人員對于「哪個(gè)問題最嚴(yán)重」有分歧，但是「存在哪些問題」還是比較容易達(dá)成一致的，這還能起到一個(gè)附加的質(zhì)量控制效果，讓整個(gè)實(shí)驗(yàn)過程更順利。（甚至還可以說，這種方式還能避免標(biāo)注員們在選擇過程中偷懶）。

三，Bug 會(huì)鼓勵(lì)模型學(xué)習(xí)不好的行為

在文章一開始我們就提到，選擇樣本的過程相當(dāng)于為模型的不同行為給予反饋，OpenAI 就設(shè)計(jì)了對應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件。但由于他們一開始的設(shè)計(jì)中存在一個(gè) bug，會(huì)在觸發(fā)時(shí)反轉(zhuǎn)反饋信號的正負(fù)。通常情況下正負(fù)相反的反饋會(huì)導(dǎo)致模型輸出的文本不統(tǒng)一不連貫，但這個(gè) bug 同時(shí)還會(huì)讓 KL 懲罰的正負(fù)也相反。最后的效果就是模型仍然保持了很高的自然語言輸出能力，但是在「帶正面情感的續(xù)寫」任務(wù)中輸出的句子反倒偏向負(fù)面情感。

同時(shí)還有一個(gè)意想不到的狀況是，OpenAI 給標(biāo)注員的指導(dǎo)中要求他們給模型續(xù)寫的色情內(nèi)容打很低的分，由于 bug 的存在，這反倒鼓勵(lì)了模型多寫色情內(nèi)容。最后的效果實(shí)際上挺驚人的，模型的語言能力非常優(yōu)秀（并沒有胡言亂語），然后它能續(xù)寫出很精彩的「小黃文」（本來應(yīng)該是要懲罰的行為）。由于這次的訓(xùn)練過程中 OpenAI 的研究人員們剛好在睡覺，所以當(dāng)他們醒來的時(shí)候模型已經(jīng)訓(xùn)練完畢了，他們面對這個(gè)模型的時(shí)候想必是哭笑不得的。

事后的教訓(xùn)就是，他們認(rèn)為應(yīng)該在模型訓(xùn)練全過程中設(shè)計(jì)一個(gè)類似豐田工廠的報(bào)警拉繩的機(jī)制，參與訓(xùn)練過程的任何一個(gè)標(biāo)注員都可以在發(fā)現(xiàn)奇怪之處的時(shí)候進(jìn)行報(bào)告并暫停訓(xùn)練流程。

總結(jié)與展望

OpenAI 這次探索了在兩類自然語言任務(wù)中讓模型根據(jù)人類的偏好學(xué)習(xí)。得到的結(jié)果一面好一面壞：續(xù)寫任務(wù)里只收集了很少的樣本就達(dá)到了很好的效果，而文本總結(jié)任務(wù)里收集了很多的樣本卻只訓(xùn)練出了精通復(fù)制粘貼的模型（好在它們會(huì)跳過不重要的詞句）?！笍?fù)制粘貼」的好處是真實(shí)性高，相比之下未經(jīng)過精細(xì)調(diào)節(jié)的和直接使用有監(jiān)督數(shù)據(jù)訓(xùn)練的模型輸出的結(jié)果雖然語言自然但是會(huì)有模型自己創(chuàng)作的信息。OpenAI 認(rèn)為其中的限制因素來自在線數(shù)據(jù)收集過程的機(jī)制設(shè)計(jì)，未來的實(shí)驗(yàn)中他們會(huì)嘗試分批數(shù)據(jù)收集。

OpenAI 相信語言學(xué)習(xí)中的根據(jù)反饋學(xué)習(xí)、根據(jù)人類偏好學(xué)習(xí)從模型表現(xiàn)的角度和模型安全性的角度都很重要。對于模型表現(xiàn)來說，強(qiáng)化學(xué)習(xí)的過程可以讓我們發(fā)現(xiàn)并糾正有監(jiān)督學(xué)習(xí)中發(fā)現(xiàn)不了的問題，只不過強(qiáng)化學(xué)習(xí)中的反饋機(jī)制設(shè)計(jì)也可能對模型帶來不好的影響。對于模型安全來說，反饋學(xué)習(xí)可以讓「避免模型造假」之類的重要指標(biāo)得到體現(xiàn)并強(qiáng)化，也是向著可說理、可拓展的模型的重要一步。

更多技術(shù)信息歡迎閱讀論文原文 https://arxiv.org/abs/1909.08593

代碼開源地址 https://github.com/openai/lm-human-preferences

via openai.com/blog/fine-tuning-gpt-2/，雷鋒網(wǎng) AI 科技評論編譯

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

原文章地址為讓模型向人類學(xué)說話，連帶人類的惰性一起