博客專欄

EEPW首頁 > 博客 > 無需強(qiáng)化學(xué)習(xí)的與人類偏好對(duì)齊的語言模型:Wombat袋熊

無需強(qiáng)化學(xué)習(xí)的與人類偏好對(duì)齊的語言模型:Wombat袋熊

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-04-19 來源:工程師 發(fā)布文章
OpenAI 的 ChatGPT 理解多種多樣的的人類指令,并且可以很好的應(yīng)對(duì)不同的語言任務(wù)需求。自發(fā)布以來就掀起了對(duì)于通用人工智能的討論。ChatGPT 令人驚嘆的能力來源于一種新穎的大規(guī)模語言模型微調(diào)方法:RLHF(通過強(qiáng)化學(xué)習(xí)對(duì)齊人類反饋)。


RLHF 方法不同于以往傳統(tǒng)的監(jiān)督學(xué)習(xí)的微調(diào)方式,該方法首先讓模型根據(jù)指令提示生成不同的回復(fù),之后通過人工的評(píng)價(jià)反饋,使用強(qiáng)化學(xué)習(xí)的方式對(duì) LLM 進(jìn)行微調(diào)。RLHF 解鎖了語言模型跟從人類指令的能力,并且使得語言模型的能力和人類的需求和價(jià)值觀對(duì)齊,從而使得 RLHF 微調(diào)下的語言模型具有令人驚嘆的能力。 
當(dāng)前研究 RLHF 的工作主要使用 PPO 算法對(duì)語言模型進(jìn)行優(yōu)化。從一個(gè)使用指令和人類示范的數(shù)據(jù)通過監(jiān)督學(xué)習(xí)微調(diào)的語言模型開始,PPO 算法首先使用這個(gè)語言模型輸出對(duì)于不同指令數(shù)據(jù)的回復(fù),之后通過一個(gè)獎(jiǎng)勵(lì)模型對(duì)語言模型的不同回復(fù)進(jìn)行打分評(píng)價(jià),最后使用打分評(píng)價(jià)通過策略梯度下降的方式對(duì)語言模型進(jìn)行優(yōu)化。
考慮到語言模型在訓(xùn)練中不斷變化和獎(jiǎng)勵(lì)模型有限的泛化能力,PPO 在工程實(shí)踐中需要反復(fù)迭代上述流程,并且在獎(jiǎng)勵(lì)的設(shè)計(jì)上需要限制微調(diào)的語言模型不能偏離初始模型太遠(yuǎn)。由于使用強(qiáng)化學(xué)習(xí)訓(xùn)練包含有眾多的超參數(shù),并且在算法迭代的過程中需要多個(gè)獨(dú)立模型的相互配合,錯(cuò)誤的實(shí)現(xiàn)細(xì)節(jié)都會(huì)導(dǎo)致不盡如人意的訓(xùn)練結(jié)果。 
在和人類對(duì)齊的角度上,強(qiáng)化學(xué)習(xí)算法是不是必須的呢?該篇論文提出了基于排序的人類偏好對(duì)齊方法。它對(duì)不同語言模型生成的回復(fù)(回復(fù)可以來自 ChatGPT、GPT-4、當(dāng)前的訓(xùn)練模型或者人類標(biāo)注數(shù)據(jù))進(jìn)行評(píng)分,評(píng)分來自于回復(fù)在當(dāng)前模型下的對(duì)數(shù)概率。RRHF 通過通過排名損失使評(píng)分與人類的偏好(或者代理的獎(jiǎng)勵(lì)模型)對(duì)齊。RRHF 訓(xùn)練好的模型可以同時(shí)作為生成語言模型和獎(jiǎng)勵(lì)模型使用。下圖中對(duì)比了 PPO 算法和 RRHF 算法的區(qū)別。
圖片
RRHF 算法可以有效地將語言模型輸出概率與人類偏好對(duì)齊,并且在微調(diào)期間只需要 1 到 2 個(gè)模型。相比之下,PPO 需要 4 個(gè)模型:微調(diào)的語言模型,參考語言模型,獎(jiǎng)勵(lì)模型和價(jià)值模型相互配合。在實(shí)際的訓(xùn)練中,更少的模型數(shù)量可以幫助減少顯存的占用,使得 RRHF 可以更高效地利用計(jì)算資源,并擴(kuò)展到更大規(guī)模的模型上進(jìn)行訓(xùn)練。
此外,RRHF 在編碼和超參數(shù)方面比 PPO 更簡(jiǎn)單。整個(gè)對(duì)齊過程(包括監(jiān)督學(xué)習(xí)、訓(xùn)練獎(jiǎng)勵(lì)模型、進(jìn)行 PPO)可以在一次 RRHF 訓(xùn)練中完成。文章在 Anthropic 發(fā)布的 Helpful and Harmless 數(shù)據(jù)上使用 Meta 的 LLaMA 和斯坦福的 Alpaca 模型進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn) RRHF 可以達(dá)到和 PPO 相當(dāng)?shù)乃?。在代碼實(shí)踐上,RRHF 和傳統(tǒng)的監(jiān)督學(xué)習(xí)微調(diào)算法的難易程度相當(dāng),極大地減小了語言模型和人類偏好對(duì)齊的工程難度。 
同時(shí),文章作者基于 RRHF 算法,使用 Alpaca 的提示數(shù)據(jù)并利用 ChatGPT 或者 GPT-4 作為得分模型,訓(xùn)練了語言模型 Wombat-7B 和 Wombat-7B-GPT4。訓(xùn)練時(shí)間只需要幾個(gè)小時(shí)。訓(xùn)練得到的袋熊 Wombat? 可以更好的與人類偏好對(duì)齊。以下是來自袋熊 Wombat? 的一個(gè)自我介紹。
Query: Give an introduction of wombat 
Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.
圖片
論文鏈接:
https://arxiv.org/abs/2304.05302作者單位:
阿里巴巴達(dá)摩院代碼鏈接:https://github.com/GanjinZero/RRHF


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉