博客專欄

EEPW首頁 > 博客 > 國內(nèi)首個可復(fù)現(xiàn)的RLHF基準(zhǔn),北大團(tuán)隊開源 PKU-Beaver(1)

國內(nèi)首個可復(fù)現(xiàn)的RLHF基準(zhǔn),北大團(tuán)隊開源 PKU-Beaver(1)

發(fā)布人:機(jī)器之心 時間:2023-05-20 來源:工程師 發(fā)布文章

如今,大語言模型如 ChatGPT 已在人們的生產(chǎn)生活中產(chǎn)生廣泛影響。作為訓(xùn)練大語言模型的關(guān)鍵步驟,RLHF(Reinforcement Learning from Human Feedback)是一種利用強(qiáng)化學(xué)習(xí)方法從人類反饋中學(xué)習(xí)的技術(shù)。借助 RLHF 技術(shù),大語言模型可與人類偏好保持對齊并遵循人類意圖,滿足 “有幫助的”、“誠實(shí)的” 和 “無害的” 的 3H(Helpful, Honest, Harmless)標(biāo)準(zhǔn)。然而,當(dāng)前開源社區(qū)中復(fù)現(xiàn) RLHF 技術(shù)仍具有較大挑戰(zhàn)性,相關(guān)研究逐漸走向封閉。尚未有團(tuán)隊公開復(fù)現(xiàn) RLHF 所需的數(shù)據(jù)、代碼基準(zhǔn)和驗(yàn)證流程,這極大地阻礙了 RLHF 科研的發(fā)展。


另一方面,盡管大語言模型的巨大成功得益于 RLHF 技術(shù),但同時也面臨著該技術(shù)帶來的諸多問題。在 RLHF 中,標(biāo)注員對大語言模型產(chǎn)生的回答進(jìn)行偏好性打分,通過這些打分形成的偏序關(guān)系來訓(xùn)練模型。然而,由于人們的價值觀、世界觀存在差異,以及每個人所處地域文化、語言、習(xí)俗的不同,這些差異在標(biāo)注過程中可能產(chǎn)生偏見和歧視性數(shù)據(jù),導(dǎo)致目前依賴 RLHF 技術(shù)取得巨大成功的大語言模型也存在潛在的不安全問題。


為解決上述兩個難題,北京大學(xué)團(tuán)隊開源了名為 PKU-Beaver(河貍)項(xiàng)目,其開源地址為:https://github.com/PKU-Alignment/safe-rlhf。


圖片


該項(xiàng)目首次公開了 RLHF 所需的數(shù)據(jù)集、訓(xùn)練和驗(yàn)證代碼,是目前首個開源的可復(fù)現(xiàn)的 RLHF 基準(zhǔn)。同時,為解決人類標(biāo)注產(chǎn)生的偏見和歧視等不安全因素,北京大學(xué)團(tuán)隊首次提出了帶有約束的價值對齊技術(shù) CVA(Constrained Value Alignment)。該技術(shù)通過對標(biāo)注信息進(jìn)行細(xì)粒度劃分,并結(jié)合帶約束的安全強(qiáng)化學(xué)習(xí)方法,顯著降低了模型的偏見和歧視,提高了模型的安全性。Beaver 使用 GPT4 進(jìn)行 Evaluation,結(jié)果表明,在原有性能保持不變的情況下,Beaver 回復(fù)的安全性大幅度提升。


Why “Beaver”


河貍被譽(yù)為 “自然界的水壩工程師”,它們善于利用樹枝、灌木、石頭、泥土等材料修建水壩和小木屋,創(chuàng)造出適宜其他生物居住的濕地環(huán)境,成為生態(tài)系統(tǒng)中不可或缺的一環(huán)。為了保障大語言模型(LLM)的安全性和可靠性,同時適應(yīng)不同人群廣泛的價值觀,北京大學(xué)團(tuán)隊將本次開源的模型命名為 Beaver(河貍),旨在通過約束的價值對齊技術(shù) CVA 為 LLM 筑起一道堤壩。這一技術(shù)可以對標(biāo)注信息進(jìn)行細(xì)粒度劃分,并結(jié)合安全強(qiáng)化學(xué)習(xí)的方法,顯著減少模型的偏見和歧視,從而提高模型的安全性。類比河貍在生態(tài)系統(tǒng)中的作用,Beaver 模型將為大語言模型的發(fā)展提供重要的保障,為人工智能技術(shù)的可持續(xù)發(fā)展做出積極貢獻(xiàn)。


本次開源的內(nèi)容包括:


一、數(shù)據(jù)集與模型:PKU-SafeRLHF


1. 開源迄今為止最大的多輪 RLHF 數(shù)據(jù)集,規(guī)模達(dá)到 100 萬條。

2. 開源經(jīng) Safe-RLHF 對齊訓(xùn)練得到的 7B 參數(shù)的語言模型 ——Beaver,并支持在線部署。

3. 開源了預(yù)訓(xùn)練的 Reward Model 和 Cost Model 的模型和參數(shù)。


二、首個可復(fù)現(xiàn)的 RLHF 基準(zhǔn),PKU-Alignment/safe-rlhf 支持以下功能:


1. 支持 LLM 模型的 SFT(Supervised Fine-Tuning)、RLHF 訓(xùn)練、Safe RLHF 訓(xùn)練。支持目前主流的預(yù)訓(xùn)練模型如 LLaMA、OPT 等模型的訓(xùn)練。

2. 支持 Reward Model 和 Cost Model 訓(xùn)練。

3. 提供安全約束滿足的多尺度驗(yàn)證方式,支持 BIG-bench、GPT-4 Evaluation 等。

4. 支持參數(shù)定制化的 RLHF 和數(shù)據(jù)集定制接口。


SafeRLHF 與 DeepSpeed-Chat、trlX 等框架的比較


與 DeepSpeed-Chat、trlX 等框架相比,SafeRLHF 是國內(nèi)首個可復(fù)現(xiàn)的 RLHF 基準(zhǔn)。自 LLaMA 模型開源以來,開源社區(qū)涌現(xiàn)出許多大型開源模型。然而,由于缺乏高質(zhì)量人類偏好數(shù)據(jù)集和強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域積累不足等限制,大部分機(jī)構(gòu)開源的大型模型通常僅限于監(jiān)督微調(diào)(SFT)階段,很少嘗試運(yùn)用 RLHF 技術(shù)。Safe-RLHF 不僅提供高質(zhì)量代碼庫,還額外公開了 RLHF 所需的多輪數(shù)據(jù),旨在幫助高校和企業(yè)充分研究 RLHF 技術(shù)。此外,Safe-RLHF 將安全強(qiáng)化學(xué)習(xí)(Safe RL)技術(shù)引入 RLHF 訓(xùn)練中,為大型模型的訓(xùn)練和對齊提供了新的研究范式。


圖片


圖片


Safe RLHF vs. RLAIF (Constitutional AI、Self-Align)


目前,實(shí)現(xiàn)對齊技術(shù)的方法主要有以下三種:


1. 在 LLM 預(yù)訓(xùn)練階段,通過人工篩選和數(shù)據(jù)清洗,獲取更高質(zhì)量的數(shù)據(jù)。

2. 在微調(diào)(SFT 和 RLHF)階段,增加更加多元且無害的用戶指令和人類偏好模型進(jìn)行對齊。

3. 在輸出階段使用獎勵模型進(jìn)行 reject sampling,提高輸出質(zhì)量和安全性?;蛘咴谏暇€的產(chǎn)品中,直接基于一定規(guī)則進(jìn)行檢測,拒絕回應(yīng)用戶的輸入。


然而,這些方法各自存在一些缺陷。第一種方法只能解決部分安全問題,需要大量人力和財力來獲得高質(zhì)量的數(shù)據(jù)。第二種方法,由于人們的價值觀存在差異和普遍存在的歧視和偏見,RLHF 后的大型語言模型仍存在歧視和偏見問題。第三種方法雖然可以確保模型輸出的安全性,但也可能影響模型的幫助性。例如,嚴(yán)格的過濾機(jī)制可能會影響用戶獲得有用或有價值的答案。


因此,引入安全約束并引導(dǎo) LLM 更符合道德和法律的價值觀,是更可靠的方式。然而,這需要我們克服現(xiàn)有技術(shù)和方法的局限性,并在 RLHF 中結(jié)合多種技術(shù)和方法,以實(shí)現(xiàn)更加全面的安全性約束。目前還有另一種技術(shù)路線被提及,即引入 AI 標(biāo)注來替代 RLHF 步驟中的人類標(biāo)注,即 RLAIF。例如 GPT-4 使用的基于規(guī)則的獎勵模型 (RBRM) 和利用 AI 進(jìn)行指正和修改生成內(nèi)容的 “Constitutional AI”(Bai et al., 2022)。然而,從作者的角度來看,這個方法有很多限制和缺點(diǎn),原因有三個方面。


首先,當(dāng)前即使最先進(jìn)的大語言模型,例如 GPT-4 也不能完全避免歧視、偏見的不安全的輸出。并且在不同的地域文化、風(fēng)土人情的差異以及一些少數(shù)群體的敏感問題中,大型語言模型也未必?fù)碛凶銐虻恼J(rèn)識。事實(shí)上,在實(shí)驗(yàn)過程中,筆者發(fā)現(xiàn) AI 打分模型會偏好大預(yù)言模型的輸出而非人類的回答,這為 RLAIF 技術(shù)的可行性帶來了很大的挑戰(zhàn)。


其次,現(xiàn)有公開較強(qiáng)的可訪問的大語言模型在安全對其之后,會經(jīng)常拒絕用戶關(guān)于可能導(dǎo)致不安全內(nèi)容的討論,這些 AI 模型無法對安全類型問題的標(biāo)準(zhǔn)提供有效幫助。

再者,人類偏好是一個相當(dāng)模糊的概念,很難用語言精確描述,例如如何定義 “冒犯” 等。使用 AI 進(jìn)行標(biāo)注,非常重要的一點(diǎn)是需要模型具有非常強(qiáng)大的邏輯推理能力。目前基于模型自標(biāo)注自對齊的方法一般需要模型根據(jù)上下文,基于精心設(shè)計的規(guī)則提示詞外加思維鏈 (CoT, Chain-of-Thought) 技術(shù)引導(dǎo)推理得出標(biāo)注結(jié)果。就目前大模型發(fā)展現(xiàn)狀來看,無論是開源還是閉源的大語言模型,它們還無法完成稍微復(fù)雜一些的邏輯推理問題。這一重要挑戰(zhàn)仍待解決。


綜上,作者認(rèn)為 AI 的自標(biāo)注自對齊以及反思等機(jī)制可以作為人類數(shù)據(jù)增廣的有效方式,是 RLHF 的有機(jī)補(bǔ)充。但如果只用 AI 生成的數(shù)據(jù),可能導(dǎo)致會逐漸偏離人類社會的價值觀,可能帶來潛在的危險后果。


帶有約束的價值對齊技術(shù)


圖片


約束價值對齊技術(shù)的目標(biāo)是將強(qiáng)化學(xué)習(xí)(RL)智能體的意圖與安全行為模式對齊,這類似于安全強(qiáng)化學(xué)習(xí)(Safe RL)。智能體通過從環(huán)境中獲得反饋來學(xué)習(xí)尋找最優(yōu)策略,同時滿足最小化意外傷害或不安全行為的風(fēng)險要求。在 RLHF 階段,考慮將涉及偏見、歧視、隱私等有害或不誠實(shí)的方面設(shè)計成代價函數(shù),同時將模型回答的質(zhì)量抽象成獎勵函數(shù)。此外,還可以更細(xì)致地劃分人類標(biāo)注數(shù)據(jù),以將大型語言模型對齊到符合道德和法律約束的價值觀中。用更簡潔的數(shù)學(xué)描述,基于人類反饋的強(qiáng)化學(xué)習(xí),其目標(biāo)是獎勵最大化,


圖片


而約束價值對齊技術(shù)中則是帶約束的獎勵最大化,即旨在滿足約束的前提下進(jìn)行獎勵優(yōu)化:


圖片


其中 R(·) 和 C(·) 分別是獎勵和代價函數(shù),它們可以是一些基于規(guī)則的函數(shù)或神經(jīng)網(wǎng)絡(luò)等。它們被認(rèn)為是人類偏好的代理,其一般由人類偏好數(shù)據(jù)集訓(xùn)練得來。


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉