Orca LLM：模擬 ChatGPT 的推理過(guò)程

發(fā)布人：ygtu 時(shí)間：2023-09-13 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

推薦：使用NSDT場(chǎng)景編輯器快速搭建3D應(yīng)用場(chǎng)景

介紹

在大型語(yǔ)言模型（LLM）領(lǐng)域，人們一直在追求在不影響其效率的情況下增強(qiáng)小型模型的功能。傳統(tǒng)的方法是使用模仿學(xué)習(xí)，其中較小的模型從大型基礎(chǔ)模型（LFM）生成的輸出中學(xué)習(xí)。然而，這種方法受到一些挑戰(zhàn)的損害，包括來(lái)自淺層LFM輸出的有限模仿信號(hào)，小規(guī)模的同質(zhì)訓(xùn)練數(shù)據(jù)以及缺乏嚴(yán)格的評(píng)估。這通常會(huì)導(dǎo)致較小的模型模仿LFM的風(fēng)格，而不是推理過(guò)程。

論文Orca：從GPT-4的復(fù)雜解釋痕跡中逐步學(xué)習(xí)介紹了Orca，這是一個(gè)13億參數(shù)模型，旨在模仿GPT-4等大型基礎(chǔ)模型（LFM）的推理過(guò)程。與傳統(tǒng)的大型語(yǔ)言模型（LLM）不同，Orca采用獨(dú)特的培訓(xùn)方法，將漸進(jìn)式學(xué)習(xí)和教師協(xié)助相結(jié)合，以克服較小的學(xué)生模型與較大的學(xué)生模型之間的能力差距。

培訓(xùn)方法

逆戟鯨的訓(xùn)練過(guò)程包括兩個(gè)階段。

在第一階段，逆戟鯨接受 FLAN-5M 訓(xùn)練，其中包括 ChatGPT 增強(qiáng)。這個(gè)中級(jí)助教有助于彌合 Orca 和 GPT-4 之間的容量差距，后者的參數(shù)大小要大得多。通過(guò)利用 ChatGPT 的功能，Orca 受益于改進(jìn)的模仿學(xué)習(xí)性能。

在第二階段，逆戟鯨接受 FLAN-1M 的訓(xùn)練，其中包括 GPT-4 增強(qiáng)。這種漸進(jìn)式學(xué)習(xí)方法遵循課程學(xué)習(xí)范式，學(xué)生模式從更簡(jiǎn)單的例子中學(xué)習(xí)，然后再處理更具挑戰(zhàn)性的例子。通過(guò)逐漸讓逆戟鯨接觸越來(lái)越復(fù)雜的推理和逐步解釋?zhuān)撃Ｐ驮鰪?qiáng)了其推理能力和模仿能力。

優(yōu)勢(shì)和貢獻(xiàn)

與傳統(tǒng)的LLM相比，Orca的培訓(xùn)方法具有幾個(gè)優(yōu)勢(shì)。

首先，它通過(guò)利用中級(jí)教師模型解決了能力差距問(wèn)題，使Orca能夠從更有能力的來(lái)源學(xué)習(xí)。這種方法已被證明可以提高較小學(xué)生模型的模仿學(xué)習(xí)性能。

其次，Orca訓(xùn)練的漸進(jìn)式學(xué)習(xí)方面使模型能夠逐步建立其知識(shí)。通過(guò)從更簡(jiǎn)單的例子開(kāi)始，逐漸引入更復(fù)雜的例子，Orca為推理和解釋的生成奠定了更堅(jiān)實(shí)的基礎(chǔ)。

此外，Orca模仿GPT-4等LFM的推理過(guò)程的能力為提高各種任務(wù)的性能開(kāi)辟了可能性。通過(guò)利用 GPT-4 的解釋軌跡和分步思維過(guò)程提供的豐富信號(hào)，Orca 獲得了寶貴的見(jiàn)解并提高了自己的能力。

性能基準(zhǔn)

Orca在復(fù)雜的零鏡頭推理基準(zhǔn)測(cè)試中表現(xiàn)出色。它的性能優(yōu)于傳統(tǒng)的最先進(jìn)的指令調(diào)整模型，如Vicuna-13B，在Big-Bench Hard（BBH）等基準(zhǔn)上超過(guò)100%，在AGIEval上超過(guò)42%。此外，Orca 在 BBH 基準(zhǔn)測(cè)試中取得了與 ChatGPT 相同的分?jǐn)?shù)，并在 SAT、LSAT、GRE 和 GMAT 等專(zhuān)業(yè)和學(xué)術(shù)考試中表現(xiàn)出有競(jìng)爭(zhēng)力的表現(xiàn)。考慮到這些是沒(méi)有思維鏈的零鏡頭設(shè)置，這尤其令人印象深刻，而且 Orca 在落后于 GPT-4 的同時(shí)仍然具有競(jìng)爭(zhēng)力。

影響和未來(lái)方向

逆戟鯨的發(fā)展代表了LLM領(lǐng)域的重大進(jìn)步。通過(guò)從豐富的信號(hào)中學(xué)習(xí)并模仿LFM的推理過(guò)程，Orca能夠以高度的準(zhǔn)確性執(zhí)行復(fù)雜的推理任務(wù)。這具有廣泛的影響，特別是在需要復(fù)雜推理和解決問(wèn)題的領(lǐng)域。

此外，這項(xiàng)研究表明，從分步AI模型解釋中學(xué)習(xí)是提高模型能力的一個(gè)有希望的方向。這為法學(xué)碩士領(lǐng)域的研究和開(kāi)發(fā)開(kāi)辟了新的途徑。

結(jié)論

Orca提出了一種訓(xùn)練大型語(yǔ)言模型的新方法，將漸進(jìn)式學(xué)習(xí)和教師協(xié)助相結(jié)合，以增強(qiáng)模仿學(xué)習(xí)。通過(guò)利用中級(jí)教師模型，逐步將學(xué)生模型暴露給更復(fù)雜的例子，Orca克服了能力差距，提高了推理和解釋生成能力。該論文的發(fā)現(xiàn)有助于模仿學(xué)習(xí)技術(shù)的進(jìn)步，并對(duì)未來(lái)語(yǔ)言模型的發(fā)展產(chǎn)生影響。

原文鏈接：Orca LLM：模擬 ChatGPT 的推理過(guò)程 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

Orca LLM：模擬 ChatGPT 的推理過(guò)程

相關(guān)推薦

技術(shù)專(zhuān)區(qū)