博客專欄

EEPW首頁 > 博客 > Orca LLM:模擬 ChatGPT 的推理過程

Orca LLM:模擬 ChatGPT 的推理過程

發(fā)布人:ygtu 時(shí)間:2023-09-13 來源:工程師 發(fā)布文章
推薦:使用NSDT場景編輯器快速搭建3D應(yīng)用場景
介紹

在大型語言模型(LLM)領(lǐng)域,人們一直在追求在不影響其效率的情況下增強(qiáng)小型模型的功能。傳統(tǒng)的方法是使用模仿學(xué)習(xí),其中較小的模型從大型基礎(chǔ)模型(LFM)生成的輸出中學(xué)習(xí)。然而,這種方法受到一些挑戰(zhàn)的損害,包括來自淺層LFM輸出的有限模仿信號,小規(guī)模的同質(zhì)訓(xùn)練數(shù)據(jù)以及缺乏嚴(yán)格的評估。這通常會(huì)導(dǎo)致較小的模型模仿LFM的風(fēng)格,而不是推理過程。

論文Orca:從GPT-4的復(fù)雜解釋痕跡中逐步學(xué)習(xí)介紹了Orca,這是一個(gè)13億參數(shù)模型,旨在模仿GPT-4等大型基礎(chǔ)模型(LFM)的推理過程。與傳統(tǒng)的大型語言模型(LLM)不同,Orca采用獨(dú)特的培訓(xùn)方法,將漸進(jìn)式學(xué)習(xí)和教師協(xié)助相結(jié)合,以克服較小的學(xué)生模型與較大的學(xué)生模型之間的能力差距。

培訓(xùn)方法


逆戟鯨的訓(xùn)練過程包括兩個(gè)階段。

在第一階段,逆戟鯨接受 FLAN-5M 訓(xùn)練,其中包括 ChatGPT 增強(qiáng)。這個(gè)中級助教有助于彌合 Orca 和 GPT-4 之間的容量差距,后者的參數(shù)大小要大得多。通過利用 ChatGPT 的功能,Orca 受益于改進(jìn)的模仿學(xué)習(xí)性能。

在第二階段,逆戟鯨接受 FLAN-1M 的訓(xùn)練,其中包括 GPT-4 增強(qiáng)。這種漸進(jìn)式學(xué)習(xí)方法遵循課程學(xué)習(xí)范式,學(xué)生模式從更簡單的例子中學(xué)習(xí),然后再處理更具挑戰(zhàn)性的例子。通過逐漸讓逆戟鯨接觸越來越復(fù)雜的推理和逐步解釋,該模型增強(qiáng)了其推理能力和模仿能力。

優(yōu)勢和貢獻(xiàn)


與傳統(tǒng)的LLM相比,Orca的培訓(xùn)方法具有幾個(gè)優(yōu)勢。

首先,它通過利用中級教師模型解決了能力差距問題,使Orca能夠從更有能力的來源學(xué)習(xí)。這種方法已被證明可以提高較小學(xué)生模型的模仿學(xué)習(xí)性能。

其次,Orca訓(xùn)練的漸進(jìn)式學(xué)習(xí)方面使模型能夠逐步建立其知識(shí)。通過從更簡單的例子開始,逐漸引入更復(fù)雜的例子,Orca為推理和解釋的生成奠定了更堅(jiān)實(shí)的基礎(chǔ)。

此外,Orca模仿GPT-4等LFM的推理過程的能力為提高各種任務(wù)的性能開辟了可能性。通過利用 GPT-4 的解釋軌跡和分步思維過程提供的豐富信號,Orca 獲得了寶貴的見解并提高了自己的能力。

性能基準(zhǔn)

Orca在復(fù)雜的零鏡頭推理基準(zhǔn)測試中表現(xiàn)出色。它的性能優(yōu)于傳統(tǒng)的最先進(jìn)的指令調(diào)整模型,如Vicuna-13B,在Big-Bench Hard(BBH)等基準(zhǔn)上超過100%,在AGIEval上超過42%。此外,Orca 在 BBH 基準(zhǔn)測試中取得了與 ChatGPT 相同的分?jǐn)?shù),并在 SAT、LSAT、GRE 和 GMAT 等專業(yè)和學(xué)術(shù)考試中表現(xiàn)出有競爭力的表現(xiàn)。考慮到這些是沒有思維鏈的零鏡頭設(shè)置,這尤其令人印象深刻,而且 Orca 在落后于 GPT-4 的同時(shí)仍然具有競爭力。

影響和未來方向

逆戟鯨的發(fā)展代表了LLM領(lǐng)域的重大進(jìn)步。通過從豐富的信號中學(xué)習(xí)并模仿LFM的推理過程,Orca能夠以高度的準(zhǔn)確性執(zhí)行復(fù)雜的推理任務(wù)。這具有廣泛的影響,特別是在需要復(fù)雜推理和解決問題的領(lǐng)域。

此外,這項(xiàng)研究表明,從分步AI模型解釋中學(xué)習(xí)是提高模型能力的一個(gè)有希望的方向。這為法學(xué)碩士領(lǐng)域的研究和開發(fā)開辟了新的途徑。

結(jié)論


Orca提出了一種訓(xùn)練大型語言模型的新方法,將漸進(jìn)式學(xué)習(xí)和教師協(xié)助相結(jié)合,以增強(qiáng)模仿學(xué)習(xí)。通過利用中級教師模型,逐步將學(xué)生模型暴露給更復(fù)雜的例子,Orca克服了能力差距,提高了推理和解釋生成能力。該論文的發(fā)現(xiàn)有助于模仿學(xué)習(xí)技術(shù)的進(jìn)步,并對未來語言模型的發(fā)展產(chǎn)生影響。

原文鏈接:Orca LLM:模擬 ChatGPT 的推理過程 (mvrlink.com)


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: LLM CHATGPT

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉