港中文團(tuán)隊(duì)提出大模型元推理范式，助力判斷大模型的真實(shí)能力，革新大模型的評(píng)價(jià)體系

發(fā)布人：深科技時(shí)間：2024-03-03 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

曾忠燊，是一名潮汕人。其本科和碩士分別畢業(yè)于美國(guó)伊利諾伊大學(xué)和美國(guó)佐治亞理工學(xué)院。在本科畢業(yè)和碩士畢業(yè)之后，他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過(guò)一段時(shí)間。

在 ChatGPT 面世以后，他意識(shí)到針對(duì)大模型的研究范式存在一定的不足，于是決定來(lái)到香港中文大學(xué)讀博。

圖 | 曾忠燊（來(lái)源：曾忠燊）

前不久，曾忠燊和所在團(tuán)隊(duì)提出一個(gè)全新評(píng)測(cè)范式?；谶@一評(píng)測(cè)范式，他們又針對(duì)現(xiàn)有數(shù)據(jù)集，提出了一種改造方法。

實(shí)驗(yàn)證明，這種方法能有效區(qū)分不同模型的能力差異。同時(shí)，他們還揭示了這種全新評(píng)測(cè)范式對(duì)于當(dāng)前數(shù)據(jù)污染的魯棒性。

此前，由于訓(xùn)練數(shù)據(jù)的不透明，人們無(wú)法得知大模型在一些榜單上的成績(jī)提升，是否是數(shù)據(jù)污染和題目泄露所帶來(lái)的。

而本次提出的全新評(píng)測(cè)范式，對(duì)于“背題”式的成績(jī)提高有著極強(qiáng)的抵御能力。憑借這種抵御能力，就能對(duì)絕大部分的數(shù)據(jù)集進(jìn)行“舊改”。

同時(shí)，這種全新的評(píng)測(cè)方式不僅可以揭示大模型的能力差異，也能給下游應(yīng)用帶來(lái)一定啟示。

日前，相關(guān)論文以《大型語(yǔ)言模型評(píng)價(jià)中的元推理革命》（MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation）為題發(fā)在 arXiv，曾忠燊是第一作者，香港中文大學(xué)教授賈佳亞擔(dān)任通訊作者 [1]。

圖 | 相關(guān)論文（來(lái)源：arXiv）

大模型也在依靠“題海戰(zhàn)術(shù)”？

“背題”“題海戰(zhàn)術(shù)”，是許多人在讀書(shū)時(shí)代都曾使用過(guò)的學(xué)習(xí)方式。然而，你可知道大模型其實(shí)也在使用這兩種學(xué)習(xí)方式？此外，當(dāng)前大模型的能力邊界到底在哪里？

從推理和認(rèn)知這兩個(gè)能力維度出發(fā)，當(dāng)一篇論文稱大模型在一個(gè)評(píng)測(cè)指標(biāo)上取得超出人類(lèi)水平的結(jié)果時(shí)，我們是否應(yīng)該感到恐慌？

還是仔細(xì)審視在制定指標(biāo)時(shí)是否忽略了什么因素，以至于大模型的認(rèn)知能力被夸大了？

事實(shí)上，對(duì)于指標(biāo)的設(shè)計(jì)意義思考不足，起碼會(huì)帶來(lái)以下幾個(gè)潛在危害：

其一，評(píng)測(cè)結(jié)果能否真實(shí)反映大模型的能力？如果對(duì)此認(rèn)識(shí)不足，往往會(huì)過(guò)分夸大模型的效果。

其二，會(huì)讓人以為指標(biāo)的提升，等價(jià)于大模型能力的提升、以及等價(jià)于真實(shí)場(chǎng)景的效果和實(shí)用性提升，導(dǎo)致盲目追逐和攀比榜單效果，陷入惡性循環(huán)。

其三，過(guò)分關(guān)注和比較在細(xì)分場(chǎng)景上的表現(xiàn)，忽視了大模型整體認(rèn)知能力的提升。

當(dāng)前，面向大模型推理能力和認(rèn)知能力的評(píng)測(cè)集，主要依賴一些標(biāo)準(zhǔn)化考試的試題、或一些精心設(shè)計(jì)的規(guī)則類(lèi)游戲。

這些評(píng)測(cè)集的設(shè)計(jì)初衷，很大程度上是設(shè)計(jì)者認(rèn)為求解這類(lèi)推理類(lèi)任務(wù)所需要的模式識(shí)別、記憶召回、分析假設(shè)、歸納演繹等能力，是一種處理所有任務(wù)都需要的“元”能力，并認(rèn)為這類(lèi)能力對(duì)于大模型在現(xiàn)實(shí)場(chǎng)景中的泛化和魯棒是至關(guān)重要的。

但是，具體到設(shè)計(jì)這些任務(wù)的評(píng)測(cè)方式時(shí)，這些評(píng)測(cè)集往往僅僅依賴于對(duì)最終計(jì)算結(jié)果的簡(jiǎn)單匹配，而忽略了對(duì)于計(jì)算過(guò)程的認(rèn)知檢測(cè)。

由此可見(jiàn)，這種目標(biāo)和實(shí)現(xiàn)方式的背離，在很大程度上加劇了大模型評(píng)測(cè)領(lǐng)域的種種亂象。

舉個(gè)例子，在圖像識(shí)別里有一個(gè)著名的“走捷徑”案例，它指的是在對(duì)狼和雪狼進(jìn)行分類(lèi)時(shí)，大模型學(xué)習(xí)到的規(guī)律是識(shí)別背景是否存在積雪，而不是識(shí)別兩種動(dòng)物的生理特征區(qū)別。

而在認(rèn)知推理類(lèi)的數(shù)據(jù)集上也存在著類(lèi)似現(xiàn)象。面對(duì)一道數(shù)學(xué)題，假如要求大模型給出分步推理的“思維鏈”時(shí)，大模型往往會(huì)混淆不同單位的量，比如將時(shí)速和公里數(shù)相乘相加，這說(shuō)明對(duì)于不同概念背后的物理意義，大模型存在認(rèn)識(shí)不足的問(wèn)題。

那么，如何更好地檢測(cè)大模型對(duì)于概念的認(rèn)知水平、以及檢測(cè)它的應(yīng)用泛化能力？

以下圖為例，對(duì)于一個(gè)復(fù)雜的推理問(wèn)題來(lái)說(shuō)，假如從起點(diǎn)到終點(diǎn)有多種解答方式，而其中每一步的推理都能被看成是一個(gè)節(jié)點(diǎn)，節(jié)點(diǎn)和節(jié)點(diǎn)之間組成了路徑。

而在當(dāng)前的大模型訓(xùn)練范式中，往往只讓大模型看到少數(shù)幾條正確的解題路徑（青色或藍(lán)色），而忽視了錯(cuò)誤的路徑（橙色）。

同樣地，在評(píng)測(cè)大模型的表現(xiàn)時(shí)，人們只關(guān)注最終的推理路徑終點(diǎn)是否和標(biāo)準(zhǔn)答案一致，而忽視了推理過(guò)程中可能存在的錯(cuò)誤推理節(jié)點(diǎn)或錯(cuò)誤路徑。

（來(lái)源：arXiv）

舉例來(lái)說(shuō)：

在教育領(lǐng)域，如果 GPT4 在小學(xué)級(jí)別的數(shù)學(xué)題目上的評(píng)測(cè)準(zhǔn)確率只有四成，那么我們難免會(huì)對(duì) GPT4 的實(shí)用性產(chǎn)生懷疑。

在咨詢領(lǐng)域，大模型的應(yīng)用場(chǎng)景高度依賴于對(duì)不同方案的推演、整體步驟的拆分、解析等能力。

而當(dāng)今大模型在這些方面的能力缺失，難免讓人對(duì)其下游應(yīng)用的可靠性打上了問(wèn)號(hào)。

讓大模型“從學(xué)生變?yōu)槔蠋煛?/span>

基于此，曾忠燊和所在團(tuán)隊(duì)開(kāi)展了本次研究。事實(shí)上，本次研究的靈感來(lái)源于一次比賽，此前曾忠燊參加了“粵港澳大灣區(qū)（黃埔）國(guó)際算法算例大賽”的分賽道“大語(yǔ)言模型綜合能力強(qiáng)化”。

當(dāng)時(shí)，他調(diào)研了一些關(guān)于大模型推理方向能力增強(qiáng)的論文，這些論文主要分為以下方向：第一個(gè)方向是同源數(shù)據(jù)增廣，第二個(gè)方向是使用反饋模型針對(duì)數(shù)據(jù)篩選、或針對(duì)大模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

在他嘗試使用時(shí)，卻發(fā)現(xiàn)這兩個(gè)方法均存在很大問(wèn)題：

第一，當(dāng)使用 ChatGPT 進(jìn)行數(shù)據(jù)增廣時(shí)，ChatGPT 并不能真正地理解人們希望其生成的一些概念，在應(yīng)用這些概念造題和解題時(shí)常常會(huì)出現(xiàn)各種錯(cuò)誤，因此往往需要非常精細(xì)的程序設(shè)計(jì)和引導(dǎo)來(lái)提升準(zhǔn)確率。

第二，仔細(xì)研究反饋模型的作用后，曾忠燊認(rèn)為要求一個(gè)反饋模型對(duì)推理數(shù)據(jù)進(jìn)行篩選時(shí)，實(shí)質(zhì)上等價(jià)于要求其進(jìn)行“元推理”。

這一難度甚至高于直接解題，原因在于為了提升解題效果引入更難的評(píng)判解題任務(wù)，似乎會(huì)把一個(gè)問(wèn)題轉(zhuǎn)為另一個(gè)更難的問(wèn)題。

意識(shí)到這一問(wèn)題之后，他和所在團(tuán)隊(duì)研發(fā)了元推理范式，并將其用于一些常見(jiàn)數(shù)據(jù)集之上。

結(jié)果發(fā)現(xiàn)無(wú)論是開(kāi)源大模型還是閉源大模型，它們的表現(xiàn)都開(kāi)始出現(xiàn)急劇下降，尤其是開(kāi)源的垂類(lèi)推理大模型甚至降到了不足百分之一的準(zhǔn)確率。

因此，他和同事呼吁將大模型認(rèn)知推理的檢測(cè)重點(diǎn)，從最終的計(jì)算結(jié)果匹配，轉(zhuǎn)移到對(duì)于計(jì)算過(guò)程的檢測(cè)。

具體做法是：先從解題空間里采樣一些給定的推理路徑，然后讓大模型進(jìn)行評(píng)判。評(píng)判的內(nèi)容包括：推理路徑是否正確？錯(cuò)誤節(jié)點(diǎn)和錯(cuò)誤步驟在哪里？錯(cuò)誤原因是什么？

這種評(píng)測(cè)范式的轉(zhuǎn)變，意味著對(duì)于整個(gè)解題空間，大模型都必須具備全局和宏觀的理解，做到知其然也要知其所以然。

詳細(xì)來(lái)說(shuō)，大模型需要做到如下幾方面：

其一，需要知道推理的最終結(jié)果和節(jié)點(diǎn)是什么；

其二，需要對(duì)每一步推理節(jié)點(diǎn)的條件和前提進(jìn)行審視性評(píng)判，并對(duì)節(jié)點(diǎn)和節(jié)點(diǎn)間的邏輯連接進(jìn)行思考，以便判斷當(dāng)前步驟是否出錯(cuò)；

其三，需要能夠代入不同假設(shè)，或反事實(shí)地（counterfactually）針對(duì)未來(lái)的推理路徑進(jìn)行預(yù)演和分析，從而判斷這一答案是否在正確的推理路徑上。

這些需求將迫使大模型從一個(gè)答題者的角度，上升到一個(gè)教師的高度進(jìn)行全局審視和全局推理。對(duì)于這種“對(duì)推理過(guò)程的推理”，該團(tuán)隊(duì)將其稱之為“元推理”評(píng)測(cè)范式。

（來(lái)源：arXiv）

如上圖所示，當(dāng)他們把元推理范式應(yīng)用到一個(gè)流行的數(shù)學(xué)評(píng)測(cè)集 GSM8k 上時(shí)，GPT4 的表現(xiàn)驟降一半以上，而 GPT3.5 的準(zhǔn)確率則由 80% 以上驟降到個(gè)位數(shù)。

這說(shuō)明在同一個(gè)數(shù)據(jù)集上經(jīng)過(guò)簡(jiǎn)單的元推理范式轉(zhuǎn)換后，模型能力會(huì)出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后，大模型的能力差異出現(xiàn)了更大的分化。

同樣在 GSM8K 上取得領(lǐng)先效果的開(kāi)源模型比如 Mammoth、WizardMath、MetaMath 等模型，它們的訓(xùn)練方法是這樣的：針對(duì)該數(shù)據(jù)集的數(shù)據(jù)進(jìn)行大量的同源增廣，以讓效果接近 GPT3.5。

遺憾的是，當(dāng)課題組對(duì)其進(jìn)行范式轉(zhuǎn)換之后，開(kāi)源的數(shù)學(xué)大模型效果，由原本的接近 GPT3.5、變成遠(yuǎn)遜于 GPT3.5。

這可能也表明當(dāng)前流行的簡(jiǎn)單數(shù)據(jù)增強(qiáng)的方法，更接近于“背題”或“題海戰(zhàn)術(shù)”，并不能真正地提升大模型的實(shí)際能力。

而作為一種通用評(píng)測(cè)范式，曾忠燊等人提出的元推理范式，能被推廣到更多評(píng)測(cè)場(chǎng)景。

此外，本次研究中的標(biāo)注難度遠(yuǎn)遠(yuǎn)超出預(yù)期。研究期間，他們針對(duì)小初級(jí)別的數(shù)學(xué)數(shù)據(jù)集 GSM8K，進(jìn)行了元推理范式的改造。

這一改造方式要求標(biāo)注人員針對(duì)數(shù)據(jù)集進(jìn)行類(lèi)似的元推理，并將元推理結(jié)果記錄成評(píng)測(cè)集。

雖然僅僅是小初級(jí)別的題目，但他們發(fā)現(xiàn)從讀題、讀標(biāo)準(zhǔn)答案、再到讀采樣出的待評(píng)測(cè)答案，必須針對(duì)每一步進(jìn)行細(xì)致的分析和推理。

而由于耗時(shí)較久，單位標(biāo)注價(jià)格也就更高；同時(shí)因?yàn)殡y度高，對(duì)于標(biāo)注人員的資質(zhì)要求也高。

曾忠燊說(shuō)：“我在看到報(bào)價(jià)的時(shí)候，突然想起 OpenAI 有一個(gè)論文是對(duì)數(shù)學(xué)奧林匹克競(jìng)賽的題目和解題過(guò)程進(jìn)行標(biāo)注，以進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。OpenAI 標(biāo)注的性質(zhì)和內(nèi)容，和我們存在部分相似的地方。”

在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里，包含了 80 萬(wàn)道標(biāo)注題目。保守估計(jì)一道題的標(biāo)注成本是 10 美元，那么 OpenAI 數(shù)據(jù)集的價(jià)格是 800 萬(wàn)美元。而 OpenAI 那篇論文并沒(méi)有催生特別直接的落地成果，也沒(méi)有帶來(lái)實(shí)用效果上的巨大提升。

“在真正了解標(biāo)注的昂貴和難處后，不禁感慨 OpenAI 的財(cái)大氣粗和對(duì)失敗的容忍。”曾忠燊說(shuō)。

另?yè)?jù)悉，OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗（Ilya Sutskever）在一次采訪時(shí)被問(wèn)到：“如果通用人工智能實(shí)現(xiàn)后他會(huì)選擇做什么？”伊利亞回答說(shuō)：“或許我會(huì)主動(dòng)融入 AI（be part of AI）?！?/span>

閱讀到上述采訪報(bào)道時(shí)，當(dāng)時(shí)曾忠燊并未明白什么叫融入 AI?？呻S著本次工作的不斷推進(jìn)，他隱約覺(jué)得 AI 要在認(rèn)知上和人類(lèi)貼合，可能很大程度上要依賴于人類(lèi)不斷提供豐富的反饋信號(hào)。

“這或許也是一種融入 AI 的方式吧？一種類(lèi)似于干將莫邪以身殉劍的神話浪漫感?！痹覠稣f(shuō)。

而在未來(lái)，他和所在團(tuán)隊(duì)致力于打造一個(gè)更全面、更多元的評(píng)測(cè)體系。目前，他們已經(jīng)聯(lián)系多家國(guó)內(nèi)頭部的標(biāo)注公司，目標(biāo)場(chǎng)景包括學(xué)科類(lèi)、邏輯類(lèi)、具身類(lèi)和應(yīng)用類(lèi)等四個(gè)方向的元推理場(chǎng)景構(gòu)筑。

參考資料：1.https://arxiv.org/abs/2312.17080
排版：羅以

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

港中文團(tuán)隊(duì)提出大模型元推理范式，助力判斷大模型的真實(shí)能力，革新大模型的評(píng)價(jià)體系

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

港中文團(tuán)隊(duì)提出大模型元推理范式，助力判斷大模型的真實(shí)能力，革新大模型的評(píng)價(jià)體系

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

港中文團(tuán)隊(duì)提出大模型元推理范式，助力判斷大模型的真實(shí)能力，革新大模型的評(píng)價(jià)體系