博客專欄

EEPW首頁 > 博客 > 港中文團(tuán)隊(duì)提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評價(jià)體系

港中文團(tuán)隊(duì)提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評價(jià)體系

發(fā)布人:深科技 時(shí)間:2024-03-03 來源:工程師 發(fā)布文章

曾忠燊,是一名潮汕人。其本科和碩士分別畢業(yè)于美國伊利諾伊大學(xué)和美國佐治亞理工學(xué)院。在本科畢業(yè)和碩士畢業(yè)之后,他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過一段時(shí)間。

在 ChatGPT 面世以后,他意識到針對大模型的研究范式存在一定的不足,于是決定來到香港中文大學(xué)讀博。

圖片

圖 | 曾忠燊(來源:曾忠燊)

前不久,曾忠燊和所在團(tuán)隊(duì)提出一個(gè)全新評測范式。基于這一評測范式,他們又針對現(xiàn)有數(shù)據(jù)集,提出了一種改造方法。

實(shí)驗(yàn)證明,這種方法能有效區(qū)分不同模型的能力差異。同時(shí),他們還揭示了這種全新評測范式對于當(dāng)前數(shù)據(jù)污染的魯棒性。

此前,由于訓(xùn)練數(shù)據(jù)的不透明,人們無法得知大模型在一些榜單上的成績提升,是否是數(shù)據(jù)污染和題目泄露所帶來的。

而本次提出的全新評測范式,對于“背題”式的成績提高有著極強(qiáng)的抵御能力。憑借這種抵御能力,就能對絕大部分的數(shù)據(jù)集進(jìn)行“舊改”。

同時(shí),這種全新的評測方式不僅可以揭示大模型的能力差異,也能給下游應(yīng)用帶來一定啟示。

日前,相關(guān)論文以《大型語言模型評價(jià)中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)為題發(fā)在 arXiv,曾忠燊是第一作者,香港中文大學(xué)教授賈佳亞擔(dān)任通訊作者 [1]。

圖片

圖 | 相關(guān)論文(來源:arXiv

圖片

大模型也在依靠“題海戰(zhàn)術(shù)”?

“背題”“題海戰(zhàn)術(shù)”,是許多人在讀書時(shí)代都曾使用過的學(xué)習(xí)方式。然而,你可知道大模型其實(shí)也在使用這兩種學(xué)習(xí)方式?此外,當(dāng)前大模型的能力邊界到底在哪里?

從推理和認(rèn)知這兩個(gè)能力維度出發(fā),當(dāng)一篇論文稱大模型在一個(gè)評測指標(biāo)上取得超出人類水平的結(jié)果時(shí),我們是否應(yīng)該感到恐慌?

還是仔細(xì)審視在制定指標(biāo)時(shí)是否忽略了什么因素,以至于大模型的認(rèn)知能力被夸大了?

事實(shí)上,對于指標(biāo)的設(shè)計(jì)意義思考不足,起碼會帶來以下幾個(gè)潛在危害:

其一,評測結(jié)果能否真實(shí)反映大模型的能力?如果對此認(rèn)識不足,往往會過分夸大模型的效果。

其二,會讓人以為指標(biāo)的提升,等價(jià)于大模型能力的提升、以及等價(jià)于真實(shí)場景的效果和實(shí)用性提升,導(dǎo)致盲目追逐和攀比榜單效果,陷入惡性循環(huán)。

其三,過分關(guān)注和比較在細(xì)分場景上的表現(xiàn),忽視了大模型整體認(rèn)知能力的提升。

當(dāng)前,面向大模型推理能力和認(rèn)知能力的評測集,主要依賴一些標(biāo)準(zhǔn)化考試的試題、或一些精心設(shè)計(jì)的規(guī)則類游戲。

這些評測集的設(shè)計(jì)初衷,很大程度上是設(shè)計(jì)者認(rèn)為求解這類推理類任務(wù)所需要的模式識別、記憶召回、分析假設(shè)、歸納演繹等能力,是一種處理所有任務(wù)都需要的“元”能力,并認(rèn)為這類能力對于大模型在現(xiàn)實(shí)場景中的泛化和魯棒是至關(guān)重要的。

但是,具體到設(shè)計(jì)這些任務(wù)的評測方式時(shí),這些評測集往往僅僅依賴于對最終計(jì)算結(jié)果的簡單匹配,而忽略了對于計(jì)算過程的認(rèn)知檢測。

由此可見,這種目標(biāo)和實(shí)現(xiàn)方式的背離,在很大程度上加劇了大模型評測領(lǐng)域的種種亂象。

舉個(gè)例子,在圖像識別里有一個(gè)著名的“走捷徑”案例,它指的是在對狼和雪狼進(jìn)行分類時(shí),大模型學(xué)習(xí)到的規(guī)律是識別背景是否存在積雪,而不是識別兩種動(dòng)物的生理特征區(qū)別。

而在認(rèn)知推理類的數(shù)據(jù)集上也存在著類似現(xiàn)象。面對一道數(shù)學(xué)題,假如要求大模型給出分步推理的“思維鏈”時(shí),大模型往往會混淆不同單位的量,比如將時(shí)速和公里數(shù)相乘相加,這說明對于不同概念背后的物理意義,大模型存在認(rèn)識不足的問題。

那么,如何更好地檢測大模型對于概念的認(rèn)知水平、以及檢測它的應(yīng)用泛化能力?

以下圖為例,對于一個(gè)復(fù)雜的推理問題來說,假如從起點(diǎn)到終點(diǎn)有多種解答方式,而其中每一步的推理都能被看成是一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)和節(jié)點(diǎn)之間組成了路徑。

而在當(dāng)前的大模型訓(xùn)練范式中,往往只讓大模型看到少數(shù)幾條正確的解題路徑(青色或藍(lán)色),而忽視了錯(cuò)誤的路徑(橙色)。

同樣地,在評測大模型的表現(xiàn)時(shí),人們只關(guān)注最終的推理路徑終點(diǎn)是否和標(biāo)準(zhǔn)答案一致,而忽視了推理過程中可能存在的錯(cuò)誤推理節(jié)點(diǎn)或錯(cuò)誤路徑。

圖片

(來源:arXiv

舉例來說:

在教育領(lǐng)域,如果 GPT4 在小學(xué)級別的數(shù)學(xué)題目上的評測準(zhǔn)確率只有四成,那么我們難免會對 GPT4 的實(shí)用性產(chǎn)生懷疑。

在咨詢領(lǐng)域,大模型的應(yīng)用場景高度依賴于對不同方案的推演、整體步驟的拆分、解析等能力。

而當(dāng)今大模型在這些方面的能力缺失,難免讓人對其下游應(yīng)用的可靠性打上了問號。

圖片

讓大模型“從學(xué)生變?yōu)槔蠋煛?/span>

基于此,曾忠燊和所在團(tuán)隊(duì)開展了本次研究。事實(shí)上,本次研究的靈感來源于一次比賽,此前曾忠燊參加了“粵港澳大灣區(qū)(黃埔)國際算法算例大賽”的分賽道“大語言模型綜合能力強(qiáng)化”。

當(dāng)時(shí),他調(diào)研了一些關(guān)于大模型推理方向能力增強(qiáng)的論文,這些論文主要分為以下方向:第一個(gè)方向是同源數(shù)據(jù)增廣,第二個(gè)方向是使用反饋模型針對數(shù)據(jù)篩選、或針對大模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

在他嘗試使用時(shí),卻發(fā)現(xiàn)這兩個(gè)方法均存在很大問題:

第一,當(dāng)使用 ChatGPT 進(jìn)行數(shù)據(jù)增廣時(shí),ChatGPT 并不能真正地理解人們希望其生成的一些概念,在應(yīng)用這些概念造題和解題時(shí)常常會出現(xiàn)各種錯(cuò)誤,因此往往需要非常精細(xì)的程序設(shè)計(jì)和引導(dǎo)來提升準(zhǔn)確率。

第二,仔細(xì)研究反饋模型的作用后,曾忠燊認(rèn)為要求一個(gè)反饋模型對推理數(shù)據(jù)進(jìn)行篩選時(shí),實(shí)質(zhì)上等價(jià)于要求其進(jìn)行“元推理”。

這一難度甚至高于直接解題,原因在于為了提升解題效果引入更難的評判解題任務(wù),似乎會把一個(gè)問題轉(zhuǎn)為另一個(gè)更難的問題。

意識到這一問題之后,他和所在團(tuán)隊(duì)研發(fā)了元推理范式,并將其用于一些常見數(shù)據(jù)集之上。

結(jié)果發(fā)現(xiàn)無論是開源大模型還是閉源大模型,它們的表現(xiàn)都開始出現(xiàn)急劇下降,尤其是開源的垂類推理大模型甚至降到了不足百分之一的準(zhǔn)確率。

因此,他和同事呼吁將大模型認(rèn)知推理的檢測重點(diǎn),從最終的計(jì)算結(jié)果匹配,轉(zhuǎn)移到對于計(jì)算過程的檢測。

具體做法是:先從解題空間里采樣一些給定的推理路徑,然后讓大模型進(jìn)行評判。評判的內(nèi)容包括:推理路徑是否正確?錯(cuò)誤節(jié)點(diǎn)和錯(cuò)誤步驟在哪里?錯(cuò)誤原因是什么?

這種評測范式的轉(zhuǎn)變,意味著對于整個(gè)解題空間,大模型都必須具備全局和宏觀的理解,做到知其然也要知其所以然。

詳細(xì)來說,大模型需要做到如下幾方面:

其一,需要知道推理的最終結(jié)果和節(jié)點(diǎn)是什么;

其二,需要對每一步推理節(jié)點(diǎn)的條件和前提進(jìn)行審視性評判,并對節(jié)點(diǎn)和節(jié)點(diǎn)間的邏輯連接進(jìn)行思考,以便判斷當(dāng)前步驟是否出錯(cuò);

其三,需要能夠代入不同假設(shè),或反事實(shí)地(counterfactually)針對未來的推理路徑進(jìn)行預(yù)演和分析,從而判斷這一答案是否在正確的推理路徑上。

這些需求將迫使大模型從一個(gè)答題者的角度,上升到一個(gè)教師的高度進(jìn)行全局審視和全局推理。對于這種“對推理過程的推理”,該團(tuán)隊(duì)將其稱之為“元推理”評測范式。

圖片

(來源:arXiv

如上圖所示,當(dāng)他們把元推理范式應(yīng)用到一個(gè)流行的數(shù)學(xué)評測集 GSM8k 上時(shí),GPT4 的表現(xiàn)驟降一半以上,而 GPT3.5 的準(zhǔn)確率則由 80% 以上驟降到個(gè)位數(shù)。

這說明在同一個(gè)數(shù)據(jù)集上經(jīng)過簡單的元推理范式轉(zhuǎn)換后,模型能力會出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后,大模型的能力差異出現(xiàn)了更大的分化。

同樣在 GSM8K 上取得領(lǐng)先效果的開源模型比如 Mammoth、WizardMath、MetaMath 等模型,它們的訓(xùn)練方法是這樣的:針對該數(shù)據(jù)集的數(shù)據(jù)進(jìn)行大量的同源增廣,以讓效果接近 GPT3.5。

遺憾的是,當(dāng)課題組對其進(jìn)行范式轉(zhuǎn)換之后,開源的數(shù)學(xué)大模型效果,由原本的接近 GPT3.5、變成遠(yuǎn)遜于 GPT3.5。

這可能也表明當(dāng)前流行的簡單數(shù)據(jù)增強(qiáng)的方法,更接近于“背題”或“題海戰(zhàn)術(shù)”,并不能真正地提升大模型的實(shí)際能力。

而作為一種通用評測范式,曾忠燊等人提出的元推理范式,能被推廣到更多評測場景。

此外,本次研究中的標(biāo)注難度遠(yuǎn)遠(yuǎn)超出預(yù)期。研究期間,他們針對小初級別的數(shù)學(xué)數(shù)據(jù)集 GSM8K,進(jìn)行了元推理范式的改造。

這一改造方式要求標(biāo)注人員針對數(shù)據(jù)集進(jìn)行類似的元推理,并將元推理結(jié)果記錄成評測集。

雖然僅僅是小初級別的題目,但他們發(fā)現(xiàn)從讀題、讀標(biāo)準(zhǔn)答案、再到讀采樣出的待評測答案,必須針對每一步進(jìn)行細(xì)致的分析和推理。

而由于耗時(shí)較久,單位標(biāo)注價(jià)格也就更高;同時(shí)因?yàn)殡y度高,對于標(biāo)注人員的資質(zhì)要求也高。

曾忠燊說:“我在看到報(bào)價(jià)的時(shí)候,突然想起 OpenAI 有一個(gè)論文是對數(shù)學(xué)奧林匹克競賽的題目和解題過程進(jìn)行標(biāo)注,以進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。OpenAI 標(biāo)注的性質(zhì)和內(nèi)容,和我們存在部分相似的地方?!?/span>

在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里,包含了 80 萬道標(biāo)注題目。保守估計(jì)一道題的標(biāo)注成本是 10 美元,那么 OpenAI 數(shù)據(jù)集的價(jià)格是 800 萬美元。而 OpenAI 那篇論文并沒有催生特別直接的落地成果,也沒有帶來實(shí)用效果上的巨大提升。

“在真正了解標(biāo)注的昂貴和難處后,不禁感慨 OpenAI 的財(cái)大氣粗和對失敗的容忍?!痹覠稣f。

另據(jù)悉,OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗(Ilya Sutskever)在一次采訪時(shí)被問到:“如果通用人工智能實(shí)現(xiàn)后他會選擇做什么?”伊利亞回答說:“或許我會主動(dòng)融入 AI(be part of AI)?!?/span>

閱讀到上述采訪報(bào)道時(shí),當(dāng)時(shí)曾忠燊并未明白什么叫融入 AI。可隨著本次工作的不斷推進(jìn),他隱約覺得 AI 要在認(rèn)知上和人類貼合,可能很大程度上要依賴于人類不斷提供豐富的反饋信號。

“這或許也是一種融入 AI 的方式吧?一種類似于干將莫邪以身殉劍的神話浪漫感?!痹覠稣f。

而在未來,他和所在團(tuán)隊(duì)致力于打造一個(gè)更全面、更多元的評測體系。目前,他們已經(jīng)聯(lián)系多家國內(nèi)頭部的標(biāo)注公司,目標(biāo)場景包括學(xué)科類、邏輯類、具身類和應(yīng)用類等四個(gè)方向的元推理場景構(gòu)筑。

參考資料:1.https://arxiv.org/abs/2312.17080
排版:羅以


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉