OpenAI 最新“神”操作:讓 GPT-4 去解釋 GPT-2 的行為!
由 ChatGPT 掀起的這場 AI 革命,令人們感慨神奇的同時,也不禁發(fā)出疑問:AI 究竟是怎么做到這一切的?
此前,即便是專業(yè)的數(shù)據(jù)科學(xué)家,都難以解釋大模型(LLM)運(yùn)作的背后。而最近,OpenAI 似乎做到了——本周二,OpenAI 發(fā)布了其最新研究:讓 GPT-4 去試著解釋 GPT-2 的行為。
即:讓一個 AI “黑盒”去解釋另一個 AI “黑盒”。
工作量太大,決定讓 GPT-4 去解釋 GPT-2
OpenAI 之所以做這項(xiàng)研究的原因,在于近來人們對 AI 倫理與治理的擔(dān)憂:“語言模型的能力越來越強(qiáng),部署也越來越廣泛,但我們對其內(nèi)部工作方式的理解仍然非常有限?!?/span>
由于 AI 的“黑盒”性質(zhì),人們很難分辨大模型的輸出結(jié)果是否采用了帶有偏見性質(zhì)的方法,也難以區(qū)分其正確性,因而“可解釋性”是亟待重要的一個問題。
AI 的發(fā)展很大程度上是在模仿人類,因而大模型和人腦一樣,也由神經(jīng)元組成,它會觀察文本規(guī)律進(jìn)而影響到輸出結(jié)果。所以想要研究 AI 的“可解釋性”,理論上要先了解大模型的各個神經(jīng)元在做什么。
按理來說,這本應(yīng)由人類手動檢查,來弄清神經(jīng)元所代表的數(shù)據(jù)特征——參數(shù)量少還算可行,可對于如今動輒百億、千億級參數(shù)的神經(jīng)網(wǎng)絡(luò),這個工作量顯然過于“離譜”了。
于是,OpenAI 靈機(jī)一動:或許,可以用“魔法”打敗“魔法”?
“我們用 GPT-4 為大型語言模型中的神經(jīng)元行為自動編寫解釋,并為這些解釋打分?!倍?GPT-4 首次解釋的對象是 GPT-2,一個 OpenAI 發(fā)布于 4 年前、神經(jīng)元數(shù)量超過 30 萬個的開源大模型。
讓 GPT-4 “解釋” GPT-2 的原理
具體來說,讓 GPT-4 “解釋” GPT-2 的過程,整體分為三個步驟。
(1)首先,讓 GPT-4 生成解釋,即給出一個 GPT-2 神經(jīng)元,向 GPT-4 展示相關(guān)的文本序列和激活情況,產(chǎn)生一個對其行為的解釋。
如上圖所示,GPT-4 對 GPT-2 該神經(jīng)元生成的解釋為:與電影、人物和娛樂有關(guān)。
(2)其次,再次使用 GPT-4,模擬被解釋的神經(jīng)元會做什么。下圖即 GPT-4 生成的模擬內(nèi)容。
(3)最后,比較 GPT-4 模擬神經(jīng)元的結(jié)果與 GPT-2 真實(shí)神經(jīng)元的結(jié)果,根據(jù)匹配程度對 GPT-4 的解釋進(jìn)行評分。在下圖展示的示例中,GPT-4 得分為 0.34。
通過這樣的方法,OpenAI 共讓 GPT-4 解釋了 GPT-2 中的 307200 個神經(jīng)元,其中大多數(shù)解釋的得分很低,只有超過 1000 個神經(jīng)元的解釋得分高于 0.8。
在官博中,OpenAI 承認(rèn)目前 GPT-4 生成的解釋并不完美,尤其在解釋比 GPT-2 規(guī)模更大的模型時,效果更是不佳:“可能是因?yàn)楹竺娴?layer 更難解釋?!?/span>
盡管絕大多數(shù)解釋的得分不高,但 OpenAI 認(rèn)為,“即使 GPT-4 給出的解釋比人類差,但也還有改進(jìn)的余地”,未來通過 ML 技術(shù)可提高 GPT-4 的解釋能力,并提出了三種提高解釋得分的方法:
? 對解釋進(jìn)行迭代,通過讓 GPT-4 想出可能的反例,根據(jù)其激活情況修改解釋來提高分?jǐn)?shù)。
? 使用更大的模型來進(jìn)行解釋,平均得分也會上升。
? 調(diào)整被解釋模型的結(jié)構(gòu),用不同的激活函數(shù)訓(xùn)練模型。
值得一提的是,以上這些解釋數(shù)據(jù)集、可視化工具以及代碼,OpenAI 都已在 GitHub 上開源發(fā)布:“我們希望研究界能開發(fā)出新技術(shù)以生成更高分的解釋,以及更好的工具來使用解釋探索 GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
“再搞下去,AI 真的要覺醒了”
除此之外,OpenAI 還提到了目前他們采取的方法有很多局限性,未來需要一一攻克:
? GPT-4 給出的解釋總是很簡短,但神經(jīng)元可能有著非常復(fù)雜的行為,不能簡潔描述。
? 當(dāng)前的方法只解釋了神經(jīng)元的行為,并沒有涉及下游影響,希望最終能自動化找到并解釋能實(shí)現(xiàn)復(fù)雜行為的整個神經(jīng)回路。
? 只解釋了神經(jīng)元的行為,并沒有解釋產(chǎn)生這種行為的背后機(jī)制。
? 整個過程都是相當(dāng)密集的計算,算力消耗很大。
在博文的最后,OpenAI 展望道:“我們希望將我們最大的模型解釋為一種在部署前后檢測對齊和安全問題的方式。然而,在這些技術(shù)能夠揭露不誠實(shí)等行為之前,我們還有很長的路要走?!?/span>
對于 OpenAI 的這個研究成果,今日在國內(nèi)外各大技術(shù)平臺也引起了廣泛關(guān)注。
有人在意其得分不佳:“對 GPT-2 的解釋都不行,就更不知道 GPT-3 和 GPT-4 內(nèi)部發(fā)生了什么,但這才是許多人更關(guān)注的答案。”有人感慨 AI 進(jìn)化的方式愈發(fā)先進(jìn):“未來就是用 AI 完善 AI 模型,會加速進(jìn)化?!币灿腥藫?dān)心 AI 進(jìn)化的未來:“再搞下去,AI 真的要覺醒了。”
那么對此,你又有什么看法呢?
參考鏈接:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://news.ycombinator.com/item?id=35877402
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。