斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測器DetectGPT,通過文本對數(shù)概率的曲率進(jìn)行可解釋判斷
隨著以ChatGPT等大型語言模型(large language models,LLMs)的爆火,學(xué)界和工業(yè)界目前已經(jīng)開始重視這些模型的安全性,由于ChatGPT強(qiáng)大的知識(shí)存儲(chǔ)和推理能力,其目前可以針對各種各樣的用戶輸入來產(chǎn)生非常流暢和完整的回答,甚至在一些專業(yè)領(lǐng)域以及公共討論話題中,它也可以從容應(yīng)對。例如,一些學(xué)生可能會(huì)使用LLMs來幫助他們完成書面作業(yè),使老師無法準(zhǔn)確的判斷學(xué)生的學(xué)習(xí)效果,這也的的確確是LLMs帶來的負(fù)面影響。
論文鏈接:
https://arxiv.org/abs/2301.11305
項(xiàng)目主頁: https://ericmitchell.ai/detectgpt/
近日,來自斯坦福大學(xué)的研究團(tuán)隊(duì)發(fā)布了一個(gè)名為DetectGPT的檢測模型來判斷一個(gè)文本段落是否是由機(jī)器生成的。作者首先觀察了LLMs的運(yùn)行機(jī)制,他們發(fā)現(xiàn)LLM生成的文本往往占據(jù)模型的對數(shù)概率函數(shù)的負(fù)曲率區(qū)域。根據(jù)這一現(xiàn)象,作者提出想法,能夠基于概率函數(shù)的曲率標(biāo)準(zhǔn)來對文本進(jìn)行判定呢?
實(shí)驗(yàn)結(jié)果表明,這種想法完全可行,DetectGPT不需要專門訓(xùn)練一個(gè)單獨(dú)的分類器,也不需要額外收集真實(shí)場景中或者機(jī)器生成的文本段落數(shù)據(jù),它只需要對當(dāng)前模型計(jì)算其對數(shù)概率并與另外一個(gè)通用的預(yù)訓(xùn)練語言模型(例如T5)的段落隨機(jī)擾動(dòng)進(jìn)行比較,即可得出結(jié)論。作者發(fā)現(xiàn)DetectGPT比現(xiàn)有的zero-shot文本檢測方法更具有鑒別能力。
引言
如果我們仔細(xì)推敲ChatGPT等LLMs生成出的文本回答,會(huì)發(fā)現(xiàn)它們的答案仍然有明顯的機(jī)器翻譯痕跡。但是這種生成技術(shù)確實(shí)在一些領(lǐng)域能夠以假亂真,甚至取代人工勞動(dòng),特別是在學(xué)生的論文寫作和記者的新聞寫作中,這都會(huì)帶來很大的風(fēng)險(xiǎn),例如影響學(xué)生的學(xué)習(xí)積極性,也有可能會(huì)因?yàn)樘摷傩侣剬?dǎo)致公眾獲得錯(cuò)誤的信息。但是幸運(yùn)的是,目前機(jī)器模型生成的文本與人類編寫出的文字相比仍然有不小的差距,這使得我們及時(shí)開發(fā)文本檢測方法和工具成為可能。
之前已經(jīng)有很多工作將機(jī)器生成的文本檢測任務(wù)看做是一個(gè)二分類問題[1],具體來說,這些方法的目標(biāo)是對一個(gè)候選文本段落的來源進(jìn)行分類,其中這些文本來源是預(yù)定義的類別。但是這種方法有幾個(gè)明顯的缺點(diǎn),例如它們會(huì)非常傾向于參與訓(xùn)練的那些文本來源,并且不具備增量學(xué)習(xí)功能,如果想要使模型能夠識(shí)別未知來源的文本,就需要對模型整體重新訓(xùn)練。因此考慮開發(fā)具有zero-shot功能的模型才更符合現(xiàn)實(shí)場景,即根據(jù)文本源模型本身來進(jìn)行開發(fā),不進(jìn)行任何形式的微調(diào)或適應(yīng),來檢測它自己生成的樣本。
zero-shot文本檢測任務(wù)最常見的方法就是對生成文本的平均token對數(shù)概率進(jìn)行評估,并設(shè)置閾值進(jìn)行判斷。本文作者針對此提出了一個(gè)簡單的假設(shè):機(jī)器對自己生成的文本進(jìn)行改動(dòng)時(shí)往往會(huì)比原始樣本的對數(shù)概率低,而人類對自己所寫文本的改動(dòng)會(huì)遠(yuǎn)超過原本文本的對數(shù)概率。換句話說,與人類寫的文本不同,模型生成的文本往往位于對數(shù)概率函數(shù)具有負(fù)曲率的區(qū)域(例如,對數(shù)概率的局部最大值),如下圖所示。
作者基于這一假設(shè)設(shè)計(jì)了DetectGPT,為了測試一個(gè)段落是否來自一個(gè)源模型 θ,DetectGPT將與 θ 相關(guān)候選段落的對數(shù)概率與對 θ 進(jìn)行隨機(jī)擾動(dòng)生成的段落的平均對數(shù)概率(例如用T5參與擾動(dòng))進(jìn)行比較。如果被擾動(dòng)的段落的平均對數(shù)概率比原始段落低一些,那么候選段落很可能來自于 θ, 這一過程的具體運(yùn)行如下圖所示。
本文方法
對于機(jī)器生成的zero-shot文本檢測任務(wù)設(shè)置,即檢測一段文本或候選段落 是否是源模型 θ 的樣本,在模型訓(xùn)練時(shí)無需加入外部數(shù)據(jù),其呈現(xiàn)“白盒設(shè)置”的特點(diǎn),模型中的檢測器可以評估當(dāng)前樣本對 θ 的對數(shù)概率情況。此外“白盒設(shè)置”也不限制對模型架構(gòu)和參數(shù)規(guī)模的選擇,因此作者在對DetectGPT的性能評估中也選用了目前通用的預(yù)訓(xùn)練Masked模型,用來生成與當(dāng)前段落比較接近的候選文本,但是這些段落的生成不會(huì)經(jīng)過任何形式的微調(diào)和域適應(yīng)。
2.1 模型擾動(dòng)假設(shè)
上文提到,DetectGPT基于這樣一個(gè)假設(shè):來自源模型 θ 的樣本通常位于 θ 的對數(shù)概率函數(shù)的負(fù)曲率區(qū)域。如果我們對一段話 θ 施加一個(gè)小的擾動(dòng),產(chǎn)生 ,那么與人類編寫的文本相比,機(jī)器生成的樣本的對數(shù)值 θθ 應(yīng)該是比較大的?;谶@一假設(shè),作者首先考慮了一個(gè)擾動(dòng)函數(shù) ,它會(huì)先在 上給出一個(gè)分布,代表意義相近的略微修改過的 的版本。使用擾動(dòng)函數(shù)的概念,我們可以q輕松的定義出擾動(dòng)差異指標(biāo) θ:
對上述假設(shè)更為正式的定義如下:如果 在數(shù)據(jù)流形分布上產(chǎn)生樣本,對于樣本 θ 來說 θ 大概率為正,而對于人類編寫文本,θ 對所有 都趨向于0。
如果此時(shí)將擾動(dòng)函數(shù) 定義為來自T5等預(yù)訓(xùn)練模型生成的擾動(dòng)樣本,而不是人類改寫的樣本,就可以以一種自動(dòng)的、可擴(kuò)展的方式對上述假設(shè)進(jìn)行經(jīng)驗(yàn)性測試。對于機(jī)器生成樣本,這里作者使用了四個(gè)不同的LLM進(jìn)行輸出,例如使用T5-3B模型來產(chǎn)生擾動(dòng),對于給定樣本,按照2個(gè)字的跨度進(jìn)行隨機(jī)擾動(dòng),直到文本中15%的字被覆蓋。隨后使用經(jīng)過T5處理的100個(gè)樣本按照假設(shè)進(jìn)行近似計(jì)算,發(fā)現(xiàn)擾動(dòng)差異的分布對于人類編寫文本和機(jī)器生成樣本是明顯不同的,機(jī)器樣本往往有較大的擾動(dòng)差異。
上圖展示了來自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四個(gè)模型與人類樣本擾動(dòng)后的分布對比,其中藍(lán)色區(qū)域?yàn)槿祟惥帉懳谋镜姆植迹壬珵闄C(jī)器生成文本的分布。
2.2 將擾動(dòng)差異解釋為曲率
通過上圖,只能看出擾動(dòng)差異在鑒別文本是否來自人類還是機(jī)器方面是有效的,但是其衡量的理論指標(biāo)還不夠清晰。因而作者進(jìn)一步為擾動(dòng)差異尋找到了理論依據(jù),作者表明擾動(dòng)差異近似于候選段落附近對數(shù)概率函數(shù)的局部曲率的度量,更具體地說,它與對數(shù)概率函數(shù)的Hessian 矩陣的負(fù)跡成正比。為了處理離散數(shù)據(jù)的不可微性,作者在這里僅考慮了在潛在語義空間中的候選段落,其中的小擾動(dòng)對應(yīng)于保留與原始相似含義的文本編輯過程。因?yàn)楸疚倪x用的擾動(dòng)函數(shù) (T5) 是經(jīng)過大量自然文本語料預(yù)訓(xùn)練的,所以這里的擾動(dòng)可以被粗略地認(rèn)為是對原始段落的有效修改,而不是隨意編輯。
作者首先利用Hutchinson提出的跡估計(jì)器[3]給出矩陣 跡的無偏估計(jì):
隨后使用有限差分來近似這個(gè)表達(dá)式:
聯(lián)立上述兩式子并使用 進(jìn)行簡化,就可以得到負(fù)Hessian矩陣的跡估計(jì):
作者觀察到上式其實(shí)對應(yīng)于擾動(dòng)差異,其中擾動(dòng)函數(shù) 可以使用 Hutchinson跡估計(jì)器中使用的分布 代替。這里, 是一個(gè)高維的token序列,而 是一個(gè)嵌入語義空間中的向量。由于擾動(dòng)文本模型生成的句子與 相似,語義變化較小,因此可以將擾動(dòng)文本模型視為與當(dāng)前采樣相似的語義嵌入 ~ ,然后將其映射到token序列中 。這樣做,可以保證語義空間中的采樣都保持在數(shù)據(jù)流形附近,當(dāng)隨機(jī)擾動(dòng)發(fā)生后,對數(shù)概率就會(huì)產(chǎn)生明顯下降,這樣就可以將擾動(dòng)差異解釋為近似限制在數(shù)據(jù)流形上的曲率。
實(shí)驗(yàn)效果
本文的實(shí)驗(yàn)部分作者使用了六個(gè)數(shù)據(jù)集,涵蓋了各種日常領(lǐng)域,例如使用XSum數(shù)據(jù)集中的新聞文章來進(jìn)行假新聞檢測實(shí)驗(yàn),使用SQuAD上下文中的維基百科段落來表示機(jī)器編寫的學(xué)術(shù)論文,以及使用Reddit WritingPrompts數(shù)據(jù)集來表示機(jī)器生成的創(chuàng)意寫作。此外,為了評估分布變化的穩(wěn)健性,作者還使用了WMT16的英語和德語部分以及人類專家在PubMedQA數(shù)據(jù)集中編寫的標(biāo)準(zhǔn)答案。
作者首先對DetectGPT的zero-shot文本檢測能力進(jìn)行評估,實(shí)驗(yàn)結(jié)果如下表所示,可以看出,DetectGPT在所有15種數(shù)據(jù)集和模型組合中的14種實(shí)驗(yàn)組合上都得到了最準(zhǔn)確的檢測性能。尤其是DetectGPT最大程度地提高了XSum數(shù)據(jù)集的平均檢測精度(0.1 AUROC 改進(jìn)),在SQuAD維基百科上下文數(shù)據(jù)集上也有明顯的性能提升(0.05 AUROC 改進(jìn))。
此外,作者還選取了一部分監(jiān)督學(xué)習(xí)訓(xùn)練的檢測器進(jìn)行對比。作者著重探索了幾個(gè)領(lǐng)域,或者說幾種語境,對比結(jié)果如下圖所示。例如在英語新聞數(shù)據(jù)上,監(jiān)督檢測器可以達(dá)到與 DetectGPT 接近的檢測性能,但在英語科學(xué)寫作數(shù)據(jù)下,其性能明顯低于本文方法。而在德語寫作中監(jiān)督學(xué)習(xí)方法會(huì)完全失敗。相比之下,以DetectGPT為代表的零樣本方法更容易泛化到新的語言和領(lǐng)域中。
總結(jié)
隨著LLMs的不斷發(fā)展和改進(jìn),我們應(yīng)該一方面對它們在越來越多的領(lǐng)域中減輕人類工作者的創(chuàng)作壓力感到高興,另一方面也更應(yīng)該同步發(fā)展針對它們的安全檢測技術(shù),這對于這一領(lǐng)域未來的健康發(fā)展至關(guān)重要。本文從這些大模型本身的運(yùn)行機(jī)制出發(fā)設(shè)計(jì)了DetectGPT方法,DetectGPT通過一個(gè)簡單的數(shù)據(jù)分布特點(diǎn)即可判斷出文本的來源,此外作者還對本文方法進(jìn)行了詳盡的理論推導(dǎo),這使得DetectGPT具有更高的可信度和可解釋性。
此外DetectGPT的zero-shot特性使它相比那些使用數(shù)百萬數(shù)據(jù)樣本定制訓(xùn)練的檢測模型更具有競爭力。此外作者在文章的最后還談到了DetectGPT的未來計(jì)劃,他們會(huì)進(jìn)一步探索對數(shù)概率曲率屬性是否在其他領(lǐng)域(音頻、視頻或圖像)的生成模型中也能起到很好的檢測作用,這一方向也具有非常重要的現(xiàn)實(shí)意義,讓我們一起期待吧。
參考文獻(xiàn)
[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.
[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.
[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。