斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT，通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2023-02-18 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投作者：seven_
隨著以ChatGPT等大型語(yǔ)言模型（large language models，LLMs）的爆火，學(xué)界和工業(yè)界目前已經(jīng)開(kāi)始重視這些模型的安全性，由于ChatGPT強(qiáng)大的知識(shí)存儲(chǔ)和推理能力，其目前可以針對(duì)各種各樣的用戶輸入來(lái)產(chǎn)生非常流暢和完整的回答，甚至在一些專業(yè)領(lǐng)域以及公共討論話題中，它也可以從容應(yīng)對(duì)。例如，一些學(xué)生可能會(huì)使用LLMs來(lái)幫助他們完成書面作業(yè)，使老師無(wú)法準(zhǔn)確的判斷學(xué)生的學(xué)習(xí)效果，這也的的確確是LLMs帶來(lái)的負(fù)面影響。

論文鏈接：

https://arxiv.org/abs/2301.11305

項(xiàng)目主頁(yè)： https://ericmitchell.ai/detectgpt/
近日，來(lái)自斯坦福大學(xué)的研究團(tuán)隊(duì)發(fā)布了一個(gè)名為DetectGPT的檢測(cè)模型來(lái)判斷一個(gè)文本段落是否是由機(jī)器生成的。作者首先觀察了LLMs的運(yùn)行機(jī)制，他們發(fā)現(xiàn)LLM生成的文本往往占據(jù)模型的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域。根據(jù)這一現(xiàn)象，作者提出想法，能夠基于概率函數(shù)的曲率標(biāo)準(zhǔn)來(lái)對(duì)文本進(jìn)行判定呢？
實(shí)驗(yàn)結(jié)果表明，這種想法完全可行，DetectGPT不需要專門訓(xùn)練一個(gè)單獨(dú)的分類器，也不需要額外收集真實(shí)場(chǎng)景中或者機(jī)器生成的文本段落數(shù)據(jù)，它只需要對(duì)當(dāng)前模型計(jì)算其對(duì)數(shù)概率并與另外一個(gè)通用的預(yù)訓(xùn)練語(yǔ)言模型（例如T5）的段落隨機(jī)擾動(dòng)進(jìn)行比較，即可得出結(jié)論。作者發(fā)現(xiàn)DetectGPT比現(xiàn)有的zero-shot文本檢測(cè)方法更具有鑒別能力。

引言

如果我們仔細(xì)推敲ChatGPT等LLMs生成出的文本回答，會(huì)發(fā)現(xiàn)它們的答案仍然有明顯的機(jī)器翻譯痕跡。但是這種生成技術(shù)確實(shí)在一些領(lǐng)域能夠以假亂真，甚至取代人工勞動(dòng)，特別是在學(xué)生的論文寫作和記者的新聞寫作中，這都會(huì)帶來(lái)很大的風(fēng)險(xiǎn)，例如影響學(xué)生的學(xué)習(xí)積極性，也有可能會(huì)因?yàn)樘摷傩侣剬?dǎo)致公眾獲得錯(cuò)誤的信息。但是幸運(yùn)的是，目前機(jī)器模型生成的文本與人類編寫出的文字相比仍然有不小的差距，這使得我們及時(shí)開(kāi)發(fā)文本檢測(cè)方法和工具成為可能。

之前已經(jīng)有很多工作將機(jī)器生成的文本檢測(cè)任務(wù)看做是一個(gè)二分類問(wèn)題[1]，具體來(lái)說(shuō)，這些方法的目標(biāo)是對(duì)一個(gè)候選文本段落的來(lái)源進(jìn)行分類，其中這些文本來(lái)源是預(yù)定義的類別。但是這種方法有幾個(gè)明顯的缺點(diǎn)，例如它們會(huì)非常傾向于參與訓(xùn)練的那些文本來(lái)源，并且不具備增量學(xué)習(xí)功能，如果想要使模型能夠識(shí)別未知來(lái)源的文本，就需要對(duì)模型整體重新訓(xùn)練。因此考慮開(kāi)發(fā)具有zero-shot功能的模型才更符合現(xiàn)實(shí)場(chǎng)景，即根據(jù)文本源模型本身來(lái)進(jìn)行開(kāi)發(fā)，不進(jìn)行任何形式的微調(diào)或適應(yīng)，來(lái)檢測(cè)它自己生成的樣本。
zero-shot文本檢測(cè)任務(wù)最常見(jiàn)的方法就是對(duì)生成文本的平均token對(duì)數(shù)概率進(jìn)行評(píng)估，并設(shè)置閾值進(jìn)行判斷。本文作者針對(duì)此提出了一個(gè)簡(jiǎn)單的假設(shè)：機(jī)器對(duì)自己生成的文本進(jìn)行改動(dòng)時(shí)往往會(huì)比原始樣本的對(duì)數(shù)概率低，而人類對(duì)自己所寫文本的改動(dòng)會(huì)遠(yuǎn)超過(guò)原本文本的對(duì)數(shù)概率。換句話說(shuō)，與人類寫的文本不同，模型生成的文本往往位于對(duì)數(shù)概率函數(shù)具有負(fù)曲率的區(qū)域（例如，對(duì)數(shù)概率的局部最大值），如下圖所示。

作者基于這一假設(shè)設(shè)計(jì)了DetectGPT，為了測(cè)試一個(gè)段落是否來(lái)自一個(gè)源模型 θ，DetectGPT將與 θ 相關(guān)候選段落的對(duì)數(shù)概率與對(duì) θ 進(jìn)行隨機(jī)擾動(dòng)生成的段落的平均對(duì)數(shù)概率（例如用T5參與擾動(dòng)）進(jìn)行比較。如果被擾動(dòng)的段落的平均對(duì)數(shù)概率比原始段落低一些，那么候選段落很可能來(lái)自于 θ，這一過(guò)程的具體運(yùn)行如下圖所示。

本文方法

對(duì)于機(jī)器生成的zero-shot文本檢測(cè)任務(wù)設(shè)置，即檢測(cè)一段文本或候選段落是否是源模型 θ 的樣本，在模型訓(xùn)練時(shí)無(wú)需加入外部數(shù)據(jù)，其呈現(xiàn)“白盒設(shè)置”的特點(diǎn)，模型中的檢測(cè)器可以評(píng)估當(dāng)前樣本對(duì) θ 的對(duì)數(shù)概率情況。此外“白盒設(shè)置”也不限制對(duì)模型架構(gòu)和參數(shù)規(guī)模的選擇，因此作者在對(duì)DetectGPT的性能評(píng)估中也選用了目前通用的預(yù)訓(xùn)練Masked模型，用來(lái)生成與當(dāng)前段落比較接近的候選文本，但是這些段落的生成不會(huì)經(jīng)過(guò)任何形式的微調(diào)和域適應(yīng)。
2.1 模型擾動(dòng)假設(shè)
上文提到，DetectGPT基于這樣一個(gè)假設(shè)：來(lái)自源模型 θ 的樣本通常位于 θ 的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域。如果我們對(duì)一段話 θ 施加一個(gè)小的擾動(dòng)，產(chǎn)生，那么與人類編寫的文本相比，機(jī)器生成的樣本的對(duì)數(shù)值 θθ 應(yīng)該是比較大的。基于這一假設(shè)，作者首先考慮了一個(gè)擾動(dòng)函數(shù) ，它會(huì)先在上給出一個(gè)分布，代表意義相近的略微修改過(guò)的的版本。使用擾動(dòng)函數(shù)的概念，我們可以q輕松的定義出擾動(dòng)差異指標(biāo) θ：

對(duì)上述假設(shè)更為正式的定義如下：如果在數(shù)據(jù)流形分布上產(chǎn)生樣本，對(duì)于樣本 θ 來(lái)說(shuō) θ 大概率為正，而對(duì)于人類編寫文本，θ 對(duì)所有都趨向于0。

如果此時(shí)將擾動(dòng)函數(shù) 定義為來(lái)自T5等預(yù)訓(xùn)練模型生成的擾動(dòng)樣本，而不是人類改寫的樣本，就可以以一種自動(dòng)的、可擴(kuò)展的方式對(duì)上述假設(shè)進(jìn)行經(jīng)驗(yàn)性測(cè)試。對(duì)于機(jī)器生成樣本，這里作者使用了四個(gè)不同的LLM進(jìn)行輸出，例如使用T5-3B模型來(lái)產(chǎn)生擾動(dòng)，對(duì)于給定樣本，按照2個(gè)字的跨度進(jìn)行隨機(jī)擾動(dòng)，直到文本中15%的字被覆蓋。隨后使用經(jīng)過(guò)T5處理的100個(gè)樣本按照假設(shè)進(jìn)行近似計(jì)算，發(fā)現(xiàn)擾動(dòng)差異的分布對(duì)于人類編寫文本和機(jī)器生成樣本是明顯不同的，機(jī)器樣本往往有較大的擾動(dòng)差異。

上圖展示了來(lái)自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四個(gè)模型與人類樣本擾動(dòng)后的分布對(duì)比，其中藍(lán)色區(qū)域?yàn)槿祟惥帉懳谋镜姆植?，橙色為機(jī)器生成文本的分布。
2.2 將擾動(dòng)差異解釋為曲率
通過(guò)上圖，只能看出擾動(dòng)差異在鑒別文本是否來(lái)自人類還是機(jī)器方面是有效的，但是其衡量的理論指標(biāo)還不夠清晰。因而作者進(jìn)一步為擾動(dòng)差異尋找到了理論依據(jù)，作者表明擾動(dòng)差異近似于候選段落附近對(duì)數(shù)概率函數(shù)的局部曲率的度量，更具體地說(shuō)，它與對(duì)數(shù)概率函數(shù)的Hessian 矩陣的負(fù)跡成正比。為了處理離散數(shù)據(jù)的不可微性，作者在這里僅考慮了在潛在語(yǔ)義空間中的候選段落，其中的小擾動(dòng)對(duì)應(yīng)于保留與原始相似含義的文本編輯過(guò)程。因?yàn)楸疚倪x用的擾動(dòng)函數(shù) (T5) 是經(jīng)過(guò)大量自然文本語(yǔ)料預(yù)訓(xùn)練的，所以這里的擾動(dòng)可以被粗略地認(rèn)為是對(duì)原始段落的有效修改，而不是隨意編輯。
作者首先利用Hutchinson提出的跡估計(jì)器[3]給出矩陣跡的無(wú)偏估計(jì)：

隨后使用有限差分來(lái)近似這個(gè)表達(dá)式：

聯(lián)立上述兩式子并使用進(jìn)行簡(jiǎn)化，就可以得到負(fù)Hessian矩陣的跡估計(jì)：

作者觀察到上式其實(shí)對(duì)應(yīng)于擾動(dòng)差異

，其中擾動(dòng)函數(shù) 可以使用 Hutchinson跡估計(jì)器中使用的分布代替。這里，是一個(gè)高維的token序列，而是一個(gè)嵌入語(yǔ)義空間中的向量。由于擾動(dòng)文本模型生成的句子與相似，語(yǔ)義變化較小，因此可以將擾動(dòng)文本模型視為與當(dāng)前采樣相似的語(yǔ)義嵌入 ~ ，然后將其映射到token序列中。這樣做，可以保證語(yǔ)義空間中的采樣都保持在數(shù)據(jù)流形附近，當(dāng)隨機(jī)擾動(dòng)發(fā)生后，對(duì)數(shù)概率就會(huì)產(chǎn)生明顯下降，這樣就可以將擾動(dòng)差異解釋為近似限制在數(shù)據(jù)流形上的曲率。

實(shí)驗(yàn)效果

本文的實(shí)驗(yàn)部分作者使用了六個(gè)數(shù)據(jù)集，涵蓋了各種日常領(lǐng)域，例如使用XSum數(shù)據(jù)集中的新聞文章來(lái)進(jìn)行假新聞檢測(cè)實(shí)驗(yàn)，使用SQuAD上下文中的維基百科段落來(lái)表示機(jī)器編寫的學(xué)術(shù)論文，以及使用Reddit WritingPrompts數(shù)據(jù)集來(lái)表示機(jī)器生成的創(chuàng)意寫作。此外，為了評(píng)估分布變化的穩(wěn)健性，作者還使用了WMT16的英語(yǔ)和德語(yǔ)部分以及人類專家在PubMedQA數(shù)據(jù)集中編寫的標(biāo)準(zhǔn)答案。
作者首先對(duì)DetectGPT的zero-shot文本檢測(cè)能力進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果如下表所示，可以看出，DetectGPT在所有15種數(shù)據(jù)集和模型組合中的14種實(shí)驗(yàn)組合上都得到了最準(zhǔn)確的檢測(cè)性能。尤其是DetectGPT最大程度地提高了XSum數(shù)據(jù)集的平均檢測(cè)精度（0.1 AUROC 改進(jìn)），在SQuAD維基百科上下文數(shù)據(jù)集上也有明顯的性能提升（0.05 AUROC 改進(jìn)）。

此外，作者還選取了一部分監(jiān)督學(xué)習(xí)訓(xùn)練的檢測(cè)器進(jìn)行對(duì)比。作者著重探索了幾個(gè)領(lǐng)域，或者說(shuō)幾種語(yǔ)境，對(duì)比結(jié)果如下圖所示。例如在英語(yǔ)新聞數(shù)據(jù)上，監(jiān)督檢測(cè)器可以達(dá)到與 DetectGPT 接近的檢測(cè)性能，但在英語(yǔ)科學(xué)寫作數(shù)據(jù)下，其性能明顯低于本文方法。而在德語(yǔ)寫作中監(jiān)督學(xué)習(xí)方法會(huì)完全失敗。相比之下，以DetectGPT為代表的零樣本方法更容易泛化到新的語(yǔ)言和領(lǐng)域中。

總結(jié)

隨著LLMs的不斷發(fā)展和改進(jìn)，我們應(yīng)該一方面對(duì)它們?cè)谠絹?lái)越多的領(lǐng)域中減輕人類工作者的創(chuàng)作壓力感到高興，另一方面也更應(yīng)該同步發(fā)展針對(duì)它們的安全檢測(cè)技術(shù)，這對(duì)于這一領(lǐng)域未來(lái)的健康發(fā)展至關(guān)重要。本文從這些大模型本身的運(yùn)行機(jī)制出發(fā)設(shè)計(jì)了DetectGPT方法，DetectGPT通過(guò)一個(gè)簡(jiǎn)單的數(shù)據(jù)分布特點(diǎn)即可判斷出文本的來(lái)源，此外作者還對(duì)本文方法進(jìn)行了詳盡的理論推導(dǎo)，這使得DetectGPT具有更高的可信度和可解釋性。
此外DetectGPT的zero-shot特性使它相比那些使用數(shù)百萬(wàn)數(shù)據(jù)樣本定制訓(xùn)練的檢測(cè)模型更具有競(jìng)爭(zhēng)力。此外作者在文章的最后還談到了DetectGPT的未來(lái)計(jì)劃，他們會(huì)進(jìn)一步探索對(duì)數(shù)概率曲率屬性是否在其他領(lǐng)域（音頻、視頻或圖像）的生成模型中也能起到很好的檢測(cè)作用，這一方向也具有非常重要的現(xiàn)實(shí)意義，讓我們一起期待吧。
參考文獻(xiàn)

[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.

[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.

[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT，通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT，通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

相關(guān)推薦

技術(shù)專區(qū)

斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT，通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷