大語言模型如ChatGPT,以其卓越的寫作能力引發了問題。學生們紛紛利用這些模型代寫作業,導致一些學校不得不采取禁止ChatGPT的措施。此外,這些模型還存在生成帶有事實錯誤的文本的傾向,因此謹慎的讀者可能想知道,在信任某些新聞文章或其他來源之前,是否有生成式AI工具用于代寫。

針對這一問題,研究人員提出了Ghostbuster這一先進的AI生成文本檢測方法。該方法通過評估文檔中每個標記在多個較弱的語言模型下生成的概率,然后將這些概率的函數作為最終分類器的輸入進行組合。Ghostbuster無需知道生成文檔所使用的具體模型,也無需知道在該特定模型下生成文檔的概率。這使得Ghostbuster特別適用于檢測由未知模型或黑盒模型生成的文本,例如流行的商業模型ChatGPT和Claude,其概率不可用。研究人員著重確保Ghostbuster具有良好的泛化性能,因此他們在不同領域(使用新收集的散文、新聞和故事數據集)、語言模型或提示下進行了評估。
為什么選擇這種方法呢?
當前許多AI生成文本檢測系統對于分類不同類型的文本(例如不同的寫作風格、或不同的文本生成模型或提示)往往表現脆弱。簡單使用困惑度(perplexity)的模型通常無法捕捉更復雜的特征,在新的寫作領域表現尤為糟糕。與此相反,基于大型語言模型(如RoBERTa)的分類器雖然能輕松捕捉復雜特征,但容易對訓練數據過擬合且泛化性能差。Ghostbuster的方法在這兩者之間取得了平衡,既能夠捕捉復雜特征,又不容易過擬合。
如何運作
Ghostbuster 采用三階段訓練過程:計算概率、選擇特征和分類器訓練。
計算概率:通過計算在一系列較弱的語言模型(一個一元模型、一個三元模型和兩個非指令調整的 GPT-3模型)下生成文檔中每個單詞的概率,將每個文檔轉換為一系列向量、艾達和達芬奇)。
選擇特征:使用結構化搜索過程來選擇特征,其工作原理是(1)定義一組組合概率的向量和標量運算,以及(2)使用前向特征選擇搜索這些操作的有用組合,重復添加最好的剩余特征。
分類器訓練:根據最佳的基于概率的特征和一些額外的手動選擇的特征訓練了線性分類器。
Ghostbuster準確率表現
在同一領域訓練和測試時,Ghostbuster在所有三個數據集上取得了99.0的F1分數,超過GPTZero5.9F1和DetectGPT41.6F1。在領域之外,Ghostbuster在所有條件下平均取得了97.0的F1,超過DetectGPT39.6F1和GPTZero7.5F1。與此相對,我們的RoBERTa基線在所有數據集的領域內評估時取得了98.1的F1,但其泛化性能不一致。Ghostbuster在所有領域上的性能均優于RoBERTa,僅在領域之外的創意寫作中稍遜一籌,但總體上比RoBERTa在領域之外的性能更好(13.8F1差距)。
為了確保Ghostbuster對用戶可能提示模型的各種方式的魯棒性,例如請求不同的寫作風格或閱讀水平,研究人員評估了Ghostbuster對多個提示變體的魯棒性。Ghostbuster在這些提示變體上的性能優于所有其他測試方法,達到99.5的F1。為了測試對模型的跨域泛化,研究人員在Claude生成的文本上評估了Ghostbuster的性能,結果Ghostbuster也在92.2的F1上超過了所有其他測試方法。

AI生成文本檢測器曾被輕微編輯生成的文本所欺騙。研究人員檢查了Ghostbuster對編輯的魯棒性,例如交換句子或段落,重新排列字符,或用同義詞替換單詞。大多數在句子或段落級別的更改并沒有顯著影響性能,盡管如果文本通過重復改寫,使用商業檢測規避器(如Undetectable AI)或進行大量單詞或字符級別的更改,則性能會平穩下降。性能在較長的文檔上也表現最佳。
由于AI生成文本檢測器可能會將非母語英語的文本誤判為AI生成的文本,研究人員評估了Ghostbuster對非母語英語寫作的性能。所有測試模型在三個測試數據集中的兩個上都具有95%以上的準確率,但在第三組較短的散文中表現較差。然而,文檔長度可能是主要因素,因為Ghostbuster在這些文檔上的表現幾乎與其在其他長度相似的領域之外文檔上的表現一樣好(74.7F1),后者的F1在75.6到93.1之間。
希望將Ghostbuster應用于潛在的文本生成的禁區使用的用戶應該注意,對于較短的文本、遠離Ghostbuster訓練領域的領域(例如不同的英語變體)、非英語母語的文本、人工編輯的模型生成或通過提示AI模型修改人工創作的文本,錯誤更有可能發生。為了避免延續算法傷害,我們強烈不建議在沒有人類監督的情況下自動懲罰所謂的文本生成使用。相反,我們建議在分類某人的寫作為AI生成可能會對其造成傷害時,謹慎使用Ghostbuster的人機協同使用。Ghostbuster還可以在一系列較低風險的應用中發揮作用,包括從語言模型訓練數據中過濾AI生成的文本,并檢查在線信息源是否為AI生成。
Ghostbuster是一種先進的AI生成文本檢測模型,在測試的領域中取得了99.0的F1性能,相較現有模型取得了實質性的進展。它在不同領域、提示和模型上表現良好,對于識別來自黑盒或未知模型的文本非常合適,因為它無需訪問生成文檔的具體模型的概率。

Ghostbuster未來的方向包括為模型決策提供解釋和提高對試圖欺騙檢測器的攻擊的魯棒性。AI生成文本檢測方法還可以與水印等替代方法一起使用。研究人員還希望Ghostbuster能在過濾語言模型訓練數據或標記網絡上的AI生成內容等各種應用中發揮作用。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。