獨家 | AI仍然受困于仇恨言論——但科學家們在衡量每個系統(tǒng)失敗的地方正做得越來越好

發(fā)布人：數(shù)據(jù)派THU 時間：2021-07-04 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

作者：Karen Hao

翻譯：朱啟軒

校對：詹好

盡管自然語言處理最近取得了諸多進展，但它仍在最基本的應用上受阻。在一項新的研究中，科學家們測試了四種最佳的檢測仇恨言論的人工智能系統(tǒng)，他們發(fā)現(xiàn)這些系統(tǒng)或多或少在區(qū)分帶有仇恨情緒和沒有仇恨情緒的句子時存在一些問題。

然而這個結果并不令人驚訝——因為創(chuàng)造能夠理解語言細微差別的人工智能是很困難的。這使得研究人員診斷和分析這些問題的方法顯得尤為重要。他們針對仇恨言論開發(fā)了29個不同的測試方法，以便更準確地找出每個系統(tǒng)的疏漏，從而讓人們更容易去克服這一問題。實際上，上述的這個測試已經在幫助一家商業(yè)公司改善其人工智能系統(tǒng)。

The study authors 是由牛津大學(University of Oxford)和艾倫·圖靈研究所(Alan Turing Institute)的科學家們所領導的團隊。該團隊采訪了來自16家研究網絡仇恨的非營利機構的員工，以求了解AI檢測仇恨言論的進一步信息。

該團隊利用這些采訪結果把仇恨言論分成了18大類，他們致力于關注基于英文文本的仇恨言論，包括貶損言論，侮辱性語言和威脅性語言。他們還識別了11種通常會讓AI陷入困境的非仇恨場景，包括在無害聲明中使用臟話，被目標社區(qū)收回的詆毀，以及引用或引用原始仇恨言論(即反言論)的仇恨譴責。

對于29個不同的仇恨類別, 他們創(chuàng)造了大量的例子并且使用“模板”句式，比如“我討厭(身份)”或“你只是在（誹謗）我”，從而為7個受保護的群體生成相同的例子集合。根據(jù)美國法律，這些“受保護群體”受到法律保護，不應當遭到歧視。他們還有一個開源的數(shù)據(jù)集叫HateCheck，其中總共包含了近4000個案例。

研究人員隨后檢查了兩個流行的商業(yè)公司的服務條款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。兩者都允許客戶在帖子或評論中舉報違規(guī)內容。Perspective API，它被Reddit等平臺以及《紐約時報》和《華爾街日報》等新聞機構所使用。它基于有害性的衡量對帖子和評論進行標記和排序，以供人們審查。

而SiftNinja對仇恨言論則過于寬容，沒有能檢測到所有的變化。相反，Perspective則過于嚴格。它擅長于檢測18個仇恨類別，但也同時標記了大多數(shù)非仇恨類別，比如被撤回的侮辱性言語和反擊言論。研究人員在測試谷歌的兩種學術模型時發(fā)現(xiàn)了同樣的特征，這兩種模型代表了現(xiàn)有的一些最好的自然語言處理技術，且有望成為其他商業(yè)內容審核系統(tǒng)的基礎。學術模型也顯示出在受保護群體上不均衡的表現(xiàn)——對某些群體的仇恨進行錯誤分類的頻率高于其他群體。

這些結果指明了當前基于AI的仇恨言語檢測系統(tǒng)中最具挑戰(zhàn)性的一個方面：若不注重消除仇恨言論，就無法解決該問題; 若過于注重消除仇恨言論就會誤傷。牛津互聯(lián)網研究所的博士生Paul Rottge指出：“突然間你會首先懲罰那些被仇恨鎖定的群體?！?/p>

Jigsaw的首席軟件工程師露西·瓦瑟曼提出，一個更好的被叫做Perspective的模型，可以通過依靠人類調解員做出最終決定，來克服了這些限制。但是這個過程不適用于更大的平臺和更多的數(shù)據(jù)。Jigsaw現(xiàn)在正致力于開發(fā)一項功能，可以根據(jù)Perspective的不確定性重新調整帖子和評論的優(yōu)先級——自動刪除那些它認為令人討厭的內容，并向人們標記出可疑內容。

Jigsaw指出，這項新研究令人興奮的地方在于，它是否提供了一種精細的方法來評估技術水平。Jigsaw現(xiàn)在正在使用HateCheck來更好地理解其模型之間的差異以及它們需要改進的地方。

其他學者也對這項研究感到興奮。華盛頓大學的語言人工智能研究員馬爾滕?薩普表示:“這篇論文為我們評估行業(yè)系統(tǒng)提供了一個很好的資源，它允許企業(yè)和用戶提出改進的需求。”

羅格斯大學的社會學助理教授Thomas Davidson對此表示贊同。他說，語言模型的局限性和語言的混亂意味著，仇恨言論的識別總是會在識別力欠缺和識別過度之間進行權衡。他補充說：“HateCheck數(shù)據(jù)集有助于讓這些權衡變得可見。”

原文標題：

AI still sucks at moderating hate speech——But scientists are getting better at measuring where each system fails.

原文鏈接：

’https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

獨家 | AI仍然受困于仇恨言論——但科學家們在衡量每個系統(tǒng)失敗的地方正做得越來越好

相關推薦

技術專區(qū)