博客專欄

EEPW首頁 > 博客 > 獨家 | AI仍然受困于仇恨言論——但科學家們在衡量每個系統(tǒng)失敗的地方正做得越來越好

獨家 | AI仍然受困于仇恨言論——但科學家們在衡量每個系統(tǒng)失敗的地方正做得越來越好

發(fā)布人:數(shù)據(jù)派THU 時間:2021-07-04 來源:工程師 發(fā)布文章

作者:Karen Hao

翻譯:朱啟軒

校對:詹好

盡管自然語言處理最近取得了諸多進展,但它仍在最基本的應用上受阻。在一項新的研究中,科學家們測試了四種最佳的檢測仇恨言論的人工智能系統(tǒng),他們發(fā)現(xiàn)這些系統(tǒng)或多或少在區(qū)分帶有仇恨情緒和沒有仇恨情緒的句子時存在一些問題。


然而這個結果并不令人驚訝——因為創(chuàng)造能夠理解語言細微差別的人工智能是很困難的。這使得研究人員診斷和分析這些問題的方法顯得尤為重要。他們針對仇恨言論開發(fā)了29個不同的測試方法,以便更準確地找出每個系統(tǒng)的疏漏,從而讓人們更容易去克服這一問題。實際上,上述的這個測試已經(jīng)在幫助一家商業(yè)公司改善其人工智能系統(tǒng)。


The study authors 是由牛津大學(University of Oxford)和艾倫·圖靈研究所(Alan Turing Institute)的科學家們所領導的團隊。該團隊采訪了來自16家研究網(wǎng)絡仇恨的非營利機構的員工,以求了解AI檢測仇恨言論的進一步信息。


該團隊利用這些采訪結果把仇恨言論分成了18大類,他們致力于關注基于英文文本的仇恨言論,包括貶損言論,侮辱性語言和威脅性語言。他們還識別了11種通常會讓AI陷入困境的非仇恨場景,包括在無害聲明中使用臟話,被目標社區(qū)收回的詆毀,以及引用或引用原始仇恨言論(即反言論)的仇恨譴責。


對于29個不同的仇恨類別, 他們創(chuàng)造了大量的例子并且使用“模板”句式,比如“我討厭(身份)”或“你只是在(誹謗)我”,從而為7個受保護的群體生成相同的例子集合。根據(jù)美國法律,這些“受保護群體”受到法律保護,不應當遭到歧視。他們還有一個開源的數(shù)據(jù)集叫HateCheck,其中總共包含了近4000個案例。


研究人員隨后檢查了兩個流行的商業(yè)公司的服務條款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。兩者都允許客戶在帖子或評論中舉報違規(guī)內(nèi)容。Perspective API,它被Reddit等平臺以及《紐約時報》和《華爾街日報》等新聞機構所使用。它基于有害性的衡量對帖子和評論進行標記和排序,以供人們審查。


而SiftNinja對仇恨言論則過于寬容,沒有能檢測到所有的變化。相反,Perspective則過于嚴格。它擅長于檢測18個仇恨類別,但也同時標記了大多數(shù)非仇恨類別,比如被撤回的侮辱性言語和反擊言論。研究人員在測試谷歌的兩種學術模型時發(fā)現(xiàn)了同樣的特征,這兩種模型代表了現(xiàn)有的一些最好的自然語言處理技術,且有望成為其他商業(yè)內(nèi)容審核系統(tǒng)的基礎。學術模型也顯示出在受保護群體上不均衡的表現(xiàn)——對某些群體的仇恨進行錯誤分類的頻率高于其他群體。


這些結果指明了當前基于AI的仇恨言語檢測系統(tǒng)中最具挑戰(zhàn)性的一個方面:若不注重消除仇恨言論,就無法解決該問題; 若過于注重消除仇恨言論就會誤傷。牛津互聯(lián)網(wǎng)研究所的博士生Paul Rottge指出:“突然間你會首先懲罰那些被仇恨鎖定的群體?!?/p>


Jigsaw的首席軟件工程師露西·瓦瑟曼提出,一個更好的被叫做Perspective的模型,可以通過依靠人類調(diào)解員做出最終決定,來克服了這些限制。但是這個過程不適用于更大的平臺和更多的數(shù)據(jù)。Jigsaw現(xiàn)在正致力于開發(fā)一項功能,可以根據(jù)Perspective的不確定性重新調(diào)整帖子和評論的優(yōu)先級——自動刪除那些它認為令人討厭的內(nèi)容,并向人們標記出可疑內(nèi)容。


Jigsaw指出,這項新研究令人興奮的地方在于,它是否提供了一種精細的方法來評估技術水平。Jigsaw現(xiàn)在正在使用HateCheck來更好地理解其模型之間的差異以及它們需要改進的地方。


其他學者也對這項研究感到興奮。華盛頓大學的語言人工智能研究員馬爾滕?薩普表示:“這篇論文為我們評估行業(yè)系統(tǒng)提供了一個很好的資源,它允許企業(yè)和用戶提出改進的需求?!?/p>


羅格斯大學的社會學助理教授Thomas Davidson對此表示贊同。他說,語言模型的局限性和語言的混亂意味著,仇恨言論的識別總是會在識別力欠缺和識別過度之間進行權衡。他補充說:“HateCheck數(shù)據(jù)集有助于讓這些權衡變得可見?!?/p>


原文標題:

AI still sucks at moderating hate speech——But scientists are getting better at measuring where each system fails.

原文鏈接:

’https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 機器學習

相關推薦

技術專區(qū)

關閉