研究發(fā)現(xiàn):在人為干預(yù)之下,GPT-4等大模型的種族主義偏見變得更隱秘
Warning: getimagesize(): SSL: connection timeout in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(https://mmbiz.qpic.cn/mmbiz_png/JJtKEey0hPahUAdMpXUwzsrHU7UJMJaPPFiasBBQqrHebH69zHHT5gHB0eNykdbkCO7icMNkiasClzZUiahTsebDiaw/640?wx_fmt=png&from=appmsg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272
自從像 ChatGPT 這樣的大型語言模型誕生以來,人們就發(fā)現(xiàn)它們存在種族主義。這是因為它們的訓(xùn)練數(shù)據(jù)中包含這些觀點,而開發(fā)人員的應(yīng)對策略是試圖降低它們的毒性。
但新的研究表明,隨著模型越來越大,這些努力只會遏制顯性的種族主義觀點,同時讓隱性的刻板印象變得更強、更隱蔽。
(來源:STEPHANIE ARNETT/MITTR | ENVATO)
研究人員測試了五個人工智能模型,包括 OpenAI 的 GPT-4 以及 Meta 和谷歌的舊模型,對使用美國黑人英語(AAE,African-American English)的人做出判斷。指令中沒有提到講話者的種族。
即使兩個句子的意思相同,與標(biāo)準(zhǔn)美國英語(SAE,Standard American English)的使用者相比,模型更有可能將“臟”“懶”和“笨”等貶義詞用于說黑人英語的人。
這些模型將講黑人英語的人與聲望較低的工作聯(lián)系起來,或者根本不會將他們與有工作聯(lián)系起來,當(dāng)被要求對假想的刑事被告做出判決時,它們更有傾向于建議將其判處死刑。
圖 | 綠色框是標(biāo)準(zhǔn)英語,紫色框是黑人英語(來源:資料圖)
一個更值得注意的發(fā)現(xiàn)是,該研究指出了現(xiàn)有的此類偏見的解決方式存在一個缺陷。
為了清除模型中的仇恨觀點,OpenAI、Meta 和谷歌等公司會在訓(xùn)練過程中引入人類反饋,讓人類工作者手動調(diào)整模型對某些提示的反應(yīng)方式。
這個過程通常被稱為“對齊”,旨在重新校準(zhǔn)神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個連接,并使模型更好地符合人類所期望的價值觀。
這種方法很好地打擊了常見的刻板印象,很多公司已經(jīng)使用了近十年。例如,該論文指出,如果用戶讓 GPT-2 說出對黑人的刻板印象,它很可能會列出“可疑”,“激進(jìn)”和“攻擊性”,但 GPT-4 不會再做出與這些聯(lián)想有關(guān)的回應(yīng)。
然而,該方法未能解決使用黑人英語時引發(fā)的隱性刻板印象。相關(guān)論文以預(yù)印本的形式發(fā)表在 arXiv 上,尚未經(jīng)過同行評審。研究人員認(rèn)為,部分原因是公司對“方言或俚語偏見”這一問題的認(rèn)識不足。
從指導(dǎo)模型的角度而言,使其不回應(yīng)顯性的種族問題,顯然比不回應(yīng)俚語或方言中包含的隱性偏見更容易。
艾倫人工智能研究所研究員、該論文的合著者瓦倫丁·霍夫曼(Valentin Hofmann)說:“人類的反饋教會模型考慮種族主義。但俚語偏見存在于更深的層次。”
沒有參與這項研究的 Hugging Face 倫理研究員阿維吉特·戈什(Avijit Ghosh)表示,這一發(fā)現(xiàn)讓人對公司解決偏見的方法產(chǎn)生了質(zhì)疑。
他說:“這種對齊方式,即讓模型拒絕生成種族主義的輸出內(nèi)容,只不過是一個脆弱的過濾器,很容易被打破。”
研究人員發(fā)現(xiàn),隨著模型尺寸的增加,隱性的刻板印象也會增強。這一發(fā)現(xiàn)為 OpenAI、Meta 和谷歌等聊天機器人開發(fā)商發(fā)出了潛在警告,因為他們正在競相發(fā)布越來越大的模型。
隨著訓(xùn)練數(shù)據(jù)量和參數(shù)數(shù)量的增加,模型通常會變得更加強大和富有表現(xiàn)力。但如果隱性種族偏見被放大了,公司將需要開發(fā)更好的工具來對抗它。
目前尚不清楚在訓(xùn)練數(shù)據(jù)中添加更多的黑人英語,或者提升反饋工作的質(zhì)量是否能夠減輕這一問題。
美國斯坦福大學(xué)博士生、該研究的合著者普拉秋莎·里亞·卡魯里(Pratyusha Ria Kalluri)說:“這揭示了公司在多大程度上是盲目的,它們只是在試圖打擊記者或論文在最近報道中提及偏見。隱性偏見就是一個很好的例子?!?/span>
該論文的作者使用了特別極端的例子來說明種族偏見的潛在影響,比如要求人工智能決定是否應(yīng)該判處被告死刑。
但是,戈什指出今天我們已經(jīng)讓人工智能模型幫助我們做出關(guān)鍵決策了,這并非小說或電影里的情節(jié)。但是這種用法是值得商榷的。
在美國,評估庇護(hù)案件時會使用人工智能翻譯工具,還有一些犯罪預(yù)測軟件,被用于判斷青少年是否應(yīng)該獲得緩刑。
使用 ChatGPT 篩選工作申請的雇主,可能會基于種族和性別歧視候選人的名字。如果他們使用模型來分析申請人在社交媒體上寫的東西,對黑人英語的偏見可能會導(dǎo)致誤判。
戈什說:“論文作者低調(diào)地表示,他們讓大語言模型挑選工作申請人或判斷刑事案件的用例只是演示。但我想說,他們想到的東西切中了要害?!?/span>
運營/排版:何晨龍
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。