谷歌請(qǐng)印度標(biāo)注員給Reddit評(píng)論數(shù)據(jù)集打標(biāo)簽,錯(cuò)誤率高達(dá)30%?
可以確定的是,人工標(biāo)注員完全沒(méi)懂 Reddit 網(wǎng)友的梗。
去年,谷歌發(fā)布了 GoEmotions 數(shù)據(jù)集,該數(shù)據(jù)集包含 58K 人工標(biāo)注的 Reddit 評(píng)論,其中涉及 27 種情緒。
但一位名叫 Edwin Chen 的機(jī)器學(xué)習(xí)工程師卻在使用該數(shù)據(jù)集的時(shí)候,偶然發(fā)現(xiàn)了一些令人哭笑不得的錯(cuò)誤。
他們本來(lái)嘗試自己在 GoEmotions 數(shù)據(jù)集上訓(xùn)練模型,注意到似乎存在一些深層的質(zhì)量問(wèn)題。于是他們隨機(jī)抽取了 1000 條評(píng)論,在其中 308 條中發(fā)現(xiàn)了嚴(yán)重錯(cuò)誤。
這里舉一些有代表性的例子:
- aggressively tells friend I love them—— 被標(biāo)記為「憤怒」
- Yay, cold McDonald's. My favorite.—— 被標(biāo)記為「喜愛(ài)」
- Hard to be sad these days when I got this guy with me—— 被標(biāo)記為「悲傷」
- Nobody has the money to. What a joke—— 被標(biāo)記為「愉悅」
- ……
光是從抽取的評(píng)論中,他們就統(tǒng)計(jì)到了 25 種被錯(cuò)誤標(biāo)記的情緒。
在人工智能領(lǐng)域,數(shù)據(jù)標(biāo)注是一項(xiàng)非?;A(chǔ),但也非常關(guān)鍵的工作。好的數(shù)據(jù)對(duì)于訓(xùn)練模型至關(guān)重要,當(dāng)數(shù)據(jù)面臨如此離譜的錯(cuò)誤時(shí),又該怎么訓(xùn)練模型并評(píng)估模型的性能呢?
Edwin Chen 最后發(fā)問(wèn):「我們真的可以相信谷歌能夠創(chuàng)造出公正的現(xiàn)實(shí)世界人工智能嗎?」
所以,是什么導(dǎo)致了這些問(wèn)題?
有人說(shuō):「有沒(méi)有可能,他們沒(méi)請(qǐng)人工標(biāo)注員,或者請(qǐng)的人工標(biāo)注員并未掌握流利的英語(yǔ)?」
據(jù)了解,GoEmotions 數(shù)據(jù)集的標(biāo)注還是有人工參與的,只不過(guò)這些標(biāo)注員是「以英語(yǔ)為母語(yǔ)的印度人」。
在論文的第 3.3 節(jié)中,有這么一段話:「我們給每個(gè)樣本分配了三個(gè)評(píng)估者。對(duì)于那些評(píng)估者沒(méi)有達(dá)成一致的樣本,我們分配了兩個(gè)額外的評(píng)估者。所有評(píng)估者都是以英語(yǔ)為母語(yǔ)的印度人?!?/span>
因?yàn)楦鶕?jù)「Cowen et al. (2019b) 這項(xiàng)研究的結(jié)論,印度和美國(guó)兩地的英語(yǔ)使用者的情緒判斷維度很大程度上是相同的。
事實(shí)是,盡管掌握了流利的英語(yǔ),標(biāo)注員之中的許多人可能不了解所標(biāo)注文本的文化、社會(huì)背景。但這卻是關(guān)鍵要點(diǎn)之一,尤其是對(duì)于 NLP 數(shù)據(jù)集,標(biāo)注者必須具備充分的文化意識(shí)。
也就是說(shuō),鑒于很多標(biāo)注員可能缺乏必要的背景知識(shí),即使大多數(shù)的數(shù)據(jù)標(biāo)注都不存在爭(zhēng)議了(如上圖),也不代表標(biāo)注結(jié)果就是完全正確的。
造成這種問(wèn)題的另一個(gè)重要原因是,數(shù)據(jù)集中的數(shù)據(jù)都沒(méi)有附加的元數(shù)據(jù) (比如作者或子版塊名稱)。原論文中也提到了這一點(diǎn):
語(yǔ)言不是處于真空之中的,它所在的版塊等信息非常重要。谷歌在構(gòu)建數(shù)據(jù)集時(shí)卻忽略了這一點(diǎn)。
這不是一個(gè)孤立事件:作者還提到,假如連谷歌這種擁有大量資源的公司都難以創(chuàng)建準(zhǔn)確的數(shù)據(jù)集,那么我們見(jiàn)過(guò)的其他數(shù)據(jù)集質(zhì)量更是難以想象。
好消息是,已經(jīng)有學(xué)者關(guān)注到了這個(gè)問(wèn)題。上個(gè)月,吳恩達(dá)發(fā)起了「以數(shù)據(jù)為中心的 AI」倡議,他表示,專注于提升人工智能系統(tǒng)的數(shù)據(jù)質(zhì)量將有助于釋放其全部力量。
如果你想部署現(xiàn)實(shí)中 work 的機(jī)器學(xué)習(xí)模型,是時(shí)候關(guān)注高質(zhì)量數(shù)據(jù)集而不是更大的模型了。
參考鏈接:https://arxiv.org/pdf/2005.00547.pdfhttps://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。