給機器下「遺忘咒」?谷歌發(fā)起首個機器遺忘挑戰(zhàn)賽
給機器來一杯「忘情水」,這算不算機器遺忘?
機器學習經常被提及,那你有聽過機器遺忘嗎?
機器學習的目的大家都了解,它能夠幫助我們的工作提升效率。但是機器遺忘是何目的?難道是「棄學」?
現(xiàn)在,不僅關于機器話題的討論變得火熱,甚至出現(xiàn)專門為機器遺忘組織的挑戰(zhàn)。
近日,谷歌 AI 宣布聯(lián)合廣泛的學界與業(yè)界研究團隊,組織首個機器遺忘挑戰(zhàn)賽(Machine Unlearning Challenge)。
至于舉辦這一機器遺忘挑戰(zhàn)賽的目的,谷歌表示希望有助于推進機器遺忘的 SOTA 水平,并鼓勵開發(fā)高效、有效和合乎道德的遺忘算法。
比賽內容都有啥?
具體地講,該挑戰(zhàn)賽考慮這樣一個真實場景:其中一個年齡預測器在人臉圖像數(shù)據(jù)上進行了訓練,接著在訓練后,訓練圖像的某個子集必須被遺忘,以保護相關個人的隱私或其他權利。
摘自 Face synaesthetics 數(shù)據(jù)集的圖像以及年齡注釋。
比賽將在 Kaggle 平臺上舉辦,提交的作品將根據(jù)遺忘質量和模型實用性進行自動評分。
其中對于評估遺忘,本次挑戰(zhàn)賽將使用受成員推理攻擊(Membership inference attacks, MIAs)啟發(fā)的工具,如 LiRa。MIAs 最初是在隱私和安全文獻中開發(fā),其目的是推斷哪些示例是訓練集的一部分。
直白地講,如果遺忘成功,遺忘過的模型中將不包含被遺忘示例的痕跡,這會導致 MIA 失敗,即攻擊者無法獲知被遺忘集實際上是原始訓練集的一部分。
此外,評估中還將使用統(tǒng)計測試來量化「遺忘模型的分布」與從頭開始重新訓練的模型的分布的差異程度。
相關比賽的信息可以查閱以下兩個鏈接:
- https://unlearning-challenge.github.io/
- https://groups.google.com/g/unlearning-challenge
或許有讀者要問了,為什么在機器學習的浪潮中,還會有這樣一股機器遺忘的「逆流」奔涌呢?
什么是機器遺忘
機器遺忘是機器學習的一個新興領域,最終目的是消除一個訓練模型特定訓練樣本子集的影響,即消除「遺忘集」(forget set)的影響。
此外,較為理想的遺忘算法在消除某些樣本影響的同時,還應該保留其他有益的特性,比如在其余訓練集上的準確性以及對保留樣本的泛化性。
下圖為遺忘學習的剖析。遺忘算法將一個預訓練模型以及要遺忘的訓練集中的一個或多個樣本作為輸入。然后基于該模型、遺忘集和保留集,遺忘算法會生成一個更新模型。理想遺忘算法生成的模型與沒有遺忘集參與訓練的模型沒有區(qū)別。
其實,有一個很「暴力」的方法能夠得到這種理想的模型,就是在排除遺忘集樣本后,重新訓練模型。這個「暴力」手段雖立竿見影,但并不可行,因為重新訓練深度模型的成本實在太過高昂。
因此,遺忘學習算法應該是以訓練好的模型作為基點,并對其進行調整,來消除所要求數(shù)據(jù)帶來的影響。
機器遺忘學習不僅僅應用于保護用戶隱私,還能夠通過訓練,刪除訓練模型中不準確或者過時的信息,甚至是異常或者有害的數(shù)據(jù)。當然,這比消除幾個指定遺忘集難度大得多,這也意味著它更有用處,比如它可以通過糾正偏見或對屬于不同群體的歧視來提高模型的公平性。
「清掃、清掃,全都扔掉」
為何要發(fā)展機器遺忘
大家都受益于網絡信息的易得性,但是往往忽略了在整個網絡上刪除某一信息的艱難。這堪比將一捧沙子撒入海里,再從不斷涌動的海水中將沙粒一個個撿起,更重要的是,這些沙粒有不斷復制的可能。
由此可見,信息及時被刪除了也能通過各種手段有所保留。
在網絡中留下的足跡,雖可能不被查詢,但印記永存。2012 歐盟委員會就曾公布草案提出數(shù)據(jù)主體應享有「被遺忘權」。這對大數(shù)據(jù)背景下互聯(lián)網產業(yè)發(fā)展具有深遠而廣泛的影響。
更別說近期正火熱的大型語言模型,更是以海量的數(shù)據(jù)集作為基礎進行發(fā)展的。大模型對于訓練集的細節(jié)內容會進行學習和記憶,其中不乏用戶的隱私信息,這導致可能涉及的隱私風險更加嚴峻。
因此機器學習模型中的安全和隱私問題是研究者必定面臨的挑戰(zhàn)。
網友表示,這場挑戰(zhàn)賽將推動隱私保護。
在這樣艱難、復雜的條件下,機器遺忘應運而生,有關于它的討論和學習也日益成為機器學習領域的焦點之一。
參考鏈接:https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.htmlhttps://unlearning-challenge.github.io/
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。