博客專欄

EEPW首頁 > 博客 > 斯坦福、Meta AI新研究:實現AGI之路,數據剪枝比我們想象得更重要

斯坦福、Meta AI新研究:實現AGI之路,數據剪枝比我們想象得更重要

發(fā)布人:機器之心 時間:2022-07-21 來源:工程師 發(fā)布文章

Scale is all you need?No.


在視覺、語言和語音在內的機器學習諸多領域中,神經標度律表明,測試誤差通常隨著訓練數據、模型大小或計算數量而下降。這種成比例提升已經推動深度學習實現了實質性的性能增長。然而,這些僅通過縮放實現的提升在計算和能源方面帶來了相當高的成本。
這種成比例的縮放是不可持續(xù)的。例如,想要誤差從 3% 下降到 2% 需要的數據、計算或能量會指數級增長。此前的一些研究表明,在大型 Transformer 的語言建模中,交叉熵損失從 3.4 下降到 2.8 需要 10 倍以上的訓練數據。此外,對于大型視覺 Transformer,額外的 20 億預訓練數據點 (從 10 億開始) 在 ImageNet 上僅能帶來幾個百分點的準確率增長。
所有這些結果都揭示了深度學習中數據的本質,同時表明收集巨大數據集的實踐可能是很低效的。此處要討論的是,我們是否可以做得更好。例如,我們是否可以用一個選擇訓練樣本的良好策略來實現指數縮放呢?
在最近的一篇文章中,研究者們發(fā)現,只增加一些精心選擇的訓練樣本,可以將誤差從 3% 降到 2% ,而無需收集 10 倍以上的隨機樣本。簡而言之,「Sale is not all you need」。

圖片


論文鏈接:https://arxiv.org/pdf/2206.14486.pdf
總體來說,這項研究的貢獻在于:
1. 利用統(tǒng)計力學,開發(fā)了一種新的數據剪枝分析理論,在師生感知機學習環(huán)境中,樣本根據其教師邊際進行剪枝,大 (小) 邊際各對應于簡單 (困難) 樣本。該理論在數量上與數值實驗相符,并揭示了兩個驚人的預測:

  1. 最佳剪枝策略會因初始數據的數量而改變;如果初始數據豐富 (稀缺) ,則應只保留困難 (容易) 的樣本。
  2. 如果選擇一個遞增的帕累托最優(yōu)剪枝分數作為初始數據集大小的函數,那么對于剪枝后的數據集大小,指數縮放是可能的。


圖片


2. 研究表明,這兩個預測在更多通用設置的實踐中依舊成立。他們驗證了在 SVHN、CIFAR-10 和 ImageNet 上從頭訓練的 ResNets,以及在 CIFAR-10 上進行微調的視覺 Transformer 的與剪枝數據集大小有關的誤差指數縮放特征。
3. 在 ImageNet 上對 10 個不同的數據剪枝度量進行了大規(guī)?;鶞蕼y試研究,發(fā)現除了計算密集度最高的度量之外,大多數度量表現不佳。
4. 利用自監(jiān)督學習開發(fā)了一種新的低成本無監(jiān)督剪枝度量,不同于以前的度量,它不需要標簽。研究者證明了這種無監(jiān)督度量與最好的監(jiān)督剪枝度量相媲美,而后者需要標簽和更多的計算。這個結果揭示了一種可能性:利用預訓練基礎模型來修剪新數據集。
Is scale all you need?
研究者的感知器數據剪枝理論提出了三個驚人的預測,可以在更通用的環(huán)境下進行測試,比如在 benchmark 上訓練的深度神經網絡:
(1) 相對于隨機數據剪枝,當初始數據集比較大時,只保留最難的樣本是有收益的,但當初始數據集比較小時,這樣反而有害;
(2) 隨著初始數據集大小的增加,通過保留最難樣本的固定分數 f 進行的數據剪枝應該產生冪律縮放,指數等于隨機剪枝;
(3) 在初始數據集大小和所保留數據的分數上優(yōu)化的測試誤差,可以通過在更大初始數據集上進行更積極的剪枝,追蹤出一個帕累托最優(yōu)下包絡線,打破了測試誤差和剪枝數據集大小之間的冪律縮放函數關系。

圖片


研究者用不同數量的初始數據集大小和數據剪枝下保存的數據分數 (圖 3A 中的理論對比圖 3BCD 中的深度學習實驗) ,在 SVHN、CIFAR-10 和 ImageNet 上訓練的 ResNets 驗證了上述三個預測。在每個實驗設置中,可以看到,較大的初始數據集大小和更積極的剪枝比冪律縮放表現更好。此外,更大的初始數據集可能會看到更好的縮放(如圖 3A)。 
此外,研究者發(fā)現數據剪枝可以提升遷移學習的表現。他們首先分析了在 ImageNet21K 上預訓練的 ViT,然后在 CIFAR-10 的不同剪枝子集上進行了微調。有趣的是,預訓練的模型允許更積極的數據剪枝;只有 10% 的 CIFAR-10 的微調可以媲美或超過所有 CIFAR-10 的微調所獲得的性能 (圖 4A)。此外,圖 4A 提供了一個在微調設置中打破冪律縮放的樣本。

圖片


通過在 ImageNet1K 的不同剪枝子集 (如圖 3D 所示) 上預訓練 ResNet50,研究者檢查了剪枝預訓練數據的功效,然后在 CIFAR-10 上對它們進行微調。如圖 4B 所示,在最少 50% 的 ImageNet 上進行的預訓練能夠達到或超過在所有 ImageNet 上進行的預訓練所獲得的 CIFAR-10 性能。
因此,對上游任務的訓練前數據進行剪枝仍然可以在不同的下游任務上保持高性能。總體來說,這些結果顯示了剪枝在預訓練和微調階段的遷移學習中的前景。
在 ImageNet 上對監(jiān)督剪枝指標進行基準測試
研究者注意到,大多數的數據剪枝實驗都是在小規(guī)模數據集(即 MNIST 和 CIFAR 的變體)上進行的。所以,為 ImageNet 提出的少數剪枝度量很少與在較小數據集上設計的 baseline 進行比較。
因此,目前尚不清楚大多數剪枝方法如何縮放到 ImageNet 以及哪種方法最好。為研究剪枝度量的質量在理論上對性能的影響,研究者決定通過在 ImageNet 上對 8 個不同的監(jiān)督剪枝度量進行系統(tǒng)評估來填補這一知識空白。

圖片


他們觀察到度量之間的顯著性能差異:圖 5BC 顯示了當每個度量下的最難樣本的一部分保留在訓練集中時的測試性能。在較小的數據集上,許多度量取得了成功,但選擇一個明顯較小的訓練子集(如 Imagenet 的 80%)時,只有少數度量在完整數據集訓練中仍然獲得了相當的性能。
盡管如此,大多數度量仍然優(yōu)于隨機剪枝(圖 5C)。研究者發(fā)現所有剪枝度量都會放大類的不平衡,從而導致性能下降。為了解決這個問題,作者在所有 ImageNet 實驗中使用了一個簡單的 50% 類平衡率。
通過原型度量進行自監(jiān)督數據剪枝
如圖 5 ,許多數據剪枝度量不能很好地縮放到 ImageNet,其中一些確實需要大量計算。此外,所有這些度量都需要標注,這限制了它們?yōu)樵诖罅课礃俗祿柧毚笠?guī)?;A模型的數據剪枝能力。因此,我們顯然需要簡單、可縮放、自監(jiān)督的剪枝度量。

圖片


為了評估度量發(fā)現的聚類是否與 ImageNet 類一致,研究者在圖 6A 中比較了它們的重疊。當保留 70% 以上的數據時,自監(jiān)督度量和監(jiān)督度量的性能是相似的,這表明了自監(jiān)督剪枝的前景。
更多研究細節(jié),可參考原論文。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉