博客專欄

EEPW首頁(yè) > 博客 > 哈佛大學(xué)教授詳解:深度學(xué)習(xí)和經(jīng)典統(tǒng)計(jì)學(xué)差異?(2)

哈佛大學(xué)教授詳解:深度學(xué)習(xí)和經(jīng)典統(tǒng)計(jì)學(xué)差異?(2)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-11-20 來(lái)源:工程師 發(fā)布文章

二、經(jīng)典和現(xiàn)代預(yù)測(cè)模型


機(jī)器學(xué)習(xí),無(wú)論是不是深度學(xué)習(xí),都沿著 Breiman 的第二種觀點(diǎn)演進(jìn),即以預(yù)測(cè)為重點(diǎn)。這種文化有著悠久的歷史。例如,Duda 和 Hart 在 1973 年出版的教科書和 Highleyman 1962 年的論文就寫到了下圖中的內(nèi)容,這對(duì)于今天的深度學(xué)習(xí)研究者來(lái)說(shuō)是非常容易理解的:


圖片

Duda 和 Hart 的教科書《Pattern classification and scene analysis》和 Highleyman 1962 年的論文《The Design and Analysis of Pattern Recognition Experiments》中的片段


類似地,下圖中的 Highleyman 的手寫字符數(shù)據(jù)集和用于擬合它的架構(gòu) Chow(1962)(準(zhǔn)確率約為 58%)也會(huì)引起很多人的共鳴。


圖片


三、為什么深度學(xué)習(xí)與眾不同? 


1992 年,Geman、Bienenstock 和 Doursat 寫了一篇關(guān)于神經(jīng)網(wǎng)絡(luò)的悲觀文章,認(rèn)為 “當(dāng)前的前饋神經(jīng)網(wǎng)絡(luò)在很大程度上不足以解決機(jī)器感知和機(jī)器學(xué)習(xí)中的難題”。具體來(lái)說(shuō),他們認(rèn)為通用神經(jīng)網(wǎng)絡(luò)在處理困難任務(wù)方面不會(huì)成功,而它們成功的唯一途徑是通過(guò)人工設(shè)計(jì)的特征。用他們的話說(shuō):“重要屬性必須是內(nèi)置的或“硬連接的”…… 而不是以任何統(tǒng)計(jì)意義上的方式學(xué)習(xí)?!?現(xiàn)在看來(lái) Geman 等人完全錯(cuò)了,但更有意思的是了解他們?yōu)槭裁村e(cuò)了。


深度學(xué)習(xí)確實(shí)不同于其它學(xué)習(xí)方法。雖然深度學(xué)習(xí)似乎只是預(yù)測(cè),就像最近鄰或隨機(jī)森林一樣,但它可能有更多的復(fù)雜參數(shù)。這看起來(lái)似乎只是量的差異,而不是質(zhì)的差異。但在物理學(xué)中,一旦尺度變化了幾個(gè)數(shù)量級(jí),通常就需要完全不同的理論,深度學(xué)習(xí)也是如此。深度學(xué)習(xí)與經(jīng)典模型(參數(shù)化或非參數(shù)化)的基礎(chǔ)過(guò)程完全不同,雖然它們的數(shù)學(xué)方程(和 Python 代碼)在更高層次上來(lái)看是相同的。


為了說(shuō)明這一點(diǎn),下面考慮兩個(gè)不同的場(chǎng)景:擬合統(tǒng)計(jì)模型和向?qū)W生教授數(shù)學(xué)。


場(chǎng)景 A:擬合一個(gè)統(tǒng)計(jì)模型


通過(guò)數(shù)據(jù)去擬合一個(gè)統(tǒng)計(jì)模型的典型步驟如下:


1.這里有一些數(shù)據(jù)圖片(圖片圖片的矩陣;圖片圖片維向量,即類別標(biāo)簽。把數(shù)據(jù)認(rèn)為是來(lái)自某個(gè)有結(jié)構(gòu)且包含噪聲的模型,就是要去擬合的模型)

2.使用上面的數(shù)據(jù)擬合一個(gè)模型圖片,并用優(yōu)化算法來(lái)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。就是說(shuō)通過(guò)優(yōu)化算法找到這樣的圖片,使得圖片最小,圖片代表?yè)p失(表明預(yù)測(cè)值有多接近真實(shí)值),圖片是可選的正則化項(xiàng)。

3. 模型的總體損失越小越好,即泛化誤差圖片的值相對(duì)最小。


圖片

Effron 從包含噪聲的觀測(cè)中恢復(fù)牛頓第一定律的展示圖


這個(gè)非常通用的范例其實(shí)包含許多內(nèi)容,如最小二乘線性回歸、最近鄰、神經(jīng)網(wǎng)絡(luò)訓(xùn)練等等。在經(jīng)典統(tǒng)計(jì)場(chǎng)景中,我們通常會(huì)碰到下面的情況:


權(quán)衡:假設(shè)圖片是經(jīng)過(guò)優(yōu)化的模型集合(如果函數(shù)是非凸的或包含正則化項(xiàng),精心選擇算法和正則化,可得到模型集圖片。圖片的偏差是元素圖片所能達(dá)到的最接近真值的近似值。集合圖片越大,偏差越小,并且可能為 0(如果圖片)。


然而,圖片越大,需要縮小其成員范圍的樣本越多,因此算法輸出模型的方差越大??傮w泛化誤差是偏差和方差的總和。因此,統(tǒng)計(jì)學(xué)習(xí)通常是 Bias-Variance 權(quán)衡,正確的模型復(fù)雜度是將總體誤差降至最低。事實(shí)上,Geman 等人證明了其對(duì)神經(jīng)網(wǎng)絡(luò)的悲觀態(tài)度,他們認(rèn)為:Bias-Variance 困境造成的基本限制適用于所有非參數(shù)推理模型,包括神經(jīng)網(wǎng)絡(luò)。


“多多益善”并不總是成立:在統(tǒng)計(jì)學(xué)習(xí)中,更多的特征或數(shù)據(jù)并不一定會(huì)提高性能。例如,從包含許多不相關(guān)特征的數(shù)據(jù)中學(xué)習(xí)是很難的。類似地,從混合模型中學(xué)習(xí),其中數(shù)據(jù)來(lái)自兩個(gè)分布中的一個(gè)(如圖片圖片),比獨(dú)立學(xué)習(xí)每個(gè)分布更難。


收益遞減:在很多情況中,將預(yù)測(cè)噪聲降低到水平圖片所需的數(shù)據(jù)點(diǎn)數(shù)量與參數(shù)圖片圖片是有關(guān)的,即數(shù)據(jù)點(diǎn)數(shù)量約等于圖片。在這種情況下,需要大約 k 個(gè)樣本才能啟動(dòng),但一旦這樣做,就面臨著回報(bào)遞減的情況,即如果需要圖片個(gè)點(diǎn)才能達(dá)到 90% 的準(zhǔn)確率,則需要大約額外的圖片個(gè)點(diǎn)來(lái)將準(zhǔn)確率提高到 95%。一般來(lái)說(shuō),隨著資源增加(無(wú)論是數(shù)據(jù)、模型復(fù)雜度還是計(jì)算),人們希望獲得越來(lái)越精細(xì)的區(qū)分,而不是解鎖特定的新功能。


對(duì)損失、數(shù)據(jù)的嚴(yán)重依賴性:當(dāng)將模型擬合到高維數(shù)據(jù)時(shí),任何小細(xì)節(jié)都可能會(huì)產(chǎn)生很大的差異。L1 或 L2 正則化器等選擇很重要,更不用說(shuō)使用完全不同的數(shù)據(jù)集。不同數(shù)量的高維優(yōu)化器相互之間也非常不同。


數(shù)據(jù)是相對(duì) “單純” 的:通常會(huì)假設(shè)數(shù)據(jù)是獨(dú)立于某些分布進(jìn)行采樣的。雖然靠近決策邊界的點(diǎn)很難分類,但考慮到高維度上測(cè)量集中現(xiàn)象,可以認(rèn)為大多數(shù)點(diǎn)的距離都是相近的。因此在經(jīng)典的數(shù)據(jù)分布中,數(shù)據(jù)點(diǎn)間的距離差異是不大的。然而,混合模型可以顯示這種差異,因此,與上述其他問題不同,這種差異在統(tǒng)計(jì)中很常見。


場(chǎng)景 B:學(xué)習(xí)數(shù)學(xué)


在這個(gè)場(chǎng)景中,我們假設(shè)你想通過(guò)一些說(shuō)明和練習(xí)來(lái)教學(xué)生數(shù)學(xué)(如計(jì)算導(dǎo)數(shù))。這個(gè)場(chǎng)景雖然沒有正式定義,但有一些定性特征:


圖片


學(xué)習(xí)一項(xiàng)技能,而不是去近似一個(gè)統(tǒng)計(jì)分布:在這種情況下,學(xué)生學(xué)習(xí)的是一種技能,而不是某個(gè)量的估計(jì) / 預(yù)測(cè)。具體來(lái)說(shuō),即使將練習(xí)映射到解的函數(shù)不能被用作解決某些未知任務(wù)的“黑盒”,但學(xué)生在解決這些問題時(shí)形成的思維模式仍然對(duì)未知任務(wù)是有用的。


多多益善:一般來(lái)說(shuō),做題越多、題型涉獵越廣的學(xué)生表現(xiàn)越好。同時(shí)做一些微積分題和代數(shù)題,不會(huì)導(dǎo)致學(xué)生的微積分成績(jī)下降,相反可能幫助其微積分成績(jī)提升。


從提升能力到自動(dòng)化表示:雖然在某些情況下,解決問題的回報(bào)也會(huì)遞減,但學(xué)生的學(xué)習(xí)會(huì)經(jīng)歷幾個(gè)階段。有一個(gè)階段,解決一些問題有助于理解概念并解鎖新的能力。此外,當(dāng)學(xué)生重復(fù)某一特定類型的問題時(shí),他們見到同類問題就會(huì)形成自動(dòng)化的解題流程,從之前的能力提升轉(zhuǎn)變?yōu)樽詣?dòng)化解題。


表現(xiàn)獨(dú)立于數(shù)據(jù)和損失:教授數(shù)學(xué)概念的方法不止一種。使用不同書、教育方法或評(píng)分系統(tǒng)學(xué)習(xí)的學(xué)生最終可以學(xué)習(xí)到相同的內(nèi)容以及相似的數(shù)學(xué)能力。


有些問題更困難:在數(shù)學(xué)練習(xí)中,我們經(jīng)??吹讲煌瑢W(xué)生解決同一問題的方式之間存在著很強(qiáng)的相關(guān)性。對(duì)于一個(gè)問題來(lái)說(shuō),似乎確實(shí)存在一個(gè)固有的難度水平,以及一個(gè)對(duì)學(xué)習(xí)最有利的自然難度遞進(jìn)。


四、深度學(xué)習(xí)更像是統(tǒng)計(jì)估計(jì)還是學(xué)生學(xué)習(xí)技能?


上面兩個(gè)場(chǎng)景的比喻中,哪一個(gè)用來(lái)描述現(xiàn)代深度學(xué)習(xí)更恰當(dāng)?具體來(lái)說(shuō),它成功的原因是什么?統(tǒng)計(jì)模型擬合可以很好地使用數(shù)學(xué)和代碼來(lái)表達(dá)。實(shí)際上,規(guī)范的 Pytorch 訓(xùn)練循環(huán)通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化訓(xùn)練深度網(wǎng)絡(luò):


圖片


在更深的層次上,這兩種場(chǎng)景之間的關(guān)系并不清楚。為了更具體,這里以一個(gè)特定的學(xué)習(xí)任務(wù)為例??紤]使用 “自監(jiān)督學(xué)習(xí) + 線性探測(cè)” 方法訓(xùn)練的分類算法。具體算法訓(xùn)練如下:


1. 假設(shè)數(shù)據(jù)是一個(gè)序列圖片,其中圖片是某個(gè)數(shù)據(jù)點(diǎn)(比如一張圖片),圖片是標(biāo)簽。


2. 首先得到表示函數(shù)圖片的深度神經(jīng)網(wǎng)絡(luò)。通過(guò)最小化某種類型的自監(jiān)督損失函數(shù),僅使用數(shù)據(jù)點(diǎn)圖片而不使用標(biāo)簽來(lái)訓(xùn)練該函數(shù)。這種損失函數(shù)的例子是重建(用其它輸入恢復(fù)輸入)或?qū)Ρ葘W(xué)習(xí)(核心思想是正樣本和負(fù)樣本在特征空間對(duì)比,學(xué)習(xí)樣本的特征表示)。


3. 使用完整的標(biāo)記數(shù)據(jù)圖片擬合線性分類器圖片圖片是類數(shù)),以最小化交叉熵?fù)p失。我們的最終分類器是:圖片


步驟 3 僅適用于線性分類器,因此 “魔術(shù)” 發(fā)生在步驟 2 中(深度網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí))。在自監(jiān)督學(xué)習(xí)中有些重要屬性:


學(xué)習(xí)一項(xiàng)技能而不是去近似一個(gè)函數(shù):自監(jiān)督學(xué)習(xí)不是逼近函數(shù),而是學(xué)習(xí)可用于各種下游任務(wù)的表示(這是自然語(yǔ)言處理的主導(dǎo)范式)。通過(guò)線性探測(cè)、微調(diào)或激勵(lì)獲得下游任務(wù)是次要的。


多多益善:在自監(jiān)督學(xué)習(xí)中,表示質(zhì)量隨著數(shù)據(jù)量的增加而提高,不會(huì)因?yàn)榛旌狭藥讉€(gè)來(lái)源的數(shù)據(jù)而變?cè)?。事?shí)上,數(shù)據(jù)越多樣化越好。


圖片

Google PaLM 模型的數(shù)據(jù)集


解鎖新能力:隨著資源(數(shù)據(jù)、計(jì)算、模型大?。┩度氲脑黾樱疃葘W(xué)習(xí)模型也在不連續(xù)地改進(jìn)。在一些組合環(huán)境中也證明了這一點(diǎn)。


圖片

隨著模型規(guī)模的增加,PaLM 在基準(zhǔn)測(cè)試中顯示出不連續(xù)的改進(jìn),并且解鎖令人驚訝的功能,比如解釋笑話為什么好笑


性能幾乎與損失或數(shù)據(jù)無(wú)關(guān):存在多個(gè)自監(jiān)督損失,圖像研究中其實(shí)使用了多種對(duì)比和重建損失,語(yǔ)言模型使用單邊重建(預(yù)測(cè)下一個(gè) token)或使用 mask 模型,預(yù)測(cè)來(lái)自左右 token 的 mask 輸入。也可以使用稍微不同的數(shù)據(jù)集。這些可能會(huì)影響效率,但只要做出 “合理” 的選擇,通常原始資源比使用的特定損失或數(shù)據(jù)集更能提升預(yù)測(cè)性能。


有些情況比其他情況更困難:這一點(diǎn)并不特定于自監(jiān)督學(xué)習(xí)。數(shù)據(jù)點(diǎn)似乎有一些固有的 “難度級(jí)別”。事實(shí)上,不同的學(xué)習(xí)算法具有不同的“技能水平”,不同的數(shù)據(jù)點(diǎn)具有不同的” 難度水平“(分類器圖片正確分類點(diǎn)圖片的概率隨圖片的技能而單調(diào)提升,隨圖片難度單調(diào)降低)。


“技能與難度(skill vs. difficulty)”范式是對(duì) Recht 等人和 Miller 等人發(fā)現(xiàn)的 “accuracy on the line” 現(xiàn)象的最清晰解釋。Kaplen、Ghosh、Garg 和 Nakkiran 的論文還展示了數(shù)據(jù)集中的不同輸入如何具有固有的“難度剖面”,對(duì)于不同的模型族,該剖面通常是穩(wěn)健的。


圖片

CIFAR-10 上訓(xùn)練并在 CINIC-10 上測(cè)試的分類器的 accuracy on the line 現(xiàn)象。圖源:https://millerjohnp-linearfits-app-app-ryiwcq.streamlitapp.com/


圖片

頂部的圖描述了最可能類別的不同 softmax 概率,作為某個(gè)類別分類器的全局精度的函數(shù),該類別由訓(xùn)練時(shí)間索引。底部的餅圖顯示了不同數(shù)據(jù)集分解為不同類型的點(diǎn)(注意,這種分解對(duì)于不同的神經(jīng)結(jié)構(gòu)是相似的)。


訓(xùn)練就是教學(xué):現(xiàn)代大模型的訓(xùn)練似乎更像是教學(xué)生,而不是讓模型擬合數(shù)據(jù),當(dāng)學(xué)生不懂或感到疲倦時(shí),就 “休息” 或嘗試不同的方法(訓(xùn)練差異)。Meta 的大模型訓(xùn)練日志很有啟發(fā)性——除了硬件問題外,我們還可以看到干預(yù)措施,例如在訓(xùn)練過(guò)程中切換不同的優(yōu)化算法,甚至考慮 “hot swapping” 激活函數(shù)(GELU to RELU)。如果將模型訓(xùn)練視為擬合數(shù)據(jù),而不是學(xué)習(xí)表示,則后者沒有多大意義。


圖片

Meta 訓(xùn)練日志摘錄


4.1)但是監(jiān)督學(xué)習(xí)怎樣呢?


前面討論了自監(jiān)督學(xué)習(xí),但深度學(xué)習(xí)的典型例子,仍然是監(jiān)督學(xué)習(xí)。畢竟,深度學(xué)習(xí)的 “ImageNet 時(shí)刻” 來(lái)自 ImageNet。那么上面所討論的是否仍然適用于這個(gè)設(shè)定?


首先,有監(jiān)督的大規(guī)模深度學(xué)習(xí)的出現(xiàn)在某種程度上是個(gè)偶然,這得益于大型高質(zhì)量標(biāo)記數(shù)據(jù)集(即 ImageNet)的可用性。如果你想象力豐富,可以想象另一種歷史,即深度學(xué)習(xí)首先開始通過(guò)無(wú)監(jiān)督學(xué)習(xí)在自然語(yǔ)言處理方面取得突破性進(jìn)展,然后才轉(zhuǎn)移到視覺和監(jiān)督學(xué)習(xí)中。


其次,有證據(jù)表明,盡管使用完全不同的損失函數(shù),但監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)在”內(nèi)部“的行為其實(shí)是相似的。兩者通常都能達(dá)到相同的性能。具體地,對(duì)于每一個(gè)圖片,人們可以將通過(guò)自監(jiān)督訓(xùn)練的深度為 d 的模型的前 k 層與監(jiān)督模型的最后 d-k 層合在一起,而性能損失很小。


圖片

SimCLR v2 論文的表格。請(qǐng)注意監(jiān)督學(xué)習(xí)、微調(diào)(100%)自監(jiān)督和自監(jiān)督 + 線性探測(cè)之間在性能上的一般相似性(圖源:https://arxiv.org/abs/2006.10029)

圖片

拼接自監(jiān)督模型和 Bansal 等人的監(jiān)督模型(https://arxiv.org/abs/2106.07682)。左:如果自監(jiān)督模型的準(zhǔn)確率(比如)比監(jiān)督模型低 3%,則當(dāng)層的 p 部分來(lái)自自監(jiān)督模型時(shí),完全兼容的表示將導(dǎo)致拼接懲罰為 p 3%。如果模型完全不兼容,那么我們預(yù)計(jì)隨著合并更多模型,準(zhǔn)確率會(huì)急劇下降。右:合并不同自監(jiān)督模型的實(shí)際結(jié)果。


自監(jiān)督 + 簡(jiǎn)單模型的優(yōu)勢(shì)在于,它們可以將特征學(xué)習(xí)或 “深度學(xué)習(xí)魔法”(由深度表示函數(shù)完成)與統(tǒng)計(jì)模型擬合(由線性或其他“簡(jiǎn)單” 分類器在此表示之上完成)分離。


最后,雖然這更像是一種推測(cè),但事實(shí)上 “元學(xué)習(xí)” 似乎往往等同于學(xué)習(xí)表征(參見:https://arxiv.org/abs/1909.09157,https://arxiv.org/abs/2206.03271 ),這可以被視為另一個(gè)證據(jù),證明這在很大程度上是在進(jìn)行的,而不管模型優(yōu)化的目標(biāo)是什么。


4.2)過(guò)度參數(shù)化怎么辦?


本文跳過(guò)了被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)模型和深度學(xué)習(xí)在實(shí)踐中存在差異的典型例子:缺乏 “Bias-Variance 權(quán)衡” 以及過(guò)度參數(shù)化模型的良好泛化能力。


為什么要跳過(guò)?有兩個(gè)原因:


  • 首先,如果監(jiān)督學(xué)習(xí)確實(shí)等于自監(jiān)督 + 簡(jiǎn)單學(xué)習(xí),那么這可能解釋了它的泛化能力。

  • 其次,過(guò)度參數(shù)化并不是深度學(xué)習(xí)成功的關(guān)鍵。深度網(wǎng)絡(luò)之所以特別,并不是因?yàn)樗鼈兣c樣本數(shù)量相比大,而是因?yàn)樗鼈冊(cè)诮^對(duì)值上大。事實(shí)上,通常在無(wú)監(jiān)督 / 自監(jiān)督學(xué)習(xí)中,模型不會(huì)過(guò)度參數(shù)化。即使對(duì)于非常大的語(yǔ)言模型,它們的數(shù)據(jù)集也更大。


圖片

Nakkiran-Neyshabur-Sadghi“deep bootstrap”論文表明,現(xiàn)代架構(gòu)在 “過(guò)度參數(shù)化” 或“欠采樣”狀態(tài)下表現(xiàn)類似(模型在有限數(shù)據(jù)上訓(xùn)練多個(gè) epoch,直到過(guò)度擬合:上圖中的 “Real World”),在“欠參數(shù)化” 或者 “在線” 狀態(tài)下也是如此(模型訓(xùn)練單個(gè) epoch,每個(gè)樣本只看一次:上圖中的 “Ideal World”)。圖源:https://arxiv.org/abs/2010.08127


總結(jié)


統(tǒng)計(jì)學(xué)習(xí)當(dāng)然在深度學(xué)習(xí)中發(fā)揮著作用。然而,盡管使用了相似的術(shù)語(yǔ)和代碼,但將深度學(xué)習(xí)視為簡(jiǎn)單地?cái)M合一個(gè)比經(jīng)典模型具有更多參數(shù)的模型,會(huì)忽略很多對(duì)其成功至關(guān)重要的東西。教學(xué)生數(shù)學(xué)的比喻也不是完美的。


與生物進(jìn)化一樣,盡管深度學(xué)習(xí)包含許多復(fù)用的規(guī)則(如經(jīng)驗(yàn)損失的梯度下降),但它會(huì)產(chǎn)生高度復(fù)雜的結(jié)果。似乎在不同的時(shí)間,網(wǎng)絡(luò)的不同組件會(huì)學(xué)習(xí)不同的東西,包括表示學(xué)習(xí)、預(yù)測(cè)擬合、隱式正則化和純?cè)肼暤?。研究人員仍在尋找合適的視角提出有關(guān)深度學(xué)習(xí)的問題,更不用說(shuō)回答這些問題。


原文鏈接:https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/ 


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)

pwm相關(guān)文章:pwm是什么


土壤濕度傳感器相關(guān)文章:土壤濕度傳感器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉