博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 自監(jiān)督對(duì)比學(xué)習(xí)的泛化性理論

自監(jiān)督對(duì)比學(xué)習(xí)的泛化性理論

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2022-09-17 來(lái)源:工程師 發(fā)布文章

導(dǎo)讀

 

自監(jiān)督學(xué)習(xí)范式已經(jīng)在各種 CV 和 NLP 等任務(wù)上超越了直接用監(jiān)督學(xué)習(xí)的性能。盡管近來(lái)自監(jiān)督學(xué)習(xí)的算法層出不窮,但是對(duì)它泛化性好的理論理解仍然十分缺乏,只能盲目嘗試,因此限制了自監(jiān)督學(xué)習(xí)進(jìn)一步的發(fā)展。本工作嘗試對(duì)自監(jiān)督對(duì)比學(xué)習(xí)的泛化性進(jìn)行一些理論上的理解。

懶人版:下面視頻的前 18 分鐘

【2022.03 北大報(bào)告】華為諾亞黃維然:自監(jiān)督學(xué)習(xí)理論

https://www.zhihu.com/zvideo/1483773806724997120

0 引言

自監(jiān)督學(xué)習(xí) Self-Supervised Learning 是目前人工智能領(lǐng)域大熱的一個(gè)方向,圖靈獎(jiǎng)得主 Yann Lecun 和 Yoshua Bengio 都認(rèn)為自監(jiān)督學(xué)習(xí)是機(jī)器智能達(dá)到人類(lèi)水平的關(guān)鍵[1]。這種學(xué)習(xí)范式已經(jīng)在各種 CV 和 NLP 等任務(wù)上超越了直接用監(jiān)督學(xué)習(xí)的性能。盡管近來(lái)自監(jiān)督學(xué)習(xí)的算法層出不窮,但是對(duì)它泛化性好的理論理解仍然十分缺乏,只能盲目嘗試,因此限制了自監(jiān)督學(xué)習(xí)進(jìn)一步的發(fā)展。我們最近的工作嘗試對(duì)自監(jiān)督對(duì)比學(xué)習(xí)的泛化性進(jìn)行一些理論上的理解。論文地址如下:

Towards the Generalization of Contrastive Self-Supervised Learning

https://www.weiranhuang.com/publications/contrastive2021.html

我們對(duì)自監(jiān)督對(duì)比學(xué)習(xí)的泛化性進(jìn)行分析,提出了一個(gè)統(tǒng)一的理論框架來(lái)解釋對(duì)比自監(jiān)督學(xué)習(xí)泛化性好的原因。我們對(duì)唯一的自監(jiān)督信息——數(shù)據(jù)增強(qiáng),進(jìn)行數(shù)學(xué)上的定量刻畫(huà),并基于此推導(dǎo)出自監(jiān)督對(duì)比學(xué)習(xí)在下游任務(wù)的泛化誤差上界。根據(jù)該誤差上界,得出泛化性好的三個(gè)條件:正樣本對(duì)齊 Alignment of positive samples、類(lèi)中心錯(cuò)開(kāi) Divergence of class centers、增廣數(shù)據(jù)的聚焦性 Concentration of augmented data。其中,前兩個(gè)條件是可以通過(guò)對(duì)比學(xué)習(xí)算法進(jìn)行優(yōu)化的——因此我們證明了兩個(gè)常見(jiàn)算法 SimCLR 和 Barlow Twins 都在隱式地滿(mǎn)足前兩個(gè)條件;而第三個(gè)條件只依賴(lài)輸入的訓(xùn)練數(shù)據(jù)——因此我們?cè)谡鎸?shí)數(shù)據(jù)集上測(cè)試,發(fā)現(xiàn)用我們理論預(yù)測(cè)出不同訓(xùn)練數(shù)據(jù)的泛化性變化趨勢(shì)能跟真實(shí)性能變化趨勢(shì)一致。

1 簡(jiǎn)介

自監(jiān)督學(xué)習(xí)是通過(guò)大量無(wú)標(biāo)簽數(shù)據(jù)來(lái)預(yù)訓(xùn)練一個(gè)模型,學(xué)到數(shù)據(jù)表示 representation,然后根據(jù)不同的下游任務(wù),把學(xué)到的表示接在不同的分類(lèi)器 / 回歸器上,并用下游任務(wù)的有標(biāo)簽數(shù)據(jù)對(duì)分類(lèi)器 / 回歸器進(jìn)行訓(xùn)練,從而適用于下游任務(wù)。自監(jiān)督對(duì)比學(xué)習(xí)首先把 n 個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行兩次數(shù)據(jù)增廣得到 n 對(duì)“正樣本”,然后把“正樣本對(duì)”在特征空間中拉近從而學(xué)到特征提取器。由于只拉近正樣本會(huì)導(dǎo)致學(xué)到常數(shù)平凡解(所有樣本被映射到特征空間的同一個(gè)點(diǎn)),為了避免塌縮,不同的損失函數(shù)(比如 SimCLR/MoCo 等算法的 InfoNCE 引入負(fù)樣本并將其遠(yuǎn)離正樣本;Barlow Twins 等算法的互相關(guān)損失把特征的各個(gè)分量解耦)和訓(xùn)練方法(比如 BYOL/SimSiam 引入 stop-gradient)被提出。

1.1 Motivation 1

盡管自監(jiān)督對(duì)比學(xué)習(xí)已經(jīng)被實(shí)驗(yàn)廣泛驗(yàn)證了它在下游任務(wù)的泛化性,但是它的理論分析還十分有限。有一些工作從互信息最大化的角度理解 InfoNCE,指出 InfoNCE 的相反數(shù)是正樣本互信息的下界,因此最小化 InfoNCE 其實(shí)是在最大化互信息的下界。然而,最新的結(jié)果[2]指出,如果去優(yōu)化更緊的互信息下界,并不能得到更好的表示。這說(shuō)明通過(guò)最大化互信息的角度也許并不一定能夠完全解釋 InfoNCE 的成功。

Arora 等人[3]提出一個(gè)理論框架來(lái)直接分析 InfoNCE 在下游任務(wù)的泛化性,但是他們基于一個(gè)假設(shè):正樣本是從同一個(gè)潛在類(lèi)別 latent class 中選取的,比如兩張不同的狗的圖片作為一對(duì)正樣本。而在實(shí)際中,一對(duì)正樣本是同一個(gè)圖片的兩個(gè)不同的增廣,不同的圖片(即使屬于同一個(gè)潛在類(lèi)別)是作為負(fù)樣本的,因此這個(gè)假設(shè)和實(shí)際情況出入較大。Wang 等人[4]提出 alignment 和 uniformity 作為預(yù)測(cè)下游性能的經(jīng)驗(yàn)性指標(biāo),并沒(méi)有嚴(yán)格的泛化性理論保證。

同時(shí),上述兩個(gè)工作都避開(kāi)了去分析數(shù)據(jù)增廣在自監(jiān)督對(duì)比學(xué)習(xí)中的角色,然而它卻是自監(jiān)督對(duì)比學(xué)習(xí)有效的關(guān)鍵——因?yàn)閮H有的人類(lèi)先驗(yàn)知識(shí)是通過(guò)數(shù)據(jù)增廣構(gòu)造正樣本來(lái)注入學(xué)習(xí)過(guò)程的(即人類(lèi)可以識(shí)別出增廣后的樣本來(lái)自同一個(gè)圖片,說(shuō)明人類(lèi)認(rèn)知這兩個(gè)增廣后的圖片所用的特征在這個(gè)兩個(gè)圖片中都具備,而自監(jiān)督對(duì)比學(xué)習(xí)正是通過(guò)把上述人類(lèi)經(jīng)驗(yàn)教給機(jī)器從而學(xué)到好的特征)。

另外,Haochen 等人[5]從矩陣分解的角度來(lái)分析自監(jiān)督對(duì)比學(xué)習(xí),但是他們的理論分析僅僅適用于他們的 spectral contrastive loss,無(wú)法分析廣泛引用的 SimCLR 或者 Barlow Twins 的損失函數(shù)。

1.2 Motivation 2圖片

除了上述現(xiàn)有自監(jiān)督對(duì)比學(xué)習(xí)泛化性理論的局限性之外,還有一些有趣的實(shí)驗(yàn)現(xiàn)象無(wú)法完全解釋。

  • 更加豐富的數(shù)據(jù)增廣能夠讓學(xué)到的特征空間具有更好的聚類(lèi)性質(zhì)。上圖從左到右分別是 (a) 訓(xùn)練前的特征空間、(b) 只用一種類(lèi)型的數(shù)據(jù)增廣學(xué)到的特征空間、(c) 使用多種類(lèi)型的數(shù)據(jù)增廣學(xué)到的特征空間。可以看到 (a) 幾乎看不出聚類(lèi),(b) 可以看出紅色和藍(lán)色有一定的聚類(lèi),但是還有很大的重疊區(qū)域,而 (c) 聚類(lèi)性質(zhì)則十分明顯。而由于更好的聚類(lèi)性質(zhì)往往代表更好的下游分類(lèi)精度(因?yàn)橄掠稳蝿?wù)只訓(xùn)一個(gè)線性分類(lèi)器),因此在下游任務(wù)上的表現(xiàn) (c) 是優(yōu)于 (b) 的。SimCLR 論文中也觀測(cè)到類(lèi)似的現(xiàn)象——更加豐富的數(shù)據(jù)增廣具有更有的下游任務(wù)表現(xiàn)。直觀上這個(gè)現(xiàn)象似乎是理所當(dāng)然的,這能否從理論上給出定量刻畫(huà)?此外,SimCLR 論文也做了數(shù)據(jù)增廣兩兩組合的實(shí)驗(yàn),發(fā)現(xiàn) crop&color 效果最好。這能否有理論解釋?zhuān)?/li>
  • 樣本層面的拉近為什么會(huì)得到類(lèi)別層面的聚類(lèi)?比如 SimCLR 在優(yōu)化的時(shí)候,僅僅讓同一樣本的兩個(gè)數(shù)據(jù)增廣靠近,而把同一潛在類(lèi)別中其它樣本視作該樣本的負(fù)樣本從而被推開(kāi),這等價(jià)于是讓 2n 個(gè)增廣后的樣本做 n 分類(lèi),n 是訓(xùn)練數(shù)據(jù)量。但是在 SimCLR 學(xué)到的特征空間中,樣本是按類(lèi)別顯著聚類(lèi)在一起的(比如在 cifar-10 上的結(jié)果就是 10 類(lèi)而不是 n 類(lèi))。這一點(diǎn)是如何保證的?
  • 前面提到如果特征空間按類(lèi)別聚類(lèi)越好,下游任務(wù)的性能通常也越好。但是 Barlow Twins 并沒(méi)有直接優(yōu)化特征空間的幾何性質(zhì)讓它聚類(lèi),而是優(yōu)化特征的相關(guān)性性質(zhì)(將特征的各個(gè)分量解耦),這為什么能保證特征空間在幾何上有聚類(lèi)的效果?
1.3 Main Idea

本文我們主要聚焦在理論分析自監(jiān)督對(duì)比學(xué)習(xí)的泛化性 (Motivation 1),有了我們的理論結(jié)果,就可以輕松地解釋上述提到的實(shí)驗(yàn)現(xiàn)象 (Motivation 2)。首先,最重要的一點(diǎn)就是理解并用數(shù)學(xué)刻畫(huà)出數(shù)據(jù)增廣的作用。

圖片

直觀來(lái)看,同一個(gè)類(lèi)別的樣本很可能具備相似的增廣圖片。比如上圖中的兩個(gè)狗的圖片(綠框和藍(lán)框),它們?cè)谙袼貙用媸峭耆煌模ú煌淖藙?shì),不同的背景等等)。但是如果我們對(duì)它們做數(shù)據(jù)增廣比如隨機(jī)裁剪 random crop,那么它們有可能得到在像素層面十分接近的兩個(gè)狗頭(灰框)。兩個(gè)相似的圖片,它們的特征也應(yīng)當(dāng)接近 (Lipschitz 連續(xù)),對(duì)應(yīng)特征空間中的兩個(gè)灰點(diǎn)。自監(jiān)督對(duì)比學(xué)習(xí)的目標(biāo)是把正樣本在特征空間中拉近,因此以灰點(diǎn)為錨點(diǎn),綠點(diǎn)和藍(lán)點(diǎn)都往灰點(diǎn)靠攏,最終這兩個(gè)狗的圖片(綠框和藍(lán)框)在特征空間聚到一起。

根據(jù)上述想法,我們定義一個(gè)新的兩個(gè)圖片之間距離叫做 augmented distance,它是兩個(gè)圖片在各自的增廣中各選取一個(gè)增廣,使得它們的像素距離最小。從上圖的例子可以看出,augmented distance 從某種程度上刻畫(huà)了兩個(gè)圖片的語(yǔ)義距離。緊接著, 我們可以定義 -增廣, 即超過(guò)  部分的樣本, 它們之間兩兩 augmented distance 都小于  。當(dāng)  越大或者  越小的時(shí)候, 代表更加 sharp 的 concentration, 見(jiàn)下圖。

圖片

有了上述-增廣來(lái)定量刻畫(huà)數(shù)據(jù)增廣,我們通過(guò)理論推導(dǎo)出自監(jiān)督對(duì)比學(xué)習(xí)泛化性好的三個(gè)條件:

  1. Alignment of positive samples:這是不同自監(jiān)督對(duì)比學(xué)習(xí)算法的共同目標(biāo),即正樣本在特征空間中要被拉得越近越好;
  2. Divergence of class center:不同類(lèi)中心在特征空間里離得足夠遠(yuǎn),這保證了學(xué)到的表示不會(huì)塌縮到平凡解。這跟 Wang 等人[4]提出的 uniformity 并不相同,后面 3.1 節(jié)會(huì)具體討論。
  3. Concentration of augmented data:數(shù)據(jù)增廣的聚焦性要好 sharp concentration,即越大的 \sigma\sigma 和越小的 \delta\delta 。

注意到,其中 1 和 2 兩個(gè)條件是可以通過(guò)設(shè)計(jì)好的對(duì)比學(xué)習(xí)算法來(lái)滿(mǎn)足的,但是條件 3 不依賴(lài)于算法。為了驗(yàn)證上述 3 個(gè)條件,我們分析了 SimCLR 和 Barlow Twins 這兩個(gè)算法的 loss,并從理論上證明他們均可以滿(mǎn)足 1 和 2 兩個(gè)條件;為了驗(yàn)證條件 3,我們通過(guò)實(shí)驗(yàn)選取不同的數(shù)據(jù)增廣,來(lái)驗(yàn)證越 sharp 的 concentration 確實(shí)能帶來(lái)更好的下游任務(wù)效果。

2 自監(jiān)督對(duì)比學(xué)習(xí)泛化性問(wèn)題的數(shù)學(xué)定義

我們用粗體的  來(lái)表示一個(gè)(隨機(jī))樣本, 由它進(jìn)行數(shù)據(jù)增廣后的圖片集合記作 , 那么 InfoNCE loss 可以寫(xiě)成:

圖片

而 Barlow Twins 中的 cross-correlation loss 可以寫(xiě)成:

圖片

其中  且  對(duì)每一維  是歸一化的。

標(biāo)準(zhǔn)的自監(jiān)督學(xué)習(xí)算法的評(píng)估方法是在學(xué)到的表示后面接一個(gè)線性分類(lèi)器,并在下游數(shù)據(jù)上對(duì)線性分類(lèi)器進(jìn)行訓(xùn)練,由此得到的下游任務(wù)分類(lèi)器,并以它的性能來(lái)作為評(píng)估學(xué)到的表示的好壞。為了簡(jiǎn)化數(shù)學(xué)分析,我們考慮不需要訓(xùn)練的最近鄰分類(lèi)器作為下游任務(wù)的分類(lèi)器,即

圖片

其中  是第  類(lèi)  的類(lèi)中心。事實(shí)上,最近鄰分類(lèi)器可以看作是線性分類(lèi)器的特例(見(jiàn)原文),因此實(shí)際中用線性分類(lèi)器得到的下游任務(wù)性能會(huì)高于最近鄰分類(lèi)器。我們用誤差率來(lái)測(cè)量最近鄰分類(lèi)器的性能,即

圖片

有了上述定義,下面我們研究為何自監(jiān)督對(duì)比學(xué)習(xí)可以得到一個(gè)小的誤差率。

3 自監(jiān)督對(duì)比學(xué)習(xí)的泛化性保證

我們首先給出上面 1.3 Main Idea 中 augmented distance 的數(shù)學(xué)定義:

圖片

以及 -增廣的嚴(yán)謹(jǐn)定義:

圖片

當(dāng)我們有一個(gè)更豐富的數(shù)據(jù)增廣  時(shí), 根據(jù) augmented distance 定義, 我們有 , 因此當(dāng)  不變時(shí),  會(huì)變小。也就是說(shuō),更豐富的數(shù)據(jù)增廣會(huì)帶來(lái)更加 sharp 的 concentration。后面我們會(huì)看到更加 sharp 的 concentration 意味著更好的下游性能, 由此我們可以得出, 更豐富的數(shù)據(jù)增廣帶來(lái)更好的下游性能。

為了刻畫(huà)正樣本拉近的程度, 我們定義集合 里面的元素的兩個(gè)增廣都足夠接近。進(jìn)一步定義  越小表示 alignment 越好。

注:我們可以證明  可以用 alignment 來(lái) upper bounded 如下, 具體細(xì)節(jié)見(jiàn)原文。

圖片

有了數(shù)據(jù)增廣的定義,下面我們不加證明地直接給出本文的第一個(gè)定理:

圖片

為了更直觀的理解上述定理, 我們首先來(lái)看一個(gè)簡(jiǎn)單的例子:任何兩個(gè)來(lái)自同一個(gè)潛在類(lèi)別的樣本 都存在一個(gè)相同的增廣圖片 , 而且通過(guò)自監(jiān)督對(duì)比學(xué)習(xí)正樣本都 perfect aligned , 見(jiàn)下圖:

圖片

在這種情況下, 來(lái)自同一個(gè)潛在類(lèi)別的樣本都被映射到了同一個(gè)點(diǎn)上, 因此我們只需要任意小的角度就能把不同的類(lèi)別都準(zhǔn)確區(qū)分開(kāi), 也就是  。事實(shí)上, 經(jīng)過(guò)簡(jiǎn)單計(jì)算我們有 , 根據(jù)定理 1 得到, 這和我們直觀分析的結(jié)論完全一致。

從定理 1 可以看出自監(jiān)督性能好  即  ?。┑娜齻€(gè)條件:

  1. Alignment of positive samples:這也是不同自監(jiān)督對(duì)比學(xué)習(xí)算法優(yōu)化的共同目標(biāo)。由定理 2 可 知 alignment 越小  越小, 再由定理 1 可知  也越小;
  2. Divergence of class centers:不同的類(lèi)中心的距離要足夠大, 也就是足夠小的  。從定理 1 可以看到, divergence 和 alignment  、concentration  都有關(guān)。越好的 alignment 和越 sharp 的 concentration(從而更小的  ) 會(huì)放松 divergence 的條件。這也可以從上圖中的簡(jiǎn)單例子看出:perfect alignment 和 prefect concentration 下, 只需任意小的 divergence 即可。
  3. Concentration of augmented data:當(dāng)  固定的時(shí)候, 越 sharp 的 concentration 意味著越大的 , 從而直接降低了  的上界。

定理 1 提供了一個(gè)理論框架在分析不同的自監(jiān)督學(xué)習(xí)算法的泛化性。上述條件 1 和 2 可以通過(guò)算法來(lái)優(yōu)化(后面第 4 節(jié)我們將通過(guò)兩個(gè)具體的例子 SimCLR 和 Barlow Twins 來(lái)揭示這一點(diǎn)),而條件 3 不依賴(lài)于算法,是由預(yù)先給定的增廣數(shù)據(jù)來(lái)決定(后面第 5 節(jié)我們將通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證這一點(diǎn))。

3.1 與 Wang 等人[4]的 alignment 和 uniformity 比較

兩個(gè)工作中都涉及 alignment,它們具有相同的含義,因?yàn)檫@是不同自監(jiān)督對(duì)比學(xué)習(xí)算法優(yōu)化的共同目標(biāo);但是我們提到的 divergence 和他們提出的 uniformity 在概念上完全不同。

  • Uniformity 需要所有的數(shù)據(jù)點(diǎn)均勻的分布在特征球面上;我們的 divergence 刻畫(huà)的是類(lèi)中心之間的 cosine distance。我們不要求所有的數(shù)據(jù)點(diǎn)盡可能散開(kāi)分布,相反,我們希望同類(lèi)別的數(shù)據(jù)點(diǎn)盡量接近。同時(shí),好的 alignment 和 concentration 可以放松對(duì) divergence 的要求。因此,我們的 divergence 是一種更加準(zhǔn)確和精細(xì)的刻畫(huà)。
  • Alignment 和 uniformity 是一種用來(lái)預(yù)測(cè)下游性能的經(jīng)驗(yàn)指標(biāo),而我們的 alignment 和 divergence 是由定理 1 導(dǎo)出的,具有泛化性的理論保證。
  • 另外,當(dāng) concentration 較差時(shí)(比如用恒等變換作為數(shù)據(jù)增廣的方法),即使有 perfect alignment 和 perfect uniformity,下游性能仍然很差,這再次說(shuō)明 alignment 和 uniformity 指標(biāo)的局限性。
4 不同的對(duì)比損失函數(shù)如何滿(mǎn)足 alignement 和 divergence?

自監(jiān)督對(duì)比損失函數(shù)一般可以分解成兩部分,一部分是為了拉近正樣本,另一部分是正則項(xiàng)為了保證不會(huì)學(xué)到塌縮解,即

圖片

其中, 第一項(xiàng)也就是 alignment, 即  。不同的損失函數(shù)的差別主要在于第二項(xiàng), 一個(gè)有效的正則項(xiàng)應(yīng)當(dāng)讓 divergence 滿(mǎn)足定理 1 的條件。原文中的本節(jié)針對(duì)不同 loss 的數(shù)學(xué)分析較多, 在這里我們直接給出最后的結(jié)論:

首先, 我們證明了兩種常見(jiàn)算法 SimCLR 和 Barlow Twins 的損失函數(shù)確實(shí)可以被分解成上面相關(guān)的兩部分  和 ; 其次, 我們可以證明, 對(duì)于  有 , 對(duì)于 Barlow Twins 有 ; 最后, 我們給出下游性能的理論保證, 對(duì)于 SimCLR 有 , 對(duì)于 Barlow Twins 有

4.1 分析過(guò)程中發(fā)現(xiàn)的有趣的點(diǎn)之一

對(duì)于 SimCLR 的 InfoNCE loss,把它拆成 pos 和 reg 兩項(xiàng)后得到

圖片

其中第二項(xiàng)正則項(xiàng)是 LogExp 形式,這對(duì)于避免塌縮很關(guān)鍵。如果用線性函數(shù)來(lái)替換第二項(xiàng)(有些文獻(xiàn)成為 simple contrastive loss),

圖片

由于  和  的獨(dú)立性, 第二項(xiàng)可以化簡(jiǎn)成 , 因此最小化第二項(xiàng)只能要求學(xué)到的表示均值為零。但是均值為零加上  無(wú)法避免表示發(fā)生維度塌縮 dimensional collapse(維度塌縮的概念最早由 @清華MARS Lab [6] 提出), 比如所有的數(shù)據(jù)點(diǎn)被映射到特征球面上相對(duì)的兩個(gè)點(diǎn)上, 如下圖:

圖片

這也和 Wang 等人[7]發(fā)現(xiàn)的現(xiàn)象吻合:當(dāng) InfoNCE 的溫度增加時(shí),uniformity 變差(正則項(xiàng)變差)。因?yàn)楫?dāng)溫度趨于正無(wú)窮時(shí),InfoNCE 退化到上述 simple contrastive loss。

4.2 分析過(guò)程中發(fā)現(xiàn)的有趣的點(diǎn)之二

Barlow Twins 的 loss 被設(shè)計(jì)用來(lái)做特征分量解耦,那它為什么能滿(mǎn)足 alignment 和 divergence 呢?

圖片

首先,把它拆成兩項(xiàng)

圖片

那么

圖片

經(jīng)過(guò)簡(jiǎn)單的計(jì)算,不難得到

圖片

也就是說(shuō),互相關(guān)矩陣的對(duì)角元其實(shí)決定了 alignment。

當(dāng) alignment 較好時(shí), 可以預(yù)期 , 于是第二項(xiàng)中, 而對(duì)于每個(gè)類(lèi)別中的不同樣本基本都聚集在所屬類(lèi)中心的周?chē)? 因此可以用  來(lái)近似代替 , 于是上述過(guò)程可以總結(jié)成

圖片

可以看到  距離我們想要的 divergence  只有一步之遙了。事實(shí)上, 利用矩陣 trace 的輪換性, 我們就能得到

圖片

這樣就能保證 divergence 得到滿(mǎn)足。

5 用實(shí)驗(yàn)來(lái)驗(yàn)證 concentration 的合理性

我們主要驗(yàn)證:更 sharp 的 concentration 預(yù)示著更好的下游性能。因此我們?cè)O(shè)計(jì)三組實(shí)驗(yàn):

1)在第 3 節(jié)的定義 1 下面我們論證了更豐富的數(shù)據(jù)增廣能推導(dǎo)出更 sharp 的 concentration,因此第一組實(shí)驗(yàn)我們觀測(cè)越來(lái)越多的數(shù)據(jù)增廣種類(lèi)對(duì)下游性能的影響。我們考慮 5 種增廣類(lèi)型:(a) random cropping (b) random Gaussian blur (c) color dropping (d) color distortion (e) random horizontal flipping。

圖片

可以看到,隨著數(shù)據(jù)增廣種類(lèi)越來(lái)越豐富,下游性能越來(lái)越好,且不同算法下趨勢(shì)一致。有趣的點(diǎn)是加入 (c) 增廣之后,下游性能有明顯的提升。我們回過(guò)頭去看 (c) 是什么操作,是把彩色圖片變成灰度圖片。由于這個(gè)操作讓圖片在像素層面有劇烈變動(dòng),因此由 augmented distance 的定義可以預(yù)期該距離會(huì)變小很多,從而導(dǎo)致 concentration 變得 sharp。一個(gè)直觀的例子,在 Figure 2 中,如果把右邊那個(gè)狗的圖片替換成哈士奇(黑狗),那么僅僅做裁剪操作并不能讓兩個(gè)狗獲得像素層面相似的增廣圖片,所以 augmented distance 較大,concentration 較差。而當(dāng)我們引入 color dropping 操作之后,我們可以獲得兩個(gè)黑灰色的狗頭,這樣我們又可以得到像素層面相似的增廣圖片,從而能把它們的原始圖片拉近。這時(shí)對(duì)應(yīng) augmented distance 變小,concentration 變得 sharp。

2)當(dāng)我們固定數(shù)據(jù)增廣的類(lèi)型,而改變?cè)鰪V的強(qiáng)度,那么更強(qiáng)的數(shù)據(jù)增廣會(huì)導(dǎo)致更小的 augmented distance,從而獲得更 sharp 的 concentration 和 更好的下游性能。因此,第二組實(shí)驗(yàn),我們固定 (a) 和 (d) 兩種增廣的種類(lèi),改變 (d) 的強(qiáng)度,觀測(cè)對(duì)下游性能的影響。

圖片

可以看到,隨著數(shù)據(jù)增廣強(qiáng)度的增加,下游性能越來(lái)越好,且不同算法下趨勢(shì)一致。

3)上面兩組實(shí)驗(yàn)雖然一定程度上能夠驗(yàn)證我們的結(jié)論,但是有人可能覺(jué)得實(shí)驗(yàn)結(jié)果是理所當(dāng)然的。第三組實(shí)驗(yàn),我們固定數(shù)據(jù)增廣種類(lèi)的個(gè)數(shù)為二,嘗試所有可能的兩兩組合,并直接計(jì)算出不同組合的 ,從而觀測(cè)它與下游任務(wù)的相關(guān)性。

圖片

可以看到, 下游性能  和 concentration (  當(dāng)固定  時(shí)) 具有高度相關(guān)性:越 小的  代表越 sharp 的 concentration, 從而有更小的下游誤差率。如果我們固定一個(gè)增廣為 (a), 觀測(cè)它與其他增廣的組合, 可以看到不論是下游性能 (綠線) 還是 concentration (紫線、橙 線) 都具有  的排序。另外, 在全部的組合中, concentration 最 sharp 的 組合  成功預(yù)測(cè)出它也是下游性能最好的組合, 這也和 SimCLR 論文中的發(fā)現(xiàn) crop&color 是 最有效的組合相吻合。

參考

  1. ^https://cacm.acm.org/news/244720-yann-lecun-yoshua-bengio-self-supervised-learning-is-key-to-human-level-intelligence/fulltext
  2. ^Michael Tschannen, Josip Djolonga, Paul K Rubenstein, Sylvain Gelly, and Mario Lucic. On mutual information maximization for representation learning. arXiv preprint arXiv:1907.13625, 2019.
  3. ^Sanjeev Arora, Hrishikesh Khandeparkar, Mikhail Khodak, Orestis Plevrakis, and Nikunj Saunshi. A theoretical analysis of contrastive unsupervised representation learning. arXiv preprint arXiv:1902.09229, 2019.
  4. ^abcTongzhou Wang and Phillip Isola. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. In International Conference on Machine Learning, pages 9929–9939. PMLR, 2020.
  5. ^Jeff Z HaoChen, Colin Wei, Adrien Gaidon, and Tengyu Ma. Provable guarantees for self-supervised deep learning with spectral contrastive loss. Advances in Neural Information Processing Systems, 34, 2021.
  6. ^Tianyu Hua, Wenxiao Wang, Zihui Xue, Sucheng Ren, Yue Wang, and Hang Zhao. On feature decorrelation in self-supervised learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9598–9608, 2021.
  7. ^Feng Wang and Huaping Liu. Understanding the behaviour of contrastive loss. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2495–2504, 2021.


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉