人類和DNN的目標(biāo)識(shí)別穩(wěn)健性比較

作者：時(shí)間：2018-09-19 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　深度神經(jīng)網(wǎng)絡(luò)在很多任務(wù)上都已取得了媲美乃至超越人類的表現(xiàn)，但其泛化能力仍遠(yuǎn)不及人類。德國蒂賓根大學(xué)等多所機(jī)構(gòu)近期的一篇論文對(duì)人類和 DNN 的目標(biāo)識(shí)別穩(wěn)健性進(jìn)行了行為比較，并得到了一些有趣的見解。機(jī)器之心對(duì)該論文進(jìn)行了編譯介紹。

本文引用地址：http://2s4d.com/article/201809/392064.htm

　　摘要

　　我們通過 12 種不同類型的圖像劣化(image degradation)方法，比較了人類與當(dāng)前的卷積式深度神經(jīng)網(wǎng)絡(luò)(DNN)在目標(biāo)識(shí)別上的穩(wěn)健性。首先，對(duì)比三種著名的 DNN(ResNet-152、VGG-19、GoogLeNet)，我們發(fā)現(xiàn)不管對(duì)圖像進(jìn)行怎樣的操作，幾乎所有情況下人類視覺系統(tǒng)都更為穩(wěn)健。我們還觀察到，當(dāng)信號(hào)越來越弱時(shí)，人類和 DNN 之間的分類誤差模式之間的差異會(huì)逐漸增大。其次，我們的研究表明直接在畸變圖像上訓(xùn)練的 DNN 在其所訓(xùn)練的同種畸變類型上的表現(xiàn)總是優(yōu)于人類，但在其它畸變類型上測試時(shí)，DNN 卻表現(xiàn)出了非常差的泛化能力。比如，在椒鹽噪聲上訓(xùn)練的模型并不能穩(wěn)健地應(yīng)對(duì)均勻白噪聲，反之亦然。因此，訓(xùn)練和測試之間噪聲分布的變化是深度學(xué)習(xí)視覺系統(tǒng)所面臨的一大關(guān)鍵難題，這一難題可通過終身機(jī)器學(xué)習(xí)方法而系統(tǒng)地解決。我們的新數(shù)據(jù)集包含 8.3 萬個(gè)精心度量的人類心理物理學(xué)試驗(yàn)，能根據(jù)人類視覺系統(tǒng)設(shè)置的圖像劣化提供對(duì)終身穩(wěn)健性的有用參考。

　　圖 1：在(有可能畸變的)ImageNet 圖像上從頭開始訓(xùn)練的 ResNet-50 的分類表現(xiàn)。(a)在標(biāo)準(zhǔn)的彩色圖像上訓(xùn)練后的模型在彩色圖像上的測試表現(xiàn)接近完美(優(yōu)于人類觀察者)。(b)類似地，在添加了均勻噪聲的圖像上訓(xùn)練和測試的模型也優(yōu)于人類。(c)顯著的泛化問題：在添加了椒鹽噪聲的圖像上訓(xùn)練的模型在具有均勻噪聲的圖像上進(jìn)行測試時(shí)，表現(xiàn)時(shí)好時(shí)壞——即使這兩種噪聲類型在人眼看來并沒有太大的區(qū)別。

　　1 引言

　　1.1 作為人類目標(biāo)識(shí)別模型的深度神經(jīng)網(wǎng)絡(luò)

　　人類在日常生活中進(jìn)行的視覺識(shí)別速度很快，似乎也毫不費(fèi)力，而且很大程度無關(guān)視角和物體的方向 [Biederman (1987)]。在單次注視過程中完成的主要由中心凹進(jìn)行的快速識(shí)別被稱為「核心目標(biāo)識(shí)別(core object recognition)」[DiCarlo et al. (2012)]。比如，在查看「標(biāo)準(zhǔn)的」圖像時(shí)，我們能夠在不到 200 毫秒的單次注視內(nèi)可靠地辨別出視野中心的目標(biāo)。[DiCarlo et al. (2012); Potter (1976); Thorpe et al. (1996)]。由于目標(biāo)識(shí)別速度很快，所以研究者常認(rèn)為核心目標(biāo)識(shí)別主要是通過前饋處理實(shí)現(xiàn)的，盡管反饋連接在靈長類大腦中無處不在。靈長類大腦中的目標(biāo)識(shí)別據(jù)信是通過腹側(cè)視覺通路實(shí)現(xiàn)的，這是一個(gè)由區(qū)域 V1-V2-V4-IT 組成的分層結(jié)構(gòu)，來自視網(wǎng)膜的信息會(huì)首先傳遞至 V1 的皮層 [Goodale and Milner (1992)]。

　　就在幾年前，動(dòng)物視覺系統(tǒng)還是已知的唯一能夠進(jìn)行種類廣泛的視覺目標(biāo)識(shí)別的視覺系統(tǒng)。但這種情況已然改變，在數(shù)百萬張有標(biāo)注圖像上訓(xùn)練之后的腦啟發(fā)式深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在自然場景圖像中的物體分類上達(dá)到了人類水平 [Krizhevsky et al. (2012)]。DNN 現(xiàn)在可用于各種類型的任務(wù)，并且創(chuàng)造了新的當(dāng)前最佳，甚至在一些幾年前還被認(rèn)為需要數(shù)十年時(shí)間才能通過算法解決的任務(wù)上取得了超越人類的表現(xiàn) [He et al. (2015); Silver et al. (2016)]。因?yàn)?DNN 和人類能達(dá)到相近的準(zhǔn)確度，所以已有一些工作開始研究 DNN 和人類視覺的相似和不同之處。一方面，由于大腦本身的復(fù)雜性和神經(jīng)元的多樣性，所以 DNN 的網(wǎng)絡(luò)單元得到了很大的簡化 [Douglas and Martin (1991)]。另一方面，一個(gè)模型的能力往往并不取決于對(duì)原有系統(tǒng)的復(fù)現(xiàn)，而在于模型取得原系統(tǒng)的重要方面并將其從實(shí)現(xiàn)的細(xì)節(jié)中抽象出來的能力 [如 Box (1976); Kriegeskorte (2015)]。

　　人類視覺系統(tǒng)最顯著的性質(zhì)之一是穩(wěn)健的泛化能力。即使輸入分布發(fā)生很大的變化(比如不同的光照條件和天氣類型)，人類視覺系統(tǒng)也能輕松應(yīng)對(duì)。比如，即使在一個(gè)物體前面有雨滴或雪花，人類對(duì)物體的識(shí)別也基本不會(huì)出錯(cuò)。盡管人類在一生中肯定會(huì)遇到很多這樣的變化情況(對(duì)于 DNN，即是我們所說的「訓(xùn)練時(shí)間」)，但似乎人類的泛化方式非常普適，并不局限于之前看過的同種分布。否則我們將無法理解存在某些全新之處的場景，之前未見過的噪聲也會(huì)讓我們束手無策。即使一個(gè)人的頭上還從未被撒過彩片碎紙，但他仍然可以毫無壓力地辨認(rèn)出花車巡游中的目標(biāo)。很自然，這樣通用穩(wěn)健的機(jī)制并不只是動(dòng)物視覺系統(tǒng)所需的，要讓人工視覺系統(tǒng)具備超出其訓(xùn)練時(shí)間所用分布的「眼界」，從而處理各種各樣的視覺任務(wù)，也將需要類似的機(jī)制。用于自動(dòng)駕駛的深度學(xué)習(xí)可能就是其中一個(gè)突出案例：即使系統(tǒng)在訓(xùn)練時(shí)間從沒見過彩片碎紙雨，在花車巡游時(shí)也需要有穩(wěn)健的分類表現(xiàn)。因此，從機(jī)器學(xué)習(xí)角度看，因?yàn)榻K身機(jī)器學(xué)習(xí)所需的泛化能力并不依賴于在測試時(shí)間使用獨(dú)立同分布(i.i.d.)樣本的標(biāo)準(zhǔn)假設(shè)，所以對(duì)一般噪聲的穩(wěn)健性可用作終身機(jī)器學(xué)習(xí)的高度相關(guān)的案例 [Chen and Liu (2016)]。

　　1.2 泛化能力比較

　　DNN 的泛化效果一般很好：首先，DNN 能夠在訓(xùn)練分布上學(xué)習(xí)到足夠一般的特征，能在獨(dú)立同分布的測試分布上得到很高的準(zhǔn)確度;盡管 DNN 也有足夠的能力完全記憶訓(xùn)練數(shù)據(jù) [Zhang et al. (2016)]，。有很多研究致力于理解這一現(xiàn)象 [如 Kawaguchi et al. (2017); Neyshabur et al. (2017); Shwartz-Ziv and Tishby (2017)]。其次，在一個(gè)任務(wù)上學(xué)習(xí)到特征往往只會(huì)遷移到有所相關(guān)的任務(wù)上，比如從分類任務(wù)遷移到顯著性預(yù)測任務(wù) [Kümmerer et al. (2016)]、情緒識(shí)別任務(wù) [Ng et al. (2015)]、醫(yī)學(xué)成像任務(wù) [Greenspan et al. (2016)] 以及其它很多遷移學(xué)習(xí)任務(wù) [Donahue et al. (2014)]。但是，在用于新任務(wù)之前，遷移學(xué)習(xí)仍然需要大量訓(xùn)練。這里，我們采用第三種設(shè)定：終身機(jī)器學(xué)習(xí)角度的泛化 [Thrun (1996)]。即當(dāng)一個(gè)視覺學(xué)習(xí)系統(tǒng)在學(xué)習(xí)過處理一種特定類型的圖像劣化后，在處理新類型的圖像劣化時(shí)效果如何?作為一種目標(biāo)識(shí)別穩(wěn)健性的度量方法，我們可以測試分類器或視覺系統(tǒng)能夠忍受輸入分布的變化達(dá)到一定程度的能力，即在一定程度上不同于訓(xùn)練分布的測試分布上評(píng)估時(shí)的識(shí)別表現(xiàn)是否夠好(即在接近真實(shí)的情況下測試，而非在獨(dú)立同分布上測試)。使用這種方法，我們可以衡量 DNN 和人類觀察者應(yīng)對(duì)由參數(shù)化圖像處理所造成的原始圖像逐漸畸變的能力。

　　首先，我們將評(píng)估在 ImageNet 上訓(xùn)練的表現(xiàn)最好的 DNN，即 GoogLeNet [Szegedy et al. (2015)]、 VGG-19 [Simonyan and Zisserman (2015)] 和 ResNet-152 [He et al. (2016)]，并會(huì)在 12 種不同的圖像畸變上比較這些 DNN 與人類的表現(xiàn)，看各自在之前未見過的畸變上的泛化能力如何。圖 2 展示了這些畸變類型，包含加性噪聲或相位噪聲等。

　　在第二組實(shí)驗(yàn)中，我們會(huì)直接在畸變圖像上訓(xùn)練網(wǎng)絡(luò)，看它們?cè)谝话阋饬x上處理有噪聲輸入的效果究竟如何，以及在畸變圖像上進(jìn)行多少訓(xùn)練就能以數(shù)據(jù)增強(qiáng)的形式助力對(duì)其它畸變形式的處理。研究者已對(duì)人類在目標(biāo)識(shí)別任務(wù)上的行為進(jìn)行了很多心理物理學(xué)研究，這些任務(wù)包括在不同顏色(灰度和彩色)或?qū)Ρ榷纫约疤砑恿瞬煌康目梢娫肼暤膱D像上測量準(zhǔn)確度。研究表明，這種方法確實(shí)有助于對(duì)人類視覺系統(tǒng)的探索，能揭示出有關(guān)其中內(nèi)部計(jì)算和機(jī)制的信息 [Nachmias and Sansbury (1974); Pelli and Farell (1999); Wichmann (1999); Henning et al. (2002); Carandini and Heeger (2012); Carandini et al. (1997); Delorme et al. (2000)]。因此，類似的實(shí)驗(yàn)也許同樣能讓我們了解 DNN 的工作方式，尤其是還能通過與人類行為的高質(zhì)量測量結(jié)果來進(jìn)行比較。

　　特別需要指出，我們實(shí)驗(yàn)中的人類數(shù)據(jù)是從受控的實(shí)驗(yàn)環(huán)境中獲得的(而沒有使用 Amazon Mechanical Turk 等服務(wù)，因?yàn)檫@些服務(wù)無法讓我們充分地控制展示時(shí)間、顯示器校準(zhǔn)、視角和參與者在實(shí)驗(yàn)中的注意力)。我們精心測量得到的行為數(shù)據(jù)集共包含 12 個(gè)實(shí)驗(yàn)的 82880 次心理物理學(xué)試驗(yàn)，這些數(shù)據(jù)以及相關(guān)材料和代碼都已公開：https://github.com/rgeirhos/generalisation-humans-DNNs

　　2 方法

　　這一節(jié)將報(bào)告所用的范式、流程、圖像處理方法、觀察者和 DNN 的核心元素;這里的信息足以讓讀者了解相關(guān)實(shí)驗(yàn)和結(jié)果。更深入的解讀請(qǐng)參閱補(bǔ)充材料，其中有更詳細(xì)的細(xì)節(jié)，可幫助研究者重現(xiàn)我們的實(shí)驗(yàn)。

　　2.1 范式、流程和 16-class-ImageNet

　　為了本研究，我們開發(fā)了一種實(shí)驗(yàn)范式，旨在使用一種強(qiáng)制選擇的圖像分類任務(wù)來盡可能公平地比較人類觀察者和 DNN。實(shí)現(xiàn)公平的心理物理學(xué)比較面臨著一些難題：首先，很多表現(xiàn)優(yōu)良的 DNN 是在 ILSRVR 2012 數(shù)據(jù)庫 [Russakovsky et al. (2015)] 上訓(xùn)練的，這個(gè)數(shù)據(jù)庫有 1000 種細(xì)粒度的類別(比如，超過 100 種狗)。如果讓人類說出這些目標(biāo)的名稱，他們基本上很自然地會(huì)使用大類的名稱(比如會(huì)說這是「狗」，而不是說是「德國牧羊犬」)。因此，我們使用 WordNet 的層次結(jié)構(gòu) [Miller (1995)] 開發(fā)了一種映射方法，將 16 種大類類別(比如狗、車或椅子)映射到了它們對(duì)應(yīng)的 ImageNet 類別。我們將這個(gè)數(shù)據(jù)集稱為 16-class-ImageNet，因?yàn)樗鼘?ImageNet 的一個(gè)子集分組成了 16 個(gè)大類，即：飛機(jī)、兩輪車、船舶、小車、椅子、狗、鍵盤、烤箱、熊、鳥、瓶子、貓、鐘表、象、刀具、卡車)。然后，在每次試驗(yàn)中都會(huì)有一張圖像顯示在計(jì)算機(jī)屏幕上，觀察者必須通過點(diǎn)擊這 16 個(gè)類別中的 1 個(gè)來選出正確的類別。對(duì)于預(yù)訓(xùn)練的 DNN，則是計(jì)算映射到特定大類的所有 softmax 值的總和。然后，具有最高總和的大類被用作該網(wǎng)絡(luò)的最終決定。

　　另一個(gè)難題是實(shí)際上標(biāo)準(zhǔn)的 DNN 在推理時(shí)間僅會(huì)使用前饋式計(jì)算，而循環(huán)連接在人腦中無處不在 [Lamme et al. (1998); Sporns and Zwi (2004)]。為了防止這種差異在我們的實(shí)驗(yàn)比較中成為混淆結(jié)果的主要原因，給人類觀察者的呈現(xiàn)時(shí)間被限制在了 200ms。在展示完一張圖像之后，還會(huì)呈現(xiàn) 200ms 的 1/f 噪聲掩?！谛睦砦锢韺W(xué)上，已知這種方法能夠盡可能地最小化大腦中的反饋影響。

　　2.2 觀察者和預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)

　　來自人類觀察者的數(shù)據(jù)與三個(gè)預(yù)訓(xùn)練的 DNN 的分類表現(xiàn)進(jìn)行了比較，即 GoogLeNet、 VGG-19 和 ResNet-152。對(duì)于我們進(jìn)行的 12 個(gè)實(shí)驗(yàn)中的每一個(gè)，都有 5 或 6 個(gè)觀察者參與(只有彩色圖像的實(shí)驗(yàn)除外，該實(shí)驗(yàn)僅有三位觀察者參與，因?yàn)橐延泻芏嘌芯繄?zhí)行過類似的實(shí)驗(yàn) [Delorme et al. (2000); Kubilius et al. (2016); Wichmann et al. (2006)]。觀察者的視力或矯正后視力處于正常水平。

　　2.3 圖像處理方法

　　我們?cè)谝粋€(gè)控制良好的心理物理學(xué)實(shí)驗(yàn)室環(huán)境中進(jìn)行了總共 12 個(gè)實(shí)驗(yàn)。在每個(gè)實(shí)驗(yàn)中，都會(huì)在大量圖像上施加(可能是參數(shù)化的)圖像畸變，這樣信號(hào)強(qiáng)度的范圍就從「沒有畸變/全信號(hào)」到「有畸變/(更)弱信號(hào)」不等。然后我們測量了分類準(zhǔn)確度隨信號(hào)強(qiáng)度的變化情況。我們使用的圖像處理方法中有三種是二分式的(彩色與灰度、真色與反色、原始與均衡化的功率譜);一種處理方式有 4 個(gè)不同層級(jí)(旋轉(zhuǎn) 0、90、180、270 度);還有一種方式有 7 個(gè)層級(jí)(0、30……180 度的相位噪聲);其它畸變方法則各有 8 個(gè)不同層級(jí)。這些方法為：均勻噪聲(受表示像素層面加性均勻噪聲的邊界的「width」參數(shù)控制)、對(duì)比度下降(對(duì)比度從 100% 到 1% 不等)以及三種來自 Eidolon 工具箱的三種不同的處理方法 [Koenderink et al. (2017)]。這三個(gè) Eidolon 實(shí)驗(yàn)都對(duì)應(yīng)于一種參數(shù)化圖像處理的不同版本，「reach」參數(shù)控制了畸變的強(qiáng)度。此外，對(duì)于在畸變上訓(xùn)練的實(shí)驗(yàn)，我們也評(píng)估了在具有椒鹽噪聲的刺激上的表現(xiàn)(受參數(shù) p 控制，該參數(shù)表示將一個(gè)像素設(shè)置成黑或白色的概率;p∈[0,10,20,35,50,65,80,95]%)。

　　更多有關(guān)不同圖像處理方法的信息請(qǐng)參閱補(bǔ)充材料，其中也包含各種不同處理方法和畸變等級(jí)的圖例。圖 2 則展示了每種畸變的一個(gè)圖例。整體而言，我們選擇使用的圖像處理方法能夠代表很多不同類型的可能畸變。

　　圖 2：一張鳥圖像在經(jīng)過所有類型的畸變處理后的結(jié)果。從左至右的圖像處理方法依次為：(上面一行)：彩色原圖(未畸變)、灰度、低對(duì)比度、高通、低通(模糊)、相位噪聲、功率均衡;(下面一行)：反色、旋轉(zhuǎn)、Eidolon I、Eidolon II、Eidolon III、加性均勻噪聲、椒鹽噪聲。補(bǔ)充材料中提供了所用到的所有畸變等級(jí)。

　　2.4 在畸變圖像上訓(xùn)練

　　除了在畸變圖像上評(píng)估標(biāo)準(zhǔn)的預(yù)訓(xùn)練的 DNN(結(jié)果見圖 3)，我們還直接在畸變圖像上訓(xùn)練了神經(jīng)網(wǎng)絡(luò)(圖 4)。這些網(wǎng)絡(luò)是在 16-class-ImageNet 上訓(xùn)練的，這是標(biāo)準(zhǔn) ImageNet 數(shù)據(jù)集的一個(gè)子集，詳見 2.1 節(jié)。這將未受擾動(dòng)的訓(xùn)練集規(guī)模減小到了大約原來的五分之一。為了校正每個(gè)類別的高度不平衡的樣本數(shù)量，我們使用了一個(gè)與對(duì)應(yīng)類別的樣本數(shù)量成正比的權(quán)重給損失函數(shù)中的每個(gè)樣本加權(quán)。這些實(shí)驗(yàn)中訓(xùn)練的所有網(wǎng)絡(luò)都使用了類似 ResNet 的架構(gòu)，與標(biāo)準(zhǔn) ResNet-50 的不同之處僅有輸出神經(jīng)元的數(shù)量——從 1000 降至了 16，以對(duì)應(yīng)數(shù)據(jù)集的 16 個(gè)大類。權(quán)重使用了一個(gè)截?cái)嗟恼龖B(tài)分布進(jìn)行初始化，均值為零，標(biāo)準(zhǔn)差為，其中 n 是一層中輸出神經(jīng)元的數(shù)量。

　　在從頭開始訓(xùn)練時(shí)，我們使用圖像處理方法的不同組合在訓(xùn)練過程中執(zhí)行了數(shù)據(jù)增強(qiáng)。當(dāng)在多種類型的圖像處理上訓(xùn)練網(wǎng)絡(luò)時(shí)(圖 4 中的 B1-B9 和 C1-C2 模型)，圖像處理的類型(包括未畸變圖像，即標(biāo)準(zhǔn)的彩色圖像)是均勻選取的，而且我們每次僅應(yīng)用一種處理(即網(wǎng)絡(luò)永遠(yuǎn)不會(huì)看到同時(shí)應(yīng)用了多種圖像處理方法的單張圖像，但注意某些圖像處理方法本質(zhì)上已經(jīng)包含了其它處理方法：比如均勻噪聲，總是在進(jìn)行灰度轉(zhuǎn)換并將對(duì)比度降至 30% 后添加的)。對(duì)于一個(gè)給定的圖像處理方法，擾動(dòng)量是根據(jù)測試時(shí)間所用的等級(jí)均勻選取的(參見圖 3)。

　　訓(xùn)練過程的其它方面都遵循在 ImageNet 上訓(xùn)練 ResNet 的標(biāo)準(zhǔn)訓(xùn)練流程：我們使用了動(dòng)量為 0.997 的 SGD，批大小為 64，初始學(xué)習(xí)率為 0.025。在 30、60、80 和 90 epoch 后(當(dāng)訓(xùn)練 100 epoch 時(shí))或 60、120、160、180 epoch 后(當(dāng)訓(xùn)練 200 epoch 時(shí))，學(xué)習(xí)率乘以 0.1。我們使用了 TensorFlow 1.6.0 [Abadi et al. (2016)] 進(jìn)行訓(xùn)練。在訓(xùn)練實(shí)驗(yàn)中，除了 Eidolon 刺激(因?yàn)檫@些刺激的生成對(duì) ImageNet 訓(xùn)練而言的計(jì)算速度實(shí)在太慢)之外，所有的圖像處理方法都有超過兩個(gè)層級(jí)。為了進(jìn)行比較，我們額外添加了彩色與灰度和椒鹽噪聲的對(duì)比(因?yàn)榻符}噪聲方面沒有人類的數(shù)據(jù)，但均勻噪聲和椒鹽噪聲之間不正式的比較說明人類的表現(xiàn)是相近的，參見圖 1(c))。

　　3 人類和預(yù)訓(xùn)練后的 DNN 對(duì)圖像畸變的泛化能力

　　為了評(píng)估信號(hào)更弱時(shí)的泛化能力，我們測試了 12 種不同的圖像劣化方法。然后將這些不同信號(hào)強(qiáng)度的圖像呈現(xiàn)給實(shí)驗(yàn)室環(huán)境中的人類觀察者以及預(yù)訓(xùn)練的 DNN(ResNet-152、GoogLeNet 和 VGG-19)進(jìn)行分類。圖 3 給出了可視化的結(jié)果比較。

　　圖 3：GoogLeNet、VGG-19 和 ResNet-152 以及人類觀察者的分類準(zhǔn)確度和響應(yīng)分布熵?！胳亍故侵疙憫?yīng)/決定分布(16 類)的香農(nóng)熵。這里衡量了與特定類別的偏差：使用一個(gè)在每個(gè)類別的圖像數(shù)量方面平衡的測試數(shù)據(jù)集，對(duì)所有 16 個(gè)類別進(jìn)行同等頻率的響應(yīng)能得到 4 bit 的最大可能熵。如果網(wǎng)絡(luò)或觀察者更偏愛響應(yīng)其中某些類別，則熵會(huì)降低(如果是一直響應(yīng)單個(gè)類別的極端情況，則會(huì)降至 0 bit，不管基本真值的類別如何)。人類表現(xiàn)的「誤差線」表示了所有參與者的結(jié)果的整個(gè)區(qū)間。2.3 節(jié)將解釋圖像處理方法，可視化結(jié)果請(qǐng)參閱補(bǔ)充材料。

　　雖然在僅有相對(duì)較小的與顏色相關(guān)的畸變時(shí)(比如灰度轉(zhuǎn)換或反色)人類和 DNN 的性能接近，但我們發(fā)現(xiàn)人類觀察者對(duì)其它所有畸變都更穩(wěn)?。涸诘蛯?duì)比度、功率均衡和相位噪聲圖像上有少許優(yōu)勢(shì)，在均勻噪聲、低通、高通、旋轉(zhuǎn)和三種 Eidolon 實(shí)驗(yàn)上優(yōu)勢(shì)更大。此外，由響應(yīng)分布熵衡量的誤差模式存在很大的差異(這表明存在對(duì)特定類別的偏差)。當(dāng)信號(hào)越來越弱時(shí)，人類參與者的響應(yīng)在 16 個(gè)類別上或多或少是均等分布的，而三個(gè) DNN 都表現(xiàn)出了對(duì)特定類別的偏差。這些偏差并不能完全通過先驗(yàn)類別概率解釋，而且因具體畸變而各不相同。比如，對(duì)于有很強(qiáng)均勻噪聲的圖像，ResNet-152 幾乎只能預(yù)測瓶子類別(與基本真值類別無關(guān))，而對(duì)于有嚴(yán)重相位噪聲的圖像則只能預(yù)測狗或鳥類別。人們可能會(huì)想到一些降低 DNN 和人類的響應(yīng)分布熵之間的差異的簡單技巧。一種可能的方法是增大 softmax 溫度參數(shù)并假設(shè)模型的決定是從這個(gè) softmax 分布采樣的，而不是取自 argmax。但是，以這種方式增大響應(yīng) DNN 分布熵會(huì)極大降低分類準(zhǔn)確度，因此需要一定的權(quán)衡(參見補(bǔ)充材料圖 8)。

　　這些結(jié)果與之前報(bào)告的 DNN 中對(duì)顏色信息的處理與人類類似的發(fā)現(xiàn)一致 [Flachot and Gegenfurtner (2018)]，但 DNN 識(shí)別的準(zhǔn)確度會(huì)因噪聲和模糊等圖像劣化而顯著下降 [Vasiljevic et al. (2016); Dodge and Karam (2016, 2017a, 2017b); Zhou et al. (2017)]。整體而言，在各種圖像畸變情況下，DNN 在泛化到更弱信號(hào)上的表現(xiàn)比人類更差。盡管人類的視覺系統(tǒng)隨進(jìn)化過程和生命周期已經(jīng)遇到了大量畸變，但我們顯然沒遇到過我們的測試中很多確切的圖像處理方式。因此，我們的人類數(shù)據(jù)表明原則上高水平的泛化能力是可能的。我們發(fā)現(xiàn)，人類與 DNN 的泛化能力差異的可能原因有很多：在當(dāng)前所使用的網(wǎng)絡(luò)架構(gòu)方面是否存在局限性(正如 Dodge and Karam (2016) 假設(shè)的那樣)，使得 DNN 無法匹敵人腦中錯(cuò)綜復(fù)雜的計(jì)算?訓(xùn)練數(shù)據(jù)是否存在問題(Zhou et al. (2017) 就這樣認(rèn)為)?還是說當(dāng)今的訓(xùn)練方法/優(yōu)化方法不足以實(shí)現(xiàn)穩(wěn)健和通用的目標(biāo)識(shí)別?為了理解我們發(fā)現(xiàn)的差異之處，我們進(jìn)行了另一批實(shí)驗(yàn)——直接在畸變圖像上訓(xùn)練網(wǎng)絡(luò)。

　　4 直接在畸變圖像上訓(xùn)練 DNN

　　圖 4：使用可能畸變的數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)的分類準(zhǔn)確度(百分?jǐn)?shù))。行表示中等難度的不同測試條件(括號(hào)中給出了具體條件，單位同圖 3)。列對(duì)應(yīng)按不同方式訓(xùn)練的網(wǎng)絡(luò)(最左列：用于比較的人類觀察者;沒有人類在椒鹽噪聲方面的數(shù)據(jù))。所有的網(wǎng)絡(luò)都是在(可能處理過的)16-class-ImageNet 上從頭開始訓(xùn)練得到的。紅框標(biāo)記了對(duì)應(yīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)中使用的處理方法;此外，加上了下劃線的結(jié)果表示「灰度」是訓(xùn)練數(shù)據(jù)的一部分，因?yàn)槟承┗兎椒ò送耆珜?duì)比度的灰度圖像。模型 A1-A9：在單一畸變上訓(xùn)練的 ResNet-50(100 epoch)。模型 B1-B9：在均勻噪聲和另一種畸變上訓(xùn)練的 ResNet-50(200 epoch)。模型 C1 和 C2：在除一種畸變外的所有畸變上訓(xùn)練的 ResNet-50(200 epoch)。隨機(jī)選中的幾率是十六分之一，即 6.25%。

　　我們?yōu)槊糠N畸變直接在 16-class-ImageNet 圖像(有可能進(jìn)行了圖像處理)上從頭開始訓(xùn)練一個(gè)網(wǎng)絡(luò)。圖 4(A1-A9)展示了訓(xùn)練的結(jié)果。我們發(fā)現(xiàn)，這些特定的網(wǎng)絡(luò)在其所訓(xùn)練的圖像處理類型上總是優(yōu)于人類觀察者的表現(xiàn)(即圖中對(duì)角線上的優(yōu)良結(jié)果)。這表明，當(dāng)前所用的架構(gòu)(比如 ResNet-50)和訓(xùn)練方法(標(biāo)準(zhǔn)的優(yōu)化器和訓(xùn)練過程)足以「解決」獨(dú)立同分布的訓(xùn)練/測試條件下的畸變。我們不僅能解決 Dodge and Karam (2017a) 觀察到的人類與 DNN 表現(xiàn)的差異問題(他們?cè)诨兩蠈?duì)網(wǎng)絡(luò)進(jìn)行了精細(xì)調(diào)節(jié)，但得到的 DNN 未達(dá)到人類水平)，而且能在這方面超越人類的水平。盡管人類視覺系統(tǒng)的結(jié)構(gòu)肯定更為復(fù)雜 [Kietzmann et al. (2017)]，但看起來對(duì)處理這類圖像處理問題來說似乎并不是必需的。

　　但是，正如之前指出的那樣，穩(wěn)健的泛化能力的關(guān)鍵不是解決事先已知的特定問題。因此，我們測試了在特定畸變類型上訓(xùn)練的網(wǎng)絡(luò)在另一些畸變上的表現(xiàn)。圖 4 A1-A9 中非對(duì)角線上的數(shù)據(jù)即為實(shí)驗(yàn)結(jié)果。整體而言，我們發(fā)現(xiàn)，在一些案例中，在特定畸變上訓(xùn)練能稍微提升在其它畸變上的表現(xiàn)，但也有一些案例給出了相反的結(jié)果(比較對(duì)象是在彩色圖像上訓(xùn)練的純 ResNet-50，即圖中的 A1)。所有網(wǎng)絡(luò)在椒鹽噪聲以及均勻噪聲上的表現(xiàn)都接近隨機(jī)亂選，即使是在各自相應(yīng)的其它噪聲模型上直接訓(xùn)練的網(wǎng)絡(luò)也是如此。因?yàn)檫@兩種類型的噪聲在人眼看來其實(shí)差別并不大(如圖 1(c) 所示)，所以這一結(jié)果可能還是頗讓人驚訝。因此，在一種畸變類型上訓(xùn)練的網(wǎng)絡(luò)并不總是能實(shí)現(xiàn)在其它畸變上的表現(xiàn)提升。

　　因?yàn)橹辉趩我灰环N畸變上訓(xùn)練似乎不足以為 DNN 帶來強(qiáng)大的泛化能力，所以我們還在另外兩種設(shè)置上訓(xùn)練了同樣的架構(gòu)(ResNet-50)。圖 4 中 B1-B9 模型展示了在一種特定的畸變與均勻噪聲的組合上訓(xùn)練后的結(jié)果(來自每種圖像處理方法的訓(xùn)練數(shù)據(jù)各 50%)。選擇均勻噪聲的原因是這似乎是對(duì)所有網(wǎng)絡(luò)而言最困難的畸變，因此將這種特定畸變納入訓(xùn)練數(shù)據(jù)可能是有益的。此外，我們還在除去了一種畸變(除去了均勻噪聲或椒鹽噪聲)之外的所有畸變上訓(xùn)練了模型 C1 和 C2。

　　我們發(fā)現(xiàn)，相比于模型 A1-A9，模型 B1-B9 的目標(biāo)識(shí)別表現(xiàn)有所提升——不管是它們實(shí)際訓(xùn)練的畸變上(圖 4 中的對(duì)角線上的紅框)，還是在其它未在訓(xùn)練數(shù)據(jù)中出現(xiàn)的畸變上。但是，這一提升的原因很大程度上可能是模型 B1-B9 訓(xùn)練了 200 epoch，而不是像 A1-A9 那樣訓(xùn)練了 100 epoch，因?yàn)槟Ｐ?B9(在均勻噪聲上訓(xùn)練和測試，200 epoch)的表現(xiàn)也由于模型 A9(在均勻噪聲上訓(xùn)練和測試，100 epoch)。因此，當(dāng)存在嚴(yán)重畸變時(shí)，訓(xùn)練更長時(shí)間可能更有用，但將其它畸變集成到訓(xùn)練過程中卻似乎并不具有普適的益處。此外，我們還發(fā)現(xiàn)，即使對(duì)于單個(gè)模型來說，在其所訓(xùn)練的所有 8 種畸變上都達(dá)到較高的準(zhǔn)確度也是可能(模型 C1 和 C2)，但是對(duì)于剩下的兩種畸變(均勻噪聲或椒鹽噪聲)，目標(biāo)識(shí)別準(zhǔn)確度卻僅有 11%-14%;比起在同一畸變上訓(xùn)練得到的專用網(wǎng)絡(luò)(準(zhǔn)確度超過 70%)，這一準(zhǔn)確度離隨機(jī)亂選要近得多。

　　總的來說，這些發(fā)現(xiàn)表明僅使用畸變來進(jìn)行數(shù)據(jù)增強(qiáng)可能不足以克服我們發(fā)現(xiàn)的泛化問題。問題也許應(yīng)該變一變了——不再是「為什么 DNN 的泛化能力這么好(在獨(dú)立同分布條件下)?」[Zhang et al. (2016)]，而變成「為什么 DNN 的泛化能力這么糟(在非獨(dú)立同分布條件下)?」目前被視為人類目標(biāo)識(shí)別的計(jì)算模型的 DNN 將如何解決這一難題?還有待未來研究。這個(gè)激動(dòng)人心的領(lǐng)域處于認(rèn)知科學(xué)/視覺感知和深度學(xué)習(xí)領(lǐng)域的交叉點(diǎn)，會(huì)從這兩個(gè)領(lǐng)域同時(shí)汲取靈感和新思想：計(jì)算機(jī)視覺的域適應(yīng)子領(lǐng)域(參閱 Patel et al. (2015) 的綜述)正在研究不受輸入分布變化所影響的穩(wěn)健型機(jī)器推理方法，同時(shí)人類視覺研究領(lǐng)域也正在積累證據(jù)證明局部增益控制機(jī)制的優(yōu)勢(shì)。這些標(biāo)準(zhǔn)化過程似乎對(duì)動(dòng)物和人類的穩(wěn)健視覺的很多方面而言都至關(guān)重要 [Carandini and Heeger (2012)]，也能預(yù)測人類視覺數(shù)據(jù) [Berardino et al. (2017); Schütt and Wichmann (2017)]，并以證明可用于計(jì)算機(jī)視覺 [Jarrett et al. (2009); Ren et al. (2016)]。神經(jīng)標(biāo)準(zhǔn)化過程與 DNN 的泛化能力之間是否存在關(guān)聯(lián)?這將是值得未來研究一個(gè)有趣方向。

　　5 總結(jié)

　　我們基于 12 種不同的圖像畸變，對(duì)人類和 DNN 的目標(biāo)識(shí)別穩(wěn)健性進(jìn)行了行為比較。我們發(fā)現(xiàn)，與人類觀察者相比，在 ImageNet 上訓(xùn)練的三種知名 DNN(ResNet-152、GoogLeNet 和 VGG-19)的表現(xiàn)會(huì)隨著圖像畸變所造成的信噪比的減小而迅速降低。此外，我們還發(fā)現(xiàn)當(dāng)信號(hào)越來越弱時(shí)，人類與 DNN 的分類誤差模式的差別會(huì)逐漸增大。我們?cè)诹己每刂频膶?shí)驗(yàn)室條件下進(jìn)行了 82880 次心理物理學(xué)試驗(yàn)，結(jié)果表明人類與當(dāng)前 DNN 處理目標(biāo)信息的方式仍存在顯著區(qū)別。在我們的設(shè)置中，這些區(qū)別無法通過在畸變圖像上進(jìn)行訓(xùn)練(即數(shù)據(jù)增強(qiáng))而克服：盡管 DNN 能完美應(yīng)對(duì)其所訓(xùn)練過的特定畸變，但對(duì)于它們之前未曾見過的畸變類型，它們?nèi)匀皇譄o策。因?yàn)闈撛诨兊念愋突旧鲜菬o窮無盡的(不管是理論上還是實(shí)際應(yīng)用中都是如此)，所以不可能在所有畸變上都訓(xùn)練一遍。當(dāng)超出常規(guī)的獨(dú)立同分布假設(shè)時(shí)(通常是不現(xiàn)實(shí)的)，DNN 就會(huì)遇到泛化問題。我們相信，不管是為了創(chuàng)造穩(wěn)健的機(jī)器推理，還是為了更好地理解人類目標(biāo)識(shí)別，解決這一泛化問題都至關(guān)重要。我們希望我們的發(fā)現(xiàn)以及我們精心測量并免費(fèi)公開的行為數(shù)據(jù)能為 DNN 穩(wěn)健性的提升提供一個(gè)有用的新基準(zhǔn)，并能激勵(lì)神經(jīng)科學(xué)家找到大腦中負(fù)責(zé)這一出色的穩(wěn)健性機(jī)制。

新聞中心

人類和DNN的目標(biāo)識(shí)別穩(wěn)健性比較

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)