“三巨頭”聯(lián)合發(fā)布萬字長文，深度學(xué)習(xí)將通往何方？

發(fā)布人：數(shù)據(jù)派THU 時間：2021-07-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人工神經(jīng)網(wǎng)絡(luò)的研究源于以下觀察：人類智能來自于高度并行的、相對簡單的非線性神經(jīng)元網(wǎng)絡(luò)，這些神經(jīng)元通過調(diào)整其連接的強度來學(xué)習(xí)知識。

這一觀察引發(fā)出一個核心計算問題：這種一般類型的網(wǎng)絡(luò)如何學(xué)習(xí)識別物體或理解語言等困難任務(wù)所需的復(fù)雜內(nèi)部表示呢？深度學(xué)習(xí)試圖通過深度表征向量和最優(yōu)化損失函數(shù)得到的權(quán)重鏈接來回答這個問題。

非常令人驚訝的是，這種概念上簡單的方法在使用大量計算資源和大型訓(xùn)練集時被實驗證明是如此有效，而且似乎一個關(guān)鍵因素是深度，即淺層網(wǎng)絡(luò)無法正常工作。

本文，我們將回顧近年來深度學(xué)習(xí)的基本概念和一些突破性成就，描述深度學(xué)習(xí)的起源，以及討論一些未來的挑戰(zhàn)。

這些挑戰(zhàn)包括在很少或沒有外部監(jiān)督的情況下進(jìn)行學(xué)習(xí)，處理來自與訓(xùn)練樣本不同分布的測試樣本，以及使用深度學(xué)習(xí)方法，用于那些人類通過一系列步驟有意識地解決的任務(wù) —— 即 Kahneman 稱之為 system 2 而非 system 1 的任務(wù)，例如對象識別或即時自然語言理解。system 1 的任務(wù)往往更輕松。

從手工設(shè)計的編碼到分布式向量表示

人工智能有兩種截然不同的范式。簡而言之，邏輯啟發(fā)范式將順序推理視為智能的本質(zhì)，旨在使用手工設(shè)計的推理規(guī)則在計算機中實現(xiàn)推理，這些規(guī)則對手工設(shè)計的將知識形式化的符號表達(dá)式進(jìn)行操作。

受大腦啟發(fā)的范式將從數(shù)據(jù)中學(xué)習(xí)表征視為智能的本質(zhì)，旨在通過手動設(shè)計或演化規(guī)則來實現(xiàn)學(xué)習(xí)，以修改人工神經(jīng)網(wǎng)絡(luò)中的連接強度。

在邏輯啟發(fā)范式中，符號沒有有意義的內(nèi)部結(jié)構(gòu)：它的意義在于它與其他符號的關(guān)系，這些關(guān)系可以用一組符號表達(dá)式或關(guān)系圖來表示。

相比之下，在類腦范式中，用于交流的外部符號被轉(zhuǎn)換為神經(jīng)活動的內(nèi)部向量，這些向量具有豐富的相似結(jié)構(gòu)?；顒酉蛄靠捎糜谕ㄟ^為每個符號學(xué)習(xí)適當(dāng)?shù)幕顒酉蛄坎W(xué)習(xí)允許填充與符號串缺失元素對應(yīng)的活動向量的非線性變換來對一組符號串中固有的結(jié)構(gòu)進(jìn)行建模。

Rumelhart 等人首先證明了這一點。最近一個非常令人印象深刻的系統(tǒng)是 BERT，它利用自注意力來動態(tài)連接單元組。

使用神經(jīng)活動向量來表示概念和權(quán)重矩陣來捕捉概念之間的關(guān)系的主要優(yōu)點是，這會產(chǎn)生自動的泛化能力。如果星期二和星期四由非常相似的向量表示，它們將對神經(jīng)活動的其他向量產(chǎn)生非常相似的因果影響。

這有助于類比推理，并表明直接、直觀的類比推理是我們的主要推理模式，而邏輯順序推理 (logical sequential reasoning) 則是較晚的發(fā)展，我們將對此進(jìn)行討論。

深度學(xué)習(xí)的興起

2000 年代初期，深度學(xué)習(xí)領(lǐng)域通過引入一些新技術(shù)使訓(xùn)練更深的網(wǎng)絡(luò)變得容易，從而重新激發(fā)了神經(jīng)網(wǎng)絡(luò)的研究。

GPU 和大型數(shù)據(jù)集是深度學(xué)習(xí)的關(guān)鍵推動因素，并且通過開發(fā)具有自動區(qū)分功能的開源、靈活的軟件平臺（例如 Theano、Torch、Caffe、TensorFlow、和 PyTorch）大大增強了深度學(xué)習(xí)的發(fā)展，這使得訓(xùn)練復(fù)雜的深度網(wǎng)絡(luò)和重用最新模型及其構(gòu)建塊變得容易。而且，更多層的組合允許更復(fù)雜的非線性，并在感知任務(wù)中取得了令人驚訝的好結(jié)果。

1）為什么是深度？：盡管更深層次的神經(jīng)網(wǎng)絡(luò)可能是更強大的直覺早于現(xiàn)代深度學(xué)習(xí)技術(shù)，這是架構(gòu)和訓(xùn)練程序方面的一系列進(jìn)步，但是，為什么更深的網(wǎng)絡(luò)可以更好地概括我們對建模感興趣的輸入輸出關(guān)系類型？

重要的是，要認(rèn)識到這不僅僅是具有更多參數(shù)的問題，因為深度網(wǎng)絡(luò)通常比具有相同參數(shù)數(shù)量的淺層網(wǎng)絡(luò)具有更好的泛化能力。

最流行的計算機視覺卷積網(wǎng)絡(luò)架構(gòu)是 ResNet 系列，其中最常見的代表 ResNet-50 有 50 層。本文未提及但結(jié)果證明非常有用的其他成分包括圖像變形、dropout 和批量歸一化。

我們相信深度網(wǎng)絡(luò)之所以出色，是因為它們利用了一種特定形式的組合性，其中一層中的特征以多種不同的方式組合，以在下一層創(chuàng)建更多抽象特征。對于像感知這樣的任務(wù)，這種組合性非常有效，并且有強有力的證據(jù)表明這種組合性質(zhì)被生物感知系統(tǒng)所利用。

2）無監(jiān)督預(yù)訓(xùn)練：當(dāng)標(biāo)記訓(xùn)練示例的數(shù)量與執(zhí)行任務(wù)所需的神經(jīng)網(wǎng)絡(luò)的復(fù)雜性相比較小時，開始使用一些其他信息源來創(chuàng)建特征檢測器層然后微調(diào)這些特征檢測器是有意義的。在遷移學(xué)習(xí)中，信息來源是另一個具有大量標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)。但也可以通過堆疊自動編碼器來創(chuàng)建多層特征檢測器，而無需使用任何標(biāo)簽。

首先，我們學(xué)習(xí)了一層特征檢測器，其輸出激活向量允許重建輸入。然后學(xué)習(xí)第二層特征檢測器，其激活向量允許重建第一層特征檢測器的激活。

在以這種方式學(xué)習(xí)了幾個隱藏層之后，嘗試從最后一個隱藏層中的活動預(yù)測標(biāo)簽，并通過所有層反向傳播錯誤，以便微調(diào)最初建立的特征檢測器，而不使用標(biāo)簽中的寶貴信息。預(yù)訓(xùn)練可以很好地提取與最終分類無關(guān)的各種結(jié)構(gòu)，但是，在計算便宜且標(biāo)記數(shù)據(jù)昂貴的情況下，只要預(yù)訓(xùn)練將輸入轉(zhuǎn)換為表示使分類更容易。

除了提高泛化能力之外，無監(jiān)督預(yù)訓(xùn)練還以一種很容易通過反向傳播微調(diào)深度神經(jīng)網(wǎng)絡(luò)的方式初始化權(quán)重。

預(yù)訓(xùn)練對優(yōu)化的影響在歷史上對于克服深度網(wǎng)絡(luò)難以訓(xùn)練的公認(rèn)觀點很重要，但現(xiàn)在人們使用修正線性單元（見下一節(jié)）和殘差連接，它的相關(guān)性要小得多。然而，預(yù)訓(xùn)練對泛化的影響已被證明是非常重要的。它可以通過利用大量未標(biāo)記的數(shù)據(jù)來訓(xùn)練非常大的模型，例如在自然語言處理中，有大量的語料庫可用。預(yù)訓(xùn)練和微調(diào)的一般原則已成為深度學(xué)習(xí)工具箱中的一個重要工具，例如，遷移學(xué)習(xí)和元學(xué)習(xí)。

3）ReLU 的成功之謎：深度網(wǎng)絡(luò)的早期成功涉及使用 sigmoid 非線性函數(shù)或雙曲正切激活函數(shù)對隱含層進(jìn)行無監(jiān)督預(yù)訓(xùn)練。

長期以來，神經(jīng)科學(xué)線性 ReLU 函數(shù)是生物神經(jīng)網(wǎng)絡(luò)中的正確激活，并且 ReLU 已經(jīng)在 RBM 的某些變體和卷積神經(jīng)網(wǎng)絡(luò)中使用，并取得了不錯的效果。ReLU 使學(xué)習(xí)變得容易，這是一個出乎意料的驚喜，通過反向傳播和隨機梯度下降來訓(xùn)練深度網(wǎng)絡(luò)，而無需逐層預(yù)訓(xùn)練。這是技術(shù)進(jìn)步之一，使深度學(xué)習(xí)能夠勝過先前的對象識別方法。

4）語音和物體識別方面的突破：聲學(xué)模型將聲波的表示轉(zhuǎn)換為音素片段的概率分布。

Robinson 使用晶片機和 Morgan 等人使用 DSP 芯片的嘗試已經(jīng)表明，如果有足夠的處理能力，神經(jīng)網(wǎng)絡(luò)可以與最先進(jìn)的聲學(xué)建模技術(shù)相媲美。2009 年，兩名使用 Nvidia GPU 的研究生表明，預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在 TIMIT 數(shù)據(jù)集上的表現(xiàn)略優(yōu)于 SOTA。

這一結(jié)果重新點燃了神經(jīng)網(wǎng)絡(luò)中幾個主要語音小組的興趣。2010 年，基本上相同的深度網(wǎng)絡(luò)被證明在不需要依賴說話者的訓(xùn)練的情況下在大詞匯語音識別方面擊敗了 SOTA。

到 2012 年，谷歌設(shè)計了一個生產(chǎn)版本，顯著改善了 Android 上的語音搜索。這是深度學(xué)習(xí)顛覆性力量的早期證明。

大約在同一時間，深度學(xué)習(xí)在 2012 年 ImageNet 競賽中取得了戲劇性的勝利，在識別自然圖像中一千種不同類別的物體時，錯誤率幾乎減半。這場勝利的關(guān)鍵是李飛飛的主要努力和她的合作者為訓(xùn)練集收集了超過一百萬張帶標(biāo)簽的圖像，并且 Alex Krizhevsky 非常有效地使用了多個 GPU。

當(dāng)前的硬件（包括 GPU）鼓勵在多次使用該權(quán)重時分?jǐn)倧膬?nèi)存中獲取權(quán)重的成本。使用每個權(quán)重一次的純在線隨機梯度下降會更快收斂，并且未來的硬件可能只是就地使用權(quán)重而不是從內(nèi)存中獲取它們。

深度卷積神經(jīng)網(wǎng)絡(luò)包含一些新穎性，例如使用 ReLU 使學(xué)習(xí)更快，使用 dropout 防止過擬合，但它基本上只是 Yann LeCun 和他的那種前饋卷積神經(jīng)網(wǎng)絡(luò)。計算機視覺社區(qū)對這一突破的反應(yīng)令人欽佩。

鑒于卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越性的無可爭議的證據(jù)，社區(qū)迅速放棄了以前的手工設(shè)計方法，轉(zhuǎn)而使用深度學(xué)習(xí)。

近期進(jìn)展

在這里，我們有選擇地討論深度學(xué)習(xí)的一些最新進(jìn)展。不過我們在此暫且忽略了許多重要的主題，例如深度強化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí)。

1）軟注意力機制和 transformer 架構(gòu)：深度學(xué)習(xí)的一個重****展，尤其是在順序處理方面，是乘法交互的使用，特別是在軟注意力的形式中。這是對神經(jīng)網(wǎng)絡(luò)工具箱的變革性補充，因為它將神經(jīng)網(wǎng)絡(luò)從純粹的矢量轉(zhuǎn)換機器轉(zhuǎn)變?yōu)榭梢詣討B(tài)選擇對哪些輸入進(jìn)行操作的架構(gòu)，并且可以將信息存儲在可區(qū)分的關(guān)聯(lián)存儲器中。這種架構(gòu)的一個關(guān)鍵特性是它們可以有效地對包括集合和圖在內(nèi)的不同類型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行操作。

隱藏層可以使用軟注意力來動態(tài)選擇它們將組合來自前一層的哪些向量來計算它們的輸出。這可以使輸出獨立于輸入的呈現(xiàn)順序或使用不同輸入之間的關(guān)系。

Transformer 架構(gòu)已經(jīng)成為許多應(yīng)用中的主導(dǎo)架構(gòu)，它堆疊了許多層 “self-attention” 模塊。

層中的每個模塊使用標(biāo)量積來計算其查詢向量與該層中其他模塊的關(guān)鍵向量之間的匹配。匹配項被歸一化為總和為 1，然后使用產(chǎn)生的標(biāo)量系數(shù)來形成前一層中其他模塊產(chǎn)生的值向量的凸組合。結(jié)果向量形成下一計算階段的模塊的輸入。模塊可以是多頭的，以便每個模塊計算幾個不同的查詢、鍵和值向量，從而使每個模塊有可能有幾個不同的輸入，每個輸入都以不同的方式從前一階段的模塊中選擇。

在此操作中，模塊的順序和數(shù)量無關(guān)緊要，因此可以對向量集進(jìn)行操作，而不是像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中那樣對單個向量進(jìn)行操作。例如，語言翻譯系統(tǒng)在輸出句子中生成一個單詞時，可以選擇關(guān)注輸入句子中對應(yīng)的一組單詞，而與其在文本中的位置無關(guān)。雖然乘法門控是諸如坐標(biāo)變換和循環(huán)網(wǎng)絡(luò)的強大形式之類的舊思想，但其最近的形式使其成為主流。

我們相信深度網(wǎng)絡(luò)之所以出色，是因為它們利用了一種特定形式的組合性，其中一層中的特征以多種不同的方式組合，以在下一層創(chuàng)建更多抽象特征。

Transformer 帶來了顯著的性能改進(jìn)，徹底改變了自然語言處理，現(xiàn)在它們在工業(yè)中得到了大量使用。這些系統(tǒng)都以自我監(jiān)督的方式進(jìn)行了預(yù)訓(xùn)練，以預(yù)測一段文本中的缺失詞。

也許更令人驚訝的是，Transformer 已成功地用于符號求解積分方程和微分方程。最近一個非常有前景的趨勢是在卷積網(wǎng)絡(luò)上使用 Transformer，以最先進(jìn)的性能在圖像中進(jìn)行對象檢測和定位。Transformerransformer 以可微分的方式執(zhí)行后處理和基于對象的推理，使系統(tǒng)能夠接受端到端的訓(xùn)練。

2）無監(jiān)督和自監(jiān)督學(xué)習(xí)：監(jiān)督學(xué)習(xí)雖然在各種任務(wù)中取得成功，但通常需要大量人工標(biāo)記的數(shù)據(jù)。同樣，當(dāng)強化學(xué)習(xí)僅基于獎勵時，它需要非常大量的交互。這些學(xué)習(xí)方法往往會產(chǎn)生特定于任務(wù)的專業(yè)系統(tǒng)，這些系統(tǒng)通常在他們接受過訓(xùn)練的狹窄領(lǐng)域之外是脆弱的。減少學(xué)習(xí)任務(wù)所需的人工標(biāo)記樣本數(shù)量或與世界的交互并提高域外魯棒性對于低資源語言翻譯、醫(yī)學(xué)圖像分析、自動駕駛和內(nèi)容過濾。

人類和動物似乎能夠以獨立于任務(wù)的方式學(xué)習(xí)大量關(guān)于世界的背景知識，主要是通過觀察。這些知識鞏固了常識，讓人類只需幾個小時的練習(xí)就可以學(xué)習(xí)復(fù)雜的任務(wù)，例如駕駛。人工智能未來的一個關(guān)鍵問題是，人類如何僅從觀察中學(xué)到這么多？

在監(jiān)督學(xué)習(xí)中，N 個類別之一的標(biāo)簽平均最多傳達(dá) log2 (N) 位關(guān)于世界的信息。在無模型強化學(xué)習(xí)中，獎勵同樣僅傳達(dá)少量信息。相比之下，音頻、圖像和視頻是高帶寬模式，隱含地傳達(dá)了有關(guān)世界結(jié)構(gòu)的大量信息。這激發(fā)了一種稱為自監(jiān)督學(xué)習(xí)的預(yù)測或重建形式，它通過預(yù)測數(shù)據(jù)的掩蔽或損壞部分來訓(xùn)練 “填補空白”。自監(jiān)督學(xué)習(xí)在訓(xùn)練 Transformer 提取向量方面非常成功，這些向量捕獲了單詞或單詞片段的上下文相關(guān)含義，并且這些向量非常適合下游任務(wù)。

對于文本，Transformer 被訓(xùn)練從一組離散的可能性中預(yù)測丟失的單詞。但是在視頻等高維連續(xù)域中，特定視頻片段的合理延續(xù)集龐大而復(fù)雜，正確表示合理延續(xù)的分布本質(zhì)上是一個未解決的問題。

3）對比學(xué)習(xí)：解決此問題的一種方法是通過潛在變量模型，該模型為視頻示例和可能的延續(xù)分配能量。

給定輸入視頻 X 和合理的延續(xù) Y，我們希望模型通過使用能量函數(shù) E (X, Y) 來指示 Y 是否與 X 兼容，該函數(shù)在 X 和 Y 兼容時取低值，否則取高值。

E (X, Y) 可以由深度神經(jīng)網(wǎng)絡(luò)計算，對于給定的 X，以對比的方式訓(xùn)練，為與 X 兼容的值 Y 提供低能量（例如 (X, Y) 對），以及與 X 不兼容的 Y 的其他值的高能量。對于給定的 X，推理包括找到一個使 E (X, Y) 最小化的 Y 或者可能從 Y 中采樣具有較低的 E (X, Y) 值。這種基于能量的方法來表示 Y 依賴于 X 的方式，這使得建模多樣化、多模態(tài)的合理延續(xù)集成為可能。

對比學(xué)習(xí)的關(guān)鍵難點是選擇好的 “負(fù)” 樣本：合適的點 Y，其能量會被推高。當(dāng)可能的反例集合不是太大時，我們可以將它們?nèi)靠紤]。這就是 softmax 的作用，因此在這種情況下，對比學(xué)習(xí)簡化為對有限離散符號集的標(biāo)準(zhǔn)監(jiān)督或自監(jiān)督學(xué)習(xí)。但是在實值高維空間中，Y 的預(yù)測與 Y 有很大不同，為了改進(jìn)模型，我們需要關(guān)注那些本應(yīng)具有高能量但當(dāng)前能量較低的 Y。

早期選擇負(fù)樣本的方法基于蒙特卡羅方法，例如受限玻爾茲曼機的對比散度和噪聲對比估計。

GAN 優(yōu)化起來有些棘手，但事實證明，對抗性訓(xùn)練思想極其豐富，在圖像合成方面產(chǎn)生了令人印象深刻的結(jié)果，并在內(nèi)容創(chuàng)建和領(lǐng)域適應(yīng)以及領(lǐng)域或風(fēng)格轉(zhuǎn)移方面開辟了許多新應(yīng)用。

4）對比學(xué)習(xí)的表示一致性：對比學(xué)習(xí)提供了一種無需重建或生成像素即可發(fā)現(xiàn)好的特征向量的方法。

這個想法是學(xué)習(xí)一個前饋神經(jīng)網(wǎng)絡(luò)，當(dāng)給定相同圖像的兩個不同裁剪或同一對象的兩個不同視圖時，該網(wǎng)絡(luò)會產(chǎn)生非常相似的輸出向量，但來自不同圖像或不同對象視圖的裁剪的輸出向量不同。兩個輸出向量之間的平方距離可以被視為一種能量，小值說明兼容，大值說明不兼容。

最近的一系列使用卷積網(wǎng)絡(luò)提取一致表示的論文在視覺特征學(xué)習(xí)中產(chǎn)生了有希望的結(jié)果。

正對由同一圖像的不同版本組成，這些版本通過裁剪、縮放、旋轉(zhuǎn)、顏色偏移、模糊等方式扭曲。負(fù)對是不同圖像的類似失真版本，它們可以通過稱為硬負(fù)挖掘的過程從數(shù)據(jù)集中巧妙地挑選出來，或者可能只是小批量中其他圖像的所有失真版本。網(wǎng)絡(luò)較高層之一的隱藏活動向量隨后用作以監(jiān)督方式訓(xùn)練的線性分類器的輸入。這種連體網(wǎng)絡(luò)方法在標(biāo)準(zhǔn)圖像識別基準(zhǔn)上取得了出色的結(jié)果。

最近，兩種 Siamese 網(wǎng)絡(luò)方法設(shè)法避免了對對比樣本的需求。第一個稱為 SwAV，量化一個網(wǎng)絡(luò)的輸出以訓(xùn)練另一個網(wǎng)絡(luò)，第二個稱為 BYOL，平滑兩個網(wǎng)絡(luò)之一的權(quán)重軌跡，這顯然足以防止崩潰。

5）變分自動編碼器：最近流行的一種自監(jiān)督學(xué)習(xí)方法是變分自動編碼器 (VAE)。它由將圖像映射到潛在代碼空間的編碼器網(wǎng)絡(luò)和從潛在代碼生成圖像的****網(wǎng)絡(luò)組成。VAE 通過在將高斯噪聲傳遞到****之前將高斯噪聲添加到編碼器的輸出來限制潛在代碼的信息容量。這類似于將小的嘈雜球體打包成具有最小半徑的較大球體。

信息容量受限于包含球體內(nèi)部有多少噪聲球體。嘈雜的球體相互排斥，因為良好的重構(gòu)誤差需要對應(yīng)于不同樣本的代碼之間有小的重疊。

在數(shù)學(xué)上，該系統(tǒng)最小化了通過在噪聲分布上對潛在代碼進(jìn)行邊緣化而獲得的自由能。然而，相對于參數(shù)最小化該自由能是棘手的，并且必須依賴來自統(tǒng)計物理學(xué)的變分近似方法來最小化自由能的上限。

深度學(xué)習(xí)的未來

深度學(xué)習(xí)系統(tǒng)的性能通?？梢酝ㄟ^簡單的擴(kuò)展來而得到顯著提高。有了更多的數(shù)據(jù)和更多的計算，它們通常會更好地工作。具有 1750 億個參數(shù)的語言模型 GPT-3（與人腦中的突觸數(shù)量相比仍然很?。┥傻奈谋荆黠@優(yōu)于只有 15 億個參數(shù)的 GPT-2。

隨著聊天機器人 Meena 和 BlenderBot 變得越來越大，它們也在不斷改進(jìn)。

現(xiàn)在正在為擴(kuò)大規(guī)模付出巨大的努力，可以大大改進(jìn)現(xiàn)有系統(tǒng)，但當(dāng)前深度學(xué)習(xí)存在一些根本性的缺陷，無法僅僅通過擴(kuò)大規(guī)模來克服。

我們將人類學(xué)習(xí)能力與當(dāng)前的人工智能進(jìn)行比較，提出了幾個改進(jìn)方向：

監(jiān)督學(xué)習(xí)需要太多標(biāo)記數(shù)據(jù)，而無模型強化學(xué)習(xí)需要太多試驗。人類似乎能夠以少得多的經(jīng)驗很好地概括。

當(dāng)前的系統(tǒng)對分布變化的魯棒性不如人類，人類可以通過很少的例子快速適應(yīng)這種變化。

當(dāng)前的深度學(xué)習(xí)在感知任務(wù)和通常所謂的 system 1 任務(wù)方面最為成功。將深度學(xué)習(xí)用于需要經(jīng)過深思熟慮步驟序列的 system 2 任務(wù)，是一個仍處于起步階段的令人興奮的領(lǐng)域。

1）需要改進(jìn)的點：從早期開始，機器學(xué)習(xí)的理論家就關(guān)注 IID 假設(shè)，即測試用例應(yīng)該來自與訓(xùn)練示例相同的分布。

不幸的是，這在現(xiàn)實世界中并不是一個現(xiàn)實的假設(shè)：只需考慮由于各種代理改變世界的行為引起的非平穩(wěn)性，或者學(xué)習(xí)代理的逐漸擴(kuò)大的思維視野，總是有更多的東西需要學(xué)習(xí)和發(fā)現(xiàn)。實際上，當(dāng)今最好的 AI 系統(tǒng)在從實驗室到現(xiàn)場時的性能往往會受到影響。

我們希望在面對分布變化（稱為分布外泛化）時實現(xiàn)更大的魯棒性，這是在面對新任務(wù)時降低樣本復(fù)雜性（良好泛化所需的示例數(shù)量）的更普遍目標(biāo)的一個特例 —— 如在遷移學(xué)習(xí)和終身學(xué)習(xí)中 —— 或者只是改變分布或世界狀態(tài)與獎勵之間的關(guān)系。當(dāng)前的監(jiān)督學(xué)習(xí)系統(tǒng)需要比人類更多的例子（當(dāng)必須學(xué)習(xí)一項新任務(wù)時），而無模型強化學(xué)習(xí)的情況更糟，因為每個獎勵試驗提供的關(guān)于任務(wù)的信息比每個標(biāo)記的例子少。

人類可以以一種不同于普通 IID 泛化的方式進(jìn)行泛化：我們可以正確解釋現(xiàn)有概念的新組合，即使這些組合在我們的訓(xùn)練分布下極不可能，只要它們尊重我們已經(jīng)學(xué)到的高級句法和語義模式。最近的研究幫助我們闡明了不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)在這種系統(tǒng)化泛化能力方面的表現(xiàn)。如何設(shè)計具有這些能力的未來機器學(xué)習(xí)系統(tǒng)，以更好地泛化或更快地適應(yīng)樣本外分布？

2）從同質(zhì)層到代表實體的神經(jīng)元組：來自神經(jīng)科學(xué)的證據(jù)表明，相鄰的神經(jīng)元組（形成所謂的超列）緊密相連，可能代表一種更高級別的向量值單元，不僅能夠發(fā)送標(biāo)量，而且能夠發(fā)送一組協(xié)調(diào)值。這個想法是膠囊架構(gòu)的核心，也是軟注意力機制的使用所固有的，其中集合中的每個元素都與一個向量相關(guān)聯(lián)，從中可以讀取一個鍵向量和一個值向量（有時也是查詢向量）。考慮這些向量級單元的一種方法是表示對象的檢測及其屬性（如在膠囊中的姿勢信息）。

計算機視覺領(lǐng)域的最新論文正在探索卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展，其中層次結(jié)構(gòu)的頂層代表在輸入圖像中檢測到的一組候選對象，并且對這些候選對象的操作是使用類似轉(zhuǎn)換器的架構(gòu)來執(zhí)行的。為對象及其部分分配內(nèi)在參考框架并通過使用部分之間的幾何關(guān)系來識別對象的神經(jīng)網(wǎng)絡(luò)應(yīng)該更不易受到定向?qū)剐怨舻挠绊懀笳咭蕾囉谌藗兪褂玫男畔⑴c神經(jīng)網(wǎng)絡(luò)使用的信息之間的巨大差異。網(wǎng)絡(luò)來識別物體。

3）多時間尺度：大多數(shù)神經(jīng)網(wǎng)絡(luò)只有兩個時間尺度：權(quán)重在許多示例中適應(yīng)緩慢，活動適應(yīng)隨著每個新輸入而迅速變化。添加快速適應(yīng)和快速衰減的 “快速權(quán)重” 的疊加會引入有趣的新計算能力。特別是，它創(chuàng)建了一個高容量的短期記憶，允許神經(jīng)網(wǎng)絡(luò)執(zhí)行真正的遞歸，其中相同的神經(jīng)元可以在遞歸調(diào)用中重復(fù)使用，因為它們在更高級別調(diào)用中的活動向量可以在以后重建使用快速權(quán)重中的信息。在學(xué)習(xí)學(xué)習(xí)或元學(xué)習(xí)中也會出現(xiàn)多種適應(yīng)時間尺度。

4）更高層次的認(rèn)知：在考慮新的挑戰(zhàn)時，例如在交通規(guī)則異常的城市中駕駛，甚至想象在月球上駕駛車輛時，我們可以利用我們已經(jīng)掌握的知識和通用技能，并以新的方式動態(tài)地重新組合它們。這種成體系的形式，允許人類在未知環(huán)境中進(jìn)行相當(dāng)好的泛化。通過練習(xí)、微調(diào)和編譯這些新技能進(jìn)一步改進(jìn)，也可以不再需要有意識的關(guān)注了。

我們?nèi)绾瓮ㄟ^重用已知的知識來使神經(jīng)網(wǎng)絡(luò)能夠快速適應(yīng)新環(huán)境，從而避免干擾已知技能？在這個方向上的初步探索包括 Transformers 和 Recurrent Independent Mechanisms。

似乎人類的（system 1）處理能力允許我們在計劃或推理時猜測未來的潛在益處或害處。這提出了 system 1 網(wǎng)絡(luò)如何指導(dǎo)更高（system 2）級別的搜索和規(guī)劃的問題，也許和 AlphaGo 的蒙特卡洛樹搜索的價值函數(shù)如出一轍。

機器學(xué)習(xí)研究依賴于歸納偏差或先驗，以鼓勵在與某些世界假設(shè)兼容的方向上進(jìn)行學(xué)習(xí)。system 2 處理的性質(zhì)和認(rèn)知神經(jīng)科學(xué)理論表明了幾種這樣的歸納偏差和架構(gòu)，它們可用于設(shè)計新穎的深度學(xué)習(xí)系統(tǒng)。我們?nèi)绾卧O(shè)計包含這種歸納偏差的深度學(xué)習(xí)架構(gòu)和訓(xùn)練框架？

人類幼兒執(zhí)行因果發(fā)現(xiàn)的能力表明，這可能是人類大腦的一個基本屬性，最近的工作表明，在干預(yù)變化下優(yōu)化分布外泛化可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以發(fā)現(xiàn)因果依賴性或因果變量。我們應(yīng)該如何構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以便它們能夠捕捉到世界的這些潛在因果屬性？

這些開放性問題所建議的方向與 20 世紀(jì)的符號人工智能研究有何關(guān)聯(lián)？顯然，符號 AI 方法旨在實現(xiàn) system 2 的能力，例如推理，能夠?qū)⒅R分解為可以在一系列計算步驟中輕松重新組合的部分，以及能夠操作抽象變量、類型和實例。

我們希望設(shè)計出這樣一種神經(jīng)網(wǎng)絡(luò)：它保留了深度學(xué)習(xí)的優(yōu)勢，可以在處理實值向量的同時，實現(xiàn)使用可微計算和基于梯度的、自適應(yīng)的高效大規(guī)模學(xué)習(xí)，高級 / 低級感知、處理不確定數(shù)據(jù)和使用分布式表示。

原文：

Deep Learning for AI ，Communications of the ACM, July 2021, Vol. 64 No. 7, Pages 58-6

Reference：

https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

作者：

Yoshua Bengio, Yann Lecun, Geoffrey Hinton

譯者：LZM

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。