深度學(xué)習(xí)發(fā)展下的“摩爾困境”，人工智能又將如何破局？

發(fā)布人：AI科技大本營時間：2021-11-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

編譯 | 禾木木

出品 | AI科技大本營（ID:rgznai100）

前不久，微軟和英偉達推出包含5300億參數(shù)的語言模型MT-NLG，這是一款基于 Transformer 的模型被譽為“世界上最大、最強的生成語言模型”。

毫無疑問，這是一場令人印象深刻的機器學(xué)習(xí)工程展示。

然而，我們是否應(yīng)該對這種大型模型趨勢感到興奮？

大腦深度學(xué)習(xí)

研究人員估計，人腦平均包含 860 億個神經(jīng)元和 100 萬億個突觸?？梢钥隙ǖ氖?，并非所有這些都用于語言。有趣的是，GPT-4 預(yù)計有大約 100 萬億個參數(shù)……

盡管這個對比很粗糙，但是難道不應(yīng)該懷疑構(gòu)建與人腦大小差不多的語言模型是否是一個長期可行的方法？

當(dāng)然，我們的大腦是經(jīng)過數(shù)百萬年進化產(chǎn)生的奇妙裝置，而深度學(xué)習(xí)模型才有幾十年的歷史。盡管如此，直覺應(yīng)該告訴我們，有些東西是無法計算的。

深度學(xué)習(xí)、還是深度錢包？

在龐大的文本數(shù)據(jù)集上訓(xùn)練一個 5300 億參數(shù)的模型，毫無疑問的是需要龐大的基礎(chǔ)設(shè)施。

事實上，微軟和英偉達使用了數(shù)百臺 DGX-A100 的 GPU 服務(wù)器。每件售價高達 199,000 美元，再加上網(wǎng)絡(luò)設(shè)備、主機等成本，任何想要復(fù)制這個實驗的人都必須花費近 1 億美元。

哪些公司有業(yè)務(wù)例子可以證明在深度學(xué)習(xí)基礎(chǔ)設(shè)施上花費 1 億美元是合理的？或者甚至是1000萬美元？很少。

那么這些模型到底是為誰準(zhǔn)備的呢？

GPU 集群

盡管其工程才華橫溢，但在 GPU 上訓(xùn)練深度學(xué)習(xí)模型是一種費力的事情。

根據(jù)服務(wù)器參數(shù)表顯示，每臺 DGX 服務(wù)器可以消耗高達 6.5 千瓦的電量。當(dāng)然，數(shù)據(jù)中心（或服務(wù)器）至少需要同樣多的散熱能力。

除非你是史塔克家族的人，需要拯救臨冬城，否則散熱是必須處理的另一個問題。

此外，隨著公眾對氣候和社會責(zé)任問題的認(rèn)識不斷提高，公司還需要考慮到他們的碳足跡。馬薩諸塞大學(xué) 2019 年的一項研究，“在 GPU 上訓(xùn)練 BERT 大致相當(dāng)于一次跨美飛行”。

而 BERT-Large 擁有 3.4 億個參數(shù)，訓(xùn)練起來的碳足跡究竟有多大？想想都害怕。

構(gòu)建和推廣這些龐大的模型是否有助于公司和個人理解和使用機器學(xué)習(xí)呢？

相反，如果把重點放在可操作性更高的技術(shù)上，就可以用來構(gòu)建高質(zhì)量的機器學(xué)習(xí)解決方案。

使用預(yù)訓(xùn)練模型

在絕大多數(shù)情況下，并不需要自定義模型體系結(jié)構(gòu)。

一個好的起點是尋找已針對您要解決的任務(wù)（例如，總結(jié)英文文本）進行預(yù)訓(xùn)練的模型。

然后，快速嘗試一些模型來預(yù)測自己的數(shù)據(jù)。如果參數(shù)標(biāo)明某個參數(shù)良好，那么就完成了！如果需要更高的準(zhǔn)確性，應(yīng)該考慮對模型進行微調(diào)。

使用較小的模型

在評估模型時，應(yīng)該選擇能夠提供所需精度的最小模型。它將更快地預(yù)測并需要更少的硬件資源來進行訓(xùn)練和推理。

這也不是什么新鮮事。熟悉計算機視覺的人會記得 SqueezeNet 于 2017 年問世時，與 AlexNet 相比，模型大小減少了 50 倍，同時達到或超過了其準(zhǔn)確性。

自然語言處理社區(qū)也在努力縮小規(guī)模，使用知識蒸餾等遷移學(xué)習(xí)技術(shù)。DistilBERT 可能是其最廣為人知的成就。

與原始 BERT 模型相比，它保留了 97% 的語言理解能力，同時模型體積縮小了 40%，速度提高了 60%。相同的方法已應(yīng)用于其他模型，例如 Facebook 的 BART。

Big Science 項目的最新模型也令人印象深刻。如下圖所示，他們的 T0 模型在許多任務(wù)上都優(yōu)于 GPT-3，同時模型大小縮小了 16 倍。

微調(diào)模型

如果需要專門化一個模型，不需要從頭開始訓(xùn)練模型。相反，應(yīng)該對其進行微調(diào)，也就是說，僅在自己的數(shù)據(jù)上訓(xùn)練幾個時期。

使用遷移學(xué)習(xí)的好處，比如：

需要收集、存儲、清理和注釋的數(shù)據(jù)更少

實驗和數(shù)據(jù)迭代的速度更快

獲得產(chǎn)出所需的資源更少

換句話說：省時、省錢、省硬件資源、拯救世界！

使用基于云的基礎(chǔ)設(shè)施

不管喜歡與否，云計算公司都知道如何構(gòu)建高效的基礎(chǔ)設(shè)施。研究表明，基于云的基礎(chǔ)設(shè)施比替代方案更具能源和碳效率。Earth.org 表示，雖然云基礎(chǔ)設(shè)施并不完美，但仍然比替代方案更節(jié)能，并促進對環(huán)境有益的服務(wù)和經(jīng)濟增長?！?/p>

在易用性、靈活性和即用即付方面，云當(dāng)然有很多優(yōu)勢。

優(yōu)化模型

從編譯器到虛擬機，軟件工程師長期以來一直使用工具來自動優(yōu)化硬件代碼。

然而，機器學(xué)習(xí)社區(qū)仍在為這個話題苦苦掙扎，這是有充分理由的。優(yōu)化模型的大小和速度是一項極其復(fù)雜的任務(wù)，其中涉及以下技術(shù)：

硬件：大量面向加速訓(xùn)練任務(wù)（Graphcore、Habana）和推理任務(wù)（Google TPU、AWS Inferentia）的專用硬件。

剪枝：刪除對預(yù)測結(jié)果影響很小或沒有影響的模型參數(shù)。

融合：合并模型層（比如卷積和激活）。

量化：以較小的值存儲模型參數(shù)（比如使用8位存儲，而不是32位存儲）

幸運的是，自動化工具已經(jīng)開始出現(xiàn)，例如 Optimum 開源庫和 Infinity，這是一種容器化解決方案，可以以 1 毫秒的延遲提供 Transformers 的準(zhǔn)確性。

結(jié)論

在過去的幾年里，大型語言模型的規(guī)模每年都以 10 倍的速度增長。這看起來像另一個摩爾定律。

如果機器學(xué)習(xí)沿著模型巨大化這條路走下去，會導(dǎo)致收益遞減、成本增加、復(fù)雜度增加等。