未來(lái)無(wú)所不在的AI架構(gòu)導(dǎo)向邊緣和云端逐步走向統(tǒng)一與可擴(kuò)展

—— 推論的時(shí)代

作者：時(shí)間：2022-12-19 來(lái)源：CTIMES

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

AI/ML訓(xùn)練開(kāi)發(fā)出供推論使用的模型，用于識(shí)別任何需要辨識(shí)的對(duì)象。這些對(duì)象可以是智能城市街道上順暢或擁擠的交通、用于實(shí)現(xiàn)安全訪問(wèn)控制的身份證件和人臉比對(duì)的許可級(jí)別、向客服中心撥打電話的對(duì)話內(nèi)容，抑或是郵政分發(fā)中心中信封上的手寫(xiě)地址。

訓(xùn)練通常在企業(yè)數(shù)據(jù)中心或云端進(jìn)行，這些環(huán)境中有眾多高效能服務(wù)器、充裕的內(nèi)存、硬件加速器和高速網(wǎng)絡(luò)可以投入工作負(fù)載。在這種環(huán)境下，需快速完成工作的訓(xùn)練使用大量供給運(yùn)算、網(wǎng)絡(luò)鏈接和冷卻的電力。盡管推論工作負(fù)載也能在數(shù)據(jù)中心或云端執(zhí)行，但由于多種原因，越來(lái)越多推論任務(wù)正遷移至邊緣。

首先是延遲問(wèn)題。將原始數(shù)據(jù)發(fā)送到云端或數(shù)據(jù)中心耗用時(shí)間，因此需要更長(zhǎng)的時(shí)間來(lái)執(zhí)行推論，而且將想要的答案或決策發(fā)送至邊緣的時(shí)間也會(huì)增加。以工廠自動(dòng)化、雷達(dá)、電子作戰(zhàn)等實(shí)時(shí)任務(wù)來(lái)說(shuō)，費(fèi)時(shí)過(guò)長(zhǎng)的決策會(huì)導(dǎo)致高昂成本。

將推論工作負(fù)載遷移到邊緣還有另外兩個(gè)原因：運(yùn)算力和電力。隨著AI/ML推論工作負(fù)載遷移到大量的邊緣裝置，這些邊緣裝置中的數(shù)百萬(wàn)個(gè)推論引擎總運(yùn)算力將超越數(shù)據(jù)中心服務(wù)器的運(yùn)算力。另外，邊緣推論引擎并不會(huì)消耗大量電力。

為解決邊緣推論的獨(dú)特需求，采用全新運(yùn)算架構(gòu)的芯片將于近期問(wèn)世。制造商強(qiáng)調(diào)，他們的組件能以更低的功耗達(dá)到頗高的TFLOPS和TOPS運(yùn)算次數(shù)。盡管推論工作負(fù)載需要充裕的TFLOPS和TOPS是不爭(zhēng)的事實(shí)，但這些專用邊緣推論芯片基于單向架構(gòu)理念，一旦考慮互相結(jié)合訓(xùn)練與推論工作負(fù)載，即有可能證明這種架構(gòu)不堪使用。

當(dāng)前，AI/ML模型訓(xùn)練工作負(fù)載主要在數(shù)據(jù)中心內(nèi)的高功耗CPU和GPU上執(zhí)行，它們?cè)诖讼拇罅侩娏Γ瑫r(shí)利用先進(jìn)的冷卻技術(shù)來(lái)執(zhí)行訓(xùn)練AI/ML模型所需的數(shù)萬(wàn)億次運(yùn)算。這種訓(xùn)練幾乎普遍采用具備高動(dòng)態(tài)范圍的浮點(diǎn)信息格式，透過(guò)允許對(duì)模型權(quán)重進(jìn)行微小的增量調(diào)整來(lái)實(shí)現(xiàn)最高模型精度。浮點(diǎn)運(yùn)算耗電更多，因而需要額外的冷卻。此外，CPU和GPU在內(nèi)存和其內(nèi)部運(yùn)算單元之間遷移大型訓(xùn)練數(shù)據(jù)集時(shí)也會(huì)消耗大量電力。

如果要使用全精度浮點(diǎn)信息格式完成全部運(yùn)算，大多數(shù)邊緣推論芯片難以負(fù)擔(dān)如此的硅或功耗。很多公司為了獲得高峰值TFLOPS和TOPS指標(biāo)而做出妥協(xié)，通常的做法是以精度略低的數(shù)據(jù)類型代表AI/ML權(quán)重、啟動(dòng)和資料。邊緣AI/ML芯片的廠商會(huì)提供相關(guān)軟件工具，以降低受訓(xùn)模型權(quán)重的精度，從而將模型轉(zhuǎn)換為較小數(shù)值格式，例如FP8、縮放整數(shù)，或者甚至是二進(jìn)制數(shù)據(jù)格式。這些較小的數(shù)據(jù)格式可為推論工作負(fù)載帶來(lái)優(yōu)勢(shì)，但也會(huì)損失一定程度的模型精度。用降低的精度重新訓(xùn)練AI/ML模型通?？梢曰謴?fù)些許精度。

現(xiàn)在試想一下，有一種可擴(kuò)展的裝置架構(gòu)，既可以部署在小型嵌入式邊緣裝置中，也可以部署在能夠聚集數(shù)據(jù)中心內(nèi)執(zhí)行的工作負(fù)載的大型裝置中。這些優(yōu)化措施除幫助改善邊緣功耗和成本效率，也能令數(shù)據(jù)中心的運(yùn)算更密集、更具成本效益，以便降低用于推論和訓(xùn)練的設(shè)備資本與營(yíng)運(yùn)支出。

而支持全精度浮點(diǎn)格式和降精度浮點(diǎn)格式的AI/ML加速器可擴(kuò)展架構(gòu)，打破訓(xùn)練與推論之間的人工界線，為統(tǒng)一架構(gòu)部署相同標(biāo)準(zhǔn)和熟悉的軟件工具。這類高效率的邊緣AI加速器采用數(shù)據(jù)流和芯片廣播網(wǎng)絡(luò)等架構(gòu)創(chuàng)新，允許從外部?jī)?nèi)存獲取的數(shù)據(jù)傳輸?shù)叫酒蠖啻沃貜?fù)使用。

在一些實(shí)際的應(yīng)用案例中，導(dǎo)向機(jī)器學(xué)習(xí)的統(tǒng)一可擴(kuò)展數(shù)據(jù)流架構(gòu)，打破訓(xùn)練與推論不同階段之間的壁壘。以聯(lián)邦學(xué)習(xí)（Federated Learning）為例，它解鎖全新類型的AI/ML工作負(fù)載。對(duì)于眾多連結(jié)應(yīng)用而言，聯(lián)邦學(xué)習(xí)可以取代透過(guò)一次性脫機(jī)訓(xùn)練推導(dǎo)出的降精度AI/ML推論模型單向方法，并獲得由于欠缺代表的集中式脫機(jī)訓(xùn)練集而難以實(shí)現(xiàn)的效能。

聯(lián)邦學(xué)習(xí)利用邊緣推論的重要特色，即裝置帶來(lái)遠(yuǎn)超于原始模型訓(xùn)練集，在眾多范圍暴露的不同輸入（inputs）。如設(shè)計(jì)得當(dāng)，邊緣裝置能從額外輸入中學(xué)習(xí)，并在裝置部署過(guò)程中進(jìn)一步提升其模型精度?？赡軙?huì)有數(shù)百、數(shù)千乃至數(shù)百萬(wàn)個(gè)邊緣裝置共同改善相同的AI/ML模型，以提供更優(yōu)質(zhì)的本地回復(fù)或決策。

以同一家廠商制造并遍布在世界各地醫(yī)院中的CT或MRI掃描儀為例。這些影像裝置的任務(wù)通常是發(fā)現(xiàn)癌癥腫瘤或其他疾病，并且能愈加采用AI/ML模型幫助放射科醫(yī)生辨別可疑組織。隨著每臺(tái)現(xiàn)場(chǎng)裝置不斷改進(jìn)其模型，如果利用聯(lián)邦學(xué)習(xí)更新及改進(jìn)原始模型，可讓用于打造新影像裝置的原始訓(xùn)練模型受益于相同的改良。

進(jìn)行更新時(shí)，應(yīng)確保只共享來(lái)自新增邊緣訓(xùn)練的洞察，而非個(gè)人隱私數(shù)據(jù)，以利所有現(xiàn)場(chǎng)裝置都能在不侵犯隱私的情況下從這種額外訓(xùn)練中獲益。聯(lián)邦學(xué)習(xí)在隱私保護(hù)裝置個(gè)人化方面具有廣泛適用性，因其可以針對(duì)特定用戶客制化視覺(jué)算法和語(yǔ)音算法效能。此外，也有網(wǎng)絡(luò)安全應(yīng)用，透過(guò)網(wǎng)絡(luò)入口節(jié)點(diǎn)的協(xié)作學(xué)習(xí)即可發(fā)現(xiàn)主動(dòng)安全規(guī)則，而無(wú)需共享敏感的專用網(wǎng)絡(luò)流量。

統(tǒng)一的云端和邊緣運(yùn)算架構(gòu)優(yōu)勢(shì)在于利用相同的軟件二進(jìn)制，就能將模型依邏輯劃分為執(zhí)行于云端和邊緣。統(tǒng)一架構(gòu)可確保使用兼容的數(shù)據(jù)格式，以及確保優(yōu)化數(shù)據(jù)格式如稀疏性表示（sparsity representations）不會(huì)在云端和邊緣之間中斷?？蓴U(kuò)展的統(tǒng)一架構(gòu)與貫穿于所部署應(yīng)用生命周期的持續(xù)學(xué)習(xí)，與現(xiàn)時(shí)的常規(guī)訓(xùn)練與推論做法不同，因?yàn)楹笳咭蕾嚁?shù)據(jù)中心的CPU和GPU與邊緣專用裝置。然而，隨著AI/ML逐步普及，如果業(yè)界希望大幅提升效能、精度和能源效率，這種統(tǒng)一方式應(yīng)為最合乎邏輯的途徑。

（本文作者為AMD資深副總裁Ivo Bolsens）