人工智能芯片的新用途

發(fā)布人：旺材芯片時(shí)間：2022-08-13 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來(lái)源：semiengineering

人工智能正在許多新應(yīng)用程序中部署，從提高性能、降低各種終端設(shè)備的功耗到發(fā)現(xiàn)數(shù)據(jù)移動(dòng)中的異常情況。雖然大多數(shù)人都熟悉使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)區(qū)分貓和狗，但新興的應(yīng)用程序展示了如何以不同的方式使用這種能力。例如，數(shù)據(jù)優(yōu)先級(jí)和分區(qū)可用于優(yōu)化芯片的功率和性能，而無(wú)需人工干預(yù)。并且可以在整個(gè)設(shè)計(jì)和制造流程中使用各種類型的人工智能來(lái)捕捉人類無(wú)法捕捉到的錯(cuò)誤或缺陷。但是所有這些新組件和功能也使設(shè)計(jì)芯片更加復(fù)雜，因?yàn)楦怕嗜〈擞邢薜拇鸢覆⑶易兞吭黾恿恕?/span>Rambus產(chǎn)品管理高級(jí)總監(jiān) Frank Ferro 表示：“當(dāng)你將 AI 移到邊緣時(shí)，邊緣開(kāi)始看起來(lái)像數(shù)據(jù)中心。基帶執(zhí)行許多相同的處理功能。在內(nèi)存要求方面，我們看到很多 5G 客戶的帶寬不足，并希望在網(wǎng)絡(luò)邊緣使用 HBM。但是，網(wǎng)絡(luò)中有更多的可配置性，您可以管理工作負(fù)載，而不是去云端。平衡這些工作量非常重要。”盡管如此，正如 AI 芯片設(shè)計(jì)師所了解的那樣，AI 世界中沒(méi)有什么是簡(jiǎn)單的?！霸?AI 設(shè)計(jì)中，有許多問(wèn)題需要回答，” Synopsys戰(zhàn)略營(yíng)銷(xiāo)經(jīng)理 Ron Lowman 說(shuō). “在人工智能設(shè)計(jì)中，有許多問(wèn)題需要回答。你想處理什么算法？你的功率預(yù)算是多少？你想達(dá)到什么樣的精度？在圖像識(shí)別應(yīng)用程序中，你可能不需要32位浮點(diǎn)處理器。低成本的16位圖像芯片可能很好。如果你只需要92%的精度，低成本芯片可能會(huì)降低你的總體預(yù)算。如果你知道你想實(shí)現(xiàn)什么，那么采用 IP 方法將有很多優(yōu)勢(shì)。您可以選擇正確的 AI 處理器、正確類型的內(nèi)存（SRAM 或 DDR）I/O 和安全性。選擇正確的 IP 很重要，但進(jìn)行建模和基準(zhǔn)測(cè)試也將幫助開(kāi)發(fā)人員優(yōu)化 AI 解決方案并減少錯(cuò)誤。”對(duì)于任何高級(jí)芯片，設(shè)計(jì)挑戰(zhàn)都可能迅速增加，更多的變量需要更好的模型、更多的工藝步驟和更多的時(shí)間。弗勞恩霍夫 IIS設(shè)計(jì)方法負(fù)責(zé)人 Roland Jancke 說(shuō)：“你從一個(gè)非常復(fù)雜的芯片將要執(zhí)行的概念開(kāi)始，然后你會(huì)看到對(duì)芯片的不同部分是否有不同的要求。在過(guò)去，你只會(huì)設(shè)計(jì)一些東西，開(kāi)發(fā)它，然后把它錄下來(lái)，看看它是否有效。那已經(jīng)不可行了?，F(xiàn)在需要一個(gè)集成的流程。從一開(kāi)始，就需要考慮可能的故障模式。甚至可能需要從一開(kāi)始就使用有限元方法進(jìn)行仿真，這在過(guò)去通常沒(méi)有做過(guò)。過(guò)去，從非常粗糙的模型開(kāi)始，并且想要集成的功能。因此如果你有一個(gè) MATLAB 模型，那并不能反映芯片不同部分之間的物理交互。你需要在開(kāi)發(fā)過(guò)程的早期整合不同的模型——物理模型、功能模型——看看你的概念是否足夠?qū)嵱?。?/span>隨著移動(dòng)部件的增多，這變得更加困難，特別是當(dāng)這些塊針對(duì)特定數(shù)據(jù)類型和用例進(jìn)行定制或半定制時(shí)。但好處是，更好的算法和計(jì)算元素還允許在更小的空間內(nèi)處理更多數(shù)據(jù)，并且與過(guò)去的實(shí)現(xiàn)相比，功耗要低得多。反過(guò)來(lái)，這使得處理可以更接近數(shù)據(jù)源，在那里它可以用來(lái)確定哪些數(shù)據(jù)是重要的，在任何特定時(shí)間點(diǎn)應(yīng)該在哪里處理這些數(shù)據(jù)，以及可以丟棄哪些數(shù)據(jù)。一個(gè)轉(zhuǎn)折點(diǎn)大多數(shù)這些變化本身是漸進(jìn)式和漸進(jìn)式的，但總體而言，它們?cè)试S在邊緣進(jìn)行推斷和訓(xùn)練，在邊緣，一系列異構(gòu)體系結(jié)構(gòu)開(kāi)始出現(xiàn)。。通過(guò)利用各種類型的神經(jīng)網(wǎng)絡(luò)，可以為特定目的加快處理速度，為不同的應(yīng)用提供不同的精度和精度。

復(fù)雜的 AI 流程可以分解為 AI 堆棧來(lái)源：麥肯錫公司對(duì)于任何執(zhí)行復(fù)雜算法和計(jì)算的 AI 芯片，都有幾個(gè)關(guān)鍵要求。首先，他們需要能夠并行處理數(shù)據(jù)，使用多個(gè)計(jì)算元素和寬數(shù)據(jù)路徑來(lái)減少延遲。在許多情況下，這還涉及一些與計(jì)算元素非常接近的局部?jī)?nèi)存，以及高帶寬內(nèi)存。其次，這些設(shè)備需要針對(duì)尺寸、成本和功率預(yù)算進(jìn)行優(yōu)化，這通常需要根據(jù)預(yù)計(jì)工作負(fù)載調(diào)整大小的高吞吐量架構(gòu)。反過(guò)來(lái)，這需要一些權(quán)衡，需要針對(duì)特定用例進(jìn)行平衡。第三，這些架構(gòu)通常涉及混合處理器來(lái)管理復(fù)雜的數(shù)據(jù)流和電源管理方案，其中可能包括 CPU、GPU、FPGA、eFPGA、DSP、NPU、TPU 和 IPU。“在設(shè)計(jì)中，開(kāi)發(fā)人員需要考慮培訓(xùn)、推理、低功耗、連接性和安全性的要求，”英飛凌物聯(lián)網(wǎng)、無(wú)線和計(jì)算業(yè)務(wù)部首席軟件產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Danny Watson 說(shuō)，“種方法可以實(shí)現(xiàn)需要本地快速?zèng)Q策的新用例，同時(shí)滿足當(dāng)今物聯(lián)網(wǎng)產(chǎn)品的功耗預(yù)算?！?Watson 指出，關(guān)鍵是收集正確的數(shù)據(jù)，以便應(yīng)用程序可以利用這些數(shù)據(jù)，從而使他們能夠利用技術(shù)改進(jìn)。無(wú)處不在的人工智能對(duì)于芯片公司來(lái)說(shuō)，這都是一件大事。根據(jù) Precedence Research 的最新報(bào)告，整個(gè)人工智能市場(chǎng)將從 2021 年的 870 億美元增長(zhǎng)到 2030 年的超過(guò) 1.6 萬(wàn)億美元。這包括數(shù)據(jù)中心和邊緣設(shè)備，但增長(zhǎng)速度非常快。事實(shí)上，人工智能是當(dāng)今如此熱門(mén)的領(lǐng)域，幾乎所有主要科技公司都在投資或制造人工智能芯片。它們包括蘋(píng)果、AMD、Arm、百度、谷歌、Graphcore、華為、IBM、英特爾、Meta、NVIDIA、高通、三星和臺(tái)積電。這個(gè)市場(chǎng)五年前幾乎不存在，十年前大多數(shù)公司都在考慮云計(jì)算和高速網(wǎng)關(guān)。但是隨著帶有更多傳感器的新設(shè)備的推出——無(wú)論是汽車(chē)、智能手機(jī)，甚至是內(nèi)置某種程度智能的電器，正在生成如此多的數(shù)據(jù)，因此需要圍繞數(shù)據(jù)的輸入、處理、移動(dòng)和存儲(chǔ)設(shè)計(jì)架構(gòu)。“在人工智能應(yīng)用中，正在部署各種技術(shù)，”Arteris IP高級(jí)技術(shù)營(yíng)銷(xiāo)經(jīng)理 Paul Graykowski 說(shuō)。“最近的一位客戶開(kāi)發(fā)了一種復(fù)雜的多通道 ADAS SoC，它可以處理四個(gè)傳感器數(shù)據(jù)通道，每個(gè)通道都有自己的專用計(jì)算和 AI 引擎來(lái)處理數(shù)據(jù)。同樣，新的 AI 芯片架構(gòu)也會(huì)不斷變化，以滿足新應(yīng)用的需求。”從大到小獲得結(jié)果的時(shí)間通常與芯片間的距離成正比，更短的距離意味著更好的性能和更低的功耗。因此，盡管超大規(guī)模數(shù)據(jù)中心仍需要處理海量數(shù)據(jù)集，但芯片行業(yè)正齊心協(xié)力將更多處理轉(zhuǎn)移到下游，無(wú)論是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)還是其他人工智能變體。Cerebras 是深度學(xué)習(xí)領(lǐng)域的典型代表，在這個(gè)領(lǐng)域，速度至關(guān)重要，結(jié)果的準(zhǔn)確性緊隨其后。Cerebras 產(chǎn)品管理總監(jiān) Natalia Vassilieva 報(bào)告說(shuō)，葛蘭素史克公司通過(guò)在其表觀基因組語(yǔ)言模型中使用晶片級(jí)設(shè)備，提高了****物發(fā)現(xiàn)效率。在一種情況下，葛蘭素史克能夠?qū)⒋笮突衔飵?kù)基于深度神經(jīng)網(wǎng)絡(luò)的虛擬篩選時(shí)間從在GPU集群上運(yùn)行的183天減少到在大腦設(shè)備上運(yùn)行的3.5天。該“芯片”擁有超過(guò) 2.6 萬(wàn)億個(gè)晶體管、85萬(wàn) 個(gè) AI 優(yōu)化內(nèi)核、40 GB 片上內(nèi)存和每秒 20 PB 的內(nèi)存帶寬（1 PB 等于 1,024 TB）。它還消耗 23 kW 的功率，并使用內(nèi)部閉環(huán)、直接對(duì)芯片的液體冷卻。Graphcore采用了不同的方法，引入了智能處理單元（IPU）技術(shù)。通過(guò)使用多指令、多數(shù)據(jù) (MIMD) 并行性和本地分布式內(nèi)存，IPU 可以提供 22.4 PFLOPS（每秒 1 petaflop 等于每秒 1000 teraflop），而只需要空氣冷卻。此外，IPU 在單精度下的理論算術(shù)吞吐量高達(dá) 31.1 TFLOPS。它比 A100 的 624 TFLOPS 快得多。在 Twitter 進(jìn)行的一項(xiàng)測(cè)試中，IPU 的性能優(yōu)于 GPU。

人工智能也可以變小。支持人工智能的智能事物，也稱為物聯(lián)網(wǎng) (AIoT)/嵌入式人工智能，正在蓬勃發(fā)展。根據(jù)評(píng)估報(bào)告，邊緣人工智能硬件將從 2020 年的 70 億美元增長(zhǎng)到 2030 年的 390 億美元。人工智能為邊緣計(jì)算、網(wǎng)絡(luò)端點(diǎn)和移動(dòng)設(shè)備增加了智能。隨著物聯(lián)網(wǎng)，越來(lái)越多的應(yīng)用程序正在使用嵌入式人工智能。其中包括可穿戴設(shè)備、智能家居和智能遙控器，其中包括一些使用語(yǔ)音識(shí)別的設(shè)備。同樣依賴嵌入式 AI 的還有 AR/VR 游戲、智能汽車(chē)面板、物體和運(yùn)動(dòng)檢測(cè)、家庭保健、抄表、智能工廠、智能城市、工業(yè)自動(dòng)化和智能建筑，包括控制和能源管理。Cadence Tensilica AI 產(chǎn)品的產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Suhas Mitra 表示：“AI 能夠在本地更快地處理數(shù)據(jù)，從而使物聯(lián)網(wǎng)計(jì)算更加高效。這包括提供更好的響應(yīng)時(shí)間和更小的延遲，因?yàn)樯傻臄?shù)據(jù)也在邊緣設(shè)備上即時(shí)處理。執(zhí)行人工智能邊緣處理將更加可靠，因?yàn)樗赡懿⒉豢偸悄軌蛲ㄟ^(guò)實(shí)時(shí)無(wú)線或有線連接不斷向云發(fā)送大量數(shù)據(jù)。它還減輕了存儲(chǔ)和處理大量數(shù)據(jù)的壓力云中的大量數(shù)據(jù)，可能包含個(gè)人和敏感信息。關(guān)于向云發(fā)送用戶信息的隱私問(wèn)題可能會(huì)導(dǎo)致不經(jīng)同意就無(wú)法上傳數(shù)據(jù)。做更多的邊緣計(jì)算可以延長(zhǎng)電池壽命，因?yàn)楫?dāng)使用人工智能方法時(shí)，一些計(jì)算在邊緣平臺(tái)上需要更少的周期。因此，消耗的能量更少，散熱也更低?！?/span>在進(jìn)行推理之前，所有的 AI 芯片都需要經(jīng)過(guò)訓(xùn)練。雖然數(shù)據(jù)集通常非常大，需要大型數(shù)據(jù)中心進(jìn)行培訓(xùn)，但可以在個(gè)人計(jì)算機(jī)或開(kāi)發(fā)系統(tǒng)級(jí)別進(jìn)行進(jìn)一步培訓(xùn)。開(kāi)發(fā)人員將經(jīng)歷一個(gè)艱苦的過(guò)程，以確保實(shí)現(xiàn)最佳推理算法。許多 AI 芯片制造商為其客戶提供培訓(xùn)合作伙伴名單。即使有顧問(wèn)的幫助，開(kāi)發(fā)人員仍然需要支付咨詢時(shí)間并完成培訓(xùn)工作。一種更簡(jiǎn)單的方法是使用預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn)，例如 Flex Logix 的 EasyVision 平臺(tái)。通過(guò)預(yù)先培訓(xùn)的X1M模塊芯片，開(kāi)發(fā)人員可以繞過(guò)培訓(xùn)過(guò)程，直接進(jìn)行產(chǎn)品開(kāi)發(fā)和測(cè)試?！?Flex Logix推理營(yíng)銷(xiāo)高級(jí)總監(jiān) Sam Fuller 說(shuō)?！敖?jīng)過(guò)預(yù)訓(xùn)練的解決方案已經(jīng)過(guò)現(xiàn)場(chǎng)測(cè)試和驗(yàn)證，比開(kāi)發(fā)人員的試錯(cuò)法效率更高。通常，專用預(yù)訓(xùn)練芯片比常規(guī)CPU效率更高?！?/span>想得更小將 AI 包含在更小的設(shè)備中的可能性也在增加，這要?dú)w功于由 tinyML 基金會(huì)建立的微型機(jī)器學(xué)習(xí)，以支持在 mW 范圍內(nèi)運(yùn)行的嵌入式設(shè)備機(jī)器學(xué)習(xí)和數(shù)據(jù)分析。其中許多設(shè)備可以在視覺(jué)、音頻、慣性測(cè)量單元（IMU）和生物醫(yī)學(xué)中執(zhí)行ML。此外，它還提供了一個(gè)名為 ScaleDown 的開(kāi)源神經(jīng)網(wǎng)絡(luò)優(yōu)化框架，以簡(jiǎn)化將 ML 模型部署到 tinyML 設(shè)備的過(guò)程。TinyML 可以在任何可編程 AI 芯片上運(yùn)行，包括 Arduino 板。Arduino 的使命是為愛(ài)好者、學(xué)生和教育工作者提供電子設(shè)備和軟件。它經(jīng)過(guò)多年的發(fā)展，基于 Arduino 的解決方案已用于當(dāng)今的許多工業(yè)領(lǐng)域。但是結(jié)合 tinyML 和 Arduino 硬件可能會(huì)提供非常低成本的嵌入式 AI 解決方案，典型的硬件成本不到 100 美元。在這些微型設(shè)備中設(shè)計(jì)人工智能的挑戰(zhàn)之一是功率預(yù)算。Synaptics 已經(jīng)接受了開(kāi)發(fā)低功耗預(yù)算 AI 和傳感器芯片的挑戰(zhàn)。據(jù)領(lǐng)導(dǎo) Synaptics 低功耗 AI 產(chǎn)品線的高級(jí)產(chǎn)品經(jīng)理 Ananda Roy 表示該公司的Katana AI SoC能夠進(jìn)行人員檢測(cè)/計(jì)數(shù)和跌倒檢測(cè)，并可以在24 MHz下以30 mW或90 MHz的更高功率運(yùn)行主動(dòng)AI視覺(jué)推斷。深度睡眠模式的功耗小于100μW?？偟膩?lái)說(shuō)，它比其他AI芯片更節(jié)能。為了實(shí)現(xiàn)高效的電源管理，神經(jīng)處理單元 (NPU) 依賴于具有多個(gè)存儲(chǔ)體的存儲(chǔ)架構(gòu)，這些存儲(chǔ)體可以在不使用時(shí)設(shè)置為超低功耗模式，以及可擴(kuò)展的工作電壓和處理器速度，就像踩在當(dāng)你需要你的車(chē)開(kāi)得更快時(shí)加油。FlexSense 是一款用于 AI 應(yīng)用的傳感器芯片，其設(shè)計(jì)結(jié)合了低功耗 RISC CPU 和模擬硬件前端，該前端經(jīng)過(guò)高度優(yōu)化，可有效轉(zhuǎn)換電感和電容傳感器輸入。與車(chē)載霍爾效應(yīng)和溫度傳感器一起，它包括四個(gè)傳感器，用于檢測(cè)觸摸、力、接近度和溫度等輸入，所有這些都在一個(gè)小封裝中（1.62 x 1.62 mm），在睡眠模式下僅使用240μW或10μW。

低功耗傳感器采用小封裝 (1.62 x 1.62 mm) 來(lái)源：Synaptics安全問(wèn)題和改進(jìn)在安全方面，人工智能既是一個(gè)潛在的漏洞，也是一個(gè)潛在的解決方案。隨著人工智能芯片針對(duì)特定用例進(jìn)行了優(yōu)化，算法也在不斷更新，業(yè)界的經(jīng)驗(yàn)教訓(xùn)會(huì)減少，攻擊面也會(huì)擴(kuò)大。但人工智能也可用于識(shí)別數(shù)據(jù)流量中的異常模式，發(fā)出警報(bào)或自動(dòng)關(guān)閉受影響的電路，直到可以進(jìn)行更多分析。恩智浦產(chǎn)品經(jīng)理 Srikanth Jagannathan 指出了電池驅(qū)動(dòng)設(shè)備的功能、芯片安全性和低功耗的正確組合的重要性。i.MX AI芯片結(jié)合了Arm的低功耗Cortex-M33、Arm TrustZone和NXP的片上EdgeLock、嵌入式ML和多i/O。功耗約為2.5瓦。然而，它能夠提供1個(gè)TOPS的性能（在 1 GHz 下進(jìn)行 512 次并行乘法累加運(yùn)算）。

i.MX AI 芯片將 Arm 的低功耗 Cortex-M33 與 Arm TrustZone 和 NXP 的片上 EdgeLock、嵌入式 ML 和多個(gè) I/O 相結(jié)合來(lái)源：恩智浦西門(mén)子 EDA 嵌入式軟件部門(mén)的高級(jí)產(chǎn)品經(jīng)理 Kathy Tufto指出需要建立軟件信任鏈，但這從硬件開(kāi)始。目標(biāo)是防止任何未經(jīng)過(guò)身份驗(yàn)證和驗(yàn)證的代碼執(zhí)行。在她確定的解決方案中：

靜態(tài)數(shù)據(jù)：安全的信任引導(dǎo)根和信任訪問(wèn)控制的軟件鏈。
Data at Motion：安全協(xié)議和加密加速。
使用中的數(shù)據(jù)：通過(guò)內(nèi)存管理單元 (MMU) 進(jìn)行硬件強(qiáng)制分離。

“設(shè)備制造商還必須記住，在部署設(shè)備后通常會(huì)出現(xiàn)安全問(wèn)題，這意味著他們需要以在部署后可以更新的方式設(shè)計(jì)設(shè)備，”Tufto 說(shuō)?！鞍?FDA 在內(nèi)的監(jiān)管機(jī)構(gòu)堅(jiān)持在發(fā)布前和發(fā)布后管理 CVE 的策略，以滿足醫(yī)療設(shè)備的安全要求。常見(jiàn)漏洞和暴露 (CVE) 監(jiān)控是針對(duì)設(shè)備中的模塊評(píng)估新 CVE 的過(guò)程，允許設(shè)備制造商在發(fā)現(xiàn)新 CVE 時(shí)確定適當(dāng)?shù)牟僮?。雖然制造商可以自己執(zhí)行這些活動(dòng)，但如果您使用包含安全漏洞監(jiān)控和補(bǔ)丁的商業(yè)軟件解決方案（例如 Sokol Flex OS、Sokol Omni OS 和 Nucleus RTOS），它會(huì)更簡(jiǎn)單、更容易?！?/span>結(jié)論人工智能芯片將繼續(xù)發(fā)展和擴(kuò)展，人工智能將以多種方式在這些芯片內(nèi)部和被這些芯片使用。這將使設(shè)計(jì)這些芯片變得更加困難，并且從功能和安全的角度來(lái)看，也將更難確保它們?cè)谡麄€(gè)生命周期中都能按預(yù)期工作。需要時(shí)間才能看到哪些好處大于風(fēng)險(xiǎn)。雖然開(kāi)發(fā)人員繼續(xù)開(kāi)發(fā)模擬人腦的人工智能，但他們離真正能夠獨(dú)立思考的設(shè)備還有很長(zhǎng)的路要走。然而，有許多方法可以針對(duì)特定用例和應(yīng)用優(yōu)化這些系統(tǒng)，并且并非所有這些方法都需要人工干預(yù)。隨著時(shí)間的推移，這可能意味著更多的人工智能在更多的地方做更多的事情，這將帶來(lái)涉及功率、性能和安全性的設(shè)計(jì)挑戰(zhàn)，這些挑戰(zhàn)都難以規(guī)劃、識(shí)別和最終解決。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

人工智能芯片的新用途

相關(guān)推薦

技術(shù)專區(qū)