新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > AI與機(jī)器學(xué)習(xí)發(fā)展迅速,F(xiàn)PGA可提供高能效和靈活性

AI與機(jī)器學(xué)習(xí)發(fā)展迅速,F(xiàn)PGA可提供高能效和靈活性

作者:Tom Spencer(Achronix產(chǎn)品營(yíng)銷(xiāo)高級(jí)經(jīng)理) 時(shí)間:2021-09-15 來(lái)源:電子產(chǎn)品世界 收藏


本文引用地址:http://2s4d.com/article/202109/428243.htm

1   為什么/ML發(fā)展如此迅速?

多年來(lái),人工智能()/(ML)市場(chǎng)一直以指數(shù)級(jí)的速度快速增長(zhǎng),其解決方案遍布我們周?chē)?,從機(jī)器人和其他機(jī)械系統(tǒng)的預(yù)測(cè)故障算法、電子商務(wù)中的購(gòu)買(mǎi)行為建議、自動(dòng)駕駛車(chē)輛的目標(biāo)檢測(cè)、電子交易中的風(fēng)險(xiǎn)緩解到DNA測(cè)序等等,我們身邊有各種各樣的解決方案,示例不勝枚舉。

那么,為什么/ML發(fā)展如此迅速呢?

據(jù)IDC、Gartner和其他市調(diào)機(jī)構(gòu)的分析,全球大約80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。電子郵件、照片、語(yǔ)音郵件、視頻和許多其他數(shù)據(jù)源每天都在堆積。無(wú)論是優(yōu)化行業(yè)或企業(yè)的流程、預(yù)測(cè)消費(fèi)者的消費(fèi)趨勢(shì)和興趣、增強(qiáng)金融系統(tǒng)的安全性、維護(hù)合規(guī)性等等,這些數(shù)據(jù)都具有價(jià)值。AI/ML不僅在數(shù)據(jù)清理(從非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建結(jié)構(gòu)化數(shù)據(jù))方面扮演著重要角色,而且在數(shù)據(jù)分析方面也發(fā)揮著關(guān)鍵作用。

在過(guò)去10年中,汽車(chē)市場(chǎng)一直在改進(jìn)自動(dòng)駕駛車(chē)輛,并且中國(guó)和美國(guó)都進(jìn)行了現(xiàn)場(chǎng)試驗(yàn)。中國(guó)吉利汽車(chē)集團(tuán)在其駕駛輔助和完整的自動(dòng)駕駛車(chē)輛產(chǎn)品線上投入了大量資金,這些都是由AI/ML支持的。工業(yè)4.0和5.0在很大程度上依賴(lài)AI/ML算法來(lái)實(shí)現(xiàn)其機(jī)器人技術(shù)和流程自動(dòng)化。在醫(yī)學(xué)領(lǐng)域有許多用例,包括成像、疾病預(yù)測(cè)、診斷和患者病歷維護(hù)等。

1)數(shù)據(jù)加速市場(chǎng)

當(dāng)工作負(fù)載增加時(shí),早期的數(shù)據(jù)中心架構(gòu)依賴(lài)于添加更多的服務(wù)器。隨著時(shí)間的推移,數(shù)據(jù)中心的計(jì)算節(jié)點(diǎn)增加到數(shù)千、數(shù)萬(wàn),甚至在某些情況下增加到十幾萬(wàn)個(gè),因此占用空間、電力消耗和降溫成為一種負(fù)擔(dān)。網(wǎng)絡(luò)的運(yùn)營(yíng)商都在尋找全新的、更高效的方法來(lái)處理數(shù)據(jù)。

數(shù)據(jù)加速器主要是使用圖形處理器(GPU)實(shí)現(xiàn)的,用于處理繁重的數(shù)學(xué)工作負(fù)載。高性能計(jì)算(HPC)、基因組學(xué)、人工智能(包括訓(xùn)練和推理)和許多其他用例都利用了這種協(xié)同處理數(shù)據(jù)加速。總的來(lái)講,我們現(xiàn)在有專(zhuān)用集成電路(ASIC)、GPU和現(xiàn)場(chǎng)可編程邏輯門(mén)陣列()解決方案來(lái)爭(zhēng)奪這個(gè)數(shù)據(jù)加速市場(chǎng)。隨著我們不斷向邊緣技術(shù)發(fā)展,數(shù)據(jù)加速器的靈活性和最佳的性能效率將成為制勝關(guān)鍵技術(shù)。

從圖1這個(gè)圖表可以看出:中央處理器(CPU)總是擁有最高的靈活性,但需要權(quán)衡功耗和成本;當(dāng)我們?cè)谔接懹谩袄吓伞狈椒▉?lái)應(yīng)對(duì)核心數(shù)據(jù)中心中增加的工作負(fù)載時(shí),我們自然就會(huì)注意到這一點(diǎn);這樣剩下可用的解決方案就只有GPU、ASIC和了。ASIC肯定會(huì)提供最高的效率,但是ASIC的功能是固定的,無(wú)法提供所需的靈活性,以適應(yīng)不斷變化的AI算法、新技術(shù)的規(guī)格變化、供應(yīng)商特定的要求和工作負(fù)載優(yōu)化。

GPU是核心數(shù)據(jù)中心的原始主力,僅限于處理純計(jì)算用例,在大多數(shù)情況下不具備加速網(wǎng)絡(luò)和存儲(chǔ)的能力,而且這樣做是以犧牲功耗和成本為代價(jià)的。能夠進(jìn)行網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)加速,具有ASIC級(jí)的處理速度和所需的靈活性,能夠?yàn)楫?dāng)今的核心和邊緣數(shù)據(jù)中心提供最佳的數(shù)據(jù)加速。

1631674289424162.png

圖1 AI/ML計(jì)算解決方案的對(duì)比

2)神經(jīng)網(wǎng)絡(luò)模型與算法

AI/ML有2個(gè)主要組成部分,即網(wǎng)絡(luò)模型訓(xùn)練和用于的推理。就部署和總體收入而言,市場(chǎng)的絕大部分在于推理。有許多神經(jīng)網(wǎng)絡(luò)模型可以分層來(lái)創(chuàng)建各種神經(jīng)網(wǎng)絡(luò)或算法。一些更常見(jiàn)的類(lèi)型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、轉(zhuǎn)置器、圖神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)。ResNet、AlexNet和YOLO是眾所周知的CNN,GRU和LSTM是比較常見(jiàn)的RNN,谷歌(Google)的BERT、微軟(Microsoft)的Turing NLG和OpenAI的GPT 3.5是transformer神經(jīng)網(wǎng)絡(luò)的例子。

當(dāng)神經(jīng)網(wǎng)絡(luò)用于更大的批量處理(Batch size)時(shí),GPU通常表現(xiàn)得更好,并且可以高度并行化處理。FPGA在執(zhí)行順序神經(jīng)網(wǎng)絡(luò)(RNN是一個(gè)很好的示例),以及其他更容易并行計(jì)算的模型方面具有更高的靈活性。數(shù)據(jù)加速器的成功將在很大程度上取決于設(shè)備的利用率。GPU在順序模型中通常會(huì)達(dá)不到要求,因?yàn)樗鼈兺ǔN吹玫匠浞掷?。這就像購(gòu)買(mǎi)一輛蘭博基尼以每小時(shí)20公里的速度行駛一樣。

Achronix憑借其完整的FPGA技術(shù)組合為機(jī)器學(xué)習(xí)推理應(yīng)用提供全面解決方案。通過(guò)與多個(gè)生態(tài)系統(tǒng)合作伙伴合作,最終用戶可以實(shí)現(xiàn)基于FPGA的推理解決方案,無(wú)論是使用Speedcore將半導(dǎo)體知識(shí)產(chǎn)權(quán)(IP)集成到他們自己的芯片設(shè)計(jì)中,還是使用Speedster7t FPGA獨(dú)立芯片將FPGA芯片放在他們自己的PCB上,或者使用VectorPath PCIe加速卡進(jìn)行交鑰匙項(xiàng)目(一站式方案)。

image.png

Tom Spencer(Achronix產(chǎn)品營(yíng)銷(xiāo)高級(jí)經(jīng)理)

2   工程師或研發(fā)人員的挑戰(zhàn)

在許多應(yīng)用中,AI/ML算法因工作負(fù)載的變化或?qū)ν评砩窠?jīng)網(wǎng)絡(luò)層的優(yōu)化而發(fā)生變化。事實(shí)證明,F(xiàn)PGA可提供最佳的能效,同時(shí)保持這些不同要求所需的靈活性。盡管ASIC具有最高的性能和能效,但它們可能需要花費(fèi)長(zhǎng)達(dá)2年的時(shí)間來(lái)開(kāi)發(fā)和生產(chǎn),而且它們不能提供靈活性以適應(yīng)不同的AI/ML算法。GPU提供了靈活性,但在適應(yīng)許多不同的算法方面能力有限,而且能效很低。FPGA實(shí)現(xiàn)了最快的上市時(shí)間,并在平臺(tái)的全生命周期內(nèi)提供靈活性。除了FPGA提供的上市時(shí)間優(yōu)勢(shì)之外,Achronix還通過(guò)提供嵌入式IP、芯片級(jí)和板卡級(jí)的FPGA技術(shù),比其他業(yè)界領(lǐng)先的FPGA公司更前進(jìn)了一步。

Achronix是唯一一家能夠同時(shí)提供嵌入式FPGA知識(shí)產(chǎn)權(quán)(業(yè)界通常將其稱(chēng)為eFPGA)、獨(dú)立FPGA芯片和基于該芯片的PCIe加速卡的高性能FPGA獨(dú)立硬件供應(yīng)商(IHV)。Achronix提供了開(kāi)發(fā)工具套件,其中包括用于配置、布局和布線以及比特流生成的ACE工具,Synopsys Synpilfy Pro的Achronix特定版本,可用于綜合和與仿真工具的互操作。Achronix工具支持在多個(gè)流程步驟中使用許多常見(jiàn)的仿真器進(jìn)行仿真,包括VCS(Synopsys)、QuestaSim(Mentor)、Incisive(Cadence)和Riviera(Aldec)。通過(guò)投資Achronix工具套件,用戶能夠開(kāi)發(fā)多種解決方案,包括使用Speedcore開(kāi)發(fā)具有嵌入式FPGA功能的大批量定制ASIC或SoC,使用Speedster7t器件開(kāi)發(fā)專(zhuān)有PCB子系統(tǒng),或簡(jiǎn)單地使用基于PCIe的插卡模式,通過(guò)采用VectorPath加速卡來(lái)實(shí)現(xiàn)。

3   Achronix的解決方案

Achronix為AI/ML計(jì)算、聯(lián)網(wǎng)和存儲(chǔ)應(yīng)用開(kāi)發(fā)了基于FPGA的數(shù)據(jù)加速產(chǎn)品。與其他高性能FPGA公司不同,Achronix可以同時(shí)提供FPGA芯片和嵌入式FPGA IP解決方案。除了FPGA器件和eFPGA IP,Achronix還提供加速卡,可用于開(kāi)發(fā)、現(xiàn)場(chǎng)試驗(yàn)或批量生產(chǎn)。Speedster7t系列FPGA器件是Achronix最新推出的、采用了臺(tái)積電7nm工藝節(jié)點(diǎn)的FPGA芯片。該系列FPGA提供了業(yè)內(nèi)最高速度的I/O接口,具有400GbE、PCIe Gen 5和雙存儲(chǔ)接口:標(biāo)準(zhǔn)DDR4和GDDR6。與DDR4相比,GDDR6提供了令人印象深刻的600%速度優(yōu)勢(shì)。

這些高速接口意味著大量數(shù)據(jù)可以輕松通過(guò)FPGA。Achronix構(gòu)建了一個(gè)二維片上網(wǎng)絡(luò)(2D NoC),它實(shí)際上是聯(lián)通所有外部I/O、FPGA內(nèi)固化功能塊和FPGA自身具有的邏輯陣列之間的高速公路。這個(gè)二維片上網(wǎng)絡(luò)具有超過(guò)20Tbps的雙向總帶寬,遠(yuǎn)遠(yuǎn)超過(guò)了I/O和功能模塊的總帶寬。這消除了由于芯片內(nèi)部擁塞帶來(lái)的延遲問(wèn)題。

對(duì)于那些對(duì)成本和/或功耗非常敏感的用例,通常會(huì)開(kāi)發(fā)ASIC。但是,當(dāng)您需要前面所討論的靈活性時(shí),您會(huì)怎么做呢?無(wú)論是算法的新變體、不斷變化的需求、供應(yīng)商的特定需求、操作人員的特定需求、協(xié)議適配還是功能系統(tǒng)模塊的不同接口,都需要一定程度的靈活性。Speedcore eFPGA IP是由ASIC開(kāi)發(fā)者和Achronix定義的、具有“剛好足夠”靈活性的解決方案。其中LUT、存儲(chǔ)器、DSP/MLP和2D NoC之間所需的資源已經(jīng)確定,然后Achronix向用戶提供定制IP,以集成到他們的ASIC或SoC設(shè)計(jì)中。

VectorPath加速卡可用作評(píng)估或開(kāi)發(fā)平臺(tái)、現(xiàn)場(chǎng)試驗(yàn)工具或用于產(chǎn)品批量生產(chǎn)中,還可以創(chuàng)建該解決方案的定制版本以滿足特定的用戶需求。



關(guān)鍵詞: AI 機(jī)器學(xué)習(xí) FPGA

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉