數(shù)據(jù)編排支持人工智能（AI）的下一步發(fā)展

作者：時(shí)間：2021-09-24 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

本文引用地址：http://2s4d.com/article/202109/428476.htm

本文概要

從深度嵌入式系統(tǒng)到超大規(guī)模數(shù)據(jù)中心部署，人工智能（AI）和機(jī)器學(xué)習(xí)（ML）技術(shù)正在為其中迅速擴(kuò)展的一系列的產(chǎn)品和應(yīng)用提供支持。盡管支持這些應(yīng)用的硬件設(shè)計(jì)存在很大程度的差異，但都需要硬件加速。

深度學(xué)習(xí)技術(shù)需要大量的張量算術(shù)運(yùn)算（tensor arithmetic operation）。為了支持實(shí)時(shí)執(zhí)行，存儲(chǔ)器和處理器的性能必須滿(mǎn)足比標(biāo)準(zhǔn)軟件驅(qū)動(dòng)架構(gòu)盡可能高得多的性能目標(biāo)。這種需求導(dǎo)致去使用基于專(zhuān)用硬件加速器的設(shè)計(jì)，來(lái)執(zhí)行并行化和高度流水線(xiàn)化的張量算術(shù)運(yùn)算。為了避免通道阻塞，數(shù)據(jù)必須在合適的位置，合適的時(shí)間，以合適的格式出現(xiàn)。專(zhuān)用的數(shù)據(jù)編排硬件避免了加速器通道阻塞，從而支持以最高效率運(yùn)行。

數(shù)據(jù)編排包括預(yù)處理和后處理操作，確保數(shù)據(jù)以最佳速度和最適合進(jìn)行高效處理的格式傳輸?shù)綑C(jī)器學(xué)習(xí)引擎中。操作范圍從資源管理和使用規(guī)劃，到I/O適配、轉(zhuǎn)碼、轉(zhuǎn)換和傳感器融合，再到共享存儲(chǔ)陣列內(nèi)的數(shù)據(jù)壓縮和重新排列。如何部署這些功能將取決于目標(biāo)應(yīng)用的性能和成本要求，但對(duì)于大多數(shù)應(yīng)用場(chǎng)景而言，針對(duì)數(shù)據(jù)攝取、轉(zhuǎn)換和傳輸進(jìn)行優(yōu)化的可編程邏輯平臺(tái)為機(jī)器學(xué)習(xí)加速器提供了最佳的數(shù)據(jù)編排策略。

引言

深度學(xué)習(xí)給計(jì)算硬件帶來(lái)了巨大的壓力。向?qū)Ｓ眉铀倨鞯霓D(zhuǎn)變?yōu)樾酒夹g(shù)提供了一種與人工智能發(fā)展保持同步的方法，但這些單元本身并不能夠滿(mǎn)足以更低的成本獲得更高性能的需求。

可以理解的是，集成電路（IC）供應(yīng)商和系統(tǒng)公司一直專(zhuān)注于其矩陣和張量處理陣列的原始性能。在峰值吞吐量下，這些架構(gòu)可以輕松達(dá)到以每秒萬(wàn)億次操作（TOPS）衡量的性能水平，即使對(duì)于旨在用于邊緣計(jì)算的系統(tǒng)也是如此。盡管可以理解，但如果由于數(shù)據(jù)不可用或需要為每個(gè)模型層轉(zhuǎn)換為正確的格式而導(dǎo)致延遲，那么對(duì)峰值TOPS的關(guān)注會(huì)帶來(lái)硬件利用率不足的風(fēng)險(xiǎn)。

系統(tǒng)必須對(duì)網(wǎng)絡(luò)和存儲(chǔ)延遲進(jìn)行補(bǔ)償，并確保數(shù)據(jù)元素的格式和位置合適，同時(shí)以一致的速率傳入和傳出人工智能加速器。數(shù)據(jù)編排提供了在每個(gè)時(shí)鐘周期上確保數(shù)據(jù)格式和位置合適的方法，從而最大限度地提高系統(tǒng)吞吐量。

由于典型人工智能實(shí)現(xiàn)的復(fù)雜性，所以無(wú)論是位于數(shù)據(jù)中心、邊緣計(jì)算環(huán)境還是實(shí)時(shí)嵌入式應(yīng)用，如自動(dòng)駕駛輔助系統(tǒng)（ADAS）設(shè)計(jì)，有許多任務(wù)必須由數(shù)據(jù)編排引擎處理，這些任務(wù)包括：

● 數(shù)據(jù)操作（manipulation）

● 在多個(gè)矢量單元之間進(jìn)行調(diào)度和負(fù)載平衡

● 數(shù)據(jù)損壞的數(shù)據(jù)包檢查，例如由傳感器故障造成的數(shù)據(jù)損壞

盡管可以通過(guò)向核心處理陣列添加數(shù)據(jù)控制和異常處理硬件來(lái)實(shí)現(xiàn)這些功能，但是由于可能需要的操作種類(lèi)繁多，以及隨著人工智能模型的發(fā)展對(duì)靈活性的需求也越來(lái)越高，這使得將這些功能硬連線(xiàn)到核心加速器芯片中可能成為一種昂貴的短期選擇。例如，在一些應(yīng)用環(huán)境中，加密支持正迅速成為確保高數(shù)據(jù)安全性的需求，但根據(jù)每層數(shù)據(jù)的應(yīng)用敏感性，可能會(huì)使用不同級(jí)別的加密。固定架構(gòu)解決方案存在著無(wú)法適應(yīng)不斷變化的需求的風(fēng)險(xiǎn)。

一種可能的方法是使用一個(gè)可編程的微處理器來(lái)控制通過(guò)加速器的數(shù)據(jù)流。這種方法的問(wèn)題在于軟件執(zhí)行根本無(wú)法滿(mǎn)足加速器硬件的需求。需要一個(gè)更加以硬件為中心的數(shù)據(jù)編排響應(yīng)，這使得加速器設(shè)計(jì)完全專(zhuān)注于核心通道效率成為可能。外部數(shù)據(jù)編排可以處理所有的存儲(chǔ)和I/O管理，確保操作數(shù)和權(quán)重的傳輸不間斷。由于數(shù)據(jù)編排引擎必須處理應(yīng)用程序和模型設(shè)計(jì)的修訂和更改，因此硬連線(xiàn)邏輯不是一種合適的方法。可編程邏輯支持修改，并避免了數(shù)據(jù)編排引擎無(wú)法更新的風(fēng)險(xiǎn)。

原則上，現(xiàn)場(chǎng)可編程邏輯門(mén)陣列（FPGA）結(jié)合了分布式存儲(chǔ)器、算術(shù)單元和查找表，從而提供了組合功能，該組合功能非常適合人工智能驅(qū)動(dòng)的應(yīng)用程序所需的流數(shù)據(jù)實(shí)時(shí)重組、重新映射和存儲(chǔ)器管理。FPGA支持創(chuàng)建定制的硬件電路，支持深度流水線(xiàn)化人工智能加速器的密集數(shù)據(jù)流，同時(shí)使用戶(hù)能夠根據(jù)需要改變實(shí)現(xiàn)方式以適應(yīng)新的架構(gòu)。然而，數(shù)據(jù)編排的性能要求需要新的FPGA設(shè)計(jì)方法。

數(shù)據(jù)編排的應(yīng)用場(chǎng)景

在數(shù)據(jù)中心、邊緣計(jì)算和嵌入式系統(tǒng)部署等應(yīng)用場(chǎng)景中，有許多不同類(lèi)型的數(shù)據(jù)編排架構(gòu)。例如，在數(shù)據(jù)中心應(yīng)用環(huán)境中，多個(gè)加速器可以部署在單個(gè)模型上，它們的數(shù)據(jù)吞吐量由一個(gè)或多個(gè)數(shù)據(jù)編排引擎管理。

推理系統(tǒng)需要數(shù)據(jù)編排來(lái)確保每個(gè)工作引擎的最大效用，以避免瓶頸，并確保盡可能快地處理輸入的數(shù)據(jù)樣本。分布式訓(xùn)練增加了對(duì)神經(jīng)元權(quán)重快速更新的要求，這些更新必須盡快分配給處理相關(guān)模型部件的其他工作引擎，以避免停滯。

FPGA中的數(shù)據(jù)編排邏輯支持處理廣泛的權(quán)重分配和同步協(xié)議，以支持高效的運(yùn)行，同時(shí)減輕加速器本身的數(shù)據(jù)組織負(fù)擔(dān)。下圖展示了一種可能的實(shí)現(xiàn)方法，使用一個(gè)FPGA器件管理同一塊電路板上的多個(gè)人工智能引擎。使用一種合適的低噪聲通信協(xié)議，單個(gè)機(jī)器學(xué)習(xí)專(zhuān)用集成電路（ASIC）不需要存儲(chǔ)控制器。相反，數(shù)據(jù)編排引擎在本地存儲(chǔ)器中組織所有的權(quán)重和數(shù)據(jù)元素，并簡(jiǎn)單地將它們以合適的順序傳輸?shù)剿芾淼拿總€(gè)ASIC。其結(jié)果是通過(guò)減少重復(fù)的存儲(chǔ)和接口邏輯，以更低的總體成本獲得高性能。

圖1 數(shù)據(jù)編排可以為并行化的人工智能實(shí)現(xiàn)應(yīng)用快速地提供負(fù)載平衡和其他數(shù)據(jù)轉(zhuǎn)發(fā)功能

利用數(shù)據(jù)編排，硬件可以在不增加成本的情況下進(jìn)一步提高性能。一種選擇是利用網(wǎng)絡(luò)或系統(tǒng)總線(xiàn)數(shù)據(jù)的壓縮，避免使用更昂貴的互連。FPGA的邏輯層面可編程性支持通過(guò)網(wǎng)絡(luò)接口對(duì)數(shù)據(jù)進(jìn)行壓縮和解壓縮。數(shù)據(jù)編排硬件還支持使用前向糾錯(cuò)協(xié)議來(lái)確保以全流水線(xiàn)速度傳輸有效數(shù)據(jù)。在大多數(shù)設(shè)計(jì)中，損壞事件通常很少發(fā)生，但是如果沒(méi)有外部的糾錯(cuò)支持，那么對(duì)于高度流水線(xiàn)化的加速器設(shè)計(jì)來(lái)說(shuō)，恢復(fù)成本將會(huì)很高。

圖2展示了數(shù)據(jù)編排引擎可以通過(guò)多種方式優(yōu)化數(shù)據(jù)流和給機(jī)器學(xué)習(xí)引擎提供的呈現(xiàn)結(jié)果。例如，單個(gè)數(shù)據(jù)元素的格式和結(jié)構(gòu)為利用數(shù)據(jù)編排的優(yōu)勢(shì)提供了一個(gè)重要的機(jī)會(huì)，因?yàn)樵磾?shù)據(jù)通常必須以一種適合深度神經(jīng)網(wǎng)絡(luò)（DNN）進(jìn)行特征提取的格式來(lái)表示。

在圖像識(shí)別和分類(lèi)應(yīng)用中，像素?cái)?shù)據(jù)通常被通道化，以便在通過(guò)提取形狀和其他高級(jí)信息的池化層進(jìn)行聚合結(jié)果之前，可以單獨(dú)處理每個(gè)顏色平面。通道化有助于識(shí)別邊緣和其他特征，這些特征可能不易于用組合的RGB表示法識(shí)別。在語(yǔ)音和語(yǔ)言處理中會(huì)執(zhí)行更廣泛的轉(zhuǎn)換。數(shù)據(jù)通常被映射成一種更容易被DNN處理的形式。由于不是直接處理ASCII或Unicode字符，而是將模型中要處理的詞和子詞轉(zhuǎn)換為向量和one-hot表示。類(lèi)似地，語(yǔ)音數(shù)據(jù)可能不會(huì)以原始時(shí)域樣本的形式呈現(xiàn)，而是轉(zhuǎn)換為聯(lián)合時(shí)頻表示，從而使重要特征更容易被早期DNN層識(shí)別。

盡管數(shù)據(jù)轉(zhuǎn)換可以通過(guò)人工智能加速器中的算術(shù)內(nèi)核來(lái)執(zhí)行，但它可能不太適合張量引擎。重新格式化的性質(zhì)使其適合由基于FPGA的模塊進(jìn)行處理。FPGA能夠有效地以線(xiàn)速度進(jìn)行轉(zhuǎn)換，而不會(huì)出現(xiàn)在通用處理器上運(yùn)行軟件時(shí)所產(chǎn)生的延遲。

在涉及傳感器的實(shí)時(shí)和嵌入式應(yīng)用中，預(yù)處理數(shù)據(jù)可以帶來(lái)更多的好處。例如，雖然可以通過(guò)訓(xùn)練DNN以消除噪聲和環(huán)境條件變化的影響，但使用前端信號(hào)處理對(duì)數(shù)據(jù)進(jìn)行去噪或歸一化處理，可提高其可靠性。在汽車(chē)先進(jìn)駕駛輔助系統(tǒng)（ADAS）實(shí)現(xiàn)中，攝像頭系統(tǒng)必須處理照明條件的變化。通常，通過(guò)使用亮度和對(duì)比度調(diào)整，可以利用傳感器中高水平的動(dòng)態(tài)范圍。FPGA可以執(zhí)行必要的操作，為DNN提供變化較少的像素流。

傳感器融合是ADAS設(shè)計(jì)日益重要的一個(gè)方面，有助于提高終端系統(tǒng)的性能。由于環(huán)境條件會(huì)使單個(gè)傳感器數(shù)據(jù)難以解讀，因此人工智能模型必須有效地從眾多不同類(lèi)型的傳感器（包括攝像頭、激光雷達(dá)和雷達(dá)）中獲取輸入。

格式轉(zhuǎn)換是至關(guān)重要的。例如，激光雷達(dá)（LIDAR）為笛卡爾空間中的目標(biāo)物體提供深度信息，而雷達(dá)在極坐標(biāo)系統(tǒng)上運(yùn)行。許多模型通過(guò)將一個(gè)坐標(biāo)空間轉(zhuǎn)換為另一個(gè)坐標(biāo)空間，更容易地進(jìn)行傳感器融合。類(lèi)似地，來(lái)自多個(gè)攝像頭的圖像數(shù)據(jù)必須拼接在一起，并使用投影進(jìn)行轉(zhuǎn)換，從而將最有用的信息傳遞給人工智能模型。

較低級(jí)別的轉(zhuǎn)換也同樣需要。汽車(chē)原始設(shè)備制造商（OEM）從不同的供應(yīng)商那里購(gòu)買(mǎi)傳感器模塊，每個(gè)供應(yīng)商都以自己的方式解讀連接通信標(biāo)準(zhǔn)。這需要一些功能來(lái)解析這些傳感器通過(guò)車(chē)載網(wǎng)絡(luò)發(fā)送的數(shù)據(jù)包，并將數(shù)據(jù)轉(zhuǎn)換為DNN可以處理的標(biāo)準(zhǔn)格式。出于安全考慮，模塊也必須向ADAS單元進(jìn)行身份驗(yàn)證，在某些情況下，還要發(fā)送加密數(shù)據(jù)。數(shù)據(jù)編排芯片支持從人工智能加速器引擎上卸載解密和格式轉(zhuǎn)換功能。

通過(guò)使用在數(shù)據(jù)編排子系統(tǒng)中實(shí)現(xiàn)的前端信號(hào)處理功能來(lái)去除不必要的數(shù)據(jù)，可以實(shí)現(xiàn)進(jìn)一步的優(yōu)化。例如，用于處理來(lái)自麥克風(fēng)和其他一維傳感器輸入的傳感器，可以消除靜音時(shí)或低級(jí)背景時(shí)的噪音，并減少車(chē)輛靜止時(shí)傳送的視頻幀數(shù)量，從而減輕人工智能引擎的負(fù)載。

圖2 數(shù)據(jù)編排為人工智能功能加速提供了多種選擇

一種針對(duì)數(shù)據(jù)編排而優(yōu)化的架構(gòu)

盡管FPGA內(nèi)可配置互連和可編程邏輯的結(jié)合有助于數(shù)據(jù)編排任務(wù)，但FPGA架構(gòu)則天生各不相同，它們?nèi)绾翁幚韺?duì)高帶寬數(shù)據(jù)的需求是關(guān)鍵。傳統(tǒng)上，F(xiàn)PGA并不被期望作為數(shù)據(jù)路徑的核心元素，而是主要為與存儲(chǔ)和I/O交互的處理器提供控制平面輔助。數(shù)據(jù)編排需要代表處理器和加速器去實(shí)現(xiàn)內(nèi)核接收、轉(zhuǎn)換和管理數(shù)據(jù)元素，這給傳統(tǒng)的FPGA架構(gòu)帶來(lái)了巨大的壓力。

為了支持?jǐn)?shù)據(jù)編排的帶寬要求，傳統(tǒng)的FPGA需要極寬的總線(xiàn)來(lái)處理通過(guò)PCI Express和千兆以太網(wǎng)接口的多個(gè)數(shù)據(jù)流。例如，為了支持超過(guò)400Gb/s以太網(wǎng)數(shù)據(jù)的傳輸，設(shè)計(jì)人員必須使用可編程的互連電路，來(lái)對(duì)大約2048位寬的總線(xiàn)進(jìn)行布線(xiàn)，以可靠地滿(mǎn)足時(shí)序要求，這通常需要一個(gè)運(yùn)行頻率為幾百兆赫茲的時(shí)鐘。由于這種大型結(jié)構(gòu)的擁塞和時(shí)序收斂問(wèn)題，這樣如此寬的互連是非常難以布線(xiàn)的?；ミB可能會(huì)消耗數(shù)十萬(wàn)個(gè)查找表（LUT），因?yàn)樗鼈兪菬o(wú)法用于執(zhí)行數(shù)據(jù)編排或格式轉(zhuǎn)換任務(wù)的。

Achronix Speedster7t系列FPGA器件克服了傳統(tǒng)FPGA所面臨的問(wèn)題，其中部分原因是它采用了一種專(zhuān)用的二維片上網(wǎng)絡(luò)（2D NoC），通過(guò)在網(wǎng)絡(luò)的不同部分進(jìn)行多個(gè)并行操作，這種互連可以實(shí)現(xiàn)高達(dá)20Tb/s的總帶寬。相對(duì)于FPGA架構(gòu)互連，二維片上網(wǎng)絡(luò)不僅在速度上有了巨大的提升，而且能夠在多個(gè)PCIe Gen5、400Gbps以太網(wǎng)端口和GDDR6存儲(chǔ)器接口之間以更高的速率傳輸大量的數(shù)據(jù)，而不會(huì)消耗任何FPGA的可編程資源。

在Speedster7t FPGA器件中，片上網(wǎng)絡(luò)在FPGA的整個(gè)表面提供了一個(gè)二維互連架構(gòu)。它使用專(zhuān)用的網(wǎng)絡(luò)接入點(diǎn)（NAP）將數(shù)據(jù)包發(fā)送到器件內(nèi)任何位置的軟核。每個(gè)NAP通過(guò)行業(yè)標(biāo)準(zhǔn)的AXI端口結(jié)構(gòu)提供對(duì)FPGA內(nèi)可編程邏輯模塊或硬件資源的訪問(wèn)。東西向和南北向數(shù)據(jù)流都有獨(dú)立的NAP，為訪問(wèn)二維片上網(wǎng)絡(luò)的邏輯提供了額外的靈活性和性能。這種定向分割有助于優(yōu)化在相同的二維片上網(wǎng)絡(luò)路徑上開(kāi)始和結(jié)束的傳輸延遲。在一個(gè)正交的二維片上網(wǎng)絡(luò)路徑上走線(xiàn)會(huì)增加一個(gè)小的、確定性的延遲。

二維片上網(wǎng)絡(luò)提供的一項(xiàng)重要功能是分組模式（Packet Mode），該模式旨在更容易地將到達(dá)高帶寬端口（如以太網(wǎng)）的數(shù)據(jù)重新排列為多個(gè)數(shù)據(jù)流。分組模式可以分離到達(dá)速率為200Gb/s或400Gb/s以太網(wǎng)端口的數(shù)據(jù)包，并將它們傳輸?shù)讲煌能浐恕＿@種數(shù)據(jù)包分離如下圖所示，連續(xù)的數(shù)據(jù)包被分布到FPGA的不同部分。因此，分組模式可以輕松創(chuàng)建負(fù)載平衡架構(gòu)，而使用傳統(tǒng)FPGA是難以實(shí)現(xiàn)這樣的功能。

圖3 片上網(wǎng)絡(luò)的分組模式支持將網(wǎng)絡(luò)有效負(fù)載自動(dòng)分配到架構(gòu)的不同部分

另一個(gè)好處是，二維片上網(wǎng)絡(luò)更容易支持部分重新配置：二維陣列中的每個(gè)邏輯模塊都能作為一個(gè)可隔離的資源，可以在不影響任何其他邏輯模塊的情況下完成交換新功能。由二維片上網(wǎng)絡(luò)和接入點(diǎn)控制器實(shí)現(xiàn)的虛擬化和轉(zhuǎn)換邏輯進(jìn)一步增強(qiáng)了此功能。

地址轉(zhuǎn)換表的作用類(lèi)似于微處理器中的存儲(chǔ)管理單元，以防止任務(wù)之間的數(shù)據(jù)相互干擾。接入點(diǎn)中的地址轉(zhuǎn)換表意味著每個(gè)軟核可以訪問(wèn)相同的虛擬地址范圍，但訪問(wèn)外部物理存儲(chǔ)的范圍完全不同。訪問(wèn)保護(hù)位提供了進(jìn)一步的安全性，防止內(nèi)核訪問(wèn)受保護(hù)的地址范圍。在一系列基于人工智能的應(yīng)用中，這種級(jí)別的保護(hù)很可能變得極其重要。在這些應(yīng)用中，數(shù)據(jù)編排和其他可編程邏輯功能在集成到最終產(chǎn)品之前由不同的團(tuán)隊(duì)實(shí)現(xiàn)。

除了高度靈活的數(shù)據(jù)路由，數(shù)據(jù)編排還需要去應(yīng)用快速算術(shù)功能來(lái)增強(qiáng)核心人工智能加速器。Speedster7t FPGA部署了一系列機(jī)器學(xué)習(xí)處理器（MLP）模塊。每個(gè)MLP都是一個(gè)高度可配置的、計(jì)算密集型的模塊，最多可配置32個(gè)乘法器，提供高達(dá)60 TOPS的性能。MLP支持4到24位的整數(shù)格式和各種浮點(diǎn)模式，包括直接支持Tensorflow的bfloat16格式和塊浮點(diǎn)（BFP）格式。周?chē)目删幊踢壿嫾軜?gòu)提供了多種方法來(lái)優(yōu)化數(shù)據(jù)流，以充分利用MLP提供的數(shù)據(jù)重用和吞吐量機(jī)會(huì)。

由于數(shù)據(jù)編排硬件需要適用于各種應(yīng)用環(huán)境，因此對(duì)靈活部署有著明確的需求。數(shù)據(jù)中心應(yīng)用可能需要使用一個(gè)或多個(gè)分立的、大容量器件（例如Speedster7t FPGA器件），來(lái)為單個(gè)電路板上或分布在一個(gè)托盤(pán)或機(jī)架內(nèi)的多個(gè)機(jī)器學(xué)習(xí)引擎路由和預(yù)處理數(shù)據(jù)流。對(duì)于尺寸、功耗和成本是主要限制因素的邊緣計(jì)算應(yīng)用來(lái)說(shuō)，采用系統(tǒng)級(jí)芯片（SoC）解決方案存在明顯的爭(zhēng)論。

Achronix是唯一一家能夠同時(shí)提供獨(dú)立FPGA芯片和嵌入式FPGA（eFPGA）半導(dǎo)體知識(shí)產(chǎn)權(quán)（IP）技術(shù)的公司，因此在支持成本降低計(jì)劃方面具有獨(dú)特的優(yōu)勢(shì)，其中可編程邏輯和互連功能可以集成到一個(gè)SoC中，如下圖所示。Speedcore eFPGA IP使用與Speedster7t FPGA相同的技術(shù)，支持從Speedster7t FPGA到集成Speedcore模塊的ASIC的無(wú)縫轉(zhuǎn)換。當(dāng)使用Speedcore IP將Speedster7t FPGA轉(zhuǎn)換為ASIC時(shí)，客戶(hù)有望降低高達(dá)50%的功耗和節(jié)省高達(dá)90%的單位成本。

另一種選擇是在多芯片模塊中使用多芯片合封chiplets。這在基于FPGA的合封的數(shù)據(jù)編排模塊和機(jī)器學(xué)習(xí)引擎之間提供了高速互連的好處。Achronix支持所有這些實(shí)現(xiàn)選項(xiàng)。

圖4 嵌入式FPGA技術(shù)能夠?qū)?shù)據(jù)編排集成到加速器芯片中

結(jié)論

深度學(xué)習(xí)的快速發(fā)展給大規(guī)模實(shí)現(xiàn)該技術(shù)所需的硬件架構(gòu)帶來(lái)了巨大壓力。盡管由于意識(shí)到性能是一個(gè)絕對(duì)要求，因此業(yè)界高度關(guān)注峰值TOPS分?jǐn)?shù)，但智能數(shù)據(jù)編排和管理策略提供了一種用于交付高成本效益和高能效系統(tǒng)的方法。

數(shù)據(jù)編排包括許多預(yù)處理和后處理操作，確保了數(shù)據(jù)以最佳速度和最適合進(jìn)行高效處理的格式傳輸?shù)綑C(jī)器學(xué)習(xí)引擎。操作范圍從資源管理和使用規(guī)劃，到I/O適配、轉(zhuǎn)碼、轉(zhuǎn)換和傳感器融合，再到共享存儲(chǔ)陣列內(nèi)的數(shù)據(jù)壓縮和重新排列。一些編排引擎根據(jù)目標(biāo)機(jī)器學(xué)習(xí)架構(gòu)的核心需求使用這些功能的子集。

Achronix Speedster7t FPGA架構(gòu)為這些數(shù)據(jù)編排策略提供了高度靈活的平臺(tái)。這種FPGA具有高吞吐量、低延遲和極高靈活性等特點(diǎn)，其數(shù)據(jù)傳輸形式可使即使是高度專(zhuān)業(yè)化的加速器也能去適應(yīng)不斷變化的需求。此外，Speedster7t FPGA廣泛的邏輯和算術(shù)能力加上高吞吐量互連，使得前端信號(hào)調(diào)節(jié)和后端機(jī)器學(xué)習(xí)的整體設(shè)計(jì)能夠最大限度地提高整體效率。

新聞中心

數(shù)據(jù)編排支持人工智能（AI）的下一步發(fā)展

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)