Xilinx用reVISION向視覺學(xué)習(xí)亮劍
在人工智能、機(jī)器學(xué)習(xí)興起的今天,All Programmable技術(shù)和器件廠商Xilinx也帶來了爆品,發(fā)布了全新的reVISION堆棧,劍指視覺導(dǎo)向的機(jī)器學(xué)習(xí)應(yīng)用。該解決方案無需額外花費(fèi),搭載Xilinx的Zynq和處理器平臺即可加速設(shè)計。可以看到,通過“芯片+軟件堆棧”的策略,Xilinx把競爭矛頭直指圖形芯片廠商——英偉達(dá)的Tegra GPU和ADAS廠商Mobileye等。
三問reVISION
筆者十分感興趣,reVISION堆棧功能強(qiáng)大,所定位的視覺導(dǎo)向機(jī)器學(xué)習(xí)市場也看上去很有潛力,但是客戶是否會先用Xilinx芯片,如果大批量采用時,客戶會不會在此基礎(chǔ)上自己設(shè)計ASIC芯片?Xilinx戰(zhàn)略與營銷高級副總裁Steve Glaser稱,不必有此顧慮。不錯,現(xiàn)在確實(shí)是有幾家初創(chuàng)企業(yè)在開發(fā)專門的只是用于機(jī)器學(xué)習(xí)的芯片,但是挑戰(zhàn)是客戶不僅僅要集成機(jī)器學(xué)習(xí),還有計算機(jī)視覺、傳感器融合等。所以,Xilinx并不認(rèn)為會有其他人要或者可以自己開發(fā)這么一整套獨(dú)特的性能組合,因為這個可能要花費(fèi)幾億美元才能推出第一片芯片,而且從各種規(guī)格的確定/落實(shí)到第一個樣片誕生可能需要長達(dá)三年以上的時間。此外在這三年過程中還會有一個挑戰(zhàn):那就是神經(jīng)網(wǎng)絡(luò)、算法和傳感器都在不斷演化,客戶辛辛苦苦投入這么多打造出來一個硬件的時候,可能已經(jīng)無法滿足新技術(shù)的應(yīng)用要求了。Steve 表示,唯一看到一個最終用戶的設(shè)計,就是ASIC解決方案在云方面的應(yīng)用,那就是谷歌的TPU,是非常專門的機(jī)器學(xué)習(xí)推斷的應(yīng)用。但是即使是谷歌,也很難趕上變化的速度,因為它是一個固定的硬件。
ADAS是自動駕駛的階段之一。在ADAS方面,Xilinx最大的競爭對手是Mobileye,“最近我們已經(jīng)在這方面戰(zhàn)勝它了。”Steve分析道,Mobileye提供一種“交鑰匙”的解決方案,采用的方法是類似的軟件算法再加上芯片。“我們從客戶那里也了解到,如果客戶使用的是Mobileye,就無法實(shí)現(xiàn)差異化。但是如果是用賽靈思技術(shù),他們就能夠?qū)崿F(xiàn)巨大的差異化的解決方案。所以,現(xiàn)在市場上排名前25%的企業(yè),都是以差異化占據(jù)鰲頭的企業(yè),而他們使用的都是Xilinx的產(chǎn)品。雖然Mobileye的市場份額有50%~ 60%,但是這些企業(yè)都不屬于追求差異化設(shè)計的企業(yè)。”
Xilinx的SoC里含有FPGA,通常FPGA較貴,是嗎?
實(shí)際上,ZynqSoC是一個高度集成的解決方案。現(xiàn)在已經(jīng)實(shí)現(xiàn)了更低的定價,而且推出了更低端的單核產(chǎn)品;同時也推出了高端的4核、7核異構(gòu)芯片,所以價格有從10美元直到幾十美元的組合。可見,在量方面,Xilinx已經(jīng)建立了一個非常強(qiáng)大的成本優(yōu)化的產(chǎn)品組合,能夠提供非常好的量化的性價比。當(dāng)然,也不會達(dá)到消費(fèi)級(例如上千萬、億級)的這么高的量。
reVIOSN如何滿足機(jī)器學(xué)習(xí)?
具體地,分析一下機(jī)器學(xué)習(xí),如圖1??v軸是行業(yè)應(yīng)用,是電子領(lǐng)域高度成長性的應(yīng)用;橫軸是應(yīng)用的端,看是否靠近云。有些應(yīng)用是三者兼顧,既在終端又在云。
圖1 機(jī)器學(xué)習(xí)領(lǐng)域
4個月前(2016年11月),Xilinx曾推出了可重配置加速堆棧,面向最右側(cè)的云應(yīng)用。此次是reVISION堆棧,主要針對左側(cè)應(yīng)用。
當(dāng)前客戶有從左向右轉(zhuǎn)型的需求:不僅是左邊的簡單的傳感器,還有右側(cè)的機(jī)器學(xué)習(xí)的需求。例如,左邊的應(yīng)用都是非常簡單的傳感器的配置,通常是各種各樣的攝像頭,然后加上核心的技術(shù)——計算機(jī)視覺處理技術(shù)來識別整個框架環(huán)境中的物體。但是現(xiàn)在慢慢轉(zhuǎn)向右邊的應(yīng)用轉(zhuǎn)變,右邊的應(yīng)用會越來越使用各種不同類型的傳感器技術(shù),然后再加上圖像傳感器,還要和機(jī)器學(xué)習(xí)實(shí)現(xiàn)智能的融合。比如說,我們過去是在工廠里有機(jī)器,右側(cè)使用各種傳感器,還要進(jìn)行計算和融合。我們過去工廠里的機(jī)器人是在籠子里來完成它們的工作,但是現(xiàn)在已經(jīng)有了新一代的協(xié)作機(jī)器人,它們與人肩并肩工作,而且它們是可以移動的。同樣,在ADAS里包含有前視汽車攝像頭,但是現(xiàn)在為了要支持自動駕駛汽車的發(fā)展,攝像頭也是多種多樣,會有不同的傳感器,比如長程和短程的雷達(dá)、激光雷達(dá)、超聲波技術(shù)等各式各樣不同類型的傳感器。而且還有機(jī)器學(xué)習(xí)的融合,使得這些車輛在行駛時能夠做出自己的決策。
從嵌入式視覺到自主系統(tǒng),主要有三個應(yīng)用的使命/要求。1.希望智能性及系統(tǒng)及時響應(yīng),例如行人在車前快速通過。2.希望升級到最新的算法和傳感器的靈活性,因為神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的算法都在改變,而且傳感器的類型和組合也在變化,客戶希望能立即升級。3.萬物互聯(lián),需要隨時與其他機(jī)器和云保持連接。
Xilinx的SoC處理器和reVISION堆棧等能夠滿足以上三個方面的需求。
目前,已有幾百家客戶正在用Xilinx的芯片在開發(fā)自主系統(tǒng),他們擁有很強(qiáng)的硬件知識,也投入了很多精力和時間,但reVISION最重要的優(yōu)勢是可取消采用芯片的障礙,使沒有硬件專業(yè)知識的用戶也可以來應(yīng)用,因此可支持圖1左邊及一些混合芯片。
因此,reVISION堆棧(圖1左側(cè)和中部)和可重配置加速堆棧(圖1右側(cè)和中部),再加上此前使用Xilinx器件做安全控制系統(tǒng)等部分(圖1左側(cè))。現(xiàn)在Xilinx已經(jīng)能夠支持機(jī)器學(xué)習(xí)中從端到云絕大多數(shù)的應(yīng)用。
reVISION可完成80%的設(shè)計工作
reVISION堆棧與傳統(tǒng)開發(fā)方法的比較如圖2??v軸是開發(fā)時間,橫軸是開發(fā)方法。過去RTL使設(shè)計大大加速。大約在六年以前,Xilinx推出了新的提高效率的工具——基于RTL的硬件設(shè)計的工作流程,使得整個過程能夠大大加速?,F(xiàn)在已經(jīng)有幾百家客戶在使用這樣的工作流程來處理計算機(jī)視覺。據(jù)Xilinx所知,其中有40多家企業(yè)已經(jīng)在用Xilinx的器件進(jìn)行機(jī)器學(xué)習(xí)方面的開發(fā)。
圖2 Xilinx機(jī)器學(xué)習(xí)相關(guān)的開發(fā)工具演進(jìn)
不過采用這樣的方法,開發(fā)所投入和精力還是相對比較大的,但是這種付出還是使他們獲得了很大的優(yōu)勢。為了提升效率,大約在一年半之前,Xilinx推出了首個軟件定義的編程環(huán)境——SDSoC,基于Xilinx的Zynq SoC芯片,主要是嵌入式的應(yīng)用?,F(xiàn)在Xilinx已經(jīng)有1100多名付費(fèi)的用戶,他們支付相關(guān)的許可費(fèi),其中有半數(shù)都是專注于視覺方面的應(yīng)用。
但是,這雖然提高了效率,還沒有達(dá)到Xilinx或者客戶所希望的目標(biāo),客戶希望能夠有符合行業(yè)標(biāo)準(zhǔn)的庫和框架,幫助客戶繼續(xù)壓縮開發(fā)時間。所以,此次推出的reVISION堆棧,可以使開發(fā)時間可以大大縮短。
所以過去Xilinx提供芯片及20%的開發(fā)工作,但現(xiàn)在可以完成80%工作。
低時延優(yōu)勢
根據(jù)英偉達(dá) TX1的公開資料,Xilinx測算其reVISION方案在計算機(jī)視覺領(lǐng)域的優(yōu)勢達(dá)40倍以上,時延只有1/5。為什么低時延能夠?qū)崿F(xiàn)快速響應(yīng)的系統(tǒng)非常的重要?假設(shè)一輛小轎車跟在一輛小貨車后面,這個小貨車突然進(jìn)行緊急停車。后面的小轎車的時速是65英里,英偉達(dá)TX1方案的響應(yīng)時間是49~320ms,而reVISION只有2.7ms!
為何Xilinx能實(shí)現(xiàn)響應(yīng)速度很快?典型的嵌入式GPU和典型的SoC比較中可見(圖3),在這樣的情景之下,傳感器的數(shù)據(jù)需要外部存儲,之后在處理的步驟中,也需要不斷地去訪問外部存儲。如果是Xilinx的Zynq器件,客戶能夠簡化獲得直接的數(shù)據(jù)流(圖4右),直接經(jīng)過傳感器、傳感器的處理,還有機(jī)器學(xué)習(xí),一直到控制。這就會對響應(yīng)的時間造成很大的影響,除此以外,還會影響到可預(yù)見性,也就是客戶所說的決定性,他們希望整個過程是可以預(yù)見的,可以確定的,并且響應(yīng)速度要很快。所以Xilinx能夠提供非常快速的決定性的響應(yīng),而Xilinx的同類競爭產(chǎn)品的相應(yīng)速度要慢很多,而且是不可預(yù)見的。
圖3 Xilinx的Zynq在時延方面與GPU等的比較
可配置性
reVISION的另一項非常獨(dú)特的功能,就是硬件和軟件的可重配置性和可編程性:既支持硬件,也支持軟件的可重配置和可以編程。對于下一代的機(jī)器學(xué)習(xí)來說,這種可重配置性至關(guān)重要。
機(jī)器學(xué)習(xí)盡管在1958年就出現(xiàn)了,但過去兩年里機(jī)器學(xué)習(xí)所取得的進(jìn)步等于之前45年取得的所有成果之和——不僅出現(xiàn)了新的神經(jīng)網(wǎng)絡(luò)和算法,而且對于這些嵌入系統(tǒng)更加有效的實(shí)施也有了新的方案。
例如,在一些實(shí)施方案當(dāng)中,之前最先進(jìn)的是浮點(diǎn)方案,這個方案對訓(xùn)練來說是非常合適的,但是在推斷方面,因為推斷要受到成本和功耗極大的限制,浮點(diǎn)就不那么合適。所以這種實(shí)施方案也在不斷的演進(jìn),從8位下降到4位,甚至最后到1位,所有的一切都是在一個神經(jīng)網(wǎng)絡(luò)里進(jìn)行,只不過這個神經(jīng)網(wǎng)絡(luò)分成不同的層次,每個層次對應(yīng)不同的精度。所以,可重配置性是非常關(guān)鍵的,只有具有可重配置性,才能夠持續(xù)的升級到最新最好的機(jī)器學(xué)習(xí)的技術(shù)。但是可重配置性對于升級到新的傳感器技術(shù),并且支持不同的傳感器配置也很重要。
滿足傳感器融合需要
另外,傳感器類型和配置出現(xiàn)了爆炸,業(yè)界稱之為傳感器融合。此外,人工智能和機(jī)器學(xué)習(xí)的不斷擴(kuò)展驅(qū)動了這種傳感器融合的趨勢,所以也需要可重配置性來跟上這些變化的步伐。
總之,reVISION消除了向廣泛視覺導(dǎo)向機(jī)器學(xué)習(xí)應(yīng)用擴(kuò)展的障礙,擴(kuò)大了機(jī)器學(xué)習(xí)應(yīng)用從端到云的開發(fā)和部署。
小結(jié)及感想
筆者猜想,reVISION是reality vision(真實(shí)視覺)的合成詞。人工智能包含多個部分,Xilinx選擇了視覺導(dǎo)向的機(jī)器學(xué)習(xí)這一分支。然而,僅僅SoC芯片是不夠的,Xilinx在軟實(shí)力方面下了很大功夫——包括此次推出的reVISION堆棧,以及此前的可重配置加速堆棧等,使其方案覆蓋了整個物聯(lián)網(wǎng)的視覺學(xué)習(xí)領(lǐng)域(圖1)。
可見,Xilinx不僅在芯片設(shè)計和先進(jìn)制程工藝方面走在前列,也十分重視軟件的作用(注:筆者猜想這與現(xiàn)任CEO及部分核心領(lǐng)導(dǎo)團(tuán)隊成員來自EDA軟件公司Cadence有關(guān))。幾年前,該公司的一位資深VP曾透露其軟件人員數(shù)量已經(jīng)超過了硬件人員,應(yīng)該說,那時Xilinx已經(jīng)是名副其實(shí)的軟件公司了。但是Xilinx也意識到軟件需要在硬件的基石上實(shí)現(xiàn),因此今天看,Xilinx強(qiáng)大的軟件商業(yè)策略是其芯片向視覺學(xué)習(xí)領(lǐng)域發(fā)展的強(qiáng)大推進(jìn)器。
不是嗎?ARM SoC引擎有一大波,可謂宿將與新生代云集,各有各的背景和高招。作為從FPGA跨界進(jìn)入ARM SoC市場的后來者,如何避免同質(zhì)化,超越競爭對手,確實(shí)需要智慧。依托強(qiáng)大的定向軟件助力,Xilinx這一招走得很妙!
評論