新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 嵌入式神經(jīng)網(wǎng)絡(luò)賦予機(jī)器視覺、聽覺和分析能力

嵌入式神經(jīng)網(wǎng)絡(luò)賦予機(jī)器視覺、聽覺和分析能力

作者: 時(shí)間:2018-03-27 來(lái)源:電子產(chǎn)品世界 收藏

  ()潛在的應(yīng)用與日俱增。不同的神經(jīng)網(wǎng)絡(luò)(NN)經(jīng)過測(cè)試、調(diào)整和改進(jìn),解決了不同的問題。出現(xiàn)了使用優(yōu)化數(shù)據(jù)分析的各種方法。今天大部分的應(yīng)用,比如谷歌翻譯和亞馬遜Alexa語(yǔ)音識(shí)別和視覺識(shí)別系統(tǒng),還在利用云的力量。通過依賴一直在線的互聯(lián)網(wǎng)連接,高帶寬鏈接和網(wǎng)絡(luò)服務(wù),物聯(lián)網(wǎng)產(chǎn)品和智能手機(jī)應(yīng)用也可以集成AI功能。到目前為止,大部分注意力都集中在基于視覺的上,一部分原因是它容易出現(xiàn)在新聞報(bào)道和視頻中,另一部分原因是它更類似于人類的活動(dòng)。

本文引用地址:http://2s4d.com/article/201803/377467.htm

  聲音和視覺神經(jīng)網(wǎng)絡(luò)(圖片來(lái)源于:CEVA)

  在圖像識(shí)別中,對(duì)一個(gè)2D圖像進(jìn)行分析(一次處理一組像素),通過神經(jīng)網(wǎng)絡(luò)的連續(xù)層識(shí)別更大的特征點(diǎn)。最開始檢測(cè)到的邊緣是具有高差異性的部位。以人臉為例,最早識(shí)別的邊緣是在眼睛、鼻子和嘴巴這些特征周邊。隨著檢測(cè)過程在神經(jīng)網(wǎng)絡(luò)中的深入,將會(huì)檢測(cè)到整個(gè)面部的特征。

  在最后階段,結(jié)合特征和位置信息,就能在可用的數(shù)據(jù)庫(kù)中識(shí)別到具有最大匹配度的一個(gè)特定的人臉。

  神經(jīng)網(wǎng)絡(luò)的特征提取(圖片來(lái)源于:CEVA)

  相機(jī)拍攝或捕捉的物體,可以通過神經(jīng)網(wǎng)絡(luò)在其數(shù)據(jù)庫(kù)找到具有最高匹配概率的人臉。尤其好的是物體不需要在完全相同的角度或位置,或者是相同的光線條件下進(jìn)行拍攝。

  AI這么快就流行起來(lái),在很大程度上是因?yàn)殚_放的軟件工具(也稱為框架),使得構(gòu)建和訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)應(yīng)用程序變得容易起來(lái),即使是使用各種不同的編程語(yǔ)言。兩個(gè)常見的通用框架是TensorFlow和Caffe。對(duì)于已知的識(shí)別目標(biāo),可以離線定義和訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)。一旦訓(xùn)練完成,神經(jīng)網(wǎng)絡(luò)可以很容易地部署到嵌入式平臺(tái)上。這是一個(gè)聰明的劃分,允許借助PC或云的能力訓(xùn)練神經(jīng)網(wǎng)絡(luò),而功耗敏感的嵌入式處理器只需使用訓(xùn)練好的數(shù)據(jù)來(lái)進(jìn)行識(shí)別。

  類人的識(shí)別人和物體的能力與流行的應(yīng)用密切相關(guān),比如工業(yè)機(jī)器人和自動(dòng)駕駛汽車。

  然而,在音頻領(lǐng)域具備同樣的興趣點(diǎn)和能力。采用和圖像特征分析同樣的方式,可以將音頻分解成特征點(diǎn)來(lái)輸入給神經(jīng)網(wǎng)絡(luò)。有一種方法是使用梅爾頻率倒譜系數(shù)(MFCC)將音頻分解成有用的特征。最開始音頻樣本被分解成短時(shí)間的幀,例如20 ms,然后對(duì)信號(hào)進(jìn)行傅里葉變換,使用重疊三角窗將音頻頻譜的功率映射到一個(gè)非線性尺度上。

  聲音神經(jīng)網(wǎng)絡(luò)分解圖(圖片來(lái)源于:CEVA)

  通過提取的特征,神經(jīng)網(wǎng)絡(luò)可以用來(lái)確定音頻樣本和音頻樣本數(shù)據(jù)庫(kù)中詞匯或者語(yǔ)音的相似度。和圖像識(shí)別一樣,神經(jīng)網(wǎng)絡(luò)為特定詞匯在數(shù)據(jù)庫(kù)中提取了可能的匹配。對(duì)于那些想要復(fù)制谷歌和亞馬遜的“OK Google”或“Alexa”語(yǔ)音觸發(fā)(VT)功能的人來(lái)說,KITT.AI通過Snowboy提供了一個(gè)解決方案。觸發(fā)關(guān)鍵詞可以上傳到他們的平臺(tái)進(jìn)行分析,導(dǎo)出一個(gè)文件,集成到嵌入式平臺(tái)上的Snowboy應(yīng)用程序中,這樣語(yǔ)音觸發(fā)(VT)的關(guān)鍵詞在離線情況下也可以被檢測(cè)到。音頻識(shí)別也并不局限于語(yǔ)言識(shí)別。TensorFlow提供了一個(gè)iOS上的示例工程,可以區(qū)分男性和女性的聲音。

  另一個(gè)應(yīng)用程序是檢測(cè)我們居住的城市和住宅周圍動(dòng)物和其它聲音。這已經(jīng)由安裝在英國(guó)伊麗莎白女王奧林匹克公園的深度學(xué)習(xí)蝙蝠監(jiān)控系統(tǒng)驗(yàn)證過了。它提供了將視覺和聽覺識(shí)別神經(jīng)網(wǎng)絡(luò)集成到一個(gè)平臺(tái)的可能性。比如通過音頻識(shí)別特定的聲音,可以用來(lái)觸發(fā)安全系統(tǒng)進(jìn)行錄像。

  有很多基于云的AI應(yīng)用程序是不現(xiàn)實(shí)的,一方面有數(shù)據(jù)隱私問題,另一方面由于數(shù)據(jù)連通性差或帶寬不夠造成的服務(wù)不能持續(xù)。另外,實(shí)時(shí)性能也是一個(gè)值得關(guān)注的問題。例如工業(yè)制造系統(tǒng)需求一個(gè)瞬時(shí)響應(yīng),以實(shí)時(shí)操作生產(chǎn)線,連接云服務(wù)的延時(shí)就太長(zhǎng)了。

  因此,將AI功能移動(dòng)到終端設(shè)備越來(lái)越受到關(guān)注。也就是說,在正在使用的設(shè)備上發(fā)揮人工智能的力量。很多IP供應(yīng)商提供了解決方案,比如CEVA的CEVA-X2和NeuPro IP核和配套軟件,很容易和現(xiàn)有的神經(jīng)網(wǎng)絡(luò)框架進(jìn)行集成。它為開發(fā)具備人工智能的嵌入式系統(tǒng)提供了可能性,同時(shí)提供了低功耗處理器的靈活性。以一個(gè)語(yǔ)音識(shí)別系統(tǒng)作為例子,可以利用集成在芯片上的功耗優(yōu)化的人工智能,來(lái)識(shí)別一個(gè)語(yǔ)音觸發(fā)(VT)的關(guān)鍵詞和一個(gè)最小的語(yǔ)音命令(VC)的集合。更復(fù)雜的語(yǔ)音命令和功能,可以在應(yīng)用程序從低功耗的語(yǔ)音觸發(fā)狀態(tài)下喚醒之后,由基于云的AI完成。

  最后,卷積神經(jīng)網(wǎng)絡(luò)(CNN)也可以用來(lái)提高文本到語(yǔ)音(TTS)系統(tǒng)的質(zhì)量。一直以來(lái)TTS是將來(lái)自同一個(gè)配音員的許多小塊的高質(zhì)量錄音,整合成連續(xù)的聲音。雖然所輸出的結(jié)果是人類可以理解的,但由于輸出結(jié)果存在奇怪的語(yǔ)調(diào)和音調(diào),仍然感覺像是機(jī)器人的聲音。如果試圖表現(xiàn)不同的情緒則需要一組全新的錄音。谷歌的WaveNet改善了當(dāng)前的情況,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)以每秒16000個(gè)采樣生成TTS波形。與之前的聲音樣本相比,其輸出結(jié)果是無(wú)縫連接的,明顯更自然更高質(zhì)量的聲音。



關(guān)鍵詞: 人工智能 AI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉