新聞中心

EEPW首頁(yè) > > 設(shè)計(jì)應(yīng)用 > 揭秘Amazon Echo語(yǔ)音控制的神秘面紗

揭秘Amazon Echo語(yǔ)音控制的神秘面紗

作者: 時(shí)間:2017-10-24 來(lái)源:網(wǎng)絡(luò) 收藏

  (Amazon) 可說(shuō)是目前最熱銷的物聯(lián)網(wǎng)(IoT)裝置,無(wú)論你稱它為智慧麥克風(fēng)、虛擬數(shù)位助理、家用機(jī)器人、語(yǔ)音控制或R2-D2,這一類以語(yǔ)音為基礎(chǔ)的產(chǎn)品正迅速崛起。..

本文引用地址:http://2s4d.com/article/201710/367752.htm

  相較于,最新的第二代 Dot的價(jià)格從89.99美元調(diào)整為49.99美元,并將于本月在美國(guó)上市銷售。

  Amazon Echo(及其隨后推出的Dot)開辟了一個(gè)新的市場(chǎng),讓裝置供應(yīng)商能夠在語(yǔ)音擷取、提高麥克風(fēng)音訊解析度、更先進(jìn)的背景雜訊過(guò)濾、更好的音場(chǎng)偵測(cè)與穩(wěn)定連線能力等方面展開競(jìng)爭(zhēng),以提供更佳音訊品質(zhì)。

  Amazon Echo (左)及其第二代產(chǎn)品Dot

  而像XMOS等公司雖然自家晶片并未用于Echo中,但也瞄準(zhǔn)了這個(gè)新的語(yǔ)音介面市場(chǎng)。XMOS行銷與業(yè)務(wù)發(fā)展副總裁Paul Neil表示,“物聯(lián)網(wǎng)目前正是一場(chǎng)快速移動(dòng)的盛宴。為了控制IoT裝置,語(yǔ)音是最自然的使用者介面。”

  Neil說(shuō),由于融合了“傳統(tǒng)的微控制器()性能、嵌入式DSP以及靈活的I/O組合,使得我們的技術(shù)成為語(yǔ)音介面的理想選擇。”

  然而,硬體裝置之間的戰(zhàn)爭(zhēng)只是構(gòu)成整個(gè)智慧麥克風(fēng)/揚(yáng)聲器市場(chǎng)的一部份。IHS Markit連網(wǎng)家庭資深分析師Paul Erickson強(qiáng)調(diào),“真正的競(jìng)爭(zhēng)變數(shù)來(lái)自云端。”

  為了追求更“聰明”的智慧麥克風(fēng)(能夠處理復(fù)雜的查詢和隨機(jī)問(wèn)題),云端服務(wù)領(lǐng)域的競(jìng)爭(zhēng)越來(lái)越激烈。 Google預(yù)計(jì)將于今年年底推出Google Home與Google Assistant (Google Now的新版本),并借此進(jìn)入這個(gè)市場(chǎng)。Erickson表示,“而且市場(chǎng)上盛傳蘋果(Apple)很可能將在2017年挾其Siri進(jìn)入這個(gè)領(lǐng)域。”

  Amazon Echo——這款I(lǐng)oT裝置如此熱門的另一個(gè)原因在于它極具潛力,可實(shí)現(xiàn)IoT的重要優(yōu)點(diǎn):經(jīng)得起時(shí)間考驗(yàn)(Future-proofing)。

  芯科科技(Silicon Labs)軟體副總裁Skip Ashton解釋,F(xiàn)uture-proofing的意思是“確保裝置可隨時(shí)間進(jìn)展持續(xù)添加更多功能特性。”例如,Alexa為Echo提供的語(yǔ)音服務(wù)功能一開始有70種,如今已經(jīng)增加到超過(guò)1,700種了。

  Echo可以回答問(wèn)題、閱讀新聞、為運(yùn)動(dòng)評(píng)分、控制燈光、從Amazon網(wǎng)站訂購(gòu)產(chǎn)品以及設(shè)定鬧鈴等。使用者還可以利用該裝置向Uber叫車或訂購(gòu)披薩外送等。

  “目前Echo大約每?jī)芍芡高^(guò)云端更新一次,”Ashton說(shuō),“Amazon會(huì)在星期五時(shí)發(fā)送電子郵件給Echo用戶發(fā)布新功能, ”而Echo用戶“也對(duì)于產(chǎn)品的功能持續(xù)增加懷抱著期待。”

  本地智慧

  IHS Markit嵌入式處理器首席分析師Tom Hackenberg剖析Amazon Echo對(duì)于電子產(chǎn)業(yè)帶來(lái)重大影響的原因:智慧麥克風(fēng)/智慧揚(yáng)聲器應(yīng)用“對(duì)于處理器供應(yīng)商來(lái)說(shuō)極具價(jià)值。”

  因?yàn)檫@種裝置關(guān)鍵之處并不只是提供了“本地智慧”。語(yǔ)音介面正普遍應(yīng)用在廣大的市場(chǎng)領(lǐng)域。不只是數(shù)位助理市場(chǎng)出現(xiàn),成為智慧型手機(jī)App的消費(fèi)電子裝置版本,還有揚(yáng)聲器,也不是它唯一的外形應(yīng)用。

  例如,他解釋說(shuō),“家庭自動(dòng)化中心和數(shù)位助理可以內(nèi)建于電視、機(jī)上盒(STB)、HVAC/環(huán)境控制中樞等等。此外,在車載資訊娛樂(lè)方面也存在大量的應(yīng)用,特別是著眼于其免手持的優(yōu)點(diǎn)。”

  拆解Echo與Echo Dot

  透過(guò)拆解Echo與Echo Dot并進(jìn)一步比較后,Hackenberg說(shuō),“除了記憶體供應(yīng)商,我發(fā)現(xiàn)Echo和Echo Dot的處理元件并沒(méi)有明顯的不同。”

  

  拆解Echo與Echo Dot (來(lái)源:iFixit)

  根據(jù)iFixit所進(jìn)行的拆解,Amazon Echo采用:

  三星(Samsung) K4X2G323PD-8GD8 256MB LPDDR1 RAM (揮發(fā)性記憶體)

  SanDisk SDIN7DP2-4G 4GB iNAND Ultra Flash (非揮發(fā)性儲(chǔ)存)

  而到了新版的Dot則改用:

  美光(Micron) MT46H64M32LFBQ 256MB (16Meg x 32 x 4Banks) LPDDR SDRAM (揮發(fā)性記憶體)

  三星KLM4G1FEPD 4GB高性能eMMC NAND Flash (非揮發(fā)性儲(chǔ)存)

  兩款產(chǎn)品使用的處理器則是相同的。在Echo與Dot的核心采用的是“德州儀器(Texas Instruments;TI)的媒體處理器DM3725”,此外,高通(Qualcomm) Atheros QCA6234應(yīng)用專用標(biāo)準(zhǔn)處理器則用于提供“連接性”。

  Hackenberg解釋說(shuō),雖然記憶體可能稍微影響性能,但記憶體定價(jià)是波動(dòng)的。因此,對(duì)于Echo系列的所有產(chǎn)品而言,在其整個(gè)生命周期中改變所使用的元件也很平常。

  相形之下,“連線模組,尤其是媒體處理器更加復(fù)雜,如果不是重大的產(chǎn)品更新,一般并不會(huì)改變,”他說(shuō)。

  Hackenberg指出,Atheros處理器專用于作為連接應(yīng)用標(biāo)準(zhǔn)產(chǎn)品。其設(shè)計(jì)是以Tensilica客制化XTensa核心為基礎(chǔ),而且“它只做一件事——協(xié)調(diào)與網(wǎng)路的通訊,以利作業(yè)進(jìn)行。”

  Erickson補(bǔ)充說(shuō),“連接能力至關(guān)重要,因?yàn)樗婕澳男┵Y料可被擷取、傳送與接收云端資料的速度與可靠度等。由于速度/響應(yīng)的可用性因素,它直接影響到與揚(yáng)聲器之間的互動(dòng)有多么“即時(shí)”。因此,Wi-Fi的吞吐量、服務(wù)品質(zhì)(QoS)與范圍的改善,都將有所幫助。”

  所有的“本地”(local)智慧功能是由TI DM3725進(jìn)行處理。Hackenberg指出,“這是一款專為STB、TV、顯示器、視訊游戲系統(tǒng)等各種多媒體應(yīng)用而設(shè)計(jì)的系統(tǒng)單晶片(SoC)。”

  DM3725是一款以ARM Cortex A8為基礎(chǔ)打造的元件,并整合TI的C64x+DSP與3D繪圖加速引擎。“Cortex A8是一款成熟且經(jīng)濟(jì)型的應(yīng)用處理器,但又完全足夠用于本地執(zhí)行簡(jiǎn)單的任務(wù),”Hackenberg表示。

  然而,“如果應(yīng)用變得復(fù)雜,而不只是一款揚(yáng)聲器這么單純,可能就會(huì)有所變化。”


  

  Amazon Echo Dot主板 (來(lái)源:iFixit)

  整合DSP

  根據(jù)Hackenberg,這顆SoC的關(guān)鍵就在于整合了DSP,甚至可能是GPU。

  “在一個(gè)典型的設(shè)計(jì)中,存在多個(gè)輸入感測(cè)器(主要是麥克風(fēng))。整個(gè)音訊輸入首先經(jīng)DSP高度濾波,使系統(tǒng)快速地理解用戶的語(yǔ)音和環(huán)境雜訊之間的差異,”他說(shuō)。

  “它甚至能夠解讀相對(duì)于該裝置的位置或甚至發(fā)話者是誰(shuí);它還建立了一種模式,能夠經(jīng)過(guò)處理以匹配該模式(通常發(fā)送至云端),”他補(bǔ)充說(shuō)。

  但是,GPU做什么呢?

  Hackenberg認(rèn)為,“對(duì)于本地智慧,GPU可以用于更簡(jiǎn)單、但快速且高效的本地模式匹配。”

  這可以讓裝置仍然回應(yīng)所儲(chǔ)存的控制模式,例如“降低音量”、“切換頻道”或其他簡(jiǎn)單的控制,而無(wú)需網(wǎng)路連接,他解釋說(shuō)。 “接著,應(yīng)用核心根據(jù)所需提供的回應(yīng)、啟動(dòng)/關(guān)閉所需的輸入或控制以及必須顯示的內(nèi)容等條件來(lái)執(zhí)行應(yīng)用程式。”

  麥克風(fēng)陣列

  Amazon Echo和Dot之所以吸引人之處在于它使用了7麥克風(fēng)陣列。Amazon聲稱,Echo和Dot由于使用了多支麥克風(fēng)和波束成型技術(shù),因而“能在整個(gè)室內(nèi)都聽(tīng)到你的聲音——即使是正在播放音樂(lè)的環(huán)境下。”該公司還表示,Echo是一款專業(yè)級(jí)的調(diào)音揚(yáng)聲器,能以360°沉浸式音效充滿在整個(gè)房間中。

  根據(jù)IHS Markit負(fù)責(zé)MEMS和感測(cè)器的資深分析師Marwan Boustany表示,Echo采用了樓氏電子(Knowles)的MEMS麥克風(fēng)。

  Dot采用7支麥克風(fēng)陣列

  Boustany指出,為聲音頻率提升其訊號(hào)雜訊比(SNR)、匹配和性能,將有助于遠(yuǎn)場(chǎng)音訊擷取,同時(shí)改善語(yǔ)音辨識(shí)。

  但最終,“演算法才是實(shí)現(xiàn)更優(yōu)質(zhì)語(yǔ)音辨識(shí)的真正關(guān)鍵,”他說(shuō),“所謂的『智慧』就在于云端可能持續(xù)作為關(guān)鍵應(yīng)用,而本地處理則可以提高對(duì)于簡(jiǎn)單/預(yù)定義片語(yǔ)(如Hey Siri等)的辨識(shí)能力。”

  他以Cypheras為例表示,“這一類的軟體供應(yīng)商將有利于智慧家庭系統(tǒng)(如Alexa)中的語(yǔ)音辨識(shí)功能。”

  

  Amazon Echo Dot (來(lái)源:iFixit)

  競(jìng)爭(zhēng)日益加劇

  以供應(yīng)商來(lái)看,目前有幾家提供微控制器()和連接用ASSP的供應(yīng)商可能在此領(lǐng)域展開競(jìng)爭(zhēng),包括Apple、博通(Broadcom)、賽普拉斯 (Cypress)、微芯科技(Microchip)、恩智浦(NXP)、瑞薩(Renesas)、意法半導(dǎo)體(STMicroelectronics) 以及芯科科技(Silicon Labs)等。Boustany表示,”802.11n與BT 4.0的組合并不常見(jiàn),但有些設(shè)計(jì)針對(duì)較低成本的解決方案或許將會(huì)只用藍(lán)牙。

  媒體處理器較為棘手。雖然多家行動(dòng)裝置應(yīng)用處理器供應(yīng)商都可提供,但對(duì)于簡(jiǎn)單的應(yīng)用來(lái)說(shuō)成本太高。根據(jù)Hackenberg的觀察,供應(yīng)商們可能會(huì)選擇不提供性能相當(dāng)?shù)腄SP或模式匹配功能。

  “我可能會(huì)考慮采用Apple Ax、Broadcom BCM7xxxx、海思(Hisilicon) Hi3xxx、NXP i.MX、聯(lián)發(fā)科MT8xxx、意法STIHxxx、高通(Qualcomm)Snapdragon等。當(dāng)然,TI或許在成本方面具有最佳DSP支援(對(duì)于語(yǔ)音辨識(shí)至關(guān)重要)的優(yōu)勢(shì),但其他的這幾家供應(yīng)商也在不斷地縮小差距中。”

  XMOS相信該公司將在這個(gè)市場(chǎng)上獲得動(dòng)能。對(duì)于諸如Echo這一類的語(yǔ)音助理產(chǎn)品,提高性能的關(guān)鍵在于遠(yuǎn)場(chǎng)語(yǔ)音擷取能力、波束成型與處理速度等。Neil認(rèn)為,“憑藉著大量的處理能力和嵌入式DSP,我們的XMOS單晶片元件提供了可擴(kuò)展和差異化的解決方案。”

  

  XMOS xCore語(yǔ)音介面案例 (來(lái)源:XMOS)

  編譯:Susan Hong

 ?。▍⒖荚模篈mazon Echo How It Resonates,by Junko Yoshida)



關(guān)鍵詞: 亞馬遜 Echo MCU

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉