王曉雷:從自動駕駛看人工智能的能與不能
近年來,結(jié)合了感知、融合、決策、控制的自動駕駛技術(shù)無疑是近年最火的研發(fā)領(lǐng)域之一。這得益于現(xiàn)在人工智能技術(shù)的發(fā)展,但是在ThoughtWorks大數(shù)據(jù)團隊首席科學(xué)家王曉雷看來,人工智能不是萬能的,深度學(xué)習(xí)也可能被“愚弄”。
本文引用地址:http://2s4d.com/article/201807/383346.htm在近日舉行的2018 ThoughtWorks技術(shù)雷達(dá)峰會上,王曉雷進行了主題為《自動駕駛——人工智能的能與不能 》的演講,并結(jié)合自動駕駛技術(shù)的最新發(fā)展,分享了我們對于真實世界中,關(guān)于智能算法的長處和局限性的一些思考。
從備受爭議的自動駕駛談起
2015年5月,工信部發(fā)表《中國制造2025》,將智能車聯(lián)網(wǎng)提升到國家戰(zhàn)略高度。至今三年時間里,各項政策層出不窮,甚至開放了包括北京上海的部分道路在內(nèi)的一部分路段作為路測。然而,近來,自動駕駛汽車的安全與倫理一直備受爭議,不僅發(fā)生了幾起令人側(cè)目的特斯拉自動駕駛系統(tǒng)事故,還在2018年3月發(fā)生一起致命事件。在該起致命事件中,Uber自動駕駛車輛與行人之間發(fā)生碰撞并導(dǎo)致行人死亡。這讓人們不禁關(guān)注起自動駕駛技術(shù)的敏捷度、安全性、以及車企如何能夠保證它萬無一失。
王曉雷表示, 比起完全信息博弈,自動駕駛更像是一場司機與環(huán)境的對話。這里面涉及眾多環(huán)節(jié)。比如定位與映射;場景理解;路徑規(guī)劃;狀態(tài)感知等等 。
如此復(fù)雜的流程必須依靠包括深度學(xué)習(xí)在內(nèi)的人工智能技術(shù)進行支撐,機器通過大量數(shù)據(jù)的采集與特征提取,在一定算法的基礎(chǔ)上自主的完成優(yōu)化和改進,從而最終得出一個具有統(tǒng)計學(xué)意義的結(jié)果。這個統(tǒng)計學(xué)結(jié)果的得出其實是值得探討的。由于包括數(shù)據(jù)量不足和模型本身的種種限制,深度學(xué)習(xí)并不能實現(xiàn)100%的準(zhǔn)確性。
人工智能背后是一整套算法的支持,而這些算法的優(yōu)化又依賴于大量的數(shù)據(jù)進行不斷的訓(xùn)練,從而獲取到一個在訓(xùn)練數(shù)據(jù)上相對較好的模型,然后再利用這一模型對其他數(shù)據(jù)做出預(yù)測。在這一過程中,任何一個因素都有可能導(dǎo)致預(yù)測結(jié)果出現(xiàn)一個偏差。舉一個例子,當(dāng)我們試圖訓(xùn)練一個模型來創(chuàng)作一行標(biāo)題用以描述圖片內(nèi)容時,我們常常認(rèn)為該模型是在“理解”圖片的內(nèi)容的基礎(chǔ)上,從而產(chǎn)生相應(yīng)的標(biāo)題。然而,當(dāng)輕微改變訓(xùn)練數(shù)據(jù)中存在的圖像時,比如調(diào)制一些特制的噪聲進去后,研發(fā)者會非常驚訝地發(fā)現(xiàn)模型開始創(chuàng)作完全荒謬的字幕。
通常,這類行為被強調(diào)為對抗案例,通過向深度學(xué)習(xí)網(wǎng)絡(luò)輸出錯誤的樣本來欺騙模型。 如上圖所示,我們拍攝一輛卡車,添加一個“鴕鳥”梯度噪聲,則訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)可以以很高的置信度將這輛卡車分類為鴕鳥,而人類肉眼完全無法判斷這兩張圖片之間的區(qū)別。 這證明了深度學(xué)習(xí)模型并非萬能的,它們從輸入到輸出映射與我們?nèi)祟惛兄g的深刻差異。
簡而言之,深度學(xué)習(xí)模式對他們的輸入沒有任何理解,至少不是從人的意義上來說。我們對圖像,聲音和語言的理解是基于我們的運動感覺體驗。然而機器人卻沒有這種經(jīng)驗,因此不能以任何以人為本的方式理解他們的駛?cè)搿Mㄟ^輸入大量的培訓(xùn)示例來訓(xùn)練我們的模型,我們讓他們學(xué)習(xí)一個幾何變換,將數(shù)據(jù)映射到這個特定的一組示例上的人類概念,但是這個映射只是我們思想中原始模型的簡單草圖。
這也就是現(xiàn)在人工智能技術(shù)發(fā)展的困境。同樣,這與適用于自動駕駛技術(shù)?!艾F(xiàn)在對于人工智能的態(tài)度,兩類人是恐懼的。一類是不懂的人,他們認(rèn)為人工智能是破壞性的;另一類是懂的人,因為他們知道人工智能能夠解決很多現(xiàn)實問題,但是這需要對人工智能技術(shù)有個正確的認(rèn)識和用法,特別是算法的設(shè)計。
當(dāng)算法應(yīng)用于產(chǎn)品時,我們不僅僅要考慮算法是否能夠?qū)崿F(xiàn)需求,同時還必須考慮算法本身的性能和準(zhǔn)確性,這就和算法本身的體系搭建有著密切的關(guān)系。
為你的場景找到人工智能的位置
人工智能只是一個單純的技術(shù),需要與對應(yīng)的應(yīng)用場景進行結(jié)合,自動駕駛就是典型應(yīng)用。王曉雷表示,AI能做的與人類想要的交集就是我們的機會。所以,我們給人工智能找到一個合適的落地場景。為了實現(xiàn)這樣的目標(biāo),我們需要思考以下問題:
預(yù)測的目標(biāo)可以被量化嗎?
與目標(biāo)相關(guān)的特征可以被有效的表達(dá)嗎?
指標(biāo)和目標(biāo)相關(guān)嗎?
有足夠的數(shù)據(jù)來訓(xùn)練模型嗎?
不可否認(rèn),人工智能代表著未來的方向。但是在生活中,除了在某些特定的場景(自然語言處理和計算機視覺)使用到外,人們還無法感受到它的存在和意義。目前人工智能還遠(yuǎn)沒有達(dá)到一個被公眾所大范圍接受的地步,因為它真正缺失的也是最核心的東西,正是用戶場景。更準(zhǔn)確地來說是接地氣的用戶場景。
在當(dāng)前,隨著CNN、RNN等算法成熟和GPU對計算能力的提高,現(xiàn)今人工智能所需要面臨的是如何使應(yīng)用深化,從而對產(chǎn)業(yè)發(fā)起變革。特別是場景化、標(biāo)簽化的數(shù)據(jù)獲得是人工智能應(yīng)用落地的關(guān)鍵。我們以安防為例,在深度學(xué)習(xí)、計算機視覺算法開源化的大趨勢下,具有特征性的場景數(shù)據(jù)集的獲得,是對安防行業(yè)人工智能視頻分析技術(shù)真正落地應(yīng)用的關(guān)鍵。
1956年,美國達(dá)特茅斯大學(xué)會議標(biāo)志著人工智能研究的正式誕生,推動了了全球第一次人工智能浪潮。但這一次人工智能的春天只持續(xù)了20年,原因是當(dāng)時過于重視算法和方法論,而導(dǎo)致了人工智能在處理問題范圍的局限性。
如今,人工智能研究的發(fā)展已經(jīng)歷了六十多年的沉浮,從硬件的計算能力、到深度學(xué)習(xí)算法、計算機視覺技術(shù)和自然語言處理等各領(lǐng)域都有了本質(zhì)上的飛躍,人工智能已經(jīng)從一個學(xué)術(shù)層面上的探索發(fā)展成一種可推動產(chǎn)業(yè)結(jié)構(gòu)變革的新興生產(chǎn)方式。
在這樣的情況,整個社會需要正視人工智能技術(shù),擁抱人工智能,推動其在行業(yè)中的落地,而問題是在發(fā)展中解決的,我們不能因噎廢食。相信未來人工智能在整個產(chǎn)業(yè)革新方面發(fā)揮越來越重要的作用。
評論