幾經(jīng)沉浮,人工智能前路何方?(1)
以下文章來源于算法進階 ,作者算法進階
人工智能將和電力一樣具有顛覆性 。
——吳恩達
如同蒸汽時代的蒸汽機、電氣時代的發(fā)電機、信息時代的計算機和互聯(lián)網(wǎng),人工智能(AI)正賦能各個產(chǎn)業(yè),推動著人類進入智能時代。
本文從介紹人工智能及主要的思想派系,進一步系統(tǒng)地梳理了其發(fā)展歷程、標志性成果并側(cè)重其算法思想介紹,將這段 60余年幾經(jīng)沉浮的歷史,以一個清晰的脈絡呈現(xiàn)出來,以此展望人工智能(AI)未來的趨勢。
人工智能簡介
1.1 人工智能研究目的
人工智能(Artificial Intelligence,AI)研究目的是通過探索智慧的實質(zhì),擴展人類智能——促使智能主體會聽(語音識別、機器翻譯等)、會看(圖像識別、文字識別等)、會說(語音合成、人機對話等)、會思考(人機對弈、專家系統(tǒng)等)、會學習(知識表示,機器學習等)、會行動(機器人、自動駕駛汽車等)。一個經(jīng)典的AI定義是:“ 智能主體可以理解數(shù)據(jù)及從中學習,并利用知識實現(xiàn)特定目標和任務的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”
1.2 人工智能的學派
在人工智能的發(fā)展過程中,不同時代、學科背景的人對于智慧的理解及其實現(xiàn)方法有著不同的思想主張,并由此衍生了不同的學派,影響較大的學派及其代表方法如下:
其中,符號主義及聯(lián)結(jié)主義為主要的兩大派系:
“符號主義”(Symbolicism),又稱邏輯主義、計算機學派,認為認知就是通過對有意義的表示符號進行推導計算,并將學習視為逆向演繹,主張用顯式的公理和邏輯體系搭建人工智能系統(tǒng)。如用決策樹模型輸入業(yè)務特征預測天氣:
“聯(lián)結(jié)主義”(Connectionism),又叫仿生學派,篤信大腦的逆向工程,主張是利用數(shù)學模型來研究人類認知的方法,用神經(jīng)元的連接機制實現(xiàn)人工智能。如用神經(jīng)網(wǎng)絡模型輸入雷達圖像數(shù)據(jù)預測天氣:
人工智能發(fā)展史
從始至此,人工智能(AI)便在充滿未知的道路探索,曲折起伏,我們可將這段發(fā)展歷程大致劃分為5個階段期:
起步發(fā)展期:1943年—20世紀60年代
反思發(fā)展期:20世紀70年代
應用發(fā)展期:20世紀80年代
平穩(wěn)發(fā)展期:20世紀90年代—2010年
蓬勃發(fā)展期:2011年至今
2.1 起步發(fā)展期:1943年—20世紀60年代
人工智能概念的提出后,發(fā)展出了符號主義、聯(lián)結(jié)主義(神經(jīng)網(wǎng)絡),相繼取得了一批令人矚目的研究成果,如機器定理證明、跳棋程序、人機對話等,掀起人工智能發(fā)展的第一個高潮。
1943年,美國神經(jīng)科學家麥卡洛克(Warren McCulloch)和邏輯學家皮茨(Water Pitts)提出神經(jīng)元的數(shù)學模型,這是現(xiàn)代人工智能學科的奠基石之一。
1950年,艾倫·麥席森·圖靈(Alan Mathison Turing)提出“圖靈測試”(測試機器是否能表現(xiàn)出與人無法區(qū)分的智能),讓機器產(chǎn)生智能這一想法開始進入人們的視野。
1950年,克勞德·香農(nóng)(Claude Shannon)提出計算機博弈。
1956年,達特茅斯學院人工智能夏季研討會上正式使用了人工智能(artificial intelligence,AI)這一術(shù)語。這是人類歷史上第一次人工智能研討,標志著人工智能學科的誕生。
1957年,弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺IBM-704計算機上模擬實現(xiàn)了一種他發(fā)明的叫做“感知機”(Perceptron)的神經(jīng)網(wǎng)絡模型。
感知機可以被視為一種最簡單形式的前饋式人工神經(jīng)網(wǎng)絡,是一種二分類的線性分類判別模型,其輸入為實例的特征向量(x1,x2...),神經(jīng)元的激活函數(shù)f為sign,輸出為實例的類別(+1或者-1),模型的目標是要將輸入實例通過超平面將正負二類分離。
1958年,David Cox提出了logistic regression。
LR是類似于感知機結(jié)構(gòu)的線性分類判別模型,主要不同在于神經(jīng)元的激活函數(shù)f為sigmoid,模型的目標為(最大似然)極大化正確分類概率。
1959年,Arthur Samuel給機器學習了一個明確概念:Field of study that gives computers the ability to learn without being explicitly programmed.(機器學習是研究如何讓計算機不需要顯式的程序也可以具備學習的能力)。
1961年,Leonard Merrick Uhr 和 Charles M Vossler發(fā)表了題目為A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式識別論文,該文章描述了一種利用機器學習或自組織過程設(shè)計的模式識別程序的嘗試。
1965年,古德(I. J. Good)發(fā)表了一篇對人工智能未來可能對人類構(gòu)成威脅的文章,可以算“AI威脅論”的先驅(qū)。他認為機器的超級智能和無法避免的智能爆炸最終將超出人類可控范疇。后來著名科學家霍金、發(fā)明家馬斯克等人對人工智能的恐怖預言跟古德半個世界前的警告遙相呼應。
1966 年,麻省理工學院科學家Joseph Weizenbaum 在 ACM 上發(fā)表了題為《ELIZA-a computer program for the study of natural language communication between man and machine》文章描述了ELIZA 的程序如何使人與計算機在一定程度上進行自然語言對話成為可能,ELIZA 的實現(xiàn)技術(shù)是通過關(guān)鍵詞匹配規(guī)則對輸入進行分解,而后根據(jù)分解規(guī)則所對應的重組規(guī)則來生成回復。
1967年,Thomas等人提出K最近鄰算法(The nearest neighbor algorithm)。
KNN的核心思想,即給定一個訓練數(shù)據(jù)集,對新的輸入實例Xu,在訓練數(shù)據(jù)集中找到與該實例最鄰近的K個實例,以這K個實例的最多數(shù)所屬類別作為新實例Xu的類別。
1968年,愛德華·費根鮑姆(Edward Feigenbaum)提出首個專家系統(tǒng)DENDRAL,并對知識庫給出了初步的定義,這也孕育了后來的第二次人工智能浪潮。該系統(tǒng)具有非常豐富的化學知識,可根據(jù)質(zhì)譜數(shù)據(jù)幫助化學家推斷分子結(jié)構(gòu)。
專家系統(tǒng)(Expert Systems)是AI的一個重要分支,同自然語言理解,機器人學并列為AI的三大研究方向。它的定義是使用人類專家推理的計算機模型來處理現(xiàn)實世界中需要專家作出解釋的復雜問題,并得出與專家相同的結(jié)論,可視作“知識庫(knowledge base)”和“推理機(inference machine)” 的結(jié)合。
1969年,“符號主義”代表人物馬文·明斯基(Marvin Minsky)的著作《感知器》提出對XOR線性不可分的問題:單層感知器無法劃分XOR原數(shù)據(jù),解決這問題需要引入更高維非線性網(wǎng)絡(MLP, 至少需要兩層),但多層網(wǎng)絡并無有效的訓練算法。這些論點給神經(jīng)網(wǎng)絡研究以沉重的打擊,神經(jīng)網(wǎng)絡的研究走向長達10年的低潮時期。
2.2 反思發(fā)展期:20世紀70年代
人工智能發(fā)展初期的突破性進展大大提升了人們對人工智能的期望,人們開始嘗試更具挑戰(zhàn)性的任務,然而計算力及理論等的匱乏使得不切實際目標的落空,人工智能的發(fā)展走入低谷。
1974年,哈佛大學沃伯斯(Paul Werbos)博士論文里,首次提出了通過誤差的反向傳播(BP)來訓練人工神經(jīng)網(wǎng)絡,但在該時期未引起重視。
BP算法的基本思想不是(如感知器那樣)用誤差本身去調(diào)整權(quán)重,而是用誤差的導數(shù)(梯度)調(diào)整。通過誤差的梯度做反向傳播,更新模型權(quán)重, 以下降學習的誤差,擬合學習目標,實現(xiàn)'網(wǎng)絡的萬能近似功能'的過程。
1975年,馬文·明斯基(Marvin Minsky)在論文《知識表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知識表示學習框架理論。
1976年,蘭德爾·戴維斯(Randall Davis)構(gòu)建和維護的大規(guī)模的知識庫,提出使用集成的面向?qū)ο竽P涂梢蕴岣咧R庫(KB)開發(fā)、維護和使用的完整性。
1976年,斯坦福大學的肖特利夫(Edward H. Shortliffe)等人完成了第一個用于血液感染病的診斷、治療和咨詢服務的醫(yī)療專家系統(tǒng)MYCIN。
1976年,斯坦福大學的博士勒納特發(fā)表論文《數(shù)學中發(fā)現(xiàn)的人工智能方法——啟發(fā)式搜索》,描述了一個名為“AM”的程序,在大量啟發(fā)式規(guī)則的指導下開發(fā)新概念數(shù)學,最終重新發(fā)現(xiàn)了數(shù)百個常見的概念和定理。
1977年,海斯·羅思(Hayes. Roth)等人的基于邏輯的機器學習系統(tǒng)取得較大的進展,但只能學習單一概念,也未能投入實際應用。
1979年,漢斯·貝利納(Hans Berliner)打造的計算機程序戰(zhàn)勝雙陸棋世界冠軍成為標志性事件。(隨后,基于行為的機器人學在羅德尼·布魯克斯和薩頓等人的推動下快速發(fā)展,成為人工智能一個重要的發(fā)展分支。格瑞·特索羅等人打造的自我學習雙陸棋程序又為后來的強化學習的發(fā)展奠定了基礎(chǔ)。)
2.3 應用發(fā)展期:20世紀80年代
人工智能走入應用發(fā)展的新高潮。專家系統(tǒng)模擬人類專家的知識和經(jīng)驗解決特定領(lǐng)域的問題,實現(xiàn)了人工智能從理論研究走向?qū)嶋H應用、從一般推理策略探討轉(zhuǎn)向運用專門知識的重大突破。而機器學習(特別是神經(jīng)網(wǎng)絡)探索不同的學習策略和各種學習方法,在大量的實際應用中也開始慢慢復蘇。
1980年,在美國的卡內(nèi)基梅隆大學(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。
1980年,德魯·麥狄蒙(Drew McDermott)和喬恩·多伊爾(Jon Doyle)提出非單調(diào)邏輯,以及后期的機器人系統(tǒng)。
1980年,卡耐基梅隆大學為DEC公司開發(fā)了一個名為XCON的專家系統(tǒng),每年為公司節(jié)省四千萬美元,取得巨大成功。
1981年,保羅(R.P.Paul)出版第一本機器人學課本,“Robot Manipulator:Mathematics,Programmings and Control”,標志著機器人學科走向成熟。
1982年,馬爾(David Marr)發(fā)表代表作《視覺計算理論》提出計算機視覺(Computer Vision)的概念,并構(gòu)建系統(tǒng)的視覺理論,對認知科學(CognitiveScience)也產(chǎn)生了很深遠的影響。
1982年,約翰·霍普菲爾德(John Hopfield) 發(fā)明了霍普菲爾德網(wǎng)絡,這是最早的RNN的雛形?;羝辗茽柕律窠?jīng)網(wǎng)絡模型是一種單層反饋神經(jīng)網(wǎng)絡(神經(jīng)網(wǎng)絡結(jié)構(gòu)主要可分為前饋神經(jīng)網(wǎng)絡、反饋神經(jīng)網(wǎng)絡及圖網(wǎng)絡),從輸出到輸入有反饋連接。它的出現(xiàn)振奮了神經(jīng)網(wǎng)絡領(lǐng)域,在人工智能之機器學習、聯(lián)想記憶、模式識別、優(yōu)化計算、VLSI和光學設(shè)備的并行實現(xiàn)等方面有著廣泛應用。
1983年,Terrence Sejnowski, Hinton等人發(fā)明了玻爾茲曼機(Boltzmann Machines),也稱為隨機霍普菲爾德網(wǎng)絡,它本質(zhì)是一種無監(jiān)督模型,用于對輸入數(shù)據(jù)進行重構(gòu)以提取數(shù)據(jù)特征做預測分析。
1985年,朱迪亞·珀爾提出貝葉斯網(wǎng)絡(Bayesian network),他以倡導人工智能的概率方法和發(fā)展貝葉斯網(wǎng)絡而聞名,還因發(fā)展了一種基于結(jié)構(gòu)模型的因果和反事實推理理論而受到贊譽。
貝葉斯網(wǎng)絡是一種模擬人類推理過程中因果關(guān)系的不確定性處理模型,如常見的樸素貝葉斯分類算法就是貝葉斯網(wǎng)絡最基本的應用。
貝葉斯網(wǎng)絡拓樸結(jié)構(gòu)是一個有向無環(huán)圖(DAG),通過把某個研究系統(tǒng)中涉及的隨機變量,根據(jù)是否條件獨立繪制在一個有向圖中,以描述隨機變量之間的條件依賴,用圈表示隨機變量(random variables),用箭頭表示條件依賴(conditional dependencies)就形成了貝葉斯網(wǎng)絡。對于任意的隨機變量,其聯(lián)合概率可由各自的局部條件概率分布相乘而得出。如圖中b依賴于a(即:a->b),c依賴于a和b,a獨立無依賴,根據(jù)貝葉斯定理有 P(a,b,c) = P(a)*P(b|a)*P(c|a,b)
1986年,羅德尼·布魯克斯(Brooks)發(fā)表論文《移動機器人魯棒分層控制系統(tǒng)》,標志著基于行為的機器人學科的創(chuàng)立,機器人學界開始把注意力投向?qū)嶋H工程主題。
1986年,辛頓(Geoffrey Hinton)等人先后提出了多層感知器(MLP)與反向傳播(BP)訓練相結(jié)合的理念(該方法在當時計算力上還是有很多挑戰(zhàn),基本上都是和鏈式求導的梯度算法相關(guān)的),這也解決了單層感知器不能做非線性分類的問題,開啟了神經(jīng)網(wǎng)絡新一輪的高潮。
1986年,昆蘭(Ross Quinlan)提出ID3決策樹算法。
決策樹模型可視為多個規(guī)則(if, then)的組合,與神經(jīng)網(wǎng)絡黑盒模型截然不同是,它擁有良好的模型解釋性。
ID3算法核心的思想是通過自頂向下的貪心策略構(gòu)建決策樹:根據(jù)信息增益來選擇特征進行劃分(信息增益的含義是 引入屬性A的信息后,數(shù)據(jù)D的不確定性減少程度。也就是信息增益越大,區(qū)分D的能力就越強),依次遞歸地構(gòu)建決策樹。
1989年,George Cybenko證明了“萬能近似定理”(universal approximation theorem)。簡單來說,多層前饋網(wǎng)絡可以近似任意函數(shù),其表達力和圖靈機等價。這就從根本上消除了Minsky對神經(jīng)網(wǎng)絡表達力的質(zhì)疑。
“萬能近似定理”可視為神經(jīng)網(wǎng)絡的基本理論:?個前饋神經(jīng)?絡如果具有線性層和?少?層具有 “擠壓” 性質(zhì)的激活函數(shù)(如 sigmoid 等),給定?絡?夠數(shù)量的隱藏單元,它可以以任意精度來近似任何從?個有限維空間到另?個有限維空間的 borel 可測函數(shù)。
1989年,LeCun (CNN之父) 結(jié)合反向傳播算法與權(quán)值共享的卷積神經(jīng)層發(fā)明了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),并首次將卷積神經(jīng)網(wǎng)絡成功應用到美國郵局的手寫字符識別系統(tǒng)中。
卷積神經(jīng)網(wǎng)絡通常由輸入層、卷積層、池化(Pooling)層和全連接層組成。卷積層負責提取圖像中的局部特征,池化層用來大幅降低參數(shù)量級(降維),全連接層類似傳統(tǒng)神經(jīng)網(wǎng)絡的部分,用來輸出想要的結(jié)果。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。