新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 機器視覺的來源與發(fā)展

機器視覺的來源與發(fā)展

作者: 時間:2022-05-11 來源:網(wǎng)絡 收藏

  視覺是人類強大的感知方式,它為人們提供了關(guān)于周圍環(huán)境的大量信息,使人們能有效地與周圍環(huán)境進行交互。據(jù)統(tǒng)計,人類從外界接收的各種信息中80%以上是通過視覺獲得的,人類有50%的大腦皮層參與視覺功能運轉(zhuǎn)。

本文引用地址:http://2s4d.com/article/202205/433941.htm

  關(guān)于視覺有很多有趣的發(fā)現(xiàn),比如螳螂蝦的眼睛能探測到偏振光。人眼以及普通相機只能感受到光的強度信息而不能探測到光的偏振信息。澳大利亞昆士蘭大學的研究人員發(fā)現(xiàn),螳螂蝦的復眼(見圖1-2)能探測到偏振光。根據(jù)生物醫(yī)學及光學方面的理論知識,生物組織特性與偏振信息有關(guān),所以螳螂蝦的眼睛是能夠“診斷”出生物組織的病變的。此外,蜻蜓等昆蟲具有復眼結(jié)構(gòu)(見圖1-3),蜘蛛有很多只眼睛,青蛙的眼睛只能看到動態(tài)場景,狗對色彩信息的分辨能力極低。

圖1-2螳螂蝦的眼睛

圖1-3蜻蜓的眼睛

  那么,介紹完生物的視覺功能之后,什么是呢?

  是機器(通常指數(shù)字計算機)圖像進行自動處理并報告“圖像是什么”的過程,也就是說它用于識別圖像中的內(nèi)容,比如自動目標識別。

  一般以計算機為中心,主要由視覺傳感器、高速圖像采集系統(tǒng)及專用圖像處理系統(tǒng)等模塊組成。

  根據(jù)David A.Forsyth和Jean Ponce的定義,計算機視覺是借助于幾何、物理和學習理論來建立模型,從而使用統(tǒng)計方法來處理數(shù)據(jù)的工作。它是指在透徹理解相機性能與物理成像過程的基礎上,通過對每個像素值進行簡單的推理,將多幅圖像中可能得到的信息綜合成相互關(guān)聯(lián)的整體,確定像素之間的聯(lián)系以便將它們彼此分割開,或推斷一些形狀信息,進而使用幾何信息或概率統(tǒng)計計數(shù)來識別物體。

  從系統(tǒng)的輸入輸出方式考慮,機器視覺系統(tǒng)的輸入是圖像或者圖像序列,輸出是一個描述。進一步講,機器視覺由兩部分組成:特征度量與基于這些特征的模式識別。

  機器視覺與圖像處理是有區(qū)別的。圖像處理的目的是使圖像經(jīng)過處理后變得更好,圖像處理系統(tǒng)的輸出仍然是一幅圖像,而機器視覺系統(tǒng)的輸出是與圖像內(nèi)容有關(guān)的信息。圖像處理可分為低級圖像處理、中級圖像處理和高級圖像處理,處理內(nèi)容包含圖像增強、圖像編碼、圖像壓縮、圖像復原與重構(gòu)等。

  01機器視覺的發(fā)展

  圖1-4所示為20世紀70年代至今機器視覺發(fā)展過程中的部分主題,包括機器視覺發(fā)展初期(20世紀70年代)的數(shù)字圖像處理和積木世界,20世紀80年代的卡爾曼濾波、正則化,20世紀90年代的圖像分割、基于統(tǒng)計學的圖像處理以及21世紀計算攝像學與機器視覺中的深度學習等。

圖1-4機器視覺發(fā)展過程中的部分主題

  1.20世紀70年代

  機器視覺始于20世紀70年代早期,它被視為模擬人類智能并賦予機器人智能行為的感知組成部分。當時,人工智能和機器人的一些早期研究者(如麻省理工大學、斯坦福大學、卡內(nèi)基·梅隆大學的研究者)認為,在解決高層次推理和規(guī)劃等更困難問題的過程中,解決“視覺輸入”問題應該是一個簡單的步驟。比如,1966年,麻省理工大學的Marvin Minsky讓他的本科生Gerald Jay Sussman在暑期將相機連接到計算機上,讓計算機來描述它所看到的東西?,F(xiàn)在,大家知道這些看似簡單的問題其實并不容易解決。

  數(shù)字圖像處理出現(xiàn)在20世紀60年代。與已經(jīng)存在的數(shù)字圖像處理領(lǐng)域不同的是,機器視覺期望從圖像中恢復出實物的三維結(jié)構(gòu)并以此得出完整的場景理解。場景理解的早期嘗試包括物體(即“積木世界”)的邊緣抽取及隨后的從二維線條的拓撲結(jié)構(gòu)推斷其三維結(jié)構(gòu)。當時有學者提出了一些線條標注算法,此外,邊緣檢測也是一個活躍的研究領(lǐng)域。

  20世紀70年代,人們還對物體的三維建模進行了研究。Barrow、Tenenbaum與Marr提出了一種理解亮度和陰影變化的方法,并通過表面朝向和陰影等恢復三維結(jié)構(gòu)。那時也出現(xiàn)了一些更定量化的機器視覺方法,包括基于特征的立體視覺對應(stereo correspondence)算法和基于亮度的光流(optica lflow)算法,同時,關(guān)于恢復三維結(jié)構(gòu)和相機運動的研究工作也開始出現(xiàn)。

  另外,David Marr特別介紹了其關(guān)于(視覺)信息處理系統(tǒng)表達的三個層次:

  1)計算理論:計算(任務)的目的是什么?針對該問題已知或可以施加的約束是什么?

 ?。玻┍磉_和算法:輸入、輸出和中間信息是如何表達的?使用哪些算法來計算所期望的結(jié)果?

  3)硬件實現(xiàn):表達和算法是如何映射到實際硬件即生物視覺系統(tǒng)或特殊的硅片上的?相反地,硬件的約束怎樣才能用于指導表達和算法的選擇?隨著機器視覺對芯片計算能力需求的日益增長,這個問題再次變得相當重要。

  2.20世紀80年代

  20世紀80年代,圖像金字塔和尺度空間開始廣泛用于由粗到精的對應點搜索在80年代后期,在一些應用中小波變換開始取代圖像金字塔。

  三維視覺重建中出現(xiàn)“由X到形狀”的方法,包括由陰影到形狀、由光度立體視覺到形狀、由紋理到形狀及由聚焦到形狀。這一時期,探尋更準確的邊緣和輪廓檢測方法是一個活躍的研究領(lǐng)域,其中包括動態(tài)演化輪廓跟蹤器的引入例如Snake模型。立體視覺、光流、由X到形狀及邊緣檢測算法如果作為變分優(yōu)化問題來處理,可以用相同的數(shù)學框架來統(tǒng)一來描述,而且可以使用正則化方法增加魯棒性。此外,卡爾曼濾波和三維距離數(shù)據(jù)世紀90年代(range data)處理仍然是這十年很活躍的研究領(lǐng)域。

  3.20世紀90年代

  20世紀90年代,視覺的發(fā)展情況如下:

 ?。保╆P(guān)于在識別中使用投影不變量的研究呈現(xiàn)爆發(fā)式增長,這種方法可有效用于從運動到結(jié)構(gòu)的問題。最初很多研究是針對投影重建問題的,它不需要相機標定的結(jié)果。與此同時,有人提出了用因子分解方法來高效地解決近似正交投影的問題,后來這種方法擴展到了透視投影的情況。該領(lǐng)域開始使用全局優(yōu)化方法,后來被認為與攝影測量學中常用的“光束平差法”相關(guān)。

 ?。玻┏霈F(xiàn)了使用顏色和亮度的精細測量,并將其與精確的輻射傳輸和形成彩色圖像的物理模型相結(jié)合。這方面的工作始于20世紀80年代,構(gòu)成了一個稱作“基于物理的視覺(physics-based visio)”的子領(lǐng)域。

 ?。常┕饬鞣椒ǖ玫搅瞬粩嗟母倪M。

 ?。矗┰诔砻芰Ⅲw視覺對應算法方面也取得了很多進展。其中最大的突破可能就是使用“圖割(graph cut)”方法的全局優(yōu)化算法。

 ?。担┛梢援a(chǎn)生完整三維表面的多視角立體視覺算法。

 ?。叮└櫵惴ㄒ驳玫搅撕芏喔倪M,包括使用“活動輪廓”方法的輪廓跟蹤(例如蛇形、粒子濾波和水平集方法)和基于亮度的跟蹤。

 ?。罚┙y(tǒng)計學習方法開始流行起來,如應用于人臉識別的主成分分析。

  3.21世紀

  21世紀,計算機視覺與計算機圖形學之間的交叉越來越明顯,特別是在基于圖像的建模和繪制這個交叉領(lǐng)域。另外,計算攝像學發(fā)揮越來越重要的作用,包括光場獲取和繪制以及通過多曝光實現(xiàn)的高動態(tài)范圍成像。目標識別中基于特征的方法(與學習方法相結(jié)合)日益凸顯,更高效的復雜全局優(yōu)化問題求解算法也得到了發(fā)展。

  最后一個趨勢是復雜的機器學習方法在計算機視覺中的應用,尤其是近幾年,基于深度學習的機器學習方法在圖像與視頻等方面中的關(guān)于目標檢測、跟蹤、理解等領(lǐng)域的應用。

  02機器視覺與其他領(lǐng)域的關(guān)系

  機器視覺屬于交叉學科,它與眾多領(lǐng)域都有關(guān)聯(lián),尤其是機器視覺與計算機視覺之間的關(guān)系,有的學者認為二者一樣,有的則認為二者存在差別,圖1-5顯示了機器視覺與其他領(lǐng)域的關(guān)系圖,包括計算機視覺、圖像處理、人工智能、機器人控制、信號處理、成像等。人工智能、機器人控制等概念在相關(guān)學科中都有比較明確的定義。成像是表示或重構(gòu)客觀物體形狀及相關(guān)信息的學科。

圖1-5機器視覺與其他領(lǐng)域關(guān)系

  圖像處理主要是基于已有圖像生成一張新的圖像,可以通過噪聲抑制、去模糊、邊緣增強等處理來實現(xiàn)。模式識別的主要任務是對模式進行分類。機器視覺的核心問題是從一張或多張圖像生成一個符號描述。計算機視覺與計算機圖形學是相互關(guān)聯(lián)而又互逆的過程。計算機圖形學的目的是真實或非真實地呈現(xiàn)一些場景,即通過虛擬建模等方式對得到的場景進行處理,然后使用計算機進行呈現(xiàn);而計算機視覺是為了得到真實場景的信息通過采集圖像進行處理。



關(guān)鍵詞: 機器視覺

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉