一文讀懂計算機(jī)視覺和機(jī)器人視覺

作者：時間：2017-10-24 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　計算機(jī)視覺與機(jī)器人視覺有很多的相似之處，兩者的基本理論框架、底層理論、算法等是相似的，但計算機(jī)視覺與機(jī)器人視覺研究的最終目的不同：前者主要研究視覺檢驗(yàn)，精度要求高，速度不是主要考慮的問題；而機(jī)器人視覺主要研究在視覺引導(dǎo)下機(jī)器人對環(huán)境的作用，有實(shí)時性的要求。

本文引用地址：http://2s4d.com/article/201710/367736.htm

　　1.計算機(jī)視覺的概念

　　計算機(jī)視覺就是用各種成像系統(tǒng)代替視覺器官作為輸入敏感手段，由計算機(jī)來代替大腦完成處理和解釋。計算機(jī)視覺的最終研究目標(biāo)就是使計算機(jī)能像人那樣通過視覺觀察和理解世界，具有自主適應(yīng)環(huán)境的能力。但在實(shí)現(xiàn)最終目標(biāo)以前，人們努力的中期目標(biāo)是建立一種視覺系統(tǒng)，這個系統(tǒng)能依據(jù)視覺敏感和反饋的某種程度的智能完成一定的任務(wù)。（這里要指出的一點(diǎn)是在計算機(jī)視覺系統(tǒng)中計算機(jī)起代替人腦的作用，但并不意味著計算機(jī)必須按人類視覺的方法完成視覺信息的處理。計算機(jī)視覺可以而且應(yīng)該根據(jù)計算機(jī)系統(tǒng)的特點(diǎn)來進(jìn)行視覺信息的處理、指導(dǎo)。）

　　2.計算機(jī)視覺的發(fā)展

　　視覺研究是在Roberts之前都是基于二維的，而且多數(shù)是采用模式識別的方法完成分類工作的。Roberts首先用程序成功地對三維積木世界進(jìn)行解釋，在之后類似的研究中，Huffman。Clowes以及Waltz等人對積木世界進(jìn)行了研究并分別解決了由線段解釋景物和處理陰影等問題。積木世界的研究反映了視覺早期研究中的一些特點(diǎn)，即從簡化的世界出發(fā)進(jìn)行研究。這些工作對視覺研究的發(fā)展起了促進(jìn)作用，但對于稍微復(fù)雜的景物便難以奏效。

　　20世紀(jì)70 年代中期，以Marr，Barrow和Tenebaum等人為代表的一些研究者提出了一整套視覺計算的理論來描述視覺過程，其核心是從圖像恢復(fù)物體的三維形狀。在視覺研究的理論上，以Marr的理論影響最為深遠(yuǎn)。其理論強(qiáng)調(diào)表示的重要性，提出要從不同層次去研究信息處理的問題。對于計算理論和算法實(shí)現(xiàn)，他又特別強(qiáng)調(diào)計算理論的重要性。這一框架雖然在細(xì)節(jié)上甚至在主導(dǎo)思想上還存在不完備的方面，許多方面還有很多爭議，但至今仍是目前計算機(jī)視覺研究的基本框架。

　　進(jìn)入80年代中后期，隨著移動式機(jī)器人等的研究，視覺研究與之密切結(jié)合，大量引入了空間幾何的方法以及物理知識，其主要目標(biāo)是實(shí)現(xiàn)對道路和障礙的識別處理。這一時期引入主動視覺的研究方法，使用了距離傳感器，并采用了多傳感器融合等技術(shù)。

　　3.計算機(jī)視覺研究存在的問題

　　世界各國的研究者們按照Marr提出的基本理論框架，對計算機(jī)視覺系統(tǒng)的各個研究層次進(jìn)行了大量的研究，并提出了相應(yīng)的解決方法，但總的來講，這些方法都存在著一些問題，或缺乏通用性，或抗干擾能力差，或存在多解性，其原因如下：一是計算機(jī)視覺是一個逆問題，即輸入圖像為二維圖像的灰度，它是三維物體幾何特征、光照、物體材料表面性質(zhì)、物體的顏色、攝像機(jī)參數(shù)等許多因素的函數(shù)。由灰度反推以上各種參數(shù)是逆問題，而這些問題大都是非線形的，問題的解不具有唯一性，而且對噪聲或離散化引起的誤差都極其敏感；另一個原因是Marr的視覺系統(tǒng)框架是一個自上而下的、模塊的、單向的、數(shù)據(jù)驅(qū)動型的結(jié)構(gòu)。神經(jīng)生理學(xué)的深入研究表明，這種結(jié)構(gòu)與人的視覺系統(tǒng)還有很大差距，生物視覺系統(tǒng)的認(rèn)知過程是一種與外界交互作用的有目的、主動性過程，而不僅僅是一種被動式的反應(yīng)。

　　4.機(jī)器人視覺的概念

　　機(jī)器人視覺系統(tǒng)是指用計算機(jī)來實(shí)現(xiàn)人的視覺功能，也就是用計算機(jī)來實(shí)現(xiàn)對客觀的三維世界的識別。2.機(jī)器人視覺主要研究用計算機(jī)來模擬人的視覺功能從客觀事物的圖像中提取信息，進(jìn)行處理并加以理解，最終用于實(shí)際檢測、測量和控制。

　　人類視覺系統(tǒng)的感受部分是視網(wǎng)膜，它是一個三維采樣系統(tǒng)。三維物體的可見部分投影到視網(wǎng)膜上，人們按照投影到視網(wǎng)膜上的二維成像來對該物體進(jìn)行三維理解。如果把三維客觀世界到二維投影像看作是一種正變換的話，則機(jī)器視覺系統(tǒng)所要做的是從這種二維投影圖像（灰度陣列）到三維客觀世界的逆變換，也就是根據(jù)這種二維投影圖像去重建三維的客觀世界。

　　5.機(jī)器人視覺的發(fā)展

　　機(jī)器人視覺系統(tǒng)按其發(fā)展可分為三代。第一代機(jī)器人視覺的功能一般是按規(guī)定流程對圖像進(jìn)行處理并輸出結(jié)果。這種系統(tǒng)一般由普通數(shù)字電路搭成，主要用于平板材料的缺陷檢測。第二代機(jī)器人視覺系統(tǒng)一般由一臺計算機(jī)，一個圖像輸入設(shè)備和結(jié)果輸出硬件構(gòu)成。視覺信息在機(jī)內(nèi)以串行方式流動，有一定學(xué)習(xí)能力以適應(yīng)各種新情況。第三代機(jī)器人視覺系統(tǒng)是目前國際上正在開發(fā)使用的系統(tǒng)。采用高速圖像處理芯片，并行算法，具有高度的智能和普通的適應(yīng)性，能模擬人的高度視覺功能。

　　6.計算機(jī)視覺和機(jī)器人視覺的比較

　　計算機(jī)視覺與機(jī)器人視覺有很多的相似之處，兩者的基本理論框架、底層理論、算法等是相似的，但計算機(jī)視覺與機(jī)器人視覺研究的最終目的不同：前者主要研究視覺檢驗(yàn)，精度要求高，速度不是主要考慮的問題；而機(jī)器人視覺主要研究在視覺引導(dǎo)下機(jī)器人對環(huán)境的作用，有實(shí)時性的要求。因此機(jī)器人視覺研究存在更多的困難。

　　7.機(jī)器人視覺系統(tǒng)的方法（本文略）

　　8.機(jī)器人視覺國內(nèi)外的應(yīng)用

　　國外機(jī)器視覺系統(tǒng)應(yīng)用于很多方面，如用于海洋石油開采，海底勘查的水下機(jī)器人；用于醫(yī)療外科手術(shù)及研究的醫(yī)用機(jī)器人；幫助人類了解宇宙的空間機(jī)器人；完成特殊任務(wù)的核工業(yè)機(jī)器人等。雖然我國在機(jī)器視覺方面的發(fā)展與世界先進(jìn)水平相比還有一定差距，但機(jī)器視覺系統(tǒng)的研制工作也取得了一定的成果。我國視覺機(jī)器人應(yīng)用主要有以下目的：用以代替人類從事危險、有害和惡劣環(huán)境、超凈環(huán)境下的工作；把人從骯臟、繁重的勞動中解放出來；提高勞動生產(chǎn)率，改善產(chǎn)品質(zhì)量，快速響應(yīng)市場要求，加強(qiáng)在國際市場的競爭能力。

　　9.機(jī)器人視覺目前存在的主要問題

　　目前的機(jī)器人視覺存在以下一些問題：

　　1.如何準(zhǔn)確、高速（實(shí)時）地識別出目標(biāo)。

　　2.如何有效地構(gòu)造和組織出可靠的識別算法，并且順利地實(shí)現(xiàn)。這期待著高速的陣列處理單元，以及算法（如神經(jīng)網(wǎng)絡(luò)法、小波變換等算法）的新突破，這樣就可以用極少的計算量高度地并行實(shí)現(xiàn)功能。

　　3.實(shí)時性是一個難以解決的重要問題。圖像采集速度較低以及圖像處理需要較長時間給系統(tǒng)帶來明顯的時滯，此外視覺信息的引入也明顯增大了系統(tǒng)的計算量，例如計算圖像雅可比矩陣、估計深度信息等等。圖像處理速度是影響視覺系統(tǒng)實(shí)時性的主要瓶頸之一。

　　4.穩(wěn)定性是所有控制系統(tǒng)首先考慮的問題，對于視覺控制系統(tǒng)，無論是基于位置、基于圖像或者混合的視覺伺服方法都面臨著如下問題：當(dāng)初始點(diǎn)遠(yuǎn)離目標(biāo)點(diǎn)時，如何保證系統(tǒng)的穩(wěn)定性，即增大穩(wěn)定區(qū)域和保證全局收斂；為了避免伺服失敗，如何保證特征點(diǎn)始終處在視場內(nèi)。

　　10.機(jī)器人視覺應(yīng)當(dāng)進(jìn)一步研究的問題

　　根據(jù)目前情況，機(jī)器人視覺應(yīng)在以下幾個方面進(jìn)一步加強(qiáng)研究：

　　1.圖像特征的選擇問題。視覺伺服的性能密切依賴于所用的圖像特征，特征的選擇不僅要考慮識別的指標(biāo)，還要考慮控制指標(biāo)。從控制的觀點(diǎn)看，用冗余特征可抑制噪聲的影響，提高視覺伺服的性能，但又會給圖像處理增加難度。因此如何選擇性能最優(yōu)的特征，如何處理特征以及如何評價特征，都是需要進(jìn)一步研究的問題。針對任務(wù)有時可能需要從一套特征切換到另一套，可以考慮把全局特征與局部特征結(jié)合起來。

　　2.結(jié)合計算機(jī)視覺及圖像處理的研究成果，建立機(jī)器人視覺系統(tǒng)的專用軟件庫。

　　3.加強(qiáng)系統(tǒng)的動態(tài)性能研究。目前的研究多集中于根據(jù)圖像信息確定期望的機(jī)器人運(yùn)動這一環(huán)節(jié)上，而對整個視覺伺服系統(tǒng)的動態(tài)性能缺乏研究。

　　4.利用智能技術(shù)的成果。

　　5.利用主動視覺的成果。主動視覺是當(dāng)今計算機(jī)視覺和機(jī)器人視覺研究領(lǐng)域中的一個熱門課題。它強(qiáng)調(diào)的是視覺系統(tǒng)與其所處環(huán)境之間的交互作用能力。與傳統(tǒng)的通用視覺不同，主動視覺強(qiáng)調(diào)兩點(diǎn)，一是認(rèn)為視覺系統(tǒng)應(yīng)具有主動感知的能力，二是認(rèn)為視覺系統(tǒng)應(yīng)基于一定的任務(wù)（TaskDirected）或目的（PurposiveDirected）。主動視覺認(rèn)為在視覺信息獲取過程中，應(yīng)更主動地調(diào)整攝像機(jī)的參數(shù)，如方向、焦距、孔徑等并能使攝像機(jī)迅速對準(zhǔn)感興趣的物體。更一般地，它強(qiáng)調(diào)注視機(jī)制（AttenTIon），強(qiáng)調(diào)對分布于不同空間范圍和時間段上的信號采用不同的分辨率有選擇性地感知，這種主動感知既可在硬件層上通過攝像機(jī)物理參數(shù)的調(diào)整實(shí)現(xiàn)，也可以在基于被動攝像機(jī)的前提下，在算法和表示層上通過對已獲得的數(shù)據(jù)有選擇性地處理實(shí)現(xiàn)。同時，主動視覺認(rèn)為不基于任何目的的視覺過程是毫無意義的，必須將視覺系統(tǒng)與具有的目的（如導(dǎo)航、識別、操作等）相聯(lián)系，從而形成感知／作用環(huán)（PercepTIon／AcTIonCycle）。

　　6.多傳感器融合問題。視覺傳感器具有一定的使用范圍，如能有效地結(jié)合其它傳感器，利用它們之間性能互補(bǔ)的優(yōu)勢，便可以消除不確定性，取得更加可靠、準(zhǔn)確的結(jié)果。

新聞中心

一文讀懂計算機(jī)視覺和機(jī)器人視覺

評論

相關(guān)推薦

技術(shù)專區(qū)