什么是圖像識(shí)別?圖像識(shí)別是如何實(shí)現(xiàn)的?
當(dāng)我們看到一個(gè)東西,大腦會(huì)迅速判斷是不是見(jiàn)過(guò)這個(gè)東西或者類(lèi)似的東西。這個(gè)過(guò)程有點(diǎn)兒像搜索,我們把看到的東西和記憶中相同或相類(lèi)的東西進(jìn)行匹配,從而識(shí)別它。機(jī)器的圖像識(shí)別也是類(lèi)似的,通過(guò)分類(lèi)并提取重要特征而排除多余的信息來(lái)識(shí)別圖像。
本文引用地址:http://2s4d.com/article/202008/417486.htm歸根結(jié)底,機(jī)器的圖像識(shí)別和人類(lèi)的圖像識(shí)別原理相近,過(guò)程也大同小異。只是技術(shù)的進(jìn)步讓機(jī)器不但能像人類(lèi)一樣認(rèn)花認(rèn)草認(rèn)物認(rèn)人,還開(kāi)始擁有超越人類(lèi)的識(shí)別能力。
圖像識(shí)別概述
圖像識(shí)別是人工智能的一個(gè)重要領(lǐng)域,是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)像的技術(shù),并對(duì)質(zhì)量不佳的圖像進(jìn)行一系列的增強(qiáng)與重建技術(shù)手段,從而有效改善圖像質(zhì)量。
今天所指的圖像識(shí)別并不僅僅是用人類(lèi)的肉眼,而是借助計(jì)算機(jī)技術(shù)進(jìn)行識(shí)別。雖然人類(lèi)的識(shí)別能力很強(qiáng)大,但是對(duì)于高速發(fā)展的社會(huì),人類(lèi)自身識(shí)別能力已經(jīng)滿足不了我們的需求,于是就產(chǎn)生了基于計(jì)算機(jī)的圖像識(shí)別技術(shù)。
這就像人類(lèi)研究生物細(xì)胞,完全靠肉眼觀察細(xì)胞是不現(xiàn)實(shí)的,這樣自然就產(chǎn)生了顯微鏡等用于精確觀測(cè)的儀器。通常一個(gè)領(lǐng)域有固有技術(shù)無(wú)法解決的需求時(shí),就會(huì)產(chǎn)生相應(yīng)的新技術(shù)。圖像識(shí)別技術(shù)也是如此,此技術(shù)的產(chǎn)生就是為了讓計(jì)算機(jī)代替人類(lèi)去處理大量的物理信息,解決人類(lèi)無(wú)法識(shí)別或者識(shí)別率特別低的信息。
一般工業(yè)使用中,采用工業(yè)相機(jī)拍攝圖片,然后再利用軟件根據(jù)圖片灰階差做進(jìn)一步識(shí)別處理。隨著計(jì)算機(jī)及信息技術(shù)的迅速發(fā)展,圖像識(shí)別技術(shù)的應(yīng)用逐漸擴(kuò)大到諸多領(lǐng)域,尤其是在面部及指紋識(shí)別、衛(wèi)星云圖識(shí)別及臨床醫(yī)療診斷等多個(gè)領(lǐng)域日益發(fā)揮著重要作用。
通常圖像識(shí)別技術(shù)主要是指采用計(jì)算機(jī)按照既定目標(biāo)對(duì)捕獲的系統(tǒng)前端圖片進(jìn)行處理,在日常生活中圖像識(shí)別技術(shù)的應(yīng)用也十分普遍,比如車(chē)牌捕捉、商品條碼識(shí)別及手寫(xiě)識(shí)別等。隨著該技術(shù)的逐漸發(fā)展并不斷完善,未來(lái)將具有更加廣泛的應(yīng)用領(lǐng)域。
圖像識(shí)別以開(kāi)放API(Application Programming Interface,應(yīng)用程序編程接口)的方式提供給用戶(hù),用戶(hù)通過(guò)實(shí)時(shí)訪問(wèn)和調(diào)用API獲取推理結(jié)果,幫助用戶(hù)自動(dòng)采集關(guān)鍵數(shù)據(jù),打造智能化業(yè)務(wù)系統(tǒng),提升業(yè)務(wù)效率。
圖像識(shí)別原理
圖像識(shí)別的發(fā)展經(jīng)歷了三個(gè)階段:文字識(shí)別、數(shù)字圖像處理與識(shí)別、物體識(shí)別。
· 文字識(shí)別的研究是從 1950年開(kāi)始的,一般是識(shí)別字母、數(shù)字和符號(hào),從印刷文字識(shí)別到手寫(xiě)文字識(shí)別,應(yīng)用非常廣泛。
· 數(shù)字圖像處理和識(shí)別的研究開(kāi)始于1965年。數(shù)字圖像與模擬圖像相比具有存儲(chǔ),傳輸方便可壓縮、傳輸過(guò)程中不易失真、處理方便等巨大優(yōu)勢(shì),這些都為圖像識(shí)別技術(shù)的發(fā)展提供了強(qiáng)大的動(dòng)力。
· 物體的識(shí)別主要指的是對(duì)三維世界的客體及環(huán)境的感知和認(rèn)識(shí),屬于高級(jí)的計(jì)算機(jī)視覺(jué)范疇。它是以數(shù)字圖像處理與識(shí)別為基礎(chǔ)的結(jié)合人工智能、系統(tǒng)學(xué)等學(xué)科的研究方向,其研究成果被廣泛應(yīng)用在各種工業(yè)及探測(cè)機(jī)器人上。
圖像識(shí)別原理主要是需處理具有一定復(fù)雜性的信息,處理技術(shù)并不是隨意出現(xiàn)在計(jì)算機(jī)中,結(jié)合計(jì)算機(jī)程序?qū)ο嚓P(guān)內(nèi)容模擬并予以實(shí)現(xiàn)。圖像識(shí)別的過(guò)程歸納起來(lái)主要包括4個(gè)步驟:
· 獲取信息:主要是指將聲音和光等信息通過(guò)傳感器向電信號(hào)轉(zhuǎn)換,也就是對(duì)識(shí)別對(duì)象的基本信息進(jìn)行獲取,并將其向計(jì)算機(jī)可識(shí)別的信息轉(zhuǎn)換。
· 信息預(yù)處理:主要是指采用去噪、變換及平滑等操作對(duì)圖像進(jìn)行處理,基于此使圖像的重要特點(diǎn)提高。
· 抽取及選擇特征:主要是指在模式識(shí)別中,抽取及選擇圖像特征,概括而言就是識(shí)別圖像具有種類(lèi)多樣的特點(diǎn),如采用一定方式分離,就要識(shí)別圖像的特征,獲取特征也被稱(chēng)為特征抽??;在特征抽取中所得到的特征也許對(duì)此次識(shí)別并不都是有用的,這個(gè)時(shí)候就要提取有用的特征,這就是特征的選擇。特征抽取和選擇在圖像識(shí)別過(guò)程中是非常關(guān)鍵的技術(shù)之一,所以對(duì)這一步的理解是圖像識(shí)別的重點(diǎn)。
· 設(shè)計(jì)分類(lèi)器及分類(lèi)決策:其中設(shè)計(jì)分類(lèi)器就是根據(jù)訓(xùn)練對(duì)識(shí)別規(guī)則進(jìn)行制定,基于此識(shí)別規(guī)則能夠得到特征的主要種類(lèi),進(jìn)而使圖像識(shí)別的不斷提高辨識(shí)率,此后再通過(guò)識(shí)別特殊特征,最終實(shí)現(xiàn)對(duì)圖像的評(píng)價(jià)和確認(rèn)。
在計(jì)算機(jī)進(jìn)行的圖像識(shí)別中,計(jì)算機(jī)首先就能夠完成圖像分類(lèi)并選出重要信息、排除冗余信息,根據(jù)這一分類(lèi)計(jì)算機(jī)就能夠結(jié)合自身記憶存儲(chǔ)結(jié)合相關(guān)要求進(jìn)行圖像的識(shí)別,這一過(guò)程本身與人腦識(shí)別圖像并不存在著本質(zhì)差別。對(duì)于圖像識(shí)別技術(shù)來(lái)說(shuō),其本身提取出的圖像特征直接關(guān)系著圖像識(shí)別能否取得較為滿意的結(jié)果。
值得注意的是,由于計(jì)算機(jī)歸根結(jié)底不同于人類(lèi)的大腦,所以計(jì)算機(jī)提取出的圖像特征存在著不穩(wěn)定性,這種不穩(wěn)定性往往會(huì)因?yàn)橛?jì)算機(jī)提取圖像特征的明顯與普通影響圖像識(shí)別的效率與準(zhǔn)確性,由此可見(jiàn)圖像特征對(duì)于AI中圖像識(shí)別技術(shù)的重要意義。
圖像識(shí)別技術(shù)
計(jì)算機(jī)的圖像識(shí)別技術(shù)就是模擬人類(lèi)的圖像識(shí)別過(guò)程,在圖像識(shí)別的過(guò)程中進(jìn)行模式識(shí)別是必不可少的。簡(jiǎn)單地說(shuō),計(jì)算機(jī)的模式識(shí)別就是對(duì)數(shù)據(jù)進(jìn)行分類(lèi),它是一門(mén)與數(shù)學(xué)緊密結(jié)合的科學(xué),其中所用的思想大部分是概率與統(tǒng)計(jì)。模式識(shí)別主要分為三種:統(tǒng)計(jì)模式識(shí)別、句法模式識(shí)別、模糊模式識(shí)別。
對(duì)于當(dāng)下AI+時(shí)代的圖像識(shí)別技術(shù)來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別與非線性降維的圖像識(shí)別是最為常見(jiàn)的兩種圖像識(shí)別技術(shù)。
基于神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別:
神經(jīng)網(wǎng)絡(luò)圖像識(shí)別技術(shù)是一種比較新型的圖像識(shí)別技術(shù),是在傳統(tǒng)的圖像識(shí)別方法和基礎(chǔ)上融合神經(jīng)網(wǎng)絡(luò)算法的一種圖像識(shí)別方法。這里的神經(jīng)網(wǎng)絡(luò)是指人工神經(jīng)網(wǎng)絡(luò),也就是說(shuō)這種神經(jīng)網(wǎng)絡(luò)并不是動(dòng)物本身所具有的真正的神經(jīng)網(wǎng)絡(luò),而是人類(lèi)模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)后人工生成的。在神經(jīng)網(wǎng)絡(luò)圖像識(shí)別技術(shù)中,遺傳算法與BP網(wǎng)絡(luò)相融合的神經(jīng)網(wǎng)絡(luò)圖像識(shí)別模型是非常經(jīng)典的,在很多領(lǐng)域都有它的應(yīng)用。
在圖像識(shí)別系統(tǒng)中利用神經(jīng)網(wǎng)絡(luò)系統(tǒng),一般會(huì)先提取圖像的特征,再利用圖像所具有的特征映射到神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別分類(lèi)。以汽車(chē)拍照自動(dòng)識(shí)別技術(shù)為例,當(dāng)汽車(chē)通過(guò)的時(shí)候,汽車(chē)自身具有的檢測(cè)設(shè)備會(huì)有所感應(yīng)。此時(shí)檢測(cè)設(shè)備就會(huì)啟用圖像采集裝置來(lái)獲取汽車(chē)正反面的圖像。獲取了圖像后必須將圖像上傳到計(jì)算機(jī)進(jìn)行保存以便識(shí)別。最后車(chē)牌定位模塊就會(huì)提取車(chē)牌信息,對(duì)車(chē)牌上的字符進(jìn)行識(shí)別并顯示最終的結(jié)果。在對(duì)車(chē)牌上的字符進(jìn)行識(shí)別的過(guò)程中就用到了基于模板匹配算法和基于人工神經(jīng)網(wǎng)絡(luò)算法。
基于非線性降維的圖像識(shí)別:
計(jì)算機(jī)的圖像識(shí)別技術(shù)是一個(gè)異常高維的識(shí)別技術(shù)。不管圖像本身的分辨率如何,其產(chǎn)生的數(shù)據(jù)經(jīng)常是多維性的,這給計(jì)算機(jī)的識(shí)別帶來(lái)了非常大的困難。想讓計(jì)算機(jī)具有高效地識(shí)別能力,最直接有效的方法就是降維。降維分為線性降維和非線性降維。例如主成分分析(PCA)和線性奇異分析(LDA)等就是常見(jiàn)的線性降維方法,它們的特點(diǎn)是簡(jiǎn)單、易于理解。但是通過(guò)線性降維處理的是整體的數(shù)據(jù)集合,所求的是整個(gè)數(shù)據(jù)集合的最優(yōu)低維投影。
經(jīng)過(guò)驗(yàn)證,這種線性的降維策略計(jì)算復(fù)雜度高而且占用相對(duì)較多的時(shí)間和空間,因此就產(chǎn)生了基于非線性降維的圖像識(shí)別技術(shù),它是一種極其有效的非線性特征提取方法。此技術(shù)可以發(fā)現(xiàn)圖像的非線性結(jié)構(gòu)而且可以在不破壞其本征結(jié)構(gòu)的基礎(chǔ)上對(duì)其進(jìn)行降維,使計(jì)算機(jī)的圖像識(shí)別在盡量低的維度上進(jìn)行,這樣就提高了識(shí)別速率。例如人臉圖像識(shí)別系統(tǒng)所需的維數(shù)通常很高,其復(fù)雜度之高對(duì)計(jì)算機(jī)來(lái)說(shuō)無(wú)疑是巨大的“災(zāi)難”。由于在高維度空間中人臉圖像的不均勻分布,使得人類(lèi)可以通過(guò)非線性降維技術(shù)來(lái)得到分布緊湊的人臉圖像,從而提高人臉識(shí)別技術(shù)的高效性。
在AI領(lǐng)域之中,圖像識(shí)別技術(shù)占據(jù)著極為重要的地位,而隨著計(jì)算機(jī)技術(shù)與信息技術(shù)的不斷發(fā)展,AI中的圖像識(shí)別技術(shù)的應(yīng)用范圍不斷擴(kuò)展:IBM的Watson醫(yī)療診斷、各種指紋識(shí)別、及常用的支付寶的面部識(shí)別以及百度地圖中全景衛(wèi)星云圖識(shí)別等都屬于這一應(yīng)用的典型,AI這一技術(shù)已經(jīng)應(yīng)用于日常生活之中,圖像識(shí)別技術(shù)將來(lái)定會(huì)有著較為廣泛的運(yùn)用。
圖像識(shí)別的應(yīng)用
移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)以及社交網(wǎng)絡(luò)的發(fā)展帶來(lái)了海量圖片信息,不受地域和語(yǔ)言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達(dá)意的主要媒介。但伴隨著圖片成為互聯(lián)網(wǎng)中的主要信息載體,難題隨之出現(xiàn)。
當(dāng)信息由文字記載時(shí),我們可以通過(guò)關(guān)鍵詞搜索輕易找到所需內(nèi)容并進(jìn)行任意編輯,而當(dāng)信息是由圖片記載時(shí),我們卻無(wú)法對(duì)圖片中的內(nèi)容進(jìn)行檢索,從而影響了我們從圖片中找到關(guān)鍵內(nèi)容的效率。圖片給我們帶來(lái)了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個(gè)環(huán)境下,計(jì)算機(jī)的圖像識(shí)別技術(shù)就顯得尤為重要。
圖像識(shí)別初級(jí)應(yīng)用:主要是娛樂(lè)化、工具化,在這個(gè)階段用戶(hù)主要是借助圖像識(shí)別技術(shù)來(lái)滿足某些娛樂(lè)化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶(hù)找到與其長(zhǎng)相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發(fā)了根據(jù)相片進(jìn)行人臉匹配的DeepFace;雅虎收購(gòu)的圖像識(shí)別公司IQ Engine開(kāi)發(fā)的Glow可以通過(guò)圖像識(shí)別自動(dòng)生成照片的標(biāo)簽以幫助用戶(hù)管理手機(jī)上的照片;國(guó)內(nèi)專(zhuān)注于圖像識(shí)別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識(shí)別技術(shù)研發(fā)移動(dòng)端的體感游戲。
這個(gè)階段還有一個(gè)非常重要的細(xì)分領(lǐng)域 —— OCR(Optical Character Recognition,光學(xué)字符識(shí)別),是指光學(xué)設(shè)備檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程,就是計(jì)算機(jī)對(duì)文字的閱讀。
借助OCR技術(shù)將這些文字和信息提取出來(lái)。在這方面,國(guó)內(nèi)產(chǎn)品包括百度的涂書(shū)筆記和百度翻譯等;而谷歌借助經(jīng)過(guò)DistBelief 訓(xùn)練的大型分布式神經(jīng)網(wǎng)絡(luò),對(duì)于Google 街景圖庫(kù)的上千萬(wàn)門(mén)牌號(hào)的識(shí)別率超過(guò)90%,每天可識(shí)別百萬(wàn)門(mén)牌號(hào)。
圖像識(shí)別初級(jí)應(yīng)用僅作為我們的輔助工具存在,為我們自身的人類(lèi)視覺(jué)提供了強(qiáng)有力的輔助和增強(qiáng),帶給了我們一種全新的與外部世界進(jìn)行交互的方式。這些應(yīng)用雖然看起來(lái)很普通,但當(dāng)圖像識(shí)別技術(shù)滲透到我們行為習(xí)慣的方方面面時(shí),我們就相當(dāng)于把一部分視力外包給了機(jī)器,就像我們已經(jīng)把部分記憶外包給了搜索引擎一樣。
這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標(biāo)信息、大腦將信息進(jìn)行分析、轉(zhuǎn)化成機(jī)器可以理解的關(guān)鍵詞、與機(jī)器交互獲得結(jié)果。而當(dāng)圖像識(shí)別技術(shù)賦予了機(jī)器“眼睛”之后,這個(gè)過(guò)程就可以簡(jiǎn)化為:人眼借助機(jī)器捕捉目標(biāo)信息、機(jī)器和互聯(lián)網(wǎng)直接對(duì)信息進(jìn)行分析并返回結(jié)果。圖像識(shí)別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對(duì)準(zhǔn)某一未知事物,就能得到預(yù)想的答案,攝像頭成為連接人和世界信息的重要入口之一。
圖像識(shí)別的高級(jí)應(yīng)用:成為擁有視覺(jué)的機(jī)器,當(dāng)機(jī)器真正具有了視覺(jué)之后,它們完全有可能代替我們?nèi)ネ瓿蛇@些行動(dòng)。目前的圖像識(shí)別應(yīng)用就像是盲人的導(dǎo)盲犬,在盲人行動(dòng)時(shí)為其指引方向;而未來(lái)的圖像識(shí)別技術(shù)將會(huì)同其他人工智能技術(shù)融合在一起成為盲人的全職管家,不需要盲人進(jìn)行任何行動(dòng),而是由這個(gè)管家?guī)椭渫瓿伤惺虑椤?/p>
舉個(gè)例子,如果圖像識(shí)別是一個(gè)工具,就如同我們?cè)隈{駛汽車(chē)時(shí)佩戴谷歌眼鏡,它將外部信息進(jìn)行分析后傳遞給我們,我們?cè)僖罁?jù)這些信息做出行駛決策;而如果將圖像識(shí)別利用在機(jī)器視覺(jué)和人工智能上,這就如同谷歌的無(wú)人駕駛汽車(chē),機(jī)器不僅可以對(duì)外部信息進(jìn)行獲取和分析,還全權(quán)負(fù)責(zé)所有的行駛活動(dòng),讓我們得到完全解放。
圖像識(shí)別并非一個(gè)新領(lǐng)域,但放眼全局,它仍處于早期階段。就像任何一個(gè)典型的成長(zhǎng)中少年一樣,在適應(yīng)現(xiàn)實(shí)世界時(shí)也存在問(wèn)題。圖像識(shí)別是計(jì)算機(jī)視覺(jué)時(shí)代到來(lái)的早期征兆,無(wú)論它將如何應(yīng)用或?qū)?yīng)用于哪些行業(yè),圖像識(shí)別技術(shù)永遠(yuǎn)不可能孤立發(fā)展。只有通過(guò)訪問(wèn)更多圖片,實(shí)時(shí)數(shù)據(jù),花費(fèi)更多的時(shí)間和精力才能使其更加強(qiáng)大;只有認(rèn)識(shí)到這一點(diǎn),并充分利用這些聯(lián)系的企業(yè)才可能在未來(lái)取得成功。
作為一門(mén)科技含量較高的新興技術(shù),AI的圖像識(shí)別技術(shù)已經(jīng)與用戶(hù)的生活緊密結(jié)合在一起,許多科技巨頭也開(kāi)始了在圖像識(shí)別和人工智能領(lǐng)域的布局:
Facebook簽下的人工智能專(zhuān)家Yann LeCun最重大的成就就是在圖像識(shí)別領(lǐng)域,其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡(luò),在應(yīng)用到各種不同的圖像識(shí)別任務(wù)時(shí)都取得了不錯(cuò)效果,被認(rèn)為是通用圖像識(shí)別系統(tǒng)的代表之一;Google 借助模擬神經(jīng)網(wǎng)絡(luò)“DistBelief”通過(guò)對(duì)數(shù)百萬(wàn)份 YouTube 視頻的學(xué)習(xí)自行掌握了貓的關(guān)鍵特征,這是機(jī)器在沒(méi)有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負(fù)責(zé)這個(gè)項(xiàng)目的Andrew NG已經(jīng)轉(zhuǎn)投百度領(lǐng)導(dǎo)百度研究院,其一個(gè)重要的研究方向就是人工智能和圖像識(shí)別。這也能看出國(guó)內(nèi)科技公司對(duì)圖像識(shí)別技術(shù)以及人工智能技術(shù)的重視程度。
為什么有數(shù)十億美元投入到這項(xiàng)技術(shù)?原因是圖像識(shí)別潛力巨大。圖像識(shí)別是一個(gè)非常抽象的領(lǐng)域。但是,當(dāng)應(yīng)用于具體情境時(shí),其改變企業(yè)的潛力是無(wú)可辯駁的。圖像識(shí)別技術(shù),連接著機(jī)器和這個(gè)一無(wú)所知的世界,幫助它越發(fā)了解這個(gè)世界,并最終代替我們完成更多的任務(wù)。
評(píng)論