高維圖像識(shí)別技術(shù)讓PC也能看懂圖片
近年來(lái),計(jì)算機(jī)圖形圖像處理技術(shù)獲得突破性的進(jìn)展,個(gè)人PC中也涌現(xiàn)出越來(lái)越多令人驚嘆的圖形處理軟件,憑借著數(shù)學(xué)界領(lǐng)域的最新研究,個(gè)人電腦已經(jīng)開(kāi)始學(xué)會(huì)了“看”圖,讀懂文字,辨別建筑物。
傳統(tǒng)的PC圖像識(shí)別技術(shù)主要基于統(tǒng)計(jì)學(xué)原理,其主要依靠分析視覺(jué)數(shù)據(jù)的特性,并將這些特性借助統(tǒng)計(jì)建模等數(shù)學(xué)分析方式提取出來(lái),以最終應(yīng)用到實(shí)際的圖像處理中。這種圖像識(shí)別技術(shù)仍舊是目前的主流,廣泛用于OCR文字識(shí)別、人臉識(shí)別、圖像處理等領(lǐng)域。但是這種傳統(tǒng)的數(shù)學(xué)分析方式存在很多局限,比如對(duì)圖片的質(zhì)量要求很高,這一問(wèn)題直到新的數(shù)學(xué)模型出現(xiàn)才得以改善。在2010年5月CHIP的“時(shí)尚科技”欄目中,我們就曾經(jīng)向大家介紹過(guò)一種PC圖像識(shí)別技術(shù)的新進(jìn)展。2009年以華裔澳大利亞籍?dāng)?shù)學(xué)家陶哲軒為代表的一些數(shù)學(xué)家率先發(fā)現(xiàn)了在高維空間中一些原先公認(rèn)很難的(NP-hard)組合問(wèn)題,可以用一系列高效的凸優(yōu)化算法來(lái)解決。而由此產(chǎn)生的數(shù)學(xué)模型可以用來(lái)解決目前視覺(jué)計(jì)算所面臨的難題,而且最終的計(jì)算結(jié)果非常理想。
微軟亞洲研究院的研究員們當(dāng)時(shí)利用這種數(shù)學(xué)思想取得了圖像識(shí)別領(lǐng)域的很大突破,使用這種新的數(shù)學(xué)模型帶口罩或墨鏡的人臉甚至都可以被PC讀取和識(shí)別。最近,微軟研究院的研究員們?cè)谶@一技術(shù)領(lǐng)域再次取得了新的進(jìn)展,他們讓PC能夠看“懂”建筑物,或者具備“認(rèn)”字的能力,并糾正扭曲或變形的文字。
讀圖從看懂結(jié)構(gòu)開(kāi)始
傳統(tǒng)的二維圖像識(shí)別技術(shù)更多地依賴(lài)圖像特征點(diǎn)來(lái)工作,它首先通過(guò)統(tǒng)計(jì)學(xué)的方式來(lái)獲取圖像中最有代表性的點(diǎn),之后在遇到新的圖像時(shí)會(huì)嘗試在其中尋找這些特征點(diǎn),并將尋找到的點(diǎn)與原來(lái)統(tǒng)計(jì)得來(lái)的特征點(diǎn)進(jìn)行對(duì)比。在圖片質(zhì)量比較出色且沒(méi)有扭曲的情況下這種技術(shù)往往能工作得很好。但現(xiàn)實(shí)情況是,我們?cè)谂臄z圖片時(shí),由于光線、所處的位置等諸多原因,最終無(wú)法獲得合格的圖像,這也就大大限制了這種圖像識(shí)別技術(shù)的發(fā)展。
微軟亞洲研究院的研究員們嘗試使用高維的數(shù)學(xué)模型和優(yōu)化工具來(lái)解決這個(gè)問(wèn)題。簡(jiǎn)單地理解,高維的數(shù)學(xué)模型采用矩陣的模式,可以幫助我們以整體的概念來(lái)看待圖像中的物體,而不像傳統(tǒng)技術(shù)那樣只獲取局部特征點(diǎn),這更像是尋求圖像中物體的整體對(duì)稱(chēng)性和規(guī)則性。例如,通常的樓房窗戶(hù)都是平直的矩形,桌子總是四四方方擁有4條腿等。借助這些規(guī)則,即便圖片只能提供有限的信息,PC也能夠更容易地識(shí)別出圖片中的物體。在高維數(shù)學(xué)模型中,輸入每一個(gè)點(diǎn)的數(shù)據(jù)都可以被用來(lái)預(yù)測(cè)某種規(guī)則性,因此這種高維的圖像識(shí)別技術(shù)可以利用圖片中幾乎每個(gè)像素點(diǎn)來(lái)獲取圖像中物體的整體規(guī)則結(jié)構(gòu),這意味著往往只需圖片的一小部分即可完成圖像中物體的矯正和識(shí)別。例如,在傳統(tǒng)圖像識(shí)別技術(shù)中,100×100的圖像區(qū)域往往提供不了多少特征點(diǎn)數(shù)據(jù),而在高維的圖像識(shí)別技術(shù)中,這意味著將有近10000個(gè)像素點(diǎn)都可以用來(lái)獲取圖像的規(guī)則結(jié)構(gòu)信息。
從人的角度讀圖
借助規(guī)則性和規(guī)律性來(lái)識(shí)別周?chē)沫h(huán)境和景物是人類(lèi)的基本技能,實(shí)際上一個(gè)人從出生開(kāi)始就在學(xué)習(xí)各種各樣的規(guī)則。比如什么是矩形、什么是圓形,以及桌子一般什么樣、房子一般什么樣等等。而高維圖像識(shí)別使得計(jì)算機(jī)具備了與人類(lèi)相同的圖像識(shí)別方式。當(dāng)我們看到照片中樓房的窗戶(hù)因?yàn)榕臄z視角的問(wèn)題而變得傾斜時(shí),并不會(huì)認(rèn)為窗戶(hù)就真的是傾斜的,我們甚至知道窗戶(hù)本來(lái)應(yīng)該是方正的,同時(shí)我們還能分辨出擋在窗戶(hù)前的樹(shù)杈并不是窗戶(hù)的一部分。類(lèi)似地,通過(guò)建立高維圖像識(shí)別的物體規(guī)律,微軟研究院的研究員們已經(jīng)能夠讓PC實(shí)現(xiàn)類(lèi)似的功能,它能夠幫助我們把傾斜的樓宇校正,或者擦去樓宇前方的樹(shù)枝。
評(píng)論