一種文檔圖像檢索算法設計和實現(xiàn)
摘 要: 介紹了一種基于版面結構距離的文檔圖像檢索算法,使用版面特征作為文檔圖像的特征檢索圖像。先將文檔圖像進行梯度和最大梯度差(MGD)計算,然后使用MGD值作為一個窗口對文本區(qū)域進行融合,將文檔圖像以行線的形式標示出來。同時給出了檢索的匹配方法,并對匹配方法進行了實驗。實驗結果表明,該檢索方法具有較高的查準率,具有很好的抗傾斜和抗縮放效果。
本文引用地址:http://2s4d.com/article/150529.htm文檔圖像一般意為含有文字信息的圖像,目前大多數(shù)信息是以數(shù)字化形式存在的,并以文檔的形式組織起來存放在數(shù)據(jù)庫中。在這樣的數(shù)據(jù)庫中查找有關資料其技術是關鍵。常見的文檔圖像檢索方法是基于內容的文檔圖像檢索(CBIR)。它是利用圖像本身的信息,通常以圖像特征(顏色、紋理、形狀、結構布局和語義特征等)的相似性為檢索依據(jù),根據(jù)每幅圖像都有的可比較特征進行檢索。
近年來,數(shù)字化文檔被廣泛應用于辦公自動化、數(shù)字化圖書館、工業(yè)自動化等領域。隨著科技的發(fā)展,傳統(tǒng)掃描儀體積大、效率低、攜帶不方便等不足之處日益突出,而數(shù)字照相機體積小、價位低,可以很容易地攜帶并結合到手機、 手提電腦以及各種網絡設備中去,它還可以遠距離地對背景文字及脆弱的珍貴文檔拍照, 更適用于無約束環(huán)境下的數(shù)字化操作。因此,將數(shù)字照相機引入文檔圖像分析已經引起越來越多人的關注。
Newman的調查表明,從報紙上提取段落時,基于PC攝像頭的OCR操作比基于掃描儀的OCR操作效率高得多;Fisher等調查了在戰(zhàn)場上用數(shù)字攝像機替換士兵攜帶sheet-fed掃描儀的可能性。經證實,數(shù)字攝像機能夠以200dpi拍攝整張A4文檔紙,已經達到OCR所要求的分辨率。
BEUSEKOM J V.等人提出了一種基于版面分析的文檔圖像檢索的距離度量方法,將文本區(qū)域分為不同的矩形塊,然后找到塊的中心點,利用角點的曼哈頓距離來計算塊之間的距離,再利用三種不同的方法進行匹配[1];WONG K Y.使用游程平滑算法進行版面信息提取的方法[2];BREUEL T M.提出了使用Whitespace算法來提取版面信息[3]。
圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點,如二維圖像匹配中通過比較目標區(qū)和搜索區(qū)中相同大小的窗口的相關系數(shù),取搜索區(qū)中相關系數(shù)最大所對應的窗口中心點作為同名點。其實質是在基元相似性的條件下,運用匹配準則的最佳搜索問題。
灰度匹配的基本思想:以統(tǒng)計的觀點將圖像看成是二維信號,采用統(tǒng)計相關的方法尋找信號間的相關匹配。利用兩個信號的相關函數(shù),評價它們的相似性以確定同名點。
灰度匹配通過利用某種相似性度量,如相關函數(shù)、協(xié)方差函數(shù)、差平方和、差絕對值和等測度極值,判定兩幅圖像中的對應關系。
最經典的灰度匹配法是歸一化的灰度匹配 法,其基本原理是逐像素的把一個以一定大小的實時圖像窗口的灰度矩陣,與參考圖像的所有可能的窗口灰度陣列,按某種相似性度量方法進行搜索比較的匹配方法,從理論上說就是采用圖像相關技術。
利用灰度信息匹配方法的主要缺陷是計算量太大,因為使用場合一般都有一定的速度要求,所以這些方法很少被使用。現(xiàn)在已經提出了一些相關的快速算法,如幅度排序相關算法,F(xiàn)FT相關算法和分層搜索的序列判斷算法等。
1 相關工作
1.1 文本行標記
將得到的文檔圖像進行預處理,具體的處理方法是:使用文本行標記算法實現(xiàn)文字區(qū)域的行定位。本文使用[-1,0,1]對圖像進行處理計算其梯度,然后計算其MGD。MGD計算方法如下:在一個大小為n的窗口內,用它的最大梯度差來進行填充,以達到文本融合的目的。因為英文和中文的字符寬度不同,根據(jù)具體的情況選擇n,大于字符間距即可。將計算出來的梯度求它的最大值和最小值,然后相減,即為最大梯度差。將得到的MGD圖像使用最大類間方差方法[5](OTSU)求出閾值得到二值圖像[2]。圖1為使用上述方法對行塊進行標記的圖像。
1.2 消除階躍跳變
對于手寫體或者英文的文檔,會出現(xiàn)字符高低不一、筆畫不連續(xù)等情況。線特征產生的斷點可采用形態(tài)學方法、凸凹點處理和噪聲處理三種基本策略提高直線的連續(xù)性,然后采用階梯插補算法來消除階躍跳變,算法的復雜度相對較低。
在像素級上進行處理是:當出現(xiàn)行階躍跳變的情況時,使用如圖2的模板來對其進行填充。因為文檔圖像的行塊在4個方向上都有可能出現(xiàn)這種階躍,所以采用一個3×3的模板,以位置5為中心點,如圖3所示,4種情況都包含其中:1和4為非文本像素,對4進行填充;3和6為非文本像素,對6進行填充;4和7為非文本像素,對4進行填充;6和9為非文本像素,對6進行填充。如果填充之后依然有符合結構的像素,則繼續(xù)填充,即把需要填充的區(qū)域都填充完整。填充前后的圖像如圖4所示。
絕對值編碼器相關文章:絕對值編碼器原理 三維掃描儀相關文章:三維掃描儀原理
評論