新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 一種文檔圖像檢索算法設(shè)計和實現(xiàn)

一種文檔圖像檢索算法設(shè)計和實現(xiàn)

作者: 時間:2011-07-04 來源:網(wǎng)絡(luò) 收藏

  1.3 行線標(biāo)記

  通過對得到的二值的行跳變的填補(bǔ),文本行的變化相對比較平滑,這有利于行線的標(biāo)記。本方法取每個文本行的下邊緣來作為行線。因為背景區(qū)域為黑色,文字區(qū)域為白色,所以對進(jìn)行掃描,從黑色區(qū)域進(jìn)入白色區(qū)域時所遇到的第一個像素進(jìn)行標(biāo)記,這樣就把每一行的行線標(biāo)記出來了,所得到的行線是單像素的。這種方法的優(yōu)點是可以抗傾斜。

  圖5(a)為對圖1中的中的行用直線的方式標(biāo)記出來。為了驗證提取出的行線與原圖是否一致,將它與原圖(如圖5(b)所示)進(jìn)行了匹配,可以看出,所得結(jié)果是比較滿意的。

  2 匹配

  本文所采用的方法是將行線抽象為空間中的一個點,點的灰度值定義為行線的長度。全局匹配模式考慮版面的加權(quán)平均,用于全局位置進(jìn)行匹配,這個過程相當(dāng)于文本區(qū)定位過程。局部匹配模式是定義兩個行在位置、尺寸上的變化情況,通過位置優(yōu)先(版面)得到匹配模式,進(jìn)而對匹配誤差能量進(jìn)行計算。

  匹配方法轉(zhuǎn)化為兩組點之間的匹配定義問題,點模式簡化了問題的復(fù)雜性,只包含了版面結(jié)構(gòu)信息、長度信息和尺寸信息。

  中心點加權(quán)匹配方式不能完全解決問題,圖像在兩個尺度上的縮放對這種方式影響極大。使用歸一化的尺寸可部分解決這個問題,但歸一化后仍需計算中心點的位置,通過中心點進(jìn)行坐標(biāo)轉(zhuǎn)換,使用坐標(biāo)轉(zhuǎn)換后的新的點模式對差異性進(jìn)行度量。

  每一行起始坐標(biāo)的相對坐標(biāo)是(xi′,yi′),xi′=xi-x0,yi′=yi-y0。圖6為將行線抽象為空間中的點的圖像,其中亮度代表該行的長度,位置為起點坐標(biāo)。

 ?。?)距離匹配模式計算

  將兩個頁面的中心點對齊,從第一個頁面的第一行開始,與另一個頁面每行進(jìn)行比較。假如另一個頁面的相對坐標(biāo)是(uj′,vj′),j=0,…,n-1,每行長度為wj。計算兩個待比較頁面的坐標(biāo)及長度的差Δxi、Δyi、Δzi,其中:Δxi=xi′-uj′,Δyi=yi′-vj′,Δzi=zi-wj。則定義差異能量為:

  dEnerge(i)=Δxi+Δyi+Δzi

  將第一個頁面的第一行與第二個頁面的每一行進(jìn)行比較,得到n個差異能量,求這n個差異能量的最小值min(dEnerge(i))。第一個頁面共有m行,將得到m個值,對其求和:

  不匹配的情況經(jīng)常發(fā)生,例如一個圖像中含有4個點模式,另一個圖像中含有10個點模式,內(nèi)部點模式之間具有結(jié)構(gòu)相關(guān)性,結(jié)構(gòu)上的相關(guān)性定義為點模式位置掩模距離,該距離用來度量點模式全局匹配能力。如果一個點模式為另一個點模式的子模式,則該方法子圖功能,模式距離最小時,產(chǎn)生最佳匹配。最佳匹配時,產(chǎn)生更為細(xì)致的行線能力。使用掩模方法是為了產(chǎn)生更好的查準(zhǔn)率。

絕對值編碼器相關(guān)文章:絕對值編碼器原理
三維掃描儀相關(guān)文章:三維掃描儀原理


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉