新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 一種文檔圖像檢索算法設(shè)計(jì)和實(shí)現(xiàn)

一種文檔圖像檢索算法設(shè)計(jì)和實(shí)現(xiàn)

作者: 時(shí)間:2011-07-04 來(lái)源:網(wǎng)絡(luò) 收藏

  3 實(shí)驗(yàn)結(jié)果與分析

  應(yīng)用上述方法進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)為手寫體英文,數(shù)據(jù)采集分辨率為100 dpi,256級(jí)灰度,數(shù)據(jù)量為100幅。對(duì)不同的分別比較它們的相似度。圖7(b)、(c)、(d)是與圖7(a)的相似度分別為40.422 9、45.760 7和43.407 8的圖像。圖8(b)、(c)、(d)是與圖8(a)原圖像版面結(jié)構(gòu)相似的幾種圖像類型。圖9(b)、(c)、(d)是與圖9(a)原圖像版面結(jié)構(gòu)具有差異的幾種圖像類型。

  本文使用對(duì)100幅圖像兩兩進(jìn)行版面結(jié)構(gòu)的匹配,共有4 950種結(jié)果。實(shí)驗(yàn)結(jié)果表明,兩種不同版面的能量差異最大的在340左右,如圖10所示。橫坐標(biāo)顯示的是100幅圖像兩兩匹配出現(xiàn)的情況的數(shù)目,可以取到的最大坐標(biāo)為4 950,縱坐標(biāo)為各匹配情況對(duì)應(yīng)的能量差異,最大值350。從圖中可以看出能量差異主要集中在50~200之間。

  各個(gè)能量點(diǎn)的頻數(shù)的直方圖如圖11所示,圖中橫坐標(biāo)為能量差異數(shù)據(jù),最大為340左右,提取到350。縱坐標(biāo)為取到各個(gè)能量的情況的數(shù)目的累加。從圖11可以更直觀地觀察到能量差異在50~200之間的數(shù)目最多。

  實(shí)驗(yàn)結(jié)果表明:(1)圖像的版面結(jié)構(gòu)具有相對(duì)的穩(wěn)定性。(2)點(diǎn)匹配模式計(jì)算了最小距離,可有效表示圖像的文本行基本信息。(3)距離匹配較為簡(jiǎn)單,使用了三個(gè)維度的一維距離,有較好的區(qū)分性。對(duì)距離計(jì)算統(tǒng)計(jì)表明,具有正態(tài)分布特性。(4)點(diǎn)匹配模式需進(jìn)一步進(jìn)行研究,的復(fù)雜度需進(jìn)一步降低,以進(jìn)行實(shí)時(shí)圖像處理。

  本文針對(duì)文檔圖像的方法進(jìn)行了研究,提出一種文檔圖像的新方法。分析了文檔圖像版面特性,使用分割方法確定文本行,將文本行進(jìn)行標(biāo)記,找出頁(yè)面的中心點(diǎn)坐標(biāo),中心點(diǎn)坐標(biāo)將文本行的長(zhǎng)度作為權(quán)重考慮在內(nèi),得到相對(duì)坐標(biāo)。根據(jù)相對(duì)坐標(biāo)和文本行長(zhǎng)度得到一個(gè)差異能量,根據(jù)差異能量來(lái)進(jìn)行匹配。并對(duì)該方法進(jìn)行了實(shí)驗(yàn)和結(jié)果分析。本方法的優(yōu)點(diǎn)是,當(dāng)文檔的行出現(xiàn)傾斜和縮放時(shí),不影響匹配的進(jìn)行。但需要進(jìn)一步降低所用的點(diǎn)匹配模式時(shí)間復(fù)雜度,以進(jìn)行實(shí)時(shí)圖像處理。



絕對(duì)值編碼器相關(guān)文章:絕對(duì)值編碼器原理
三維掃描儀相關(guān)文章:三維掃描儀原理

上一頁(yè) 1 2 3 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉