基于FPGA的脫機(jī)手寫體漢字識(shí)別系統(tǒng)

作者：時(shí)間：2014-11-08 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　1設(shè)計(jì)摘要

本文引用地址：http://2s4d.com/article/265048.htm

　　1.1項(xiàng)目背景

　　漢字作為非字母化、非拼音化的文字，在當(dāng)今高度信息化的社會(huì)里，如何快速高效地將漢字輸入計(jì)算機(jī)，已成為影響人機(jī)交流信息效率的一個(gè)重要瓶頸。目前，漢字輸入主要分為人工鍵盤輸入和機(jī)器自動(dòng)識(shí)別輸入兩種，其中人工鍵入速度慢且勞動(dòng)強(qiáng)度大。自動(dòng)識(shí)別輸入分為語(yǔ)音識(shí)別和漢字識(shí)別兩種，其中漢字識(shí)別是將漢字點(diǎn)陣圖形轉(zhuǎn)換成電信號(hào)，然后輸入給數(shù)字信號(hào)處理器或計(jì)算機(jī)進(jìn)行處理，依據(jù)一定的分類算法在漢字字符集合中識(shí)別出與之相匹配的漢字。因此，研究脫機(jī)手寫體漢字識(shí)別的目的就是解決漢字信息如何高速輸入的問(wèn)題，以更方便快速地進(jìn)行信息加工處理。

　　脫機(jī)手寫體漢字識(shí)別在以下領(lǐng)域中具有廣泛的應(yīng)用前途：

　　(1)信息處理領(lǐng)域中使用漢字識(shí)別技術(shù)可以大大提高紙質(zhì)文檔電子化的效率。若將漢字識(shí)別的準(zhǔn)確度和速度均提高到比人工輸入更高的程度，便可在提高效率的同時(shí)節(jié)省人力資源。

　　(2)漢字自動(dòng)識(shí)別是辦公自動(dòng)化、新聞出版等最理想的輸入方法。

　　(3)很大部分電子文獻(xiàn)是以點(diǎn)陣圖像存儲(chǔ)的，經(jīng)過(guò)漢字識(shí)別后以字符存儲(chǔ)，會(huì)大大節(jié)省存儲(chǔ)空間，并提高網(wǎng)絡(luò)等傳輸速度。

　　(4)使用FPGA進(jìn)行漢字識(shí)別可以采用并行化計(jì)算，從而實(shí)現(xiàn)高速低功耗的文字識(shí)別。而如果采用人工鍵盤輸入的方式，計(jì)算機(jī)在大部分時(shí)間里處于等待鍵盤敲擊的閑置狀態(tài)，從而導(dǎo)致計(jì)算機(jī)系統(tǒng)利用率不高。

　　和所有模式識(shí)別系統(tǒng)一樣，脫機(jī)手寫體漢字識(shí)別的主要性能指標(biāo)是正確識(shí)別率和識(shí)別速度，從實(shí)用角度看，還應(yīng)考慮系統(tǒng)的復(fù)雜性、可靠性和價(jià)格等等。對(duì)識(shí)別系統(tǒng)識(shí)別率和識(shí)別速度的要求，很難有一種統(tǒng)一的、嚴(yán)格的標(biāo)準(zhǔn)，主要根據(jù)實(shí)際應(yīng)用的需要來(lái)確定。但是作為一種輸入手段，漢字識(shí)別系統(tǒng)的性能至少應(yīng)該可以和其它輸入手段(如人工輸入)相比擬。

　　以上指標(biāo)應(yīng)該是漢字識(shí)別系統(tǒng)必須達(dá)到的最低要求(在某些需要大量輸入的場(chǎng)合對(duì)識(shí)別系統(tǒng)性能的要求還應(yīng)更高)，但是由于手寫體漢字的特殊性，要達(dá)到上述要求困難較大。手寫體漢字的特殊性可歸納為如下幾條：

　　(1)字量大，字體多，結(jié)構(gòu)復(fù)雜

　　(2)部分字形相似

　　(3)書寫變化大：筆畫不規(guī)范;筆畫之間、偏旁部首之間相對(duì)位置不固定;連筆書寫或筆畫粘連。

　　(4)字與字之間相互粘連

　　正因?yàn)槭謱戵w漢字存在以上四特殊之處，脫機(jī)手寫體漢字識(shí)別被一些學(xué)者看成是模式識(shí)別的最終目標(biāo)。目前存在的主要問(wèn)題有：

　　(1)脫機(jī)手寫體漢字的行、列切分正確率不高;

　　(2)在特征提取階段，目前尚未找到一組適用于各種字體、筆跡的特征向量;

　　(3)由于漢字的特征向量維數(shù)較高，將待識(shí)別漢字的特征向量同樣本庫(kù)中的海量模板匹配會(huì)占用很多識(shí)別時(shí)間，直接導(dǎo)致識(shí)別性能不高。

　　如果能采用FPGA進(jìn)行高速并行計(jì)算，使上述困難能得到最大程度的化解，從而使脫機(jī)手寫體漢字識(shí)別系統(tǒng)達(dá)到實(shí)用階段，則在實(shí)際應(yīng)用方面和理論研究方面均有重大意義。由于漢字模式類別多，是大類別(或者稱為超多類)模式識(shí)別問(wèn)題，因此其識(shí)別涉及到模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、人工智能、模糊數(shù)學(xué)等多個(gè)學(xué)科，是一門綜合性技術(shù)，有著重要的價(jià)值和意義。

　　1.2系統(tǒng)的設(shè)計(jì)目標(biāo)

　　本次設(shè)計(jì)要實(shí)現(xiàn)的目標(biāo)就是建立一個(gè)圖像處理識(shí)別的平臺(tái)，使手寫的漢字以圖像文件格式(BMP)的形式輸入FPGA，提取出其特征向量，通過(guò)分類識(shí)別，轉(zhuǎn)換為漢字文本。我們需要設(shè)計(jì)和實(shí)現(xiàn)脫機(jī)手寫漢字識(shí)別系統(tǒng)，主要實(shí)現(xiàn)樣本采集，預(yù)處理，特征提取，分類與識(shí)別五個(gè)方面。系統(tǒng)的具體目標(biāo)如下：

　　(1)使用FPGA對(duì)字庫(kù)圖像文件進(jìn)行前期處理，包括字符分割平滑去噪、二值化處理、歸一化、細(xì)化等。

　　(2)使用處理后的標(biāo)準(zhǔn)字符圖像對(duì)分類模型進(jìn)行訓(xùn)練，使其成為具有字形識(shí)別功能的分類器。通過(guò)包括神經(jīng)網(wǎng)絡(luò)、筆畫密度、字型特征、四角特征等多種分類器的測(cè)試，綜合考慮每種分類器的并行化可能性、漢字特征針對(duì)性等，選出合適的分類器分別進(jìn)行粗分類和細(xì)識(shí)別，以利用FPGA的并行運(yùn)算特性大幅度提高識(shí)別的效率和準(zhǔn)確度。

　　(3)對(duì)多個(gè)手寫樣本圖像文件進(jìn)行并行化的采集和預(yù)處理，提出具有價(jià)值的字形特征。采用適當(dāng)?shù)姆诸惼鲗?duì)其進(jìn)行分類識(shí)別，得到漢字國(guó)標(biāo)碼,從而實(shí)現(xiàn)手寫體漢字從圖片到文本的轉(zhuǎn)換。

　　2系統(tǒng)原理和技術(shù)特點(diǎn)

　　2.1預(yù)處理

　　2.1.1行、字切分

　　從實(shí)際出發(fā)，一個(gè)完整的脫機(jī)手寫體漢字識(shí)別系統(tǒng)必須能對(duì)輸入的整個(gè)手寫體漢字圖像進(jìn)行一些必要的處理，并從中正確切分出一個(gè)個(gè)手寫體漢字，形成單個(gè)漢字的圖像陣列，以便對(duì)其進(jìn)行方便的單字識(shí)別處理。

　　通常的做法是對(duì)漢字圖像從上到下逐行掃描，同時(shí)計(jì)算每掃描行的像素，獲取圖像的水平投影，利用文字行間空白間隔造成的水平投影空隙，將行分割，再利用字與字之間的空白間隔在圖像行垂直投影上形成的空白間隙，將單個(gè)漢字的圖像切割出來(lái)。

　　2.1.2平滑去噪處理

　　一幅漢字圖像可能存在著各種噪聲，消除圖像中的這些噪聲成分叫做圖像的平滑化，其目的有兩個(gè)：一是按特定的需要突出一幅圖像中的有用信息，使?jié)h字圖像清晰，視覺(jué)效果好;另一是為適應(yīng)計(jì)算機(jī)處理的需要，消除漢字在輸入數(shù)字化時(shí)所混入的噪聲。

　　常用的平滑去噪算法有中值濾波、鄰域平均法去噪處理(均值濾波) 、Unger平滑算法等，在接下來(lái)的研究中我們將詳細(xì)研究討論每種算法的特性并選擇最適合漢字和FPGA特性的一種。

　　2.1.3二值化

　　二值化就是把數(shù)字字符圖像的灰度數(shù)字信號(hào)處理成只有O和1兩級(jí)灰度的圖像。對(duì)灰度圖像二值化能顯著的減小數(shù)據(jù)存儲(chǔ)的容量，降低后續(xù)處理的復(fù)雜度。二值化的基本要求是筆劃中不出現(xiàn)空白并較好的保持原來(lái)文字的特征。

　　最簡(jiǎn)單的二值化通過(guò)設(shè)定固定灰度閾值完成，其關(guān)鍵在于閾值的選擇。常用方法有整體閾值法(由灰度級(jí)直方圖確定整體閾值)、局部閾值法(由像素灰度值和像素周圍點(diǎn)局部灰度特性確定閾值)、動(dòng)態(tài)閾值法(不僅與灰度有關(guān)，還與該像素坐標(biāo)位置有關(guān))。局部閾值和動(dòng)態(tài)閾值雖然能處理質(zhì)量較差的文字，避免整體閾值法帶來(lái)的不應(yīng)有的失真。但是，一則時(shí)間開銷大，二則考慮到實(shí)際的局部閾值和動(dòng)態(tài)閾值選擇算法往往在圖像的某些部位上產(chǎn)生整體選擇不會(huì)產(chǎn)生失真，所以，在文字識(shí)別中，一般采用整體閾值法。

　　2.1.4歸一化

　　單個(gè)漢字圖像(或點(diǎn)陣)，還必須進(jìn)行歸一化處理，以消除漢字在位置和大小上的變化。歸一化處理，主要包括位置歸一化和大小歸一化。漢字點(diǎn)陣的歸一化是十分重要的，因?yàn)闈h字識(shí)別主要基于漢字的圖形結(jié)構(gòu)，如果不能將漢字點(diǎn)陣在位置和大小上經(jīng)歸一化處理一致起來(lái)，漢字點(diǎn)陣的相似性比較就無(wú)法正確進(jìn)行。

　　(1)位置歸一化

　　主要有兩種，一是重心歸一化，二是外框歸一化。重心歸一化方法是計(jì)算出漢字的重心后將重心移到漢字點(diǎn)陣的規(guī)定位置。外框歸一化是將漢字的外框移到點(diǎn)陣規(guī)定位置上。因?yàn)橹匦挠?jì)算是全局性的，因此抗干擾能力強(qiáng);各邊框搜索是局部性的，易受干擾影響。而大多數(shù)漢字筆劃分布左、右、上、下比較均勻，漢字的重心和漢字字形的中心相差不多，重心歸一化不會(huì)造成字形失真，但對(duì)個(gè)別上下分布不勻的漢字，重心歸一化使字形移動(dòng)，以致字形超出點(diǎn)陣范圍而造成失真。

　　(2)大小歸一化

　　對(duì)大小不一的的漢字進(jìn)行識(shí)別，必須有效地進(jìn)行大小歸一化。常用方法是根據(jù)漢字點(diǎn)陣的外圍邊框進(jìn)行的，先判斷漢字點(diǎn)陣的上、下、左、右的外圍邊框，然后按比例將漢字線性放大或縮小成規(guī)定大小的點(diǎn)陣。

　　2.1.5細(xì)化

　　在二值化點(diǎn)陣圖像中，漢字圖像中的前景像素點(diǎn)對(duì)識(shí)別率的貢獻(xiàn)是不一樣的，對(duì)識(shí)別有價(jià)值的漢字信息，主要集中在漢字骨架上，因此經(jīng)常用細(xì)化技術(shù)處理原始漢字圖像的前景像素點(diǎn)，將滿足一定條件的像素點(diǎn)保留，不滿足條件的像素點(diǎn)置為背景像素點(diǎn)，最終得到筆劃寬度為1的漢字骨架圖像。細(xì)化后的漢字骨架的存儲(chǔ)量比原漢字二值化點(diǎn)陣要少得多，在降低了處理工作量的基礎(chǔ)上又保留了原漢字絕大部分特征，利于特征抽取，保證了識(shí)別的高效、正確性。但是細(xì)化往往會(huì)造成新的畸變，增加了對(duì)識(shí)別的干擾和困難。細(xì)化的算法很多，大體分類如下：

　　(1)按細(xì)化后圖形的連續(xù)性分，有四鄰連接算法，八鄰連接算法和混合連接算法。四鄰接連指的是水平垂直四個(gè)方向上的連接，八鄰連接則加上正反斜向共八個(gè)方向。

　　(2)按細(xì)化處理過(guò)程分，有串行、并行和串并行處理法。FPGA適合并行計(jì)算，故我們采用并行處理法，即對(duì)邊緣點(diǎn)全部檢測(cè)完畢后，再同時(shí)改變所有可刪除點(diǎn)的值。

　　(3)按處理方式分，有單方向，雙方向和四方向細(xì)化法。愈是方向多的細(xì)化處理方式，細(xì)化的速度愈快。

　　2.1.6預(yù)處理仿真示例

　　2.2特征提取

　　由于漢字字量大、字體多、結(jié)構(gòu)復(fù)雜，我們采用分級(jí)分類的方法進(jìn)行識(shí)別，而每級(jí)分類應(yīng)采用最合適的特征提取算法。同時(shí)，考慮到FPGA的并行計(jì)算特點(diǎn)，應(yīng)優(yōu)先選用并行性好的算法?；谝陨蟽牲c(diǎn)，我們?cè)趯?duì)BP神經(jīng)網(wǎng)絡(luò)、字型特征、筆畫密度特征、彈性網(wǎng)格特征、筆畫結(jié)構(gòu)特征、四角特征等能夠提取特征的算法進(jìn)行了理論分析，有如下討論：

　　2.2.1基于分類識(shí)別的選擇

　　BP神經(jīng)網(wǎng)絡(luò)：具有自適應(yīng)性，通過(guò)反復(fù)訓(xùn)練不斷修正連接權(quán)值以進(jìn)行特征提取。該方法具有較高的普適性，并且可以通過(guò)調(diào)整學(xué)習(xí)方法得到一種較優(yōu)的網(wǎng)絡(luò)。但該方法并未利用漢字的特征，適用于子類中單字識(shí)別。

　　字型特征：通過(guò)對(duì)水平和垂直方向上投影得出的直方圖的分析，可得出一個(gè)漢字的字型統(tǒng)計(jì)特征(左右、上下等)，適于粗分類。

　　筆畫密度特征：從水平，垂直方向等間隔取多根掃描線，取穿過(guò)筆畫數(shù)的最大值，形成2維特征向量，適于粗分類。

　　彈性網(wǎng)格特征：根據(jù)筆畫位置將單個(gè)漢字分割為幾個(gè)網(wǎng)格，通過(guò)計(jì)算每個(gè)網(wǎng)格內(nèi)筆畫的矢量特征進(jìn)行特征提取，特征向量較多，適用于子類中單字識(shí)別。

　　筆畫結(jié)構(gòu)特征：通過(guò)尋找交叉點(diǎn)和拐點(diǎn)將漢字分為筆段，然后將筆段按傾斜度和連通性合并成筆畫，提取筆畫的矢量特性作為特征向量，向量數(shù)較多，適用于子類中單字識(shí)別。但該方法同時(shí)可以統(tǒng)計(jì)出筆畫總數(shù)和交叉點(diǎn)總數(shù)，可用于粗分類。

　　四角特征：通過(guò)提取四角的筆畫結(jié)構(gòu)特征進(jìn)行分類，向量中包含四個(gè)元素，可結(jié)合(5)進(jìn)行粗分類。

　　我們將通過(guò)MATLAB對(duì)以上算法進(jìn)行實(shí)驗(yàn)，以確定最優(yōu)的分類和子分類中單字識(shí)別的算法。

　　2.2.2基于并行化運(yùn)算的選擇

　　BP神經(jīng)網(wǎng)絡(luò)：由于神經(jīng)網(wǎng)絡(luò)由神經(jīng)元構(gòu)成，每個(gè)神經(jīng)元的計(jì)算以及權(quán)值調(diào)整計(jì)算都為乘法和加法，以上特征使之很適合并行化和流水線計(jì)算。

　　字型特征：投影運(yùn)算為串并行結(jié)合加法運(yùn)算，最大值計(jì)算為串行運(yùn)算，字型判斷部分為較復(fù)雜串并行結(jié)合邏輯運(yùn)算。

　　筆畫密度特征：水平和垂直掃描運(yùn)算為串行，多根掃描線并行，取最大值運(yùn)算為串行。

　　彈性網(wǎng)格特征：分格后可對(duì)每格進(jìn)行并行化運(yùn)算，但其中的向量計(jì)算包含大量除法，其實(shí)現(xiàn)效率有待驗(yàn)證。

　　筆畫結(jié)構(gòu)特征：交叉點(diǎn)尋找為并行，傾斜度計(jì)算為并行，提取矢量特性為并行，但以上步驟的結(jié)果入庫(kù)過(guò)程為串行掃描。

　　四角特征：四角可并行運(yùn)算。

　　在進(jìn)行MATLAB進(jìn)行算法實(shí)驗(yàn)的同時(shí)，我們會(huì)同時(shí)使用System Generator進(jìn)一步對(duì)算法的并行化及流水線計(jì)算可能性進(jìn)行評(píng)估實(shí)驗(yàn)，并結(jié)合2.2.1進(jìn)行總體效率評(píng)估。

　　2.3分類識(shí)別

　　在分別對(duì)樣本和標(biāo)準(zhǔn)樣本提取特征后，分類和識(shí)別可采用神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)或統(tǒng)計(jì)方法等。對(duì)于在FPGA上實(shí)現(xiàn)文字識(shí)別來(lái)說(shuō)，神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)方法可行性較好，下面對(duì)這兩種算法的特點(diǎn)進(jìn)行簡(jiǎn)單說(shuō)明。

　　2.3.1神經(jīng)網(wǎng)絡(luò)

　　人工神經(jīng)網(wǎng)絡(luò)通過(guò)網(wǎng)絡(luò)節(jié)點(diǎn)間的連接來(lái)存儲(chǔ)信息并完成分類計(jì)算。神經(jīng)網(wǎng)絡(luò)分類器通過(guò)學(xué)習(xí)，根據(jù)訓(xùn)練樣本集來(lái)調(diào)整連接的權(quán)值，構(gòu)造出相應(yīng)的分類曲面。由于其較強(qiáng)的曲線擬合和模式分類能力，為手寫簽名識(shí)別的研究提供了新的手段。

　　神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的信息處理能力，它能以任意精度逼近連續(xù)非線性函數(shù);它信息處理的并行機(jī)制中的冗余性可以實(shí)現(xiàn)很強(qiáng)的容錯(cuò)能力;對(duì)復(fù)雜不確定問(wèn)題具有自適應(yīng)和自學(xué)習(xí)能力。在一定多的訓(xùn)練次數(shù)以及合適的參數(shù)選擇下，神經(jīng)網(wǎng)絡(luò)可以得出很理想的結(jié)果。

　　神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元構(gòu)成的，其自身的特點(diǎn)使其非常適合并行化和流水線計(jì)算。

　　2.3.2 統(tǒng)計(jì)方法

　　統(tǒng)計(jì)方法主要有最近鄰歸類、基于事例的學(xué)習(xí)等，這些方法本質(zhì)上是基于某種距離進(jìn)行相應(yīng)變換，得到具有另外一些參數(shù)的分類公式。統(tǒng)計(jì)學(xué)上主要用的基本距離公式有絕對(duì)值距離、歐氏距離、明斯基距離等。

　　其中，最小距離分類器作為一種直觀有效的分類方法，在實(shí)際應(yīng)用中受到廣泛重視，尤其對(duì)于高維多模式問(wèn)題，使用類聚等分類方法存在計(jì)算量巨大、難以保證算法收斂等問(wèn)題，距離函數(shù)分類器更顯其優(yōu)越性。在實(shí)際問(wèn)題中，常把各類模式矢量的統(tǒng)計(jì)平均值作為該類模式的基準(zhǔn)模板，用待識(shí)別樣本與此基準(zhǔn)模板做比較。

　　統(tǒng)計(jì)計(jì)算多為乘累加運(yùn)算，在FPGA中采用分級(jí)流水線乘法器和加法器可獲得較高的計(jì)算效率。