智能語(yǔ)義理解搜索引擎中漢語(yǔ)虛詞的形態(tài)特征略析
繆天鵬 1 ,韓建軍 1 ,王振江 1
本文引用地址:http://2s4d.com/article/201905/401021.htm(華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430074)
摘要:語(yǔ)義智能化發(fā)展是大數(shù)據(jù)技術(shù)國(guó)家重大戰(zhàn)略需求,也是統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)、信息科學(xué)和管理科學(xué)等學(xué)科的國(guó)際前沿。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的規(guī)模、類型、結(jié)構(gòu)和增長(zhǎng)速度發(fā)生了質(zhì)的變化,傳統(tǒng)數(shù)據(jù)分析和處理的統(tǒng)計(jì)學(xué)理論和分析方法已不能滿足大數(shù)據(jù)時(shí)代下的種種需求。本研究擬圍繞大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)基礎(chǔ)理論與分析方法的核心問(wèn)題和難點(diǎn)問(wèn)題,略析語(yǔ)言大數(shù)據(jù)處理虛詞形態(tài)新方法, 為大數(shù)據(jù)技術(shù)發(fā)展和未來(lái)智能搜索引擎等應(yīng)用提供新基礎(chǔ)理論和方法支撐。
關(guān)鍵詞: 語(yǔ)義理解;搜索引擎;古漢語(yǔ);虛詞;形態(tài)特征
* 本文得到國(guó)家自然科學(xué)基金項(xiàng)目(61872411)資助。
1 認(rèn)知、互動(dòng)的智能需求
Internet互聯(lián)網(wǎng)廣泛應(yīng)用,人們對(duì)信息查詢的要求越來(lái)越高,目前搜索引擎中全文檢索都是基于關(guān)鍵詞匹配的,在不斷膨脹的用戶需求面前,中文搜索所展現(xiàn)出的局限性越來(lái)越不可忽視,其中之一就是它不能區(qū)分同形異義,岐義現(xiàn)象的產(chǎn)生是沒(méi)有建立完整的語(yǔ)義理解支撐,完整的語(yǔ)義理解是智能化搜索引擎的基礎(chǔ)核心。西方語(yǔ)言是粘連型語(yǔ)言,而漢語(yǔ)是分析型語(yǔ)言,依據(jù)漢字的三要素音、形、義進(jìn)行解析,解“義”而言漢字(詞)分為實(shí)詞和虛詞,在現(xiàn)有的搜索引擎中,往往通過(guò)實(shí)詞及關(guān)鍵詞匹配來(lái)滿足檢索需求,漢字的虛詞常被忽略,而用戶查詢語(yǔ)句的真實(shí)意向得不到完整的語(yǔ)義理解 [1-2] 。顯然,漢語(yǔ)虛詞雖無(wú)“意”卻有“形”,但在語(yǔ)句中具有語(yǔ)法等功能形態(tài),忽略虛詞、虛(詞)實(shí)(詞)關(guān)系是形成歧義現(xiàn)象的基本原因之—。
漢字一詞多義現(xiàn)象也與虛詞的形態(tài)變化相關(guān),多義性導(dǎo)致字詞的智能化辨義解析程度降低,出現(xiàn)查詢精度不高、檢索效率低下等現(xiàn)象,為此簡(jiǎn)單的關(guān)鍵詞匹配(實(shí)詞)和完整的語(yǔ)義匹配(實(shí)詞+虛詞)是有本質(zhì)區(qū)別的。虛詞雖無(wú)義卻有形,其形態(tài)量化與關(guān)系是首要任務(wù)之一,明晰了形態(tài)關(guān)系也就解決了語(yǔ)句中實(shí)詞與虛詞搭配組句的語(yǔ)法、語(yǔ)義、語(yǔ)用形態(tài)特征,漢語(yǔ)虛詞形態(tài)信息提取及量化分析是智能化語(yǔ)義理解不可或缺的 [3-4] 。換言之,詞匯語(yǔ)用修正了詞匯語(yǔ)義在詞語(yǔ)選擇與詞語(yǔ)理解上的缺陷,并指出語(yǔ)境化是理解和使用詞語(yǔ)的關(guān)鍵。詞匯的使用和理解不僅僅是一個(gè)語(yǔ)言問(wèn)題,更是一個(gè)語(yǔ)用與認(rèn)知(語(yǔ)感)的問(wèn)題。
現(xiàn)代漢語(yǔ)虛詞約800左右,而古代虛詞約1100左右,文言文是古代的書(shū)面語(yǔ)言,也是現(xiàn)代漢語(yǔ)的源頭,追本溯源,從繁至簡(jiǎn),正確理解現(xiàn)代漢語(yǔ)虛詞的演變規(guī)律和形態(tài)變遷,唯有從文言虛詞的形態(tài)關(guān)系(穩(wěn)定知識(shí)源)分析著手,力求尋找漢語(yǔ)虛詞的自然演變規(guī)律 [5] 。
智能化搜索引擎面對(duì)的漢語(yǔ)語(yǔ)言是一種混合型文體(現(xiàn)代漢語(yǔ)+特殊文體),特殊文體包含詩(shī)詞歌賦文言文等,無(wú)疑在現(xiàn)代語(yǔ)言中文言虛詞古為今用比比皆是。文言虛詞四種完整形態(tài)包括單音、復(fù)音、定式搭配、慣性詞組,經(jīng)甄別該虛詞的完整構(gòu)詞數(shù)量,以保證分詞定位匹配的正確精度。確定虛詞在句中的位置、形態(tài)、關(guān)系,也就保證了句子的語(yǔ)法、語(yǔ)義、語(yǔ)用方向判斷和邏輯推送的可計(jì)算性,從而為智能化搜索奠定了基礎(chǔ)。
虛詞的虛化程度評(píng)價(jià)體系是建立虛實(shí)關(guān)系、量化評(píng)價(jià)評(píng)測(cè)、虛化程度分布、相似度分析以及虛實(shí)用的概率統(tǒng)計(jì)分析 [6] 。虛詞關(guān)系模型的建立是語(yǔ)言數(shù)據(jù)預(yù)處理的必經(jīng)之路,也是打開(kāi)未來(lái)智能漢語(yǔ)語(yǔ)義理解之窗。
2 感知到認(rèn)知的數(shù)據(jù)處理
本研究主要分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)分類規(guī)約處理。正確的理解現(xiàn)代漢語(yǔ)虛詞的演變規(guī)律和形態(tài)變遷,為文言虛詞的知識(shí)規(guī)則結(jié)構(gòu)化處理及定量定位定性分析作準(zhǔn)備。文本數(shù)據(jù)開(kāi)采必須建立專家知識(shí)庫(kù)、樣本語(yǔ)料庫(kù),其中包括對(duì)數(shù)據(jù)的凈化、轉(zhuǎn)換、變量的整合以進(jìn)行數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、人工智能等技術(shù)運(yùn)用,構(gòu)造以虛詞為中心的大數(shù)據(jù)開(kāi)采平臺(tái)。
2.1 擬解決的關(guān)鍵問(wèn)題
擬解決的虛詞形態(tài)、形態(tài)關(guān)系及關(guān)鍵技術(shù)問(wèn)題:
?、偬撛~構(gòu)詞形態(tài)的四種形式劃分,詞序關(guān)系形態(tài).
?、谔撛~虛用虛詞實(shí)用的詞法形態(tài).
③虛詞的句法形態(tài),句位形態(tài).
?、芴搶?shí)比關(guān)系.
2.2 研究?jī)?nèi)容及方法
2.2.1 理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源
統(tǒng)計(jì)知識(shí)庫(kù)的知識(shí)轉(zhuǎn)化為規(guī)則的靜態(tài)數(shù)據(jù)處理,具體而言將虛詞字典的知識(shí)內(nèi)容進(jìn)行知識(shí)規(guī)則劃分,依據(jù)符號(hào)定義和符號(hào)規(guī)約,完成知識(shí)到規(guī)則的結(jié)構(gòu)化處理。
知識(shí)庫(kù)的建立是將傳統(tǒng)的知識(shí)字典按照現(xiàn)代數(shù)據(jù)處理方法分層分類。語(yǔ)料庫(kù)是依據(jù)知識(shí)庫(kù)相對(duì)應(yīng)的知識(shí)規(guī)則,抽取樣本語(yǔ)料進(jìn)行規(guī)則驗(yàn)證和規(guī)則升降維處理,以滿足規(guī)則置信度、相似度、精確匹配以及匹配命中率統(tǒng)計(jì)分析。知識(shí)庫(kù)轉(zhuǎn)化為規(guī)則庫(kù)是通過(guò)語(yǔ)料驗(yàn)證匹配才能形成種子規(guī)則,以便于精確匹配和提高匹配命中率 [7] 。
2.2.2 獲取相關(guān)知識(shí)與方法
在建立虛詞的分層分類位置形式上實(shí)行定位分析,因?yàn)樘撛~沒(méi)有嚴(yán)格形態(tài)特征,卻有句位特征,如“擇善而從之”(句末特征),以便于句位的統(tǒng)計(jì)概率規(guī)律分析。定量分析可分為四種形式(單音虛詞、復(fù)音虛詞、定式搭配、慣性詞組)的虛詞量化分析,用以滿足虛詞為中心詞的分詞劃分技術(shù)加統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn),從而達(dá)到完整語(yǔ)句中的虛字虛用/實(shí)用的分層分類 [8-9] 。
形態(tài)特征分類:
?。?)0層 基本形態(tài)特征1:構(gòu)組詞關(guān)系(單音、復(fù)音、定式、慣性詞組),詞序(間)關(guān)系,虛實(shí)比關(guān)系(虛實(shí)用關(guān)系、虛詞與位置關(guān)系、虛詞與語(yǔ)義語(yǔ)用關(guān)系)。語(yǔ)言形態(tài)與詞匯映象。
?。?)1層 基本形態(tài)特征2:句法形態(tài)(陳述句,疑問(wèn)句,祈使句,感嘆句),句法成分形態(tài)(主語(yǔ),謂語(yǔ),賓語(yǔ),狀語(yǔ),定語(yǔ),補(bǔ)語(yǔ))。語(yǔ)言形態(tài)與句法映象。語(yǔ)義結(jié)構(gòu)形態(tài)標(biāo)注,語(yǔ)用功能形態(tài)標(biāo)注(判斷句,省略句,倒裝句,被動(dòng)句,固定句式)。語(yǔ)言形態(tài)與句式映象。
?。?)2層 語(yǔ)義結(jié)構(gòu)形態(tài)。虛/實(shí) 義結(jié)構(gòu)。?
?。?)3層 語(yǔ)用功能形態(tài)。虛/實(shí) 用結(jié)構(gòu)。?
總之,0~1層的基本形態(tài)是從語(yǔ)形學(xué)視角分析詞匯相關(guān)符號(hào)與符號(hào)之間的關(guān)系。而語(yǔ)義學(xué)關(guān)注的是 有關(guān)符號(hào)與符號(hào)所指之間的關(guān)系。語(yǔ)用學(xué)則是有關(guān)符號(hào)與解釋者之間的關(guān)系。雖有異曲同工,但語(yǔ)形、語(yǔ)義、語(yǔ)用的三者關(guān)系而言,語(yǔ)形以語(yǔ)義為前提,語(yǔ)義是從語(yǔ)用中抽象出來(lái)的。而語(yǔ)用學(xué)是符號(hào)學(xué)基礎(chǔ),確切的語(yǔ)用特征是它處理符號(hào)化過(guò)程的不同形態(tài)(如句位形態(tài))選擇同樣暗含語(yǔ)用信息(話語(yǔ)環(huán)境、交談對(duì)象或話語(yǔ)事件等)[10] 。上下文環(huán)境對(duì)象事件從語(yǔ)用視角延伸至語(yǔ)境都是認(rèn)知語(yǔ)言學(xué)基本范疇,而句位形態(tài)引入展現(xiàn)人類語(yǔ)言習(xí)得過(guò)程和機(jī)理,認(rèn)知形態(tài)的又一新視野。
2.3 整合與檢查數(shù)據(jù)
定性分析在完成了定量定位分析的基礎(chǔ)上,知識(shí)到規(guī)則轉(zhuǎn)換經(jīng)統(tǒng)計(jì)實(shí)現(xiàn)各虛詞特定位置所表達(dá)的意合概率以及分層聚類處理。
2.4 數(shù)據(jù)清理,去除錯(cuò)誤或不一致的數(shù)據(jù)
虛字的虛實(shí)不分會(huì)造成數(shù)據(jù)的不一致性,虛字實(shí)用在虛實(shí)化統(tǒng)計(jì)分析中客觀反映量化分析的每一個(gè)字的虛化程度,從而將字的虛化演變過(guò)程從靜態(tài)到動(dòng)態(tài)進(jìn)行明確的量化屬性分析。通過(guò)形式量化、數(shù)理統(tǒng)計(jì)等方法,將常用虛字18(A集)對(duì)應(yīng)中學(xué)語(yǔ)料117篇進(jìn)行虛實(shí)分類得出四種形式與頻度的關(guān)系。確定了虛字在句中的位置、句位和形式以及規(guī)則分布和各概率分布映象,再經(jīng)過(guò)置信測(cè)試和語(yǔ)料保障測(cè)試,使其樣本依據(jù)具有足夠的置信度 [11] 。
根據(jù)字典的知識(shí)理論定性分析得出基于A集18常用虛字的虛實(shí)比分類結(jié)果。通過(guò)字的虛實(shí)規(guī)則形態(tài)確定,該句的語(yǔ)用功能語(yǔ)義結(jié)構(gòu)方向判斷清晰,有效降低了歧義現(xiàn)象的產(chǎn)生。
2.5 數(shù)據(jù)域定義
歷時(shí)數(shù)據(jù)的采集:經(jīng)驗(yàn)+知識(shí)=規(guī)則(虛詞字典)
共時(shí)數(shù)據(jù)的采集:中學(xué)語(yǔ)文常用虛詞18(A集)+大學(xué)語(yǔ)文常用虛詞36(B集)+專業(yè)語(yǔ)言工作者常用虛詞49(C集)
語(yǔ)料數(shù)據(jù)的采集:字典范例對(duì)應(yīng)語(yǔ)料,中學(xué)文言文117篇,古文觀止220篇,歷年全國(guó)語(yǔ)文高考語(yǔ)料實(shí)例
通過(guò)規(guī)則結(jié)合統(tǒng)計(jì)的方法實(shí)現(xiàn)知識(shí)到規(guī)則的數(shù)字化處理,加上句位分析、虛詞分詞技術(shù)、詞序規(guī)則規(guī)約分類。經(jīng)基本處理,可以得到完整句子中的詞序詞態(tài)句位基因碼,為后續(xù)的數(shù)字解析與語(yǔ)義理解奠定了基礎(chǔ)。它是數(shù)據(jù)挖掘、云計(jì)算的基礎(chǔ)。
研究思路與技術(shù)路線示意圖如下:
2.6 實(shí)際數(shù)據(jù)挖掘工作
句位分析是依據(jù)漢字虛詞的句位特征進(jìn)行區(qū)域劃分(固定句位/相鄰句位),通過(guò)概率統(tǒng)計(jì)得出虛字在句首句中句尾的句位特征與出現(xiàn)的概率頻度,結(jié)合分類歸層進(jìn)行相似度分析以及優(yōu)先度分析等方法。
虛詞分詞劃分技術(shù)是采用經(jīng)驗(yàn)知識(shí)將規(guī)則的形式分類(四種形式),以固定組詞長(zhǎng)度、完整的內(nèi)容實(shí)現(xiàn)虛詞的準(zhǔn)確劃分。其中虛詞虛實(shí)化是固定完整內(nèi)容的關(guān)鍵。
詞序描述:傳統(tǒng)的文本字符書(shū)寫(xiě)習(xí)慣是從左至右線型順序展開(kāi),符號(hào)語(yǔ)言描述也應(yīng)遵循習(xí)慣規(guī)律,即文本字符串(句子)=符號(hào)邏輯規(guī)則。
例1:彬之總師也 分解:彬/n01 之/c0701 總師/n02根據(jù)屬性抽取符號(hào)邏輯規(guī)則:n01c0701n02邏輯規(guī)則解釋:虛字“之”用作并列連詞c0701,詞序連接是邏輯與對(duì)象前置n01后置n02,n為名詞。
例2:上臨哭之慟 分解:上臨哭/O 之/u1802 慟/v01根據(jù)屬性抽取符號(hào)邏輯規(guī)則:Ou1802v01邏輯規(guī)則解釋:該虛字“之”為結(jié)構(gòu)助詞u1802,詞序連接是邏輯與對(duì)象前置O后置v01,v為動(dòng)詞,O為賓語(yǔ)。
由例1例2知,詞序規(guī)則碼不同,“之”字的詞法句法的語(yǔ)用功能完全不同。
7)測(cè)試和驗(yàn)證挖掘結(jié)果、解釋和應(yīng)用在獲取了最終的邏輯規(guī)則樹(shù)之后,就需要對(duì)邏輯規(guī)則的研究的正確性作驗(yàn)證分析,在此處,以高考中的真題作為實(shí)例進(jìn)行分析驗(yàn)證 [12] 。
例3:2013年高考語(yǔ)文安徽卷下列各組句子中,加點(diǎn)詞的意義和用法相同的一組是(D)
A.陸生因說(shuō)佗曰 B.將相欲移兵而誅王伺者因此覺(jué)知 今人有大功而擊之C.尉佗乃蹶然起坐 D.佗因稍以法誅秦所置長(zhǎng)史今其智乃反不能急 獨(dú)籍所殺漢軍數(shù)百人運(yùn)用邏輯規(guī)則的方法對(duì)例1進(jìn)行驗(yàn)證,驗(yàn)證結(jié)果如表1例1各選項(xiàng)分析表所示。
形似結(jié)論XS邏輯判斷通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))
∧(YY(A1) ∧(YY(A2))
如此類推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。
由形似結(jié)論XS到分析結(jié)論FX的邏輯推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)
﹛F,F(xiàn),F(xiàn),T﹜﹛D﹜通過(guò)邏輯規(guī)則和句位特征分析可以得到本題的正確答案為D。由此可知,句位特征屬性形似意不合是歧義產(chǎn)生的外在因素,其內(nèi)因是虛詞實(shí)用或虛用不同結(jié)果 [13] 。
3 技術(shù)創(chuàng)新點(diǎn)
?、偬撛~形式劃分與分詞技術(shù),文言文在現(xiàn)代搜索技術(shù)中是無(wú)法切分的,本研究基本解決古文的以虛詞為中心的形態(tài)劃分與分詞技術(shù)實(shí)現(xiàn)。
?、谔撛~的虛用/實(shí)用形態(tài)特征加句位特征分析是解決組合形態(tài)特征的關(guān)鍵,為語(yǔ)句的邏輯判斷與邏輯推送起到了語(yǔ)義語(yǔ)用功能的方向判斷,為智能化的可計(jì)算的語(yǔ)義理解提供了科學(xué)的理論與技術(shù)支撐 [14-16] 。
綜上所述,運(yùn)用定性分析方法解決虛詞的基本形態(tài)劃分和形態(tài)特征分析,可滿足以虛詞為中心的分詞技術(shù)在對(duì)特殊文體(文言文)中的虛用實(shí)用甄別,通過(guò)梳理句中的詞序關(guān)系和詞間關(guān)系,加上句位特征,形成一種穩(wěn)定組合形態(tài),依此對(duì)應(yīng)句中的語(yǔ)法意義、語(yǔ)義結(jié)構(gòu)、語(yǔ)用功能,使特征數(shù)據(jù)的結(jié)構(gòu)更加明晰,更可計(jì)算,以便于大數(shù)據(jù)挖掘 [17-18] 。
漢語(yǔ)語(yǔ)義理解高端智能化終極目標(biāo)之一就是實(shí)現(xiàn)人機(jī)交互更深層次需求,提出以虛詞為形態(tài)標(biāo)識(shí)評(píng)價(jià)評(píng)測(cè)體系方法,實(shí)現(xiàn)特殊文體(文言文)分詞劃分技術(shù) [19] ;運(yùn)用句位分析方法完成語(yǔ)句的虛實(shí)化靜態(tài)到動(dòng)態(tài)量化演變分析 [20] ,為語(yǔ)句中各形態(tài)建立可分析可計(jì)算多維形態(tài)標(biāo)識(shí) [21-22] 。
通過(guò)對(duì)漢語(yǔ)文言常用虛詞的虛實(shí)化數(shù)據(jù)挖掘與分析,以虛詞為中心對(duì)古漢語(yǔ)實(shí)現(xiàn)分詞劃分,結(jié)合形態(tài)、句位分析和虛用實(shí)用功用判別,實(shí)現(xiàn)詞法結(jié)構(gòu)到語(yǔ)法語(yǔ)義結(jié)構(gòu)和語(yǔ)用功能的全方位數(shù)據(jù)知識(shí)圖譜 [23-24] ,為未來(lái)的智能化搜索語(yǔ)義理解提供可計(jì)算、可判斷的全析理解奠定了實(shí)用基礎(chǔ) [25] ,也就提供了語(yǔ)言數(shù)字化處理的智能理解支撐,在此基礎(chǔ)上可擴(kuò)充到現(xiàn)代漢語(yǔ)虛字的延展,就能滿足未來(lái)各行各業(yè)的智能化(例:智能搜索、機(jī)器人、APP在線教育等)需求。
參考文獻(xiàn)
[1]呂叔湘. 現(xiàn)代漢語(yǔ)語(yǔ)法分析問(wèn)題[M]. 北京:商務(wù),1979.
[2]何樂(lè)士. 古代漢語(yǔ)虛詞詞典. 北京: 語(yǔ)文出版社, 2006: 1-663.
[3]何金松. 虛詞歷時(shí)詞典. 湖北: 湖北人民出版社, 1994: 1-554.
[4]王延飛, 秦鐵輝. 信息分析與決策. 北京:北京大學(xué)出版社, 2001.
[5]宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理. 北京:清華大學(xué)出版社. 2008年5月第1版: 1-243.
[6]俞士汶. 建設(shè)綜合型語(yǔ)言知識(shí)庫(kù)的理念與成果的價(jià)值[J]. 中文信息學(xué)報(bào), 2007(6).
[7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.
[8]昝紅英, 張坤麗, 柴玉梅, 俞士汶. 現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的研究. 中文信息學(xué)報(bào), 2007, 21(5):107-111.
[9]朱德熙. 語(yǔ)法講義. 北京: 商務(wù)印書(shū)館, 1982年9月第一版.
[10]詹衛(wèi)東. 基于配價(jià)的漢語(yǔ)語(yǔ)義詞典. 語(yǔ)言文字應(yīng)用, 2000(1):37-43.
[11]魯川,漢語(yǔ)句子的語(yǔ)義成分和語(yǔ)用成分.中國(guó)語(yǔ)文雜志社編, 語(yǔ)法研究和探索, 北京:北京大學(xué)出版社,1988年9月,309-319.
[12]郭錫良, 古漢語(yǔ)虛詞研究評(píng)議. 語(yǔ)言科學(xué),2003(1):87-98
[13]昝紅英, 朱學(xué)鋒. 面向自然語(yǔ)言處理的漢語(yǔ)虛詞研究與廣義虛詞知識(shí)庫(kù)構(gòu)建. 當(dāng)代語(yǔ)言學(xué), 2009, 11(2):124-135
[14]俞士漢,朱學(xué)鋒. 關(guān)于漢語(yǔ)信息處理的認(rèn)識(shí)及其研究方略. 《語(yǔ)言文字應(yīng)用》, 2002(2):51-85
[15]Noam Chomsky. Syntactic Structures. 北京: 中國(guó)社會(huì)科學(xué)出版社, 1979: 28-35.
[16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.
[17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.
[18]張大方, 張潔坤, 黃昆. 一種基于智能有限自動(dòng)機(jī)的正則表達(dá)式匹配算法. 北京:電子學(xué)報(bào), 2012(8).
[19]陳志泊.?dāng)?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社.
[20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.
[21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.
[22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.
[23] 曾黃麟.粗集理論及其應(yīng)用.重慶:重慶大學(xué)出版社,1996.
[24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.
[25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.
本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第6期第52頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處
評(píng)論