基于模板的對幾種特殊結(jié)構(gòu)句子的語句改寫
Np+V+著+N
→(有)+N+V+在+Np
在此,Np表示句首方處所結(jié)構(gòu);V表示動詞或動詞短語;N表示句末名詞性結(jié)構(gòu)。
在原句式中,“掛”和“畫”是動作和受事關(guān)系,“墻上”表示存在的處所;在變換式中,“掛”和“畫”仍是動作和受事的關(guān)系,“墻上”仍表示“畫”的存在的處所。三者在共現(xiàn)詞之間的語義關(guān)系上保持不變。
通過對存現(xiàn)句的句子結(jié)構(gòu)分析得出各種句法結(jié)構(gòu)框架,進(jìn)一步進(jìn)行抽象化,就得到了改寫模板。分別以s,f,t表示處所、方位和時(shí)間的品詞標(biāo)記,則每種結(jié)構(gòu)都會有(s)處所詞,(f)方位詞,(t)時(shí)間詞。將其分離出來,作為該類模板的關(guān)鍵詞結(jié)構(gòu)。對于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語,形容詞短語等非關(guān)鍵成分,就得到了如下的改寫模板:
其他幾種句式比如倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等的改寫模板的抽取過程與上述存現(xiàn)句的類似。
2 改寫的處理過程
模板匹配是基于模板方法的改寫系統(tǒng)的關(guān)鍵,基本思想是實(shí)現(xiàn)一個(gè)具有少數(shù)關(guān)鍵詞常項(xiàng)、任意多個(gè)變項(xiàng)的模板匹配算法,把原語句中的任意符號串結(jié)構(gòu)自動替換成目標(biāo)語句中的符號串結(jié)構(gòu)。在具有關(guān)鍵項(xiàng)、約束項(xiàng)、任意變項(xiàng)的模板匹配算法的基礎(chǔ)上,可以利用按照一定的層次結(jié)構(gòu)組織存貯的模板,實(shí)現(xiàn)從原語句到目標(biāo)語句的自動改寫。在此關(guān)鍵項(xiàng)是指抽出的所有模板共通的關(guān)鍵詞,而約束項(xiàng)是指所有抽出模板中除關(guān)鍵項(xiàng)之外的關(guān)鍵詞。在進(jìn)行語句改寫時(shí)對將要進(jìn)行改寫的語句抽出其結(jié)構(gòu)框架,計(jì)算它與改寫模板的相似度以決定與之相匹配的改寫模板,計(jì)算式如式(1),式(2)所示。
關(guān)鍵項(xiàng)相似度和約束項(xiàng)相似度計(jì)算:
則待改寫句與模板的相似度計(jì)算:
式中:SKW為待改寫句與模板對應(yīng)的關(guān)鍵項(xiàng)個(gè)數(shù);RW為待改寫句與模板對應(yīng)的約束項(xiàng)個(gè)數(shù);TKW為模板中所含關(guān)鍵項(xiàng)個(gè)數(shù);TRW為模板中所含約束項(xiàng)個(gè)數(shù);KWS為待改寫句與模板的關(guān)鍵項(xiàng)相似度;RWS為待改寫句與模板的約束項(xiàng)相似度;TemSim為待改寫句與模板的相似度;α,β是加權(quán)參數(shù)由預(yù)備試驗(yàn)獲得。通過式(1),式(2)的計(jì)算獲得待改寫句與模板的相似度值,滿足設(shè)定的相似度閾值的模板用于改寫。
3 語句改寫實(shí)驗(yàn)及考察
3.1 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果
實(shí)驗(yàn)使用了從中學(xué)課文中收集的約300個(gè)句子,模板庫中模板總數(shù)為196個(gè)。語句改寫的輸入內(nèi)容是使用分詞系統(tǒng)得到的分詞和詞性標(biāo)注過的句子。改寫結(jié)果的正誤判斷通過手工進(jìn)行。判斷的基準(zhǔn)分為改寫正確和改寫錯誤。改寫正確:改寫句沒有錯誤、表達(dá)意思不變或錯誤較少及表達(dá)意思基本不變;改寫錯誤:信息缺失、語序混亂及表達(dá)意思改變。
采用評價(jià)函數(shù)對抽出模板及其語句改寫的效果進(jìn)行評價(jià),公式如下:
式中:CPR為正確改寫率;TCR為模板覆蓋率;CPN為正確改寫數(shù)目;PST為改寫句子總數(shù);IST為輸入句子總數(shù)。由式(3)對實(shí)驗(yàn)結(jié)果評價(jià)得到在被改寫句中改寫正確率為74.71%,模板覆蓋率為66.34%。
3.2 實(shí)驗(yàn)結(jié)果的考察
在被改寫的語句中隨機(jī)抽取200句,其中錯誤改寫句為49句。通過對改寫錯誤句子進(jìn)行考察,獲得造成改寫誤差的不同原因。在改寫錯誤中由于分詞和詞性標(biāo)注錯誤而導(dǎo)致改寫的錯誤約占19.23%,而由于待改寫句修飾成分過和多句子過長,則分詞后的詞匯信息單元過多,超出了模板所能描述的程度,出現(xiàn)的錯誤改寫率占38.46%。模板匹配錯誤而導(dǎo)致的改寫錯誤有:模板抽出的錯誤和相似度計(jì)算不夠精確而導(dǎo)致的錯誤的匹配分別占15.38 9/6和26.93%。由此可見對于較長的句子需要對抽出模板的方法進(jìn)一步探討,此外相似度計(jì)算也有進(jìn)一步改進(jìn)的必要。
4 結(jié) 語
通過考察句子的語法結(jié)構(gòu),抽出句子的結(jié)構(gòu)框架從而進(jìn)行了語句改寫模板的構(gòu)造。對待改寫句則通過計(jì)算改寫句與相應(yīng)模板的框架中包含的關(guān)鍵項(xiàng)和約束項(xiàng)的相似度進(jìn)行模板的匹配。通過對小規(guī)模數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)及考察給出了針對幾種特殊結(jié)構(gòu)的句子的改寫效果。錯誤分析指出了改寫方法及處理細(xì)節(jié)上存在的問題,在今后的研究中計(jì)劃針對抽取模板的細(xì)化、相似度計(jì)算方法的改進(jìn)、擴(kuò)大對不同結(jié)構(gòu)語句的模板的抽取范圍和進(jìn)行較大規(guī)模數(shù)據(jù)的實(shí)驗(yàn)考察等方面進(jìn)行探討。
評論