基于模板的對幾種特殊結構句子的語句改寫
Np+V+著+N
→(有)+N+V+在+Np
在此,Np表示句首方處所結構;V表示動詞或動詞短語;N表示句末名詞性結構。
在原句式中,“掛”和“畫”是動作和受事關系,“墻上”表示存在的處所;在變換式中,“掛”和“畫”仍是動作和受事的關系,“墻上”仍表示“畫”的存在的處所。三者在共現(xiàn)詞之間的語義關系上保持不變。
通過對存現(xiàn)句的句子結構分析得出各種句法結構框架,進一步進行抽象化,就得到了改寫模板。分別以s,f,t表示處所、方位和時間的品詞標記,則每種結構都會有(s)處所詞,(f)方位詞,(t)時間詞。將其分離出來,作為該類模板的關鍵詞結構。對于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語,形容詞短語等非關鍵成分,就得到了如下的改寫模板:
其他幾種句式比如倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等的改寫模板的抽取過程與上述存現(xiàn)句的類似。
2 改寫的處理過程
模板匹配是基于模板方法的改寫系統(tǒng)的關鍵,基本思想是實現(xiàn)一個具有少數(shù)關鍵詞常項、任意多個變項的模板匹配算法,把原語句中的任意符號串結構自動替換成目標語句中的符號串結構。在具有關鍵項、約束項、任意變項的模板匹配算法的基礎上,可以利用按照一定的層次結構組織存貯的模板,實現(xiàn)從原語句到目標語句的自動改寫。在此關鍵項是指抽出的所有模板共通的關鍵詞,而約束項是指所有抽出模板中除關鍵項之外的關鍵詞。在進行語句改寫時對將要進行改寫的語句抽出其結構框架,計算它與改寫模板的相似度以決定與之相匹配的改寫模板,計算式如式(1),式(2)所示。
關鍵項相似度和約束項相似度計算:
則待改寫句與模板的相似度計算:
式中:SKW為待改寫句與模板對應的關鍵項個數(shù);RW為待改寫句與模板對應的約束項個數(shù);TKW為模板中所含關鍵項個數(shù);TRW為模板中所含約束項個數(shù);KWS為待改寫句與模板的關鍵項相似度;RWS為待改寫句與模板的約束項相似度;TemSim為待改寫句與模板的相似度;α,β是加權參數(shù)由預備試驗獲得。通過式(1),式(2)的計算獲得待改寫句與模板的相似度值,滿足設定的相似度閾值的模板用于改寫。
3 語句改寫實驗及考察
3.1 實驗數(shù)據(jù)及結果
實驗使用了從中學課文中收集的約300個句子,模板庫中模板總數(shù)為196個。語句改寫的輸入內(nèi)容是使用分詞系統(tǒng)得到的分詞和詞性標注過的句子。改寫結果的正誤判斷通過手工進行。判斷的基準分為改寫正確和改寫錯誤。改寫正確:改寫句沒有錯誤、表達意思不變或錯誤較少及表達意思基本不變;改寫錯誤:信息缺失、語序混亂及表達意思改變。
采用評價函數(shù)對抽出模板及其語句改寫的效果進行評價,公式如下:
式中:CPR為正確改寫率;TCR為模板覆蓋率;CPN為正確改寫數(shù)目;PST為改寫句子總數(shù);IST為輸入句子總數(shù)。由式(3)對實驗結果評價得到在被改寫句中改寫正確率為74.71%,模板覆蓋率為66.34%。
3.2 實驗結果的考察
在被改寫的語句中隨機抽取200句,其中錯誤改寫句為49句。通過對改寫錯誤句子進行考察,獲得造成改寫誤差的不同原因。在改寫錯誤中由于分詞和詞性標注錯誤而導致改寫的錯誤約占19.23%,而由于待改寫句修飾成分過和多句子過長,則分詞后的詞匯信息單元過多,超出了模板所能描述的程度,出現(xiàn)的錯誤改寫率占38.46%。模板匹配錯誤而導致的改寫錯誤有:模板抽出的錯誤和相似度計算不夠精確而導致的錯誤的匹配分別占15.38 9/6和26.93%。由此可見對于較長的句子需要對抽出模板的方法進一步探討,此外相似度計算也有進一步改進的必要。
4 結 語
通過考察句子的語法結構,抽出句子的結構框架從而進行了語句改寫模板的構造。對待改寫句則通過計算改寫句與相應模板的框架中包含的關鍵項和約束項的相似度進行模板的匹配。通過對小規(guī)模數(shù)據(jù)進行的實驗及考察給出了針對幾種特殊結構的句子的改寫效果。錯誤分析指出了改寫方法及處理細節(jié)上存在的問題,在今后的研究中計劃針對抽取模板的細化、相似度計算方法的改進、擴大對不同結構語句的模板的抽取范圍和進行較大規(guī)模數(shù)據(jù)的實驗考察等方面進行探討。
評論