基于特征選擇改進(jìn)LR-Bagging算法的電力欠費(fèi)風(fēng)險(xiǎn)居民客戶預(yù)測
作者 吳漾 朱州 貴州電網(wǎng)有限責(zé)任公司信息中心(貴州 貴陽 550003)
本文引用地址:http://2s4d.com/article/201703/345948.htm吳漾(1984-),男,碩士,工程師,研究方向:電網(wǎng)信息化數(shù)據(jù)管理與數(shù)據(jù)分析管理;朱州,男,高級工程師,博士,研究方向:電網(wǎng)信息化建設(shè)與數(shù)據(jù)分析管理。
摘要:本文從電力欠費(fèi)風(fēng)險(xiǎn)預(yù)測的角度出發(fā),提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法,其精髓在于每一個訓(xùn)練的LR基分類器的記錄和字段均通過隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計(jì)量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度,效果優(yōu)于單一LR模型。且最終的實(shí)驗(yàn)表明,該改進(jìn)算法得到的電力欠費(fèi)居民客戶風(fēng)險(xiǎn)預(yù)測模型的準(zhǔn)確性與有效性得到提升。
引言
我國電力體制的深化改革為電力行業(yè)引入了市場機(jī)制[1],在有效實(shí)現(xiàn)電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸效率的同時(shí),也帶給電力企業(yè)更大的市場風(fēng)險(xiǎn),風(fēng)險(xiǎn)的切實(shí)防范和規(guī)避對電力企業(yè)的重要性不言而喻。由于客戶欠費(fèi)而產(chǎn)生的電費(fèi)回收風(fēng)險(xiǎn)一直是電力營銷中存在的重大風(fēng)險(xiǎn)之一。
首先,國內(nèi)學(xué)術(shù)界專業(yè)人士對于該問題的研究起步較晚[3],主要集中于對電費(fèi)回收風(fēng)險(xiǎn)的現(xiàn)狀、影響因素、評價(jià)、有效性措施等內(nèi)容的理論研究,缺乏以現(xiàn)實(shí)數(shù)據(jù)為基礎(chǔ)量化模型支撐[3-4];雖然也有許多文獻(xiàn)通過對電力客戶信用等級建模對其欠費(fèi)風(fēng)險(xiǎn)進(jìn)行預(yù)測[5],但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展,近幾年出現(xiàn)了基于邏輯回歸、決策樹的數(shù)據(jù)挖掘算法的電力客戶欠費(fèi)違約概率預(yù)測模型[6-7],但前者選取特征均為二分類變量,適用性較低;后者選擇的模型變量雖較為多樣性,但模型的預(yù)測結(jié)果差強(qiáng)人意。而本文將借助電力客戶屬性數(shù)據(jù)和行為特征數(shù)據(jù),盡可能挖掘每一個變量與欠費(fèi)風(fēng)險(xiǎn)的相關(guān)信息,建立一個更為準(zhǔn)確、使用范圍更廣的客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)測模型。
其次,如今關(guān)于LR的文章或者關(guān)于Bagging集成學(xué)習(xí)的文章有很多,但是基于LR分類器的Bagging算法的應(yīng)用相對較少,通過特征選擇對基于LR分類器Bagging算法做出改進(jìn)的相關(guān)文獻(xiàn)基本沒有。簡單來說,本文算法為多個不同的LR分類器的集合,其核心在于每一個訓(xùn)練的LR基分類器的樣本和特征均通過bootstrap技術(shù)得到。充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性,使得該算法在精度、實(shí)用性上優(yōu)于單一算法,后文的應(yīng)用恰好證明了這一點(diǎn)。鑒于該算法的這一優(yōu)越性,可嘗試將其應(yīng)用于其他領(lǐng)域的分類挖掘問題。
本研究的意義體現(xiàn)在兩個方面:一是對于電力欠費(fèi)客戶風(fēng)險(xiǎn)預(yù)測這一模塊的進(jìn)一步研究;二是基于特征選擇的以LR為基分類器的Bagging算法的改進(jìn)的借鑒和推廣價(jià)值。
1 基于LR分類器的Bagging算法的改進(jìn)
1.1 LR模型及其基本理論
邏輯回歸(LogisticRegression,LR)模型是一種分類評定模型,是離散選擇法模型之一。它主要是用于對受多因素影響的定性變量的概率預(yù)測,并根據(jù)預(yù)測的概率對目標(biāo)變量進(jìn)行分類。邏輯回歸可分為二項(xiàng)邏輯回歸和多項(xiàng)邏輯回歸,類別的差異取決于目標(biāo)變量類別個數(shù)的多少。目前,LR模型已經(jīng)廣泛應(yīng)用于社會學(xué)、生物統(tǒng)計(jì)學(xué)、臨床、數(shù)量心理學(xué)、市場營銷等統(tǒng)計(jì)實(shí)證分析中,且以目標(biāo)變量為二分類變量為主。
1.1.1 Logistic函數(shù)
假設(shè)因變量只有1-0(例如“是”和“否”,“發(fā)生”和“不發(fā)生”)兩種取值,記為1和0。假設(shè)在p個獨(dú)立自變量作用下,y取1的概率是,取0的概率是1-P,則取1和取0的概率之比為,稱為事件的優(yōu)勢比(odds),表示事件發(fā)生的概率相對于不發(fā)生的概率的強(qiáng)度。對odds取自然對數(shù)可得Logistic函數(shù)為:
(1)
Logistic函數(shù)曲線如圖1所示。
1.1.2 LR模型
LR模型可以探究由于自變量的變化所能導(dǎo)致的因變量決策(選擇)的變化,因變量決策(選擇)的變化意味著Logistic函數(shù)的變化。LR的基本形式為:
因此有:
1.1.4 LR模型的優(yōu)勢與不足
LR模型具有很強(qiáng)的實(shí)用性,對比其他的分類判別模型,LR具有以下兩點(diǎn)優(yōu)勢:
(1)泛化能力較好,精度較高
所謂泛化能力,是指機(jī)器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。由于LR模型的自變量多為取值范圍不設(shè)限的連續(xù)變量,該模型不僅可以在樣本內(nèi)進(jìn)行預(yù)測,還可以對樣本外的數(shù)據(jù)進(jìn)行預(yù)測,泛化能力較好,而且精度較高。
(2)能精確控制閾值,調(diào)整分類類別
LR模型的求解結(jié)果是一個介于0和1間的概率值。這使分類結(jié)果的多樣性成為了可能。正常情況下,每一次閾值的調(diào)整都會產(chǎn)生不同的分類結(jié)果,便于對預(yù)測結(jié)果進(jìn)行比較和檢驗(yàn),克服了其他分類算法分類數(shù)量無法改變的局限。
當(dāng)然,LR作為回歸模型的特殊形式,也需要滿足經(jīng)典回歸模型的基本假設(shè),違背這些假設(shè)顯然會影響模型的分類效果,多重共線問題就是目前面臨較多的問題。同時(shí),邏輯回歸的性能受特征空間的影響很大,也不能很好地處理大量多類特征或變量,這便是LR分類器的缺點(diǎn)所在。
2.1 集成學(xué)習(xí)
集成學(xué)習(xí)[8]是一種機(jī)器學(xué)習(xí)范式,它的基本思想是把多個學(xué)習(xí)器(通常是同質(zhì)的)集成起來,使用多個模型(解決方案)來解決同一個問題。因其個體學(xué)習(xí)器的高精度和個誤差均分布于不同的輸入空間,從而能達(dá)到顯著地提高學(xué)習(xí)系統(tǒng)的泛化能力的效果。
Breiman同時(shí)指出,要使得Bagging有效,基本學(xué)習(xí)器的學(xué)習(xí)算法必須是不穩(wěn)定的,也就是說對訓(xùn)練數(shù)據(jù)敏感,且基本分類器的學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)越敏感,Bagging的效果越好。另外由于Bagging算法本身的特點(diǎn),使得Bagging算法非常適合用來并行訓(xùn)練多個基本分類器,這也是Bagging算法的一大優(yōu)勢[8]。
2.3 本文算法描述
前文指出,一方面,學(xué)習(xí)器的穩(wěn)定性,即對訓(xùn)練數(shù)據(jù)的敏感性,很大程度上影響B(tài)agging算法的效果,其中原因在于差異性小的數(shù)據(jù)對穩(wěn)定性較強(qiáng)的學(xué)習(xí)器無法很好產(chǎn)生作用,這將影響到基學(xué)習(xí)模型的多樣性,Bagging算法提高精確度的能力也將大大減弱,而LR模型的不穩(wěn)定性能不突出;另一方面,LR對大特征空間的解釋效果并不理想,且越多的變量特征也將加大變量間多重共線的可能性,LR模型的顯著性無法得到保障。
由于上述兩點(diǎn)原因,本文提出了一種基于特征選擇的LR-Bagging(基分類器為LR的Bagging算法)的改進(jìn)算法。該算法的精髓在于對每一個LR進(jìn)行訓(xùn)練的特征變量需要經(jīng)過有放回的隨機(jī)抽樣產(chǎn)生。如此改進(jìn)的目的在于通過減少或改變變量提高基LR分類器的多樣性,減少變量間的多重共線性與過擬合問題,同時(shí)還能較好保留LR與Bagging集成學(xué)習(xí)的優(yōu)點(diǎn)。
AUC(Area Under Curve)被定義為ROC曲線下的面積,它的取值范圍介于0.5到1之間,是比較分類器間分類效果優(yōu)劣的評價(jià)標(biāo)準(zhǔn)。AUC越大,我們認(rèn)為模型的分類效果越好。一般情況下,,隨著循環(huán)次數(shù)的增加,模型提取的數(shù)據(jù)信息量也會不斷增加,最后達(dá)到峰值,所以我們通常可以認(rèn)為組合模型的效果趨于先不斷加強(qiáng)后保持穩(wěn)定的過程。因此,我們把迭代的停止條件的設(shè)置為是合理的。
評論