數(shù)據(jù)挖掘在用戶竊電行為識別中的應(yīng)用
電力資源在人們的日常生產(chǎn)生活當中起著不可或缺的作用,有些用電客戶為了一己私利竊取電能,這不但會給電力公司造成較大的經(jīng)濟價值損失,同時也增加了電力系統(tǒng)的安全隱患,給用電安全和社會穩(wěn)定造成一定的影響。
本文引用地址:http://2s4d.com/article/202205/434591.htm以往,為發(fā)現(xiàn)用戶竊電,主要是通過用戶舉報竊電、定期巡檢、定期校驗電表等方式,這種方法對人的依賴性很強而且目標不夠明確,效率比較低,從用戶竊電開始到發(fā)現(xiàn)竊電時間跨度較長。隨著科學技術(shù)的發(fā)展,用戶竊電手法越來越多樣化且越來越隱蔽,更有使用倒表器、移相方式、有線遠方控制和無線遙控等智能型竊電[1],使得竊電行為被發(fā)現(xiàn)越來越困難。目前,也有很多供電企業(yè)營銷稽查人員利用計量裝置的異常報警功能和電量查詢功能來對用戶用電情況進行監(jiān)控,但由于存在終端的誤報和漏報等情況,往往不能精準快速地定位到竊電用戶。
因此,在科學技術(shù)快速發(fā)展竊電手段也越來越多樣化和隱蔽化的今天,竊電行為變得更加個性化、智能化以及科技化,傳統(tǒng)的竊電排查方法難以及時、準確地摸排到竊電行為,找到一種更加智能化的反竊電方法尤為重要。使用數(shù)據(jù)挖掘技術(shù)建立竊電用戶識別模型,通過對多方面因素的綜合分析,自動檢測用戶的竊電行為。
1 用戶竊電行為分析
現(xiàn)階段用戶的竊電行為主要包括以下幾種:繞越計量、改動計量裝置、斷零竊電、斷開聯(lián)片、調(diào)接零火線、更換齒輪等,詳細如下圖所示。
圖1 竊電行為詞云圖
2 基于數(shù)據(jù)挖掘的用戶竊電預(yù)測方案
2.1 挖掘模型思路
為了能夠更加高效地識別用電客戶各式各樣的竊電行為,引入大數(shù)據(jù)挖掘算法,建立智能識別竊電用戶的模型,從多方面考量,使得竊電行為無處遁形。CRISP-DM模型是數(shù)據(jù)挖掘領(lǐng)域中最權(quán)威的過程模型,涉及了商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估、結(jié)果發(fā)布等6 大環(huán)節(jié)。這個模型強調(diào)“數(shù)據(jù)不僅僅是數(shù)據(jù)的呈現(xiàn)或以某種方式組織,也不僅僅是數(shù)據(jù)分析、挖掘、統(tǒng)計或建模,而是一個從業(yè)務(wù)角度理解商業(yè)需求、探索需求解決方案,然后再到開展實踐檢驗和驗證方案的完整過程”。
圖2 CRISP-DM模型流程圖
2.2 C4.5 算法
C4.5 算法,作為數(shù)據(jù)挖掘中經(jīng)典算法,是分類決策樹算法中的一種常用機器學習算法,它是基于ID3 算法進行改進后的一種重要算法。在構(gòu)造決策樹的過程中,“如何選擇分裂屬性”和“何時停止分裂”是兩大關(guān)鍵問題,在這兩大問題上的不同處理方法,產(chǎn)生了不同的決策樹算法(CART、ID3 和C4.5)。在如何選取分裂屬性方面,Gini 指標、信息增益和信息增益率是衡量一個屬性區(qū)分數(shù)據(jù)樣本能力的不同度量標準,其中ID3 算法用信息增益,C4.5 算法用信息增益率,CART 決策樹用Gini 系數(shù)。
在屬性選擇度量中,假設(shè)D 是類標記元組訓(xùn)練集,類標號屬性具有m 個不同值,m 個不同類Ci(i=1,2,…,m),CiD 是D 中Ci 類的元組的集合,|CiD| 和|D| 分別是CiD 和D 的元組個數(shù):
(1)對D 中的元組分類所需的期望信息為,Info(D)亦稱為熵。
C4.5 算法是以信息增益率進行分裂屬性選擇,克服了ID3 算法偏向多值屬性的不足,相較于CART 和ID3,能很好地完成了在連續(xù)值屬性上的處理。該算法定義了一套處理不同數(shù)據(jù)缺失情況的處理策略,其優(yōu)點是可以對不完整數(shù)據(jù)集處理得較為完善。
2.3 案例分析
2.3.1 數(shù)據(jù)輸入和特征選取
根據(jù)電力企業(yè)的用電檢查業(yè)務(wù)指導(dǎo)相關(guān)的內(nèi)容,可基于營銷稽查、線損、業(yè)擴、計量、電費、客服等專業(yè)數(shù)據(jù)預(yù)測用戶竊電信息[]。本文建立的用戶竊電智能識別模型選取450 條訓(xùn)練數(shù)據(jù)和50 條測試數(shù)據(jù)。數(shù)據(jù)集的特征包括用戶類別、電價類別、豐枯類型、用電性質(zhì)、地區(qū)類別、信用級別、業(yè)務(wù)類別、費用類別、峰谷標志、電量類別、季節(jié)類型、違竊標志的12 個字段。
2.3.2 模型構(gòu)建及模型訓(xùn)練
用戶竊電行為分析屬于分類預(yù)測的應(yīng)用場景,在模型訓(xùn)練階段,采用總體表現(xiàn)較優(yōu)秀的C4.5 決策樹算法進行竊電識別模型的訓(xùn)練,并通過輸出的決策樹歸納識別用戶竊電行為的規(guī)則。
2.3.3 模型評估
對于分類場景中的二分類問題,可以將分類器預(yù)測類別和真實類別,排列組合為四種類別,如下表1 所示。
真正類(true positive TP):真實類別為正類,預(yù)測類別為正類;
(false positive FP):真實類別為負類,預(yù)測類別為正類;
(false negative FN):真實類別為正類,預(yù)測類別為負類;
(true negative TN): 真實類別為負類,預(yù)測類別為負類。
該模型采用的準確率(Accuracy):
用于衡量所有樣本被分類準確的比例。
2.3.4 模型的應(yīng)用
模型總體的準確率在95% 左右,可用于后續(xù)用戶竊電情況的分析和預(yù)測。并且隨著模型輸入數(shù)據(jù)的增加,模型的準確性和可靠性也將得到提升。通過與分類預(yù)測器的結(jié)合使用,可以實現(xiàn)已經(jīng)訓(xùn)練好的模型的復(fù)用而不用重新訓(xùn)練模型。
3 結(jié)論
本文基于數(shù)據(jù)挖掘的技術(shù),分析用電客戶相關(guān)的用電特征數(shù)據(jù),建立竊電用戶識別模型,選用C4.5 決策樹算法進行模型的訓(xùn)練,得到了較好的預(yù)測結(jié)果。該模型能夠?qū)τ脩舻母`電行為進行有效而科學的判斷,幫電力系統(tǒng)營銷稽查相關(guān)工作人員及時地研判用戶是否存在竊電情況。相比于傳統(tǒng)的反竊電技術(shù)工作量大、工作效率低,該方法能夠提高識別效率,減少供電企業(yè)的經(jīng)濟損失。
參考文獻:
[1] 曹崢,楊鏡非,劉曉娜.BP神經(jīng)網(wǎng)絡(luò)在反竊電系統(tǒng)中的研究與應(yīng)用[J].水電能源科學,2011,29(9):199-202.
[2] 胡琛,數(shù)據(jù)挖掘技術(shù)在電量管理與反竊電系統(tǒng)中的應(yīng)用與研究[D].武漢:武漢大學,2004.
[3] 蔡嘉榮,王順意,吳廣財.基于機器學習的用戶竊電預(yù)測及用電檢查計劃輔助編排研究[J].測試工具與解決方案,2018,54(2):108-109.
(本文來源于《電子產(chǎn)品世界》雜志2022年5月期)
評論