新聞中心

EEPW首頁 > 模擬技術(shù) > 設(shè)計應(yīng)用 > 數(shù)據(jù)挖掘技術(shù)在交通事故分析中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在交通事故分析中的應(yīng)用

作者: 時間:2009-08-28 來源:網(wǎng)絡(luò) 收藏

(1)信息熵的計算
信息熵的計算公式為:

本文引用地址:http://2s4d.com/article/188701.htm


式中,i取值1、2,U分別表示有和無樣本,P(Ui)表示類別為Ui的樣本占樣本總數(shù)中的比例。
根據(jù)式(1),信息熵H(U的計算算法為:


式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數(shù)的比例,P(Ui|Vj)表示屬性A取值Vj時,類別為Ui的概率。
例如,對于駕駛員年齡屬性,j的取值范圍是駕駛員的年齡范圍,約20~70;i的取值范圍仍是1、2,表示事故的有無。則駕駛員年齡屬性條件熵計算的具體算法為:


分別計算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數(shù)值,選擇互信息最大的屬性作為決策樹的根節(jié)點。依該屬性的取值作為分枝,每個分枝對應(yīng)一個子集。對于每一個子集,重新計算其所含樣本的信息熵、條件熵和互信息,確定該子集的當(dāng)前節(jié)點及其分枝,直到遍歷了所有的決策屬性,獲得全部的葉子節(jié)點。葉子節(jié)點的數(shù)值就是從決策樹根節(jié)點開始,沿相關(guān)路徑(分枝)到達(dá)葉子節(jié)點所包含的樣本集可能發(fā)生的概率。
這樣建立的決策樹及概率分布就把交通事故與駕駛員的關(guān)系清晰地表露出來,同樣,也可選擇其他挖掘主題如交通事故與機(jī)動車輛的關(guān)系、與天氣的關(guān)系等進(jìn)行挖掘。


4 結(jié)語
經(jīng)過多年的發(fā)展與積累,與交通管理相關(guān)的部門積累了大量的與交通安全相關(guān)的數(shù)據(jù)資源,充分利用這些數(shù)據(jù)資源,使其為促進(jìn)經(jīng)濟(jì)發(fā)展、創(chuàng)建和諧社會服務(wù)。是開發(fā)這些數(shù)據(jù)資源的有效手段,可以找出這些海量數(shù)據(jù)之間的內(nèi)在的規(guī)律性的聯(lián)系,從而為相關(guān)部門或機(jī)構(gòu)的宏觀決策提供技術(shù)支持。與其他相關(guān)研究不同.這里的工作基于對機(jī)動車駕駛員總體樣本的研究,結(jié)果會更真實可信,指導(dǎo)意義更強(qiáng)。


上一頁 1 2 下一頁

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉