新聞中心

EEPW首頁 > 模擬技術 > 設計應用 > 數(shù)據(jù)挖掘技術在交通事故分析中的應用

數(shù)據(jù)挖掘技術在交通事故分析中的應用

作者: 時間:2009-08-28 來源:網(wǎng)絡 收藏

(1)信息熵的計算
信息熵的計算公式為:

本文引用地址:http://2s4d.com/article/188701.htm


式中,i取值1、2,U分別表示有和無樣本,P(Ui)表示類別為Ui的樣本占樣本總數(shù)中的比例。
根據(jù)式(1),信息熵H(U的計算算法為:


式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數(shù)的比例,P(Ui|Vj)表示屬性A取值Vj時,類別為Ui的概率。
例如,對于駕駛員年齡屬性,j的取值范圍是駕駛員的年齡范圍,約20~70;i的取值范圍仍是1、2,表示事故的有無。則駕駛員年齡屬性條件熵計算的具體算法為:


分別計算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數(shù)值,選擇互信息最大的屬性作為決策樹的根節(jié)點。依該屬性的取值作為分枝,每個分枝對應一個子集。對于每一個子集,重新計算其所含樣本的信息熵、條件熵和互信息,確定該子集的當前節(jié)點及其分枝,直到遍歷了所有的決策屬性,獲得全部的葉子節(jié)點。葉子節(jié)點的數(shù)值就是從決策樹根節(jié)點開始,沿相關路徑(分枝)到達葉子節(jié)點所包含的樣本集可能發(fā)生的概率。
這樣建立的決策樹及概率分布就把交通事故與駕駛員的關系清晰地表露出來,同樣,也可選擇其他挖掘主題如交通事故與機動車輛的關系、與天氣的關系等進行挖掘。


4 結語
經(jīng)過多年的發(fā)展與積累,與交通管理相關的部門積累了大量的與交通安全相關的數(shù)據(jù)資源,充分利用這些數(shù)據(jù)資源,使其為促進經(jīng)濟發(fā)展、創(chuàng)建和諧社會服務。是開發(fā)這些數(shù)據(jù)資源的有效手段,可以找出這些海量數(shù)據(jù)之間的內在的規(guī)律性的聯(lián)系,從而為相關部門或機構的宏觀決策提供技術支持。與其他相關研究不同.這里的工作基于對機動車駕駛員總體樣本的研究,結果會更真實可信,指導意義更強。


上一頁 1 2 下一頁

評論


相關推薦

技術專區(qū)

關閉