應(yīng)用手機(jī)GPS數(shù)據(jù)預(yù)測(cè)交通流速度
摘要:準(zhǔn)確估計(jì)交通狀況,定位交通擁堵是方便人們出行的重要一步。利用手機(jī)GPS信息,預(yù)測(cè)交通擁堵具有很廣闊的應(yīng)用前景。本文采用基于主成分分析的多元線性回歸的方法構(gòu)建預(yù)測(cè)模型,利用GPS定位數(shù)據(jù)對(duì)短時(shí)交通流速度進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,基于手機(jī)GPS數(shù)據(jù)所構(gòu)建的回歸模型能夠?qū)煌魉俣冗M(jìn)行有效的預(yù)測(cè)。
本文引用地址:http://2s4d.com/article/201606/293266.htm引言
近年來(lái),智能手機(jī)的使用越來(lái)越普及。便捷的手機(jī)網(wǎng)絡(luò)可以解決交通預(yù)測(cè)過(guò)程中遇到的覆蓋區(qū)域限制和實(shí)時(shí)性差等問(wèn)題,與此同時(shí),GPS定位準(zhǔn)確性高,可以作為目標(biāo)點(diǎn)的交通探測(cè)器使用[1],收集定點(diǎn)的實(shí)時(shí)數(shù)據(jù)用于交通流速度預(yù)測(cè)。分析實(shí)時(shí)交通情況,提供相應(yīng)的信息服務(wù),對(duì)于緩解交通堵塞變得尤為重要。傳統(tǒng)交通流速靠地感線圈數(shù)據(jù)進(jìn)行估算和預(yù)測(cè),而地感線圈覆蓋范圍小、造價(jià)高且普及率低下。隨著手機(jī)等移動(dòng)終端的普及,無(wú)線運(yùn)營(yíng)商可以利用手機(jī)的通話數(shù)據(jù)、短信數(shù)據(jù)、手機(jī)在基站間的切換數(shù)據(jù)、手機(jī)所處基站的位置數(shù)據(jù)以及手機(jī)信息量的變化反映路段交通流速度,轉(zhuǎn)而利用統(tǒng)計(jì)模型方法對(duì)交通狀況進(jìn)行分析和估計(jì)[2],依靠手機(jī)收集到的道路信息去訓(xùn)練統(tǒng)計(jì)模型,然后利用該模型來(lái)估計(jì)和預(yù)測(cè)相應(yīng)路段的交通情況?;谑謾C(jī)的GPS信息[3]估計(jì)和預(yù)測(cè)相應(yīng)路段的行程時(shí)間和擁堵?tīng)顩r,可以為手機(jī)持有者提供便捷的信息服務(wù),具有廣闊的應(yīng)用前景和實(shí)實(shí)在在的價(jià)值。
本文在手機(jī)GPS數(shù)據(jù)的基礎(chǔ)上,提出了一種基于主成分分析和多元線性回歸的方法,對(duì)交通流進(jìn)行預(yù)測(cè)和分析,進(jìn)而向客戶提供交通路況服務(wù)信息。
GPS數(shù)據(jù)的收集過(guò)程會(huì)受到外界多方面因素的影響,而使得GPS數(shù)據(jù)的質(zhì)量會(huì)出現(xiàn)誤差。這些誤差形成的原因大多是不可避免的,因此,對(duì)手機(jī)GPS數(shù)據(jù)產(chǎn)生的影響是難以避免的。所以當(dāng)獲得手機(jī)GPS數(shù)據(jù)以后,不能夠直接用來(lái)對(duì)交通流進(jìn)行估計(jì)和預(yù)測(cè)。不然,如果直接將誤差比較大的數(shù)據(jù)用于估計(jì)交通流的平均速度,這樣必然會(huì)因誤差傳遞使得估計(jì)的準(zhǔn)確性產(chǎn)生較大的影響。為了降低數(shù)據(jù)誤差產(chǎn)生的不利影響,首先應(yīng)該對(duì)原始數(shù)據(jù)進(jìn)行處理。
原始數(shù)據(jù)因受影響的程度不同可以分為兩種:一種是有較小偏差的數(shù)據(jù),另一種是出現(xiàn)錯(cuò)誤的數(shù)據(jù)。針對(duì)不同的數(shù)據(jù)應(yīng)該采取不同的措施進(jìn)行預(yù)處理。對(duì)于錯(cuò)誤數(shù)據(jù),應(yīng)該剔除;有細(xì)微偏差的數(shù)據(jù),應(yīng)該對(duì)其進(jìn)行修正,保證數(shù)據(jù)能夠投影到合理的路段網(wǎng)絡(luò)上。錯(cuò)誤數(shù)據(jù)通常是由于GPS衛(wèi)星信號(hào)在傳輸過(guò)程中受到比較嚴(yán)重的干擾產(chǎn)生的,例如遇到較為密集的大型建筑群、比較茂密的森林樹(shù)木或電磁波等發(fā)生突變,使得定位數(shù)據(jù)發(fā)生嚴(yán)重偏離歷史軌跡的現(xiàn)象。因?yàn)檫@一類數(shù)據(jù)基本不能夠反映出車輛行駛的情況,所以不能代表車輛的正確位置,需要從原始數(shù)據(jù)中刪除。對(duì)于這類錯(cuò)誤,通常采用閾值檢驗(yàn)法進(jìn)行判斷,該方法假設(shè)行駛車輛車速的合理值是固定的范圍,當(dāng)某一速度超出這個(gè)合理的范圍,也就說(shuō)明該數(shù)據(jù)是錯(cuò)誤數(shù)據(jù),需要進(jìn)行剔除。偏差數(shù)據(jù)通常是由于GPS定位誤差導(dǎo)致的,這是經(jīng)常發(fā)生的,對(duì)于這類數(shù)據(jù)應(yīng)該認(rèn)為是正常數(shù)據(jù)。對(duì)這類數(shù)據(jù)也需要進(jìn)行修正,通常的修正方法是電子地圖匹配的算法[4,5]。該方法將手機(jī)GPS數(shù)據(jù)投影到地圖上,并根據(jù)投影后的數(shù)據(jù)點(diǎn)向匹配的路段做垂線,那么與匹配路段上的交點(diǎn)即為該數(shù)據(jù)點(diǎn)的匹配位置。如圖1所示是匹配位置的示意圖,根據(jù)該圖可以求得實(shí)際的GPS數(shù)據(jù)點(diǎn)p的位置:
(1)
(2)
其中,x1,y1分別是路段端點(diǎn)1的經(jīng)緯度坐標(biāo),x2,y2分別是路段端點(diǎn)2的經(jīng)緯度坐表,x3,y3分別是當(dāng)前手機(jī)GPS定位數(shù)據(jù)上的經(jīng)緯度坐表。
2 主成分分析的多元線性回歸模型
2.1 主成分分析
主成分分析[6]的主要目的是在保證原始數(shù)據(jù)信息損失最小的前提下,經(jīng)過(guò)線性變換和舍棄部分信息,從而能夠以少數(shù)的綜合變量取代原始采用的多維變量。在提取的所有主成分中,第一主成分包含有能夠解釋的最多的變量信息,第二主成分包含能解釋的次多的變量信息,最后一個(gè)主成分包含最少的變量信息。
主成分分析的主要步驟是:
1)根據(jù)原始數(shù)據(jù)X,求X自相關(guān)矩陣的特征值、特征向量;
2)按照特征值大小將特征向量排序;
3)按照貢獻(xiàn)比例找出較大的特征向量構(gòu)成的子空間;
4)將原始數(shù)據(jù)X每一行向子空間上投影所得的坐標(biāo),即為降維以后的坐標(biāo);
5)計(jì)算主成分。
2.2 基于主成分分析多元線性回歸
多元線性回歸是多元統(tǒng)計(jì)分析中的一個(gè)重要方法,該方法根據(jù)歷史的樣本數(shù)據(jù),在不需要知道未來(lái)樣本數(shù)據(jù)的情況下,建立多元線性回歸模型,預(yù)測(cè)未來(lái)時(shí)刻回歸模型的回歸參數(shù)。其基本模型方程為:
(3)
其中,a1,a2,…,an為模型參數(shù)。
利用多元線性回歸模型進(jìn)行交通流速度的預(yù)測(cè)時(shí),可以很容易地通過(guò)最小二乘法[7]進(jìn)行求解。為了進(jìn)一步利用原始交通流的數(shù)據(jù)信息,進(jìn)一步確定不同交通流的貢獻(xiàn)率,確定不同路段的交通情況,基于主成分分析的多元回歸方程為:
(4)
其中,xi表示主成分分析得出的因子的分變量,p是提取的主成分的個(gè)數(shù),b表示未被利用的數(shù)據(jù)信息誤差。對(duì)上式進(jìn)行標(biāo)準(zhǔn)化后得到:
(5)
其中,Bi為所求多元線性回歸系數(shù)。
3 實(shí)驗(yàn)結(jié)果和分析
本文的數(shù)據(jù)為我國(guó)某城市主要交通路段A點(diǎn)到B點(diǎn)這段上的數(shù)據(jù),本文的預(yù)測(cè)對(duì)象即為這段路段上的交通流速度。本文從A到B的數(shù)據(jù)中提取一個(gè)64維的向量,包括前4個(gè)時(shí)刻的手機(jī)通話量、短信量、基站切換數(shù)目和出租車的GPS平均速度值,共16維。由于相鄰路段的車輛對(duì)該路段會(huì)有影響,因此又考慮相鄰4個(gè)路段上相應(yīng)的16維數(shù)據(jù),共16×4=64維數(shù)據(jù)。本文中用到的數(shù)據(jù)共1052條,其中600條數(shù)據(jù)作為訓(xùn)練集,452條數(shù)據(jù)作為測(cè)試集,分別進(jìn)行試驗(yàn)預(yù)測(cè)交通流速。
在訓(xùn)練集上進(jìn)行的交通流預(yù)測(cè)結(jié)果以及相應(yīng)的誤差曲線如圖2所示。圖2(a)中的原始數(shù)據(jù)表示實(shí)際的交通流速度Y,預(yù)測(cè)曲線表示利用主成分分析多元線性回歸擬合出的交通流速度值YP。從該圖中可以看出,在交通流速峰值處,預(yù)測(cè)值與真實(shí)值存在著明顯的差異,除了峰值外,多元線性回歸方法大體上能夠預(yù)測(cè)出交通流的速度。圖2(b)中的誤差曲線更形象地給出了實(shí)際值與預(yù)測(cè)值之間的差異。
測(cè)試集上進(jìn)行的交通流預(yù)測(cè)結(jié)果以及相應(yīng)的誤差曲線如圖3所示。圖3(a)中原始數(shù)據(jù)曲線表示測(cè)試集上實(shí)際的交通流速度Y,預(yù)測(cè)曲線表示測(cè)試集上預(yù)測(cè)的交通流速度YP。從測(cè)試集也可以看出,類似于訓(xùn)練集上的情況也出現(xiàn)了,交通流速峰值處出現(xiàn)的預(yù)測(cè)誤差較大。針對(duì)實(shí)驗(yàn)的結(jié)果,可能是當(dāng)交通流速較大的時(shí)候,道路的流通比較通暢,車輛的行駛速度就快,手機(jī)GPS的定位有一定的延遲,沒(méi)能精確地反應(yīng)出當(dāng)時(shí)汽車行駛的速度,不過(guò)這也恰好說(shuō)明了當(dāng)時(shí)的道路情況并沒(méi)發(fā)生擁堵現(xiàn)象,方便人們出行。而該方法對(duì)于交通流速較低地方在誤差允許范圍內(nèi)能夠準(zhǔn)確地預(yù)測(cè)出該處的交通流速,進(jìn)而能夠判斷出,流速比較慢的地方發(fā)生了擁堵現(xiàn)象,此刻該路段不適宜出行。
4 總結(jié)
本文利用手機(jī)GPS數(shù)據(jù),采用基于主成分分析的多元線性回歸的方法構(gòu)建預(yù)測(cè)模型,能夠有效地對(duì)交通流速進(jìn)行預(yù)測(cè)和道路擁堵情況進(jìn)行判斷。城市交通堵塞問(wèn)題,對(duì)于人們的日常出行會(huì)造成困擾,甚至?xí)o人們?cè)斐奢^大的經(jīng)濟(jì)損失。利用手機(jī)GPS數(shù)據(jù)進(jìn)行道路情況預(yù)測(cè)和判斷的思路和方法,如果能在實(shí)際生活中得到應(yīng)用,將為人們的出行提供相應(yīng)的信息服務(wù),方便了人們的生活。
參考文獻(xiàn):
[1]Rose G. Mobile phones as traffic probes: practices, prospects and issues[J]. Transport Reviews, 2006, 26(3): 275-291.
[2]Herring R, Hofleitner A, Amin S, et al. Using mobile phones to forecast arterial traffic through statistical learning[C]//89th Transportation Research Board Annual Meeting, Washington DC. 2010.
[3]Minh Q T, Kamioka E. Pinpoint: An Efficient Approach to Traffic State Estimation System Using Mobile Probes[C]//Wireless Communications Networking and Mobile Computing (WiCOM), 2010 6th International Conference on. IEEE, 2010: 1-5.
[4]王志建, 王力, 汪健. 基于拓?fù)渑袛嗟暮A?GPS 數(shù)據(jù)延時(shí)地圖匹配算法[J]. 西南交通大學(xué)學(xué)報(bào), 2012, 47(5): 861-866.
[5]吳昊, 劉巖, 吳北平. GPS 車輛監(jiān)控系統(tǒng)道路匹配算法研究與實(shí)現(xiàn)[J]. 全球定位系統(tǒng), 2013, 38(4): 83-87.
[6]Dunteman G H. Principal components analysis[M]. Sage, 1989
[7]劉欽圣.最小二乘問(wèn)題計(jì)算方法[M].北京:北京工業(yè)大學(xué)出版社,1989.
本文來(lái)源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第6期第67頁(yè),歡迎您寫論文時(shí)引用,并注明出處。
評(píng)論