基于貝葉斯博弈的無人機通信延時研究
摘要:在無人機通信網(wǎng)絡(luò)中,無人機之間協(xié)同通信已經(jīng)成為重要的研究方向。本文針對無人機類型的不確定性,基于動態(tài)貝葉斯聯(lián)盟博弈,通過計算無人機在最小通信延遲下的收益,利用貝葉斯聯(lián)盟博弈來分析無人機的策略選擇。此外,利用信念更新機制來發(fā)現(xiàn)系統(tǒng)中潛在的聯(lián)盟成員。仿真表明,獲得的聯(lián)盟結(jié)構(gòu)是納什穩(wěn)定的。
本文引用地址:http://2s4d.com/article/201609/310491.htm引言
多無人機(unmanned aerial vehicle,UAV)協(xié)同搜索是多無人機協(xié)同的一個重要研究方向。多架UAV同時對一個未知區(qū)域進行搜索,目的就是大量獲取搜索區(qū)域的信息,確定目標(biāo)存在的具體位置。文獻[1]提出了一種基于貝葉斯理論的多UAV魯棒協(xié)同搜索方法,首先建立搜索環(huán)境的數(shù)學(xué)模型,然后考慮到UAV傳感器測量的不確定性以及環(huán)境自身的不確定性,引入魯棒性能參數(shù)以提高系統(tǒng)的抗干擾性以及穩(wěn)定性,最后對目標(biāo)函數(shù)進行優(yōu)化求解,從而引導(dǎo)UAV在區(qū)域中進行搜索。任務(wù)集結(jié)是協(xié)同作戰(zhàn)的首要行動和自組織協(xié)同控制的重要內(nèi)容,文獻[2]為優(yōu)化集結(jié)行動中系統(tǒng)任務(wù)狀態(tài)協(xié)調(diào)過程能量最優(yōu)性、協(xié)同控制動態(tài)響應(yīng)性和集結(jié)行動時效性3個性能指標(biāo),采用基于快速一致性控制算法的協(xié)同控制結(jié)構(gòu),在合作博弈框架下給出多無人機系統(tǒng)自組織協(xié)同與優(yōu)化控制問題描述,建立了優(yōu)化控制輸入的Pareto解集,采用Nash討價還價方法給出基本合作博弈優(yōu)化一致性控制算法。在基本算法中引入過去狀態(tài)差值,并以優(yōu)化目標(biāo)構(gòu)建適應(yīng)度函數(shù),采用遺傳算法優(yōu)化代價函數(shù)的加權(quán)矩陣,得到改進合作博弈優(yōu)化一致性控制算法。文獻[3]通過考慮合作聯(lián)盟的目標(biāo)價值收益指標(biāo)函數(shù)、損傷代價指標(biāo)函數(shù)及航程代價指標(biāo)函數(shù),建立多無人機聯(lián)盟合作博弈模型,構(gòu)建出其博弈矩陣,給出合作聯(lián)盟特征函數(shù)與混合策略納什均衡的定義,采用粒子群算法(particle swarm algorithm,PSO)求解出混合策略的納什均衡,并利用Shapley 值方法,給出一種合作博弈的求解方法,最終得到多無人機對地攻防最優(yōu)對抗策略。文獻[4]對目標(biāo)運動行為的綜合利用,以敵我雙方為局中人,把敵我雙方可能的行為作為策略集,建立博弈論模型,通過求解Nash均衡改進掃描式搜索路徑規(guī)劃算法。文獻[5]通過分析實際戰(zhàn)場中目標(biāo)價值和毀傷概率信息的不確定性,提出了不確定信息條件下需要解決的無人機(UAV)攻防博弈問題。以敵我雙方發(fā)射導(dǎo)彈的價值信息為依據(jù),建立基于不確定信息的多UAV攻防對抗的支付函數(shù),構(gòu)建攻防雙方博弈支付矩陣。將粒子群算法和區(qū)間數(shù)多屬性方案排序方法相結(jié)合,給出基于不確定信息下博弈納什均衡求解方法,為不確定環(huán)境下UAV攻防博弈實現(xiàn)最優(yōu)策略提供了新方法。
現(xiàn)在我們考慮一些無人機為降低傳輸成本,提高自身的利益,會出現(xiàn)不良行為的無人機。無人機的行為有兩種類型:協(xié)作的無人機總是會協(xié)助聯(lián)盟內(nèi)其他無人機進行信息傳輸;不良行為的無人機則表現(xiàn)為在聯(lián)盟內(nèi)有時會不參與其他無人機的協(xié)作信息傳輸。為了模擬存在協(xié)作無人機和不良行為無人機間的聯(lián)盟形成過程,建立了基于貝葉斯聯(lián)盟博弈[6]模擬無人機間協(xié)作傳輸信息的過程。
1 系統(tǒng)模型
如圖1所示為無人機目標(biāo)系統(tǒng),各個無人機之間能夠形成聯(lián)盟并在彼此間共享目標(biāo)信息。假設(shè)各個無人機位于不同的高度,避免了他們彼此間的碰撞[7]。
無人機的運動模型:
(1)
其中,是角度,vi是對地速度,ci是常數(shù)對應(yīng)每個無人機的高度,考慮兩種類型的無人機成員:協(xié)作的無人機和不良行為的無人機。
2 貝葉斯聯(lián)盟博弈建立
我們利用貝葉斯聯(lián)盟博弈形成處理無人機類型的不確定算法[8]。表示無人機可能的類型集合,Tw代表協(xié)作的無人機,Tm代表不良行為的無人機。
無人機i的預(yù)期收益:
(2)
其中ai表示平均效用的權(quán)重系數(shù),βi表示平均成本的權(quán)重系數(shù)。對于無人機i來說,是其對同聯(lián)盟S內(nèi)其他無人機的聯(lián)合信念概率,其計算如下:
(3)
無人機i的效用表示為Ri(S):
(4)
其中,di(S)表示無人機i加入聯(lián)盟S后信息傳輸延時,di=d({i})表示無人機i不加入任何聯(lián)盟的信息傳輸延時。
無人機i傳輸目標(biāo)信息到同聯(lián)盟任何無人機j引起的平均成本為:
(5)
其中,cij(S)表示無人機i傳送目標(biāo)信息到聯(lián)盟S內(nèi)無人機j的平均成本,表示聯(lián)盟S中無人機的數(shù)量。
為了更多獲知不完全信息下無人機的類型,根據(jù)當(dāng)前時隙和歷史信念[8]的結(jié)果,通過貝葉斯定理[9],每個無人機更新關(guān)于其他無人機類型的信念概率。θ=0代表不合作,θ=1代表合作。
其中,率。
3 基于離散馬爾科夫鏈的聯(lián)盟形成穩(wěn)定性分析
當(dāng)每個無人機從自身的效益值角度進行聯(lián)盟組合的調(diào)整時,那么狀態(tài)(聯(lián)盟結(jié)構(gòu))之間的變化可以運用馬爾科夫鏈[10]的方法進行分析,以驗證貝葉斯聯(lián)盟形成算法的穩(wěn)定性。
本文來源于中國科技期刊《電子產(chǎn)品世界》2016年第9期第52頁,歡迎您寫論文時引用,并注明出處。
評論