新聞中心

EEPW首頁(yè) > 模擬技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于黑板的多Agent智能決策支持系統(tǒng)的Agent實(shí)現(xiàn)

基于黑板的多Agent智能決策支持系統(tǒng)的Agent實(shí)現(xiàn)

作者: 時(shí)間:2009-08-26 來(lái)源:網(wǎng)絡(luò) 收藏

如果τ(r)=φ(假設(shè)由一個(gè)動(dòng)作作為結(jié)束),則不可能存在對(duì)的后繼狀態(tài)。在這種情況下,就說(shuō)系統(tǒng)結(jié)束執(zhí)行。同時(shí),假設(shè)所有執(zhí)行都最終會(huì)結(jié)束。形式上,環(huán)境Env是一個(gè)3元組Env=E,e0,τ>,其中E提供環(huán)境狀態(tài)的集合,e0∈E是初始狀態(tài),τ是狀態(tài)轉(zhuǎn)移函數(shù)。把的模型表示成一個(gè)函數(shù),將一次執(zhí)行(假設(shè)以環(huán)境狀態(tài)為結(jié)束)映射到動(dòng)作:

本文引用地址:http://2s4d.com/article/188711.htm

Ag:RE-AC
因此,根據(jù)系統(tǒng)到當(dāng)前為止的歷史決定執(zhí)行具體的動(dòng)作。
系統(tǒng)是和環(huán)境構(gòu)成的對(duì)。任何系統(tǒng)都有與之相關(guān)的可能的執(zhí)行集合:用R(Ag,Env)表示Agent在環(huán)境Env中的執(zhí)行的集合。假設(shè)R(Ag,Env)只包含可以結(jié)束的執(zhí)行,即執(zhí)行r不存在可能的后繼狀態(tài):τ(r)=φ(這里不考慮無(wú)限的執(zhí)行)。形式上,序列:(e0,a0,el,al,e2,…)。表示Agent Ag在環(huán)境Envr=E,e0,τ>中的一次執(zhí)行,如果:e0是Env的初始狀態(tài);a0=Ag(e0);對(duì)于u>0,那么:eu∈τ((e0,a0,…au一1))其中:au=Ag((e0,a0,…eu))
3.2 Agent的行為描述
構(gòu)造Agent最主要的目的是為了決策,其決策過(guò)程是一個(gè)感知到動(dòng)作的過(guò)程。把Agent的決策函數(shù)分解成感知函數(shù)see和動(dòng)作函數(shù)action。Agent具有內(nèi)部狀態(tài),設(shè)I是Agent的所有內(nèi)部狀態(tài)的集合,Per為(非空)的感知集合,Agent的決策過(guò)程基于這種信息,感知函數(shù)see實(shí)現(xiàn)從外部環(huán)境狀態(tài)到感知的映射:see:E→Per。動(dòng)作選擇函數(shù)action定義為從內(nèi)部狀態(tài)到動(dòng)作的映射:action:I→Ac。引入一個(gè)附加函數(shù)next,實(shí)現(xiàn)從內(nèi)部狀態(tài)和感知到內(nèi)部狀態(tài)的映射:next:IxPer→I。因此,Agent行為可描述為:Agent從某個(gè)初始內(nèi)部狀態(tài)i0開(kāi)始,觀察環(huán)境狀態(tài)e,產(chǎn)生一個(gè)感知see(e),然后通過(guò)next函數(shù)更新Agent的內(nèi)部狀態(tài),變成next(i0,see(e))。Agent通過(guò)action(next(i0,see(e)))選擇動(dòng)作。執(zhí)行這個(gè)動(dòng)作使Agent進(jìn)入另一個(gè)循環(huán),繼續(xù)通過(guò)see感知外部世界,通過(guò)next更新?tīng)顟B(tài),通過(guò)action選擇動(dòng)作執(zhí)行。其過(guò)程如圖2所示。

3.3 Agent的行為建模
Agent行為中的認(rèn)知過(guò)程包括狀態(tài)評(píng)估、決策制定、規(guī)劃、學(xué)習(xí)等。Agent行為建模就是對(duì)認(rèn)知處理所包含的幾個(gè)認(rèn)知過(guò)程進(jìn)行建模。其中決策制定是核心過(guò)程。決策制定是從多個(gè)方法中選擇具有最優(yōu)效用的方法并執(zhí)行的過(guò)程。可以用效用理論來(lái)衡量方案的優(yōu)劣。
根據(jù)效用理論,假設(shè)有m個(gè)可選方案,在當(dāng)前的狀態(tài)下,采用的決策方案為Ai,產(chǎn)生的可能狀態(tài)為Sj,每一狀態(tài)的效用值是U(Sj),概率是Pj,則該決策的期望效用值為:


比較每個(gè)方案的不同期望效用,其中期望效用值最大的方案即為當(dāng)前的最佳決策A,即:


例如,有3種可選擇方法,2種狀態(tài)的決策問(wèn)題,狀態(tài)空間用(ω1,ω2)表示,可選方案為A1,A2,A3,效用函數(shù)如表1所示。

從表1可知,當(dāng)前處于狀態(tài)ω1時(shí),A3是最好的選擇;當(dāng)前狀態(tài)處于ω2時(shí),A1是最優(yōu)選擇。當(dāng)這兩種狀態(tài)分別以一定的概率p1,p2出現(xiàn)時(shí),記p=p1,則p2=1-P。由式(1)和式(2)可得:


在概率不能確定情況下,根據(jù)式(3)判斷概率的大致范圍。如對(duì)Al最優(yōu)的p應(yīng)滿足:5―3p≥4+2P,5―3P≥3+5p。則有p≤1/5。類似的可計(jì)算A2,A3最優(yōu)對(duì)應(yīng)的概率范圍分別為1/5≤p≤1/3,p≥1/3。在能夠判斷決策范圍的情況下,就可以據(jù)此對(duì)各方法進(jìn)行分析,簡(jiǎn)化決策。當(dāng)影響效用值的因素不止一個(gè)時(shí),就需要采用適當(dāng)?shù)姆椒ㄓ?jì)算效用值,在各屬性滿足互斥條件,即各自產(chǎn)生的效用值互相獨(dú)立時(shí),可以采用加法的形式計(jì)算效用值。有時(shí)候,方法的選擇需要體現(xiàn)靈活性和可變性,這時(shí)可以通過(guò)引入相關(guān)的隨機(jī)變量建立隨機(jī)效用模型來(lái)計(jì)算效用值,從而使決策結(jié)果更符合實(shí)際情況。

4 結(jié)語(yǔ)
采用的基于黑板的多Agent模型.每個(gè)Agent本身具有自治性,Agent之間通過(guò)黑板進(jìn)行信息共享,利用黑板中的信息決定自身行為,協(xié)同完成復(fù)雜問(wèn)題地求解。由于Agent自身具有不確定性,對(duì)多Agent系統(tǒng)需要解決Agent之間的有效協(xié)調(diào),因此建立統(tǒng)一的協(xié)調(diào)機(jī)制,使Agent之間可以有效地相互協(xié)調(diào)工作,提高系統(tǒng)整體性能。實(shí)際應(yīng)用中還有待于進(jìn)一步完善。


上一頁(yè) 1 2 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉