首页 / 专利库 / 商业 / 行动支付 / 一种生成作战行动序列的方法

一种生成作战行动序列的方法

阅读:376发布:2020-05-18

专利汇可以提供一种生成作战行动序列的方法专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供了一种生成作战行动序列的方法,根据作战行为数据构建作战行动序列的随机博弈模型;解构当前作战状态,得到初始输入数据;根据所述初始输入数据,通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列。通过本发明,通过在各个阶段预先制定好的可能的行动策略集,根据状态转移过程中的概率值,最后求解出不确定条件下作战行动序列的规划方案,为指挥员提供科学有效的决策支持。,下面是一种生成作战行动序列的方法专利的具体信息内容。

1.一种生成作战行动序列的方法,包括以下步骤:
根据作战行为数据构建作战行动序列的随机博弈模型;
解构当前作战状态,得到初始输入数据;
根据所述初始输入数据,通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列。
2.根据权利要求1所述的一种不确定条件下基于随机博弈的作战行动序列规划方法,其特征在于,所述随机博弈模型Γ通过下式表示:
Γ=(N,S,Ω,P,u),其中:
N表示局中红蓝双方,表示为:N={R,B},R表示红方,B表示蓝方;
S表示战场状态的集合;
Ω表示红蓝双方的行动集合,表示为:Ω={Φ,Ψ};Φ表示红方的行动集合,Ψ表示蓝方的行动集合;
P表示状态转移概率,所述状态转移概率用来表示战场状态转移的不确定性;
u表示效用函数,所述效用函数是最终多种可能战场态势的函数。
3.根据权利要求2所述的一种生成作战行动序列的方法,其特征在于,所述战场状态集合S表示为:S={S1,S2,…,Sm…,SM};其中,
M表示将整个作战行动过程分为M个阶段,S1表示战场初始状态,Sm(1≤m≤M)表示第m阶段的战场状态。
4.根据权利要求3所述的一种生成作战行动序列的方法,其特征在于,所述红方的行动集合Φ表示为:Φ={Φ1,Φ2,…,Φm…,ΦM},Φm表示在战场状态为Sm时红方可行的行动集; 为战场状态为Sm时红方第i项行动;
所述蓝方的行动集合Ψ表示为:Ψ={Ψ1,Ψ2,…,Ψm…,ΨM},Ψm表示在战场状态为Sm时蓝方可行的行动集, 为战场状态为Sm时蓝方第j项行动。
5.根据权利要求4所述的一种生成作战行动序列的方法,其特征在于,在所述状态转移概率P中,记战场状态从Sm转换为Si时其转换概率为 表示当战场状态为Sm时红
蓝双方分别采取行动 后战场状态转换为Si的概率,并且有
其中 表示在战场状态为Sm时,红蓝双方分别采取行动 状态转换后所有可能的
状态集合。
6.根据权利要求5所述的一种生成作战行动序列的方法,其特征在于,在最后一阶段可能出现的Nk种战场态势组成的向量 所述效用函数记为 表示一实数。
7.根据权利要求2-6之一所述的一种生成作战行动序列的方法,其特征在于,所述根据所述初始输入数据,通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列,包括:
根据状态集合S和行动集合Ω确定红蓝双方的策略集;根据策略集和效用函数确定支付矩阵;
根据支付矩阵求得红蓝双方的均衡策略以及赢得值;
根据均衡策略以及赢得值分析包含从博弈树根节点到叶子节点的完整路径,所述完整路径即为作战行动序列。
8.根据权利要求7所述的一种生成作战行动序列的方法,其特征在于,所述策略集为战场状态集合S到行动集合Ω的映射,红方的策略集πr为πr:S→Φ,蓝方的策略集πb为πb:S→Ψ。
9.根据权利要求8所述的一种生成作战行动序列的方法,其特征在于,所述红方的策略
1 2 i M 1 2 i M
集πr={πr ,πr ,...,πr,...,πr},蓝方的策略集πb={πb ,πb ,...,πb,...,πb};其中,表示红方的第i项策略为在战场状态为Sm时采取行动
表示蓝方的第j项策略为在战场状态为Sm时采取行动
10.根据权利要求8-9之一所述的一种生成作战行动序列的方法,其特征在于,所述根据策略集和效用函数确定支付矩阵,包括:
根据状态转移概率和策略集确定红蓝双方可执行的每一项策略的相应概率;
根据效用函数确定每一项策略的支付值;
根据每一项策略的相应概率和支付值确定整个支付矩阵。

说明书全文

一种生成作战行动序列的方法

技术领域

[0001] 本发明属于作战行动序列规划领域,尤其涉及一种生成作战行动序列的方法。

背景技术

[0002] 战争关系重大,具有激烈的对抗性,体现到作战过程中就是参战双方都期望通过执行作战行动将初始态势转换为己方的目标态势,而双方的目标态势肯定是对立的。战场态势的演变实际上取决于双方作战行动的共同作用,双方行动效果相互影响,在规划作战行动序列(Course of Action,COA)时应该考虑这种对抗性。规划作战行动序列是制定作战行动计划的关键步骤。作战行动序列规划问题是在已知双方可选的作战行动、行动与态势之间的相互影响关系以及资源约束等前提下对行动进行优选、组织以形成作战行动序列方案。信息化战争条件下参战要素多、作战空间广阔、战场中各个要素之间的相互关系复杂且具有不确定性,己方行动之间、敌我双方行动之间的相互影响关系也非常复杂,指挥员要从一系列的可选行动中优选行动、组成作战行动序列方案就显得尤为困难,需要科学、有效决策方法的辅助支持。
[0003] 目前对COA规划问题的研究主要是应用运筹学和人工智能两大类方法,在规划过程中考虑己方作战行动对战场态势的影响,通过执行己方一系列的作战行动实现战场态势的转变,未考虑到敌方可能采取针对性的作战行动对战场态势的影响。由于战争中红蓝双方都难以获取全部的信息以及作战过程中的一些随机因素,使得在当前态势以及双方行动已知的情况下并不能确定战场状态的转换路径,本文中将这种情况称之为对抗结局不确定。这主要由两方面的因素导致,一是作战过程中的一些偶然因素或者随机事件导致对抗结局不确定性;二是决策者掌握的信息在数量和质量上都不足以让其做出确切的判断。这两方面的因素导致了红蓝双方对抗策略不确定的条件下,难以确定对抗的结局。
[0004] 因此,如何在不确定条件下做出作战行动序列规划,提供在对抗结局不确定条件下的作战序列以供对对抗结局的参考尤为重要。

发明内容

[0005] 本发明的目的是提供一种生成作战行动序列的方法,已解决现有技术作战过程中在红蓝双方对抗策略不确定的条件下,难以确定对抗的结局的问题。
[0006] 为达到上述目的,本发明实施例提供一种生成作战行动序列的方法,包括以下步骤:
[0007] 根据作战行为数据构建作战行动序列的随机博弈模型;
[0008] 解构当前作战状态,得到初始输入数据;
[0009] 根据所述初始输入数据,通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列。
[0010] 与现有技术相比,本发明取得的有益效果为:
[0011] 本发明通过使用状态转移概率对战场的不确定性状态进行描述,并从战场状态、行动、状态转移概率以及效用函数等几个方面对作战行动序列进行建模,通过将整个作战行动过程分解为多个阶段,战场态势从一个阶段向下一个阶段转变的过程中不仅考虑己方的作战行动,同时也考虑敌方可能采取针对性的作战行动对战场态势的影响,通过在各个阶段预先制定好的可能的行动策略集,根据状态转移过程中的概率值,最后求解出不确定条件下作战行动序列的规划方案,为指挥员提供科学有效的决策支持。附图说明
[0012] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013] 图1为本发明实施例的一种生成作战行动序列的方法流程图
[0014] 图2为本发明实施例的状态转移示意图;
[0015] 图3为本发明实施例的作战行动过程的状态转移示意图;
[0016] 图4为本发明实施例的随机博弈的博弈树示意图;
[0017] 图5为本发明具体实施例的博弈树示意图。

具体实施方式

[0018] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0019] 如图1所示,为本发明实施例中一种生成作战行动序列的方法流程图,本发明的一种生成作战行动序列的方法,包括以下步骤:
[0020] S101:根据作战行为数据构建作战行动序列的随机博弈模型;
[0021] S102:解构当前作战状态,得到初始输入数据;
[0022] S103:根据所述初始输入数据,通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列。
[0023] 进一步地,所述随机博弈模型Γ通过下式表示:
[0024] Γ=(N,S,Ω,P,u),其中:
[0025] N表示局中红蓝双方,表示为N={R,B},R表示红方,B表示蓝方;
[0026] S表示战场状态的集合;
[0027] Ω表示红蓝双方的行动集合,表示为Ω={Φ,Ψ};Φ表示红方的行动集合,Ψ表示蓝方的行动集合;
[0028] P表示状态转移概率,所述状态转移概率用来表示战场状态转移的不确定性;
[0029] u表示效用函数,所述效用函数是最终多种可能战场态势的函数。
[0030] 通过使用状态转移概率对战场的不确定性状态进行描述,并从战场状态、行动、状态转移概率以及效用函数等几个方面对作战行动序列进行建模,通过将整个作战行动过程分解为多个阶段,来进行随机博弈模型的建立,对战场行动过程的各方面因素分析全面,有利于提高作战行动序列的完整性和可参考性。
[0031] 进一步地,所述战场状态集合S表示为:S={S1,S2,…,Sm…,SM};其中,[0032] M表示将整个作战行动过程分为M个阶段,S1表示战场初始状态,Sm(1≤m≤M)表示第m阶段的战场状态。
[0033] 对战场状态进行离散化,使战场态势分析变得可行。
[0034] 进一步地,所述红方的行动集合Φ表示为:Φ={Φ1,Φ2,…,Φm…,ΦM},Φm表示在战场状态为Sm时红方可行的行动集; 为战场状态为Sm时红方第i项行动;
[0035] 所述蓝方的行动集合Ψ表示为:Ψ={Ψ1,Ψ2,…,Ψm…,ΨM},Ψm表示在战场状态为Sm时蓝方可行的行动集, 为战场状态为Sm时蓝方第j项行动。
[0036] 局中红蓝双方可行行动决定着对战场状态的走向,以红蓝双方行动集合构建随机博弈模型,有利于为作战行动序列的分析提供科学可靠的依据。
[0037] 进一步地,在所述状态转移概率P中,记战场状态从Sm转换为Si时其转换概率为表示当战场状态为Sm时红蓝双方分别采取行动 后战场状态转换为Si的概率,并且有 其中 表示在战场状态为Sm时,红蓝双方分别
采取行动 状态转换后所有可能的状态集合。
[0038] 战场状态转移受红蓝双方的行动共同作用,并且具有一定的不确定性,因此用转移概率来描述状态转移的不确定性,有利于分析战场状态的转移。
[0039] 进一步地,在最后一阶段可能出现的Nk种战场态势组成的向量 所述效用函数记为 为一实数;
[0040] 即函数 通过计算会得到一个数值,这个数值是一个实数值,而非虚数。
[0041] 进一步地,所述通过所述作战行动序列的随机博弈模型使用均衡策略方法进行求解,得到作战行动序列,包括:
[0042] 根据所述初始输入数据群定所述随机博弈模型中各参数的值;
[0043] 根据状态集合S和行动集合Ω确定红蓝双方的策略集;根据策略集和效用函数确定支付矩阵;
[0044] 根据支付矩阵求得红蓝双方的均衡策略以及赢得值;
[0045] 根据均衡策略以及赢得值分析包含从博弈树根节点到叶子节点的完整路径,所述完整路径即为作战行动序列。
[0046] 根据博弈模型使用均衡策略方法进行求解,利用随机博弈的分析方法得出作战心动序列,为指挥员提供科学有效的决策支持。
[0047] 进一步地,所述策略集为战场状态集合S到行动集合Ω的映射,红方的策略集πr为πr:S→Φ,蓝方的策略集πb为πb:S→Ψ。
[0048] 进一步地,所述红方的策略集πr={πr1,πr2,...,πri,...,πrM},蓝方的策略集πb={πb1,πb2,...,πbi,...,πbM};其中,
[0049] 表示红方的第i项策略为在战场状态为Sm时采取行动表示蓝方的第j项策略为在战场状态为Sm时采取行动
[0050] 红蓝双方的行动和战场状态之间存在一种互相依赖的关系,战场状态决定了在该状态下红蓝双方能采取的行动,而双方的行动又决定了战场状态的演化轨迹,带入红蓝双方策略集以分析求解随机博弈模型,有利于为作战行动序列的分析提供科学可靠的依据。
[0051] 进一步地,所述根据策略集和效用函数确定支付矩阵,包括:
[0052] 根据状态转移概率和策略集确定红蓝双方可执行的每一项策略的相应概率,根据效用函数确定每一项策略的支付值,根据每一项策略的相应概率和支付值确定整个支付矩阵。
[0053] 由此求得红蓝双方的均衡策略以及赢得值并分析得出站长行动过程的作战行动序列,为指挥员提供科学有效的决策支持。
[0054] 本发明另一实施例,提供一种对于不确定条件下作战行动序列规划可以建模为随机博弈模型的分析方法,如图2-5所示,包括:
[0055] 1、问题分析
[0056] 作战行动过程中战场状态在对抗双方行动的共同作用下转移,由于随机因素等使得战场状态的转移具有不确定性。只能确定战场态势下一阶段的几种可能状态及其概率,而不能确切知道为哪一种状态。如图2所示,战场状态为S1时,红蓝双方分别采取行动φ和ψ,战场状态分别以概率p1,p2转换为S2,S3。
[0057] 战场状态转移不确定导致指挥员无法确定执行作战行动序列后战场态势的转换路径,从而不能确定最终的战场态势,也无法确定作战行动序列的对于指挥员的决策效用。从博弈论的度讲对抗结局状态不确定就是局中人对于系统转换不确定,因此可以建模为随机博弈,用状态转移函数刻画系统状态转移的不确定性。
[0058] 2、数学模型的建立
[0059] 2.1模型描述
[0060] (1)战场状态
[0061] 战场态势是作战地域内关于战场环境以及敌我双方部署以及行动等有关的信息。参战双方的行动直接作用于战场态势并对其产生影响,对作战行动序列进行规划首要的问题是对战场态势进行描述,特别是态势中影响作战行动过程的关键要素。借用控制论的语言,将战场态势用状态变量S表示。由于战场态势涉及到众多的要素,因此S是极其复杂的,可能是与时间相关的高维函数S=(s1(t),s2(t),…,sm(t))。作战行动序列规划过程中需要军事专家根据实际情况对战场态势变量进行合理的简化,提炼出那些影响作战行动进程的关键要素,主要从执行作战行动所需的前提条件和作战行动的执行效果两个方面进行分析。提炼出态势的要素后将态势变量进行离散化处理,根据作战阶段的划分将每个阶段的战场态势用一个多维向量表示,向量中的每一个元素表示影响作战进程的一项关键的战场态势要素。战场状态的改变由双方的作战行动所引起,可以表现为作战资源的消耗,兵配置的改变等。整个作战行动过程分为M个阶段,战场初始状态为S1,在初始状态下红蓝双方的可行的行动集分别为Φ1、Ψ1。红蓝双方分别从可行行动集中采取行动 和 后,战场态势在第二阶段可能转换为几种态势
[0062] 第m(1≤m≤M)阶段的战场状态在红蓝双方行动 的作用下,第m+1阶段可能呈现为几种态势,如图3所示。状态转移可以用树形图T=(S,E)表示。S是状态节点集,表示战场态势所处的状态。E是边集,表示在红蓝双方行动作用下系统的转换。边的标记为{(φi,ψj),pl},表示在行动对(φi,ψj)的作用下,以概率为pl转换到目标状态。
[0063] (2)行动
[0064] 行动是局中人在博弈中某个时点的决策变量,行动是构成博弈的基本要素。为了与博弈论中的术语“行动”相区分开,将红蓝双方可执行的基本作战活动称为“任务”。在作战过程中每个阶段双方都有可执行的任务集,记第m阶段红方共有hm项可选任务蓝方共有lm项可选任务 在本文中红蓝双方在对抗过程中某个阶段
的决策变量是在双方的可行任务集中选择的满足资源和行动约束的任务向量,因此将行动定义为任务向量的二元实现。战场状态为Sm时红方第i项行动为 为任务向
量的二元实现,状态为Sm时红方能采取的行动集记为Φ(Sm),简记为Φm,
同理定义蓝方的行动 蓝方能采取的行动集记为Ψ(Sm),
简记为Ψm。双方在状态Sm下能采取的行动,需要军事专家根据实际情况分析。
[0065] (3)状态转移概率
[0066] 战场状态转移受红蓝双方的行动共同作用,并且具有一定的不确定性,因此用转移概率来描述状态转移的不确定性。令战场状态为Sm、红蓝双方分别采取行动 系统状态转换为S′的概率记为 并且有 其中表示在系统状态为Sm红蓝双方分别采取行动 系统转换后所有可能的状态集合。转换概率可以由军事专家根据以往的经验或者作战试验等方法来确定。在给出状态转移概率的表示方法后可以重新对红蓝双方的可行行动集定义。令战场状态为Sm时红方能采取的行动集可以表示为 蓝方能采取的行动集可以表示为
[0067] (4)策略
[0068] 红蓝双方的行动和战场状态之间存在一种互相依赖的关系,战场状态决定了在该状态下红蓝双方能采取的行动,而双方的行动又决定了战场状态的演化轨迹。因此策略应该是一种相机而动的规则,即能给出在局中人处于系统任何状态时采取何种行动的方针。所以将策略定义为从S状态集到行动集Φ、Ψ的映射,分别记为πr:S→Φ,πb:S→Ψ。其中:
[0069] ①Φ={Φ1,Φ2,…ΦM},Ψ={Ψ1,Ψ2,…ΨM}。分别表示红蓝双方在状态m(1≤m≤M)时的可行行动集合。
[0070] ②用向量 表示红蓝双方的第i项和第j项策略。即红方的第i项策略为在系统状态为Sm时采取行动 蓝方的第j项策略为在系统状态为Sm时采取行动
[0071] (5)效用函数
[0072] 红蓝双方的效用是最终阶段战场态势的函数,双方都希望最终的战场态势与己方期望的状态一致,因而对可能出现的结局都有一个偏好排序。并且由于双方的作战目的一般都是针锋相对的,一方的赢得就是另外一方的失去。因此将双方的博弈建模为零和博弈,红方为Max型决策者,蓝方是Min型决策者。效用函数是最终多种可能态势的函数,对于最后一阶段可能出现的NK种态势组成的向量 效用函数记为 效用函数需要专家根据敌我双方的实际情况确定。
[0073] 2.2数学模型
[0074] 综上,对抗结局不确定条件下作战行动序列可以建模为随机博弈。可以用一个五元组表示:Γ=(N,S,Ω,P,u),其中:
[0075] (1)N={R,B},表示局中人红蓝双方;
[0076] (2)S={S1,S2,…,SM},表示战场状态的集合;
[0077] (3)Ω={Φ,Ψ},表示红蓝双方的行动集合;
[0078] ①Φ={Φ1,Φ2,…ΦM},Φm表示在战场状态为Sm的红方可行的行动集;
[0079] ②Ψ={Ψ1,Ψ2,…ΨM},Ψm表示在战场状态为Sm的蓝方可行的行动集;
[0080] (4)P表示状态转移概率
[0081] 为战场状态Sm、红蓝双方分别采取行动 时系统状态转换为Sl的概率。
[0082] (5)U表示效用函数
[0083] 表示红方的效用函数。
[0084] 3、均衡策略的定义及求解
[0085] 3.1均衡策略性质
[0086] (1)均衡的定义
[0087] 由于红蓝双方的行动效果受到对方行动的影响,因此理性的决策者在决策过程中寻找己方的均衡策略,并以其作为自己的决策标准。对抗结局不确定条件下的COA模型的纯策略记为 混合策略记为
[0088] 定义1:规划问题博弈模型的均衡策略 满足如下条件:
[0089] ①对于红方的均衡策略 有:
[0090] 其中△r为红方的混合策略空间。
[0091] ②对于蓝方的均衡策略 有:
[0092] 其中△b为蓝方的混合策略空间。
[0093] (2)均衡的存在性
[0094] 命题1:给定随机博弈Γ=(N,S,Ω,P,U),如果红蓝双方的行动集和战场态势的状态集为有限集合,则存在均衡解。
[0095] 证明:对于红方的纯策略集πr,由于状态集S={S1,S2,…,SM}为有限集,且每个状态下的行动集Φm(1≤m≤M)也为有限集,因此红方纯策略集 也为有限集;同理蓝方的纯策略集 为有限集。对于红方的混合策略 取
纯策略 的概率为 且 当 时混合策略 即退化为
纯策略 蓝方的混合策略 取纯策略 的概率为 且
当 时混合策略 即退化为纯策略 当红方采用纯策略 蓝方采用纯
策略 时,可以通过效用函数计算出红方的赢得值aij,由于将双方的博弈定义为零和博弈,因此蓝方的赢得值为-aij。则当红蓝双方采用混合策略 时红方的期望收益为蓝方的期望收益为 定义集值函数F:△→△,其中△为
△r与△b的笛卡尔乘积,并以σ=(σr,σb)表示红蓝双方的策略组合。对于蓝方的任意混合策略 F使得红方会选择己方的策略 让期望收益 最大,即
并且对于红方的任意混合策略 F使得蓝方会选择己方的策略
让期望收益 最大,即
[0096] 要证明模型Γ=(N,S,Ω,P,U)具有均衡,则需证明F:△→△存在不动点,即满足角谷不动点成立的条件。且由于局中人的赢得值为其混合策略的线性函数,因此对其混合策略是连续的。要验证角谷定理的条件是否满足,即验证:
[0097] ①F(σ)为凸;
[0098] 要使红方的期望收益为 最大,记 则
[0099]
[0100] 要使u最大,则pk必须属于如下集合:
[0101] 即pk∈P(qn)。
[0102] 同理对于蓝方来说,要使其期望受益最大,则qn必须属于如下集合:
[0103] 即qn∈P(pk)。
[0104] 由于F是红蓝双方对对方策略的最优反应函数,因此有:
[0105]
[0106] 显然F(σ)为凸。
[0107] ②F(σ)具有上半连续性,对于 有
[0108] 令
[0109] 由于 即 是对σn的最优反应。
[0110] 所以对于红方的任意策略p'有:
[0111] u(wn,qn)>u(p',qn)
[0112] 对于蓝方的任意策略q'有:
[0113] u(pn,vn)>u(pn,q')
[0114] 当 时,pn→p,qn→q,wn→w,vn→v。
[0115] 则有:
[0116] 对于红方的任意策略p',u(w,q)>u(p',q)
[0117] 即w是对q的最优反应。
[0118] 对于红方的任意策略q',u(p,v)>u(p,q')
[0119] 即v是对p的最优反应。
[0120] 是对 的最优反应,即
[0121] 条件①、②都成立,因此描述对抗结局状态不确定条件下COA的随机博弈模型Γ=(N,S,Ω,P,U)的均衡是存在的。
[0122] (3)均衡的精炼
[0123] 命题1说明了模型的均衡解是存在的,但将随机博弈转换为策略式博弈后可能会存在不可置信均衡,因此还需分析何种均衡是合理的。为方便对博弈的均衡进行分析,对普通博弈树进行扩展,增加机会结点,用以描述状态转移的不确定性,机会结点用“◇”表示。随机博弈可以用博弈树表示为如图4所示:
[0124] 博弈树中的结点分为决策结点和机会结点两种,决策结点表示局中人决策时所处的位置,机会结点用以表示战场状态转移的不确定性,机会节点的子结点为可能的状态结点。以决策结点为起始点的边表示局中人的行动(如φ1,φ2);以机会结点为起始点的边表示在双方行动作用下的状态转移可能性,边旁边的数字则表示转移概率的大小(如p1,p2)。对抗结局不确定条件下红蓝双方的随机博弈具有扩展式博弈的性质。在扩展式博弈中,从扩展式向策略式转化的过程中会导致“不可置信威胁”,需要对均衡进行精炼,目前普遍接受的均衡的概念是子博弈完美均衡。子博弈完美均衡要求每一个适当子博弈的解都是纳什均衡。参考扩展式博弈中适当子博弈和子博弈完美均衡的定义,给出随机博弈中适当子博弈和子博弈完美均衡的概念。
[0125] 定义2:随机博弈的适当子博弈(proper subgame)是从状态结点开始的包含其所有后续结点以及这些结点之间的边的树状结构。
[0126] 定义3:随机博弈的子博弈完美纳什均衡要求均衡策略剖面在每一个适当子博弈中都构成纳什均衡。
[0127] 随机博弈子博弈完美均衡指出了在将随机博弈转换为矩阵博弈后哪些均衡是合理的均衡。在随机博弈子博弈完美均衡的定义的基础上还需要分析其条件,从而为对其求解奠定基础。
[0128] 命题2:随机博弈Γ=(N,S,Ω,P,U)中的子博弈完美均衡是包含从根结点到叶子结点的完整的均衡。
[0129] 假设随机博弈中存在有不包含完整路径的子博弈完美均衡,那么对于该均衡策略,沿着策略剖面从博弈树的顶点向终点前进,必然存在一个状态结点使得以该结点的直接后续机会结点不在均衡策略的路径上,这与子博弈完美均衡的概念相矛盾,假设不成立,即不存在有不包含完整路径的子博弈完美均衡。
[0130] 根据子博弈完美均衡的定义,对于随机博弈来说从博弈树的根结点开始总可以找到不少于一个在均衡路径上的结点,从该结点出发可以找到在均衡路径上的直接后续结点直到终结点,即能找到一条完整的路径。
[0131] 命题2给出了对抗结局不确定条件下求解完美子博弈均衡的方法,即转换为矩阵式博弈求解出均衡,再分析均衡解是否构成了一条从博弈树的根到最终子节点的路径即可。
[0132] 3.2均衡策略的求解
[0133] 根据策略和效用函数的定义,可以得出对于红方的任意策略 和蓝方的任意策略红方的支付值为 可以计算出支付矩阵,求得双方的均衡策略。具体求解步骤如下:
[0134] (1)根据状态集S和行动集Ω确定红蓝双方的策略集πr、πb。
[0135] 其中红方的第i项策略为 表示红方的第i项策略为在系统状态为Sm时采取行动 蓝方的第j项策略 表示在系统状态为Sm
时采取行动
[0136] (2)根据策略集和效用函数确定支付矩阵。
[0137] 对于红方的第i项策略为 和蓝方的第j项策略 可以根据状态转移概率确定最终状态的相应概率,然后根据效用函数确定其支付值,以此类推可以确定整个支付矩阵。
[0138] (3)根据支付矩阵求得红蓝双方的均衡策略以及赢得值。
[0139] 在支付矩阵确定后容易求得双方的均衡策略以及赢得值。
[0140] (4)对均衡策略进行分析找出子博弈完美均衡。
[0141] 分析均衡策略是否包含从博弈树根节点到叶子节点的完整路径,包含完整路径的均衡策略为子博弈完美均衡。
[0142] 以下是根据本发明的方法进行数值算例的具体实施方式
[0143] 1、算例设计
[0144] 假设一个作战行动过程分为两阶段,初始状态为S0。在S0条件下,红蓝双方分别可以采取的行动为 和 在 和 的作用下,系统状态转换为S1,在 和 的作用下,系统状态转换为S2,在 和 的作用下,系统状态转换为S3;在 和 的作用下,系统状态以0.3的概率转换为S4,以0.7的概率转换为S5。在S1条件下,红蓝双方分别可以采取的行动为 和 在 和 作用下系统状态分别以0.5的概率转换为S6和S7。在S2条件下,红蓝双方分别可以采取的行动为 和 在 和 作用下系统状态分别以概率0.4和0.6转
换为S8和S9。在S3条件下,红方可以采取的行动为 和 蓝方可以采取的行动为 在和 作用下系统状态转换为S10;在 和 作用下系统状态分别以概率0.8和0.2转换为S11和S12。在S4条件下,红可以采取的行动为 蓝方可以采取的行动是 和 在 和 作
用下,系统转换为S13;在 和 作用下,系统转换为S14。在S5条件下,红可以采取的行动为和 蓝方可以采取的行动是 在 和 作用下,系统转换为S15;在 和 作用下,
系统转换为S16。整个算例如图5所示。
[0145] 红方对最终态势S6到S16的偏好序为(8,6,3,10,5,1,4,9,7,11,2),蓝方对最终阶段态势的偏好序与红方相反。将红方的效用函数定义为u=12-q(Si),q(Si)表示状态Si的偏好序。如红方对状态S12的偏好序为4,则效用值为8。
[0146] 2、算例求解
[0147] (1)根据状态集合行动集确定双方的策略集。
[0148] 在状态S0、S3和S5红方可以采取的行动有两项,在S1、S2和S4红方可以采取的行动只有一项,因此红方总共有8项策略;在状态S0和S4蓝方可以采取的行动有两项,在S1、S2、S3和S5红方可以采取的行动只有一项,因此蓝方总共有4项策略。策略的为行动空间到状态空间的映射,如红方在S0,S1,…,S5分别选择行动 则将该项策略表示为(1,1,1,1,1,1),即在每种状态下选择该状态的第一项行动。蓝方的策略用相同的方式表示。
[0149] 由此可以确定红方的策略集为:
[0150] {(1,1,1,1,1,1),(1,1,1,1,1,2),(1,1,1,2,1,1),(2,1,1,1,1,1),(1,1,1,2,1,2),(2,1,1,1,1,2),(2,1,1,2,1,1),(2,1,1,2,1,2)}。
[0151] 蓝方的策略为:
[0152] {(1,1,1,1,1,1),(1,1,1,1,2,1),(2,1,1,1,1,1),(2,1,1,1,2,1)}。
[0153] (2)根据策略集和效用函数确定支付矩阵。
[0154] 根据策略集和效用函数可以确定红方的支付矩阵如表1所示:
[0155]  1,1,1,1,1,1 1,1,1,1,2,1 2,1,1,1,1,1 2,1,1,1,2,1
1,1,1,1,1,1 5 5 4.8 4.8
1,1,1,1,1,2 5 5 4.8 4.8
1,1,1,2,1,1 5 5 4.8 4.8
2,1,1,1,1,1 7 7 1.6 2.1
1,1,1,2,1,2 5 5 4.8 4.8
2,1,1,1,1,2 7 7 7.9 8.5
2,1,1,2,1,1 10.4 10.4 1.6 2.1
2,1,1,2,1,2 10.4 10.4 7.9 8.5
[0156] 表1红方支付矩阵
[0157] (3)计算均衡策略
[0158] 求得红方的均衡策略为(2,1,1,2,1,2),蓝方的均衡策略为(2,1,1,1,1,1),红方的赢得值为7.9。即在状态S0红方采取行动 蓝方采取行动 若到达状态S4红方则采取行动 蓝方采取行动 若到达状态S5红方则采取行动 蓝方采取行动
[0159] 应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
[0160] 在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
[0161] 为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
[0162] 上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
[0163] 本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
[0164] 本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
[0165] 本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
[0166] 在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
[0167] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈