一种基于深度强化学习的机动通信网智能规划方法专利检索-强化学习机器学习人工智能专利检索查询-专利查询网

一种基于深度 强化学习的机动通信网智能规划方法

阅读：882发布：2020-05-08

专利汇可以提供一种基于深度强化学习的机动通信网智能规划方法专利检索，专利查询，专利分析的服务。并且本发明公开一种基于深度强化学习的机动通信网智能规划方法及装置，所述方法包括以下步骤：1、资源要素预处理，对机动通信网网络的保障节点、被保障用户、架设地域等资源要素进行预处理；2、规划规则预处理，对机动通信网网络的规划规则进行预处理；3、训练样本生成，对预处理结果进行随机蒙特卡洛式搜索演算，生成训练样本；4、模型训练，基于递归神经网络，使用训练样本对网络规划模型进行训练；5、模型生成，构造联合损失函数，依照联合损失函数指示，重复对样本进行搜索和训练，生成机动通讯网网络规划模型。基于深度强化学习的机动通信网智能规划方法及装置，有效解决了当前机动通信网网络规划大量依赖人工操作、规划时间超出任务要求、对突发任务和陌生环境适应性差、资源利用率不高等问题，提高了机动通信网网络规划总体效率。，下面是一种基于深度强化学习的机动通信网智能规划方法专利的具体信息内容。

权利要求

1.一种基于深度强化学习的机动通信网智能规划方法，其特征在于，所述方法包括以下步骤：
S1、资源要素预处理，对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射，建立机动通信网资源要素的仿真模型；
S2、规划规则预处理，对机动通信网的保障关系、规划状态进行抽象和映射，融合步骤S1的资源要素仿真模型，建立机动通信网规划的整体仿真模型；
S3、训练样本生成，按照步骤S2的整体仿真模型建立网络规划仿真，并采用搜索方法运行模拟，产生训练样本并形成可供深度强化学习使用的训练样本集；
S4、模型训练，基于深度强化学习算法，使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练，对每次的训练结果进行比较筛选，将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3，优化所述搜索算法的搜索结果，得到优化训练样本；
S5、模型生成，将得到的优化训练样本输入步骤S4的训练网络中，根据训练目标构造联合损失函数，并依照联合损失函数指示，对样本进行搜索和训练，生成机动通讯网网络规划模型。
2.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述资源要素预处理包括以下步骤：
S1.1、对机动通信网网络的架设地域进行预处理；
S1.2、对机动通信网网络的保障节点进行预处理；
S1.3、对机动通信网网络的被保障用户进行预处理。
3.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述规划规则预处理包括以下步骤：
S2.1、对机动通信网网络的连接关系进行预处理；
S2.2、对机动通信网网络的规划状态进行预处理。
4.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述训练样本生成包括以下步骤：
S3.1、按照步骤S2的整体仿真模型，建立网络规划仿真，初始训练时，首先随机生成被保障用户位置；
S3.2、对应生成的被保障用户位置，使用搜索算法进行模拟部署；
S3.3、使用搜索方法重复模拟部署，得到满足条件的样本和评价集。
5.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述模型训练包括以下步骤：
S4.1、初始化使用三大类要素描述规划局面；
S4.2、递归神经网络采用公共的全卷积网络，构造过滤器(filter)，尾部分成规划策略和规划满足度两路分支；
S4.3、将步骤S4.2的结果反馈给步骤3.2，细化搜索过程；
S4.4、定义局部策略评价；
S4.5、结合递归神经网络输出，搜索流程全部更新为寻找最大值的部署动作；
S4.6、按照步骤S4.5的流程，对每一个态势结合用时和有效结果，执行搜索流程，确定新的选址策略。
6.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述模型生成包括以下步骤：
S5.1、根据训练目标构造联合损失函数；
S5.2、对模型训练后与训练前对比，按照仿真模型规则进行结果评判；
S5.3、基于步骤S4.1和S4.2进行训练，获取机动通信网网络规划模型。
7.根据权利要求1或4所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述搜索方法为基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法。
8.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法，其特征在于,所述深度强化学习算法为递归神经网络。
9.一种基于深度强化学习的机动通信网智能规划装置，其特征在于，所述装置包括：
资源要素预处理模块100：对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射，建立机动通信网资源要素的仿真模型，具体包括：
架设地域预处理单元101：对机动通信网网络的架设地域进行预处理；
保障节点预处理单元102：对机动通信网网络的保障节点进行预处理；
被保障用户预处理单元103：对机动通信网网络的被保障用户进行预处理；
规划规则预处理模块200：对机动通信网的保障关系、规划状态进行抽象和映射，融合资源要素预处理模块100的资源要素仿真模型，建立机动通信网规划的整体仿真模型，具体包括：
连接关系预处理单元201：对机动通信网网络的连接关系进行预处理；
规划状态预处理单元202：对机动通信网网络的规划状态进行预处理；
训练样本生成模块300：按照规划规则预处理模块200的整体仿真模型建立网络规划仿真，并采用搜索方法运行模拟，产生训练样本并形成可供深度强化学习使用的训练样本集，具体包括：
网络规划仿真建立单元301：按照规划规则预处理模块200的整体仿真模型，建立网络规划仿真，初始训练时，首先随机生成被保障用户位置；
模拟部署单元302：对应生成的被保障用户位置，使用搜索算法进行模拟部署；
样本和评价集生成单元303：使用搜索方法重复模拟部署，得到满足条件的样本和评价集；
模型训练模块400：基于递归神经网络，使用训练样本生成模块300的训练样本对规划规则预处理模块200的整体仿真模型进行训练，对每次的训练结果进行比较筛选，将得到的规划空间策略和步骤实时规划满足度反馈到训练样本生成模块300，优化所述搜索算法的搜索结果，得到优化训练样本，具体包括：
规划局面初始化单元401：初始化使用三大类要素描述规划局面；
过滤器构造单元402：递归神经网络采用公共的全卷积网络，构造过滤器(filter)，尾部分成规划策略和规划满足度两路分支；
搜索过程细化单元403：将过滤器构造单元402的结果反馈给模拟部署单元302，细化搜索过程；
局部策略评价定义单元404：定义局部策略评价；
搜索过程更新单元405：结合递归神经网络输出，搜索流程全部更新为寻找最大值的部署动作；
新选址策略确定单元406：按照搜索过程更新单元405的流程，对每一个态势结合用时和有效结果，执行搜索流程，确定新的选址策略；
模型生成模块500：将得到的优化训练样本输入模型训练模块400的训练网络中，根据训练目标构造联合损失函数，并依照联合损失函数指示，对样本进行搜索和训练，生成机动通讯网网络规划模型，具体包括：
联合损失函数构造单元501：根据训练目标构造联合损失函数；
结果评判单元502：对模型训练后与训练前对比，按照仿真模型规则进行结果评判；
模型生成单元503：基于规划局面初始化单元401和过滤器构造单元402进行训练，获取机动通信网网络规划模型；
网络规划模块600：应用训练好的网络规划模型，输入架设地域、保障节点、被保障用户参数，获取机动通信网络规划参数，具体包括：
网络规划要素输入单元601：输入架设地域、保障节点、被保障用户参数；
模型运算单元602：调用训练好的网络规划模型进行运算；
网络规划参数生成单元603：模型生成网络规划参数。

说明书全文

一种基于深度强化学习的机动通信网智能规划方法

技术领域

[0001] 本发明涉及信息技术领域，特别涉及一种机动通信网网络智能规划方法。

背景技术

[0002] 机动通信网通常指特殊领域保障大规模特殊任务所使用的一种机动通信网络，通常由固定光纤网络、微波网络、卫星网络、升空中继网络、短波超短波电台网络等多种子网多种设备组成的综合机动网络，其最小单位为单个通信保障平台或设备，视为机动通信网网络中的一个保障节点。机动通信网被保障人通常在数百人及以上，架设需求随机性较强，时间较为紧张，规划时间通常在24小时之内或更短。

[0003] 网络规划，是指网络规划人员或技术保障人员充分利用现有的系统设备，平衡现实需求和矛盾障碍，为保障当前任务完成进行的针对机动通信网网络架设的筹划和组织工作。本专利主要指根据机动通信网网络支持保障的任务人员及分组、任务供给的各类设备、连接关系、地理环境，为机动通信网各网络系统设备选址，设计网络架构，以支撑设备架设和部署。

[0004] 由于机动通信网通常用于在难以预测的时间和地点保障各类突发的任务，因此其具有网络规划需求差异大、内容复杂、设备条件受限、时间要求紧迫等特点。当前，机动通信网络规划通常使用大量人工结合固定算法系统进行规划，其中的人工规划需要专业规划人员在从业过程中累积大量经验才有可能胜任该工作，并且需要的人员较多，具有规划时间长、数据交互频繁等缺点；机动通信网网络规划的固定算法系统能够在一定程度上辅助规划人员进行规划工作，但使用固定算法的规划系统无法灵活适用于所有可能展开机动通信网的具体场景，不经过底层修改无法应对不同的地理环境和设备限制等情况，且由于这类系统在设计上偏重于网络设计，当网络规模增加，约束条件增多之后难以得出较为直观准确的规划结果，只能为规划人员的提供有限的辅助支持，影响了任务保障的效果。

发明内容

[0005] 本发明的目的在于克服现有技术的缺陷，针对机动通信网网络规划条件复杂、时间紧急、地点不定、设备条件受限等现实问题，实现了一种基于深度强化学习的机动通讯网智能规划方法。

[0006] 为实现上述目的，本发明采用了如下技术方案：

[0007] 一种基于深度强化学习的机动通讯网智能规划方法，所述方法包括如下步骤：

[0008] S1、资源要素预处理，对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射，建立机动通信网资源要素的仿真模型；

[0009] S1.1、对机动通信网网络的架设地域进行预处理；

[0010] S1.2、对机动通信网网络的保障节点进行预处理；

[0011] S1.3、对机动通信网网络的被保障用户进行预处理。

[0012] S2、规划规则预处理，对机动通信网的保障关系、规划状态进行抽象和映射，融合步骤S1的资源要素仿真模型，建立机动通信网规划的整体仿真模型；

[0013] S2.1、对机动通信网网络的连接关系进行预处理；

[0014] S2.2、对机动通信网网络的规划状态进行预处理。

[0015] S3、训练样本生成，按照步骤S2的整体仿真模型建立网络规划仿真，并采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法运行模拟，产生训练样本并形成可供深度强化学习使用的训练样本集；

[0016] S3.1、按照步骤S2的整体仿真模型，建立网络规划仿真，初始训练时，首先随机生成被保障用户位置；

[0017] S3.2、对应生成的被保障用户位置，使用搜索算法进行模拟部署；

[0018] S3.3、使用搜索方法重复模拟部署，得到满足条件的样本和评价集。

[0019] S4、模型训练，基于递归神经网络等深度强化学习算法，使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练，对每次的训练结果进行比较筛选，将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3，优化基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法的搜索结果，得到优化训练样本；

[0020] S4.1、初始化使用三大类要素描述规划局面；

[0021] S4.2、递归神经网络采用公共的全卷积网络，构造过滤器(filter)，尾部分成规划策略和规划满足度两路分支；

[0022] S4.3、将步骤S4.2的结果反馈给步骤3.2，细化搜索过程；

[0023] S4.4、定义局部策略评价；

[0024] S4.5、结合递归神经网络输出，搜索流程全部更新为寻找最大值的部署动作；

[0025] S4.6、按照步骤S4.5的流程，对每一个态势结合用时和有效结果，执行搜索流程，确定新的选址策略。

[0026] S5、模型生成，将得到的优化训练样本输入步骤S4的训练网络中，根据训练目标构造联合损失函数，并依照联合损失函数指示，对样本进行搜索和训练，生成机动通讯网网络规划模型；

[0027] S5.1、根据训练目标构造联合损失函数；

[0028] S5.2、对模型训练后与训练前对比，按照仿真模型规则进行结果评判；

[0029] S5.3、基于步骤S4.1和S4.2进行训练，获取机动通信网网络规划模型。

[0030] 本发明采用基于深度强化学习的机动通讯网智能规划方法，优点如下：

[0031] 1、采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法，结合结构简单但切实有效的递归神经网络，大大减少了对硬件的算力需求和处理时间，可以较快地解决机动网网络规划问题；

[0032] 2、通过采用深度强化学习算法对智能规划模型进行训练，使规划模型克服了适用场景单一的缺陷，能够适应不同地域、不同保障设备、不同被保障用户的场景。附图说明

[0033] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0034] 图1是本发明的基于深度强化学习的机动通讯网智能规划方法实施例的详细流程示意图；

[0035] 图2是本发明的组成结构框图。

具体实施方式

[0036] 下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0037] 参照附图1，示出了本发明的一种基于深度强化学习的机动通讯网智能规划方法实施例的流程示意图，具体包括以下步骤：

[0038] S1、资源要素预处理，对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射，建立机动通信网资源要素的仿真模型；

[0039] S1.1、对机动通信网网络的架设地域进行预处理，将架设地域类比为棋盘进行抽2 2
象。设定地域大小Nkm ，以架设地域地形图的左下角坐标为零点坐标，以N的某一个约数为一个单位长度，横纵向划分架设区域，每个交点作为一个定位点，得到一个的节点位置矩阵，本专利中预设架设地域为长宽相等的正方形地域，即得到一个N×N的节点位置矩阵，亦可继续进行多次展开细分；

[0040] S1.2、对机动通信网网络的通信平台/设备，即保障节点(如移动通信车、移动电台、手台等)进行预处理，预设P类保障节点，保障节点的通信距离R和链路数量L依据设备的具体型号而定。本专利中保障节点主要划分为两类，即主要节点P1和次要节点P2，并依次按照保障优先级B进行建模，设置主要节点优先级为B1，次要节点优先级为B2，其中主要节点通信保障范围按照以节点部署位置为圆心，单跳微波通信距离R1km为半径的圆形进行建模，其链路数设定为L1，次要节点通信保障范围按照以节点部署位置为圆心，单跳微波通信距离R1km、单跳短波通信距离R2km为半径的圆形进行建模，其微波链路数设定为L2，短波链路数设定为L′2；

[0041] S1.3、对机动通信网网络的被保障用户(如不同级别的军事单位团级、营级、连级、班、单兵等)进行预处理，预设Q类保障节点，被保障用户节点的通信距离R和链路数量L依据设备的具体型号而定。本专利中被保障用户主要划分为三类，即主要用户Q1、次要用户Q2和下级用户Q3，并依次按照保障优先级A进行建模，设定主要用户优先级为A1，次要用户为A2，下级用户为A3，其中主要用户单跳微波通信距离为R1km，链路数为U1；次要用户单跳微波通信距离为R1km，链路数为U2，下级用户单跳短波通信距离为R2km，链路数为U′3。

[0042] 本步骤对机动通信网网络的资源要素进行了抽象和映射，为后续完成机动通信网网络的规则和整体建模提供了支撑。

[0043] S2、规划规则预处理，对机动通信网网络的规划规则进行预处理。对机动通信网的保障关系、规划状态进行抽象和映射，融合步骤S1的资源要素仿真模型，建立机动通信网规划的整体仿真模型；

[0044] S2.1、对机动通信网网络的连接关系进行预处理，将保障节点与保障节点，保障节点与被保障用户进行关联；

[0045] S2.1.1、按照优先级关联A→B,将保障节点与被保障用户进行关联，确定保障关系。在本专利中，A1与B1相对应，A2与B2、B3相对应，即主要节点P1保障主要用户Q1，次要节点P2保障次要用户Q2及下级用户Q3，每个用户都至少需要有一个相应的保障节点与之相连；

[0046] S2.1.2、确定保障节点间的连接关系，本专利中，所有的主要节点需要构成连通图，同时次要节点P2必须与至少一个主要节点P1相连接；

[0047] S2.1.3、所有的连接需要满足步骤S1中规定的通信类型，即相同通信类型的链路才可相连；

[0048] S2.1.4、所有的连接需要满足步骤S1中规定的链路数量，即连接的数量不能超过规定的节点链路数L才可相连；

[0049] S2.1.5、所有的连接需要满足步骤S1中规定的通信距离，即任意两个节点的距离必须小于使用通信设备的最大通信距离R才可相连；

[0050] S2.1.6、整个机动网通信网络拓扑结构最低需能构成最小生成树；

[0051] S2.2、对机动通信网网络的规划状态进行预处理，根据前述保障节点、被保障用户、架设地域、网络规划规则建立一个网络态势s，包括机动通信网网络的全部信息，即s＝(P,Q,A,B,R,L…)，但主要平面用于描述各节点的规划位置，在已规划位置用字符占位，未规划位置则记为0，形如

[0052] S2.2.1、网络态势s的初始态势记为s0，主要描述全部被保障用户节点的规划位置，即根据被保障人员实际任务需求，直接确定被保障人员在架设地域模型中的位置，形如其中以被保障用户集合P中的符号在矩阵中表示被保障用户节点的所处位置。

[0053] S2.2.2、后续保障节点的规划则视为一个典型的马尔科夫过程，即每一个保障节点的部署情况都可以看作一个针对当前网络态势si-1的动作响应ai(其中i∈[1，K]，K为保障节点总数量，在本专利中即为主要节点和次要节点之和)，该动作即为确定某个保障节点Q的选址，如

[0054] S2.2.3、所有被保障节点选址规划条件达到满足，或保障节点布置完毕记为终局，终局时得到网络态势形如

[0055] 本步骤在步骤S1的基础上，对机动通信网网络的规划规则进行了抽象和映射，建立了整体的机动通信网仿真模型，为后续深度强化学习规划策略提供了支撑。

[0056] S3、训练样本生成，按照步骤S2的整体仿真模型建立网络规划仿真，并采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法运行模拟，产生训练样本并形成可供深度强化学习使用的训练样本集；

[0057] S3.1、按照步骤S2的整体仿真模型，建立网络规划仿真，初始训练时，首先随机生成被保障用户位置；

[0058] S3.2、对应生成的被保障用户位置，使用基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法进行模拟部署；

[0059] S3.2.1、从初始态势s0开始初始化模拟部署，此状态即为搜索树的根节点，此时初始化搜索树基于某个态势的每一次行动(s,a)，其中，E(s,a)为该态势下每一个保障节点可能选择位置的综合行动评价。

[0060] S3.2.2、在未引入神经网络时，所有态势下初始的E(s,a)评分均相等，设为r0，以随机遍历的方式持续搜索，直到保障节点全部部下，即达到终局后，参照步骤S1、S2进行判断，根据终局结果是否满足条件,计算每一个对应当前态势si-1的部署动作ai的行动评价r，设置反馈评价为r′，若满足则计为r＝r0+r′，不满足则记为r＝r0-r'，进行归一化处理后得到形如：

[0061]

[0062] 的评价集合。

[0063] S3.3、使用搜索方法重复模拟部署，得到满足条件的样本和评价集。

[0064] S4、模型训练，基于递归神经网络，使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练，对每次的训练结果进行比较筛选，将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3，优化基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法的搜索结果，得到优化训练样本；

[0065] S4.1、初始化使用三大类共6个平面描述规划局面，即保障用户Q三个平面，被保障用户P两个平面，以及架设地域一个平面；

[0066] S4.2、递归神经网络首先采用4层公共的全卷积网络，分别使用Relu函数构造32、64、128、256个3×3的过滤器(filter)，尾部分成规划策略和规划满足度两路分支，策略分支使用4个1×1的降维filter，一个全连接层，使用softmax函数输出规划空间中每个节点的选择概率P，满足度分支使用2个1×1的降维filter，一个全连接层，使用tanh函数输出范围为[0,1]满足度评分C，即：

[0067] fθ(s)＝(P，C)

[0068] S4.3、将S4.2得到的规划策略概率P和满足度评分C返回S3.2，细化UCT树搜索的展开过程，将每一次行动态势更新为(s，a)＝(E(s，a)，N(s，a)，Ev(s，a)，P(s，a))；

[0069] S4.3.1、N(s,a)为基于当前态势所选的下一节点(子节点)的访问次数；

[0070] S4.3.2、Ev(s,a)为平均行动评价，结合神经网络输出后更新为

[0071] S4.4、定义局部策略评价El(s,a)，El(s,a)等于平行UCT搜索水平常数Upuct(初始化为3)与递归神经网络输出策略概率P(s,a)和父节点访问次数N(s,b)开方的乘积，再与1+某子节点访问次数N(s,a)的商，具体算法如下：

[0072]

[0073] S4.5、结合递归神经网络输出后，此时UCT搜索树流程全部更新为寻找某态势si-1下，使得Ev(s,a)+El(s,a)获得最大值的部署动作ai，在经过一定次数的搜索树和神经网络的循环训练后，一次UCT搜索树的搜索流程具体如下：

[0074] S4.5.1、针对当前被保障用户的初始态势s0，选择当前Ev(s0,a1)+El(s0,a1)值最大的部署动作a并进行部署；

[0075] S4.5.2、重复4.5.1，直到某个态势si没有已评估过Ev+El值，无法选择，此时将当前态势si导入神经网络fθ(s)进行评估，得到fθ(si)＝(Pi,Ci)；

[0076] S4.5.3、更新当前节点的访问次数N(si,ai+1)＝N(si,ai+1)+1；

[0077] S4.5.4、使用Pi继续进行下一部署动作ai+1的预测，并重复4.5.2、4.5.3,直到达到终局；

[0078] S4.5.5、回传整个树搜索的结果，按照4.5.3更新每个所经过节点的访问次数，根据叶子节点回传更新所有子节点的满足度评分，不满足为0，满足为1；

[0079] S4.5.6、按照S4.3.2计算每个节点的平均行动评价:

[0080]

[0081] S4.6、按照S4.5的全部流程，对于每一个态势si，结合用时和有效结果的考虑，都进行800次搜索树搜索流程，最终根据搜索树的实际行动集合{an}来确定新的选址策略M为：

[0082]

[0083] 其中τ为搜索常数，负责控制选址的随机性，τ越大随机性越强，由于选址活动具有一定的关联性，将τ设置为按照选址过程不断下降，最终稳定在0.4。

[0084] S5、模型生成，将得到的优化训练样本输入步骤S4的训练网络中，根据训练目标构造联合损失函数，并依照联合损失函数指示，对样本进行搜索和训练，生成机动通讯网网络规划模型；

[0085] S5.1、根据训练目标构造联合损失函数Loss，为最小化神经网络预测满足度C和上限置信区间算法搜索规划满足度C′的误差，并使神经网络输出的策略概率P与UCT树搜索算法搜索得到的分支概率π尽可能相似，再加入防止过拟合的控制参数g||θ||，得到联合损失函数Loss：

[0086] Loss＝(C'-C)2-πTlogP+g||θ||

[0087] 其中，g||θ||为神经网络变量的L2范数；

[0088] S5.2、设置所获模型每50次训练批次后与之前模型对比，按照仿真模型规则进行结果评判：符合保障规则的胜出；都不符合流局，保留之前的模型参数；都符合时按照所用保障节点的数目进行判定，数目少的模型予以保留；

[0089] S5.3、基于步骤S4.1和S4.2持续进行训练，获取机动通信网网络规划模型。

[0090] 参照附图2，示出了本发明的组成结构框图，具体包括:

[0091] 资源要素预处理模块100：对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射，建立机动通信网资源要素的仿真模型，具体包括：

[0092] 架设地域预处理单元101：对机动通信网网络的架设地域进行预处理；

[0093] 保障节点预处理单元102：对机动通信网网络的保障节点进行预处理；

[0094] 被保障用户预处理单元103：对机动通信网网络的被保障用户进行预处理；

[0095] 规划规则预处理模块200：对机动通信网的保障关系、规划状态进行抽象和映射，融合资源要素预处理模块100的资源要素仿真模型，建立机动通信网规划的整体仿真模型，具体包括：

[0096] 连接关系预处理单元201：对机动通信网网络的连接关系进行预处理；

[0097] 规划状态预处理单元202：对机动通信网网络的规划状态进行预处理；

[0098] 训练样本生成模块300：按照规划规则预处理模块200的整体仿真模型建立网络规划仿真，并采用搜索方法运行模拟，产生训练样本并形成可供深度强化学习使用的训练样本集，具体包括：

[0099] 网络规划仿真建立单元301：按照规划规则预处理模块200的整体仿真模型，建立网络规划仿真，初始训练时，首先随机生成被保障用户位置；

[0100] 模拟部署单元302：对应生成的被保障用户位置，使用搜索算法进行模拟部署；

[0101] 样本和评价集生成单元303：使用搜索方法重复模拟部署，得到满足条件的样本和评价集；

[0102] 模型训练模块400：基于递归神经网络，使用训练样本生成模块300的训练样本对规划规则预处理模块200的整体仿真模型进行训练，对每次的训练结果进行比较筛选，将得到的规划空间策略和步骤实时规划满足度反馈到训练样本生成模块300，优化所述搜索算法的搜索结果，得到优化训练样本，具体包括：

[0103] 规划局面初始化单元401：初始化使用三大类要素描述规划局面；

[0104] 过滤器构造单元402：递归神经网络采用公共的全卷积网络，构造过滤器(filter)，尾部分成规划策略和规划满足度两路分支；

[0105] 搜索过程细化单元403：将过滤器构造单元402的结果反馈给模拟部署单元302，细化搜索过程；

[0106] 局部策略评价定义单元404：定义局部策略评价；

[0107] 搜索过程更新单元405：结合递归神经网络输出，搜索流程全部更新为寻找最大值的部署动作；

[0108] 新选址策略确定单元406：按照搜索过程更新单元405的流程，对每一个态势结合用时和有效结果，执行搜索流程，确定新的选址策略；

[0109] 模型生成模块500：将得到的优化训练样本输入模型训练模块400的训练网络中，根据训练目标构造联合损失函数，并依照联合损失函数指示，对样本进行搜索和训练，生成机动通讯网网络规划模型，具体包括：

[0110] 联合损失函数构造单元501：根据训练目标构造联合损失函数；

[0111] 结果评判单元502：对模型训练后与训练前对比，按照仿真模型规则进行结果评判；

[0112] 模型生成单元503：基于规划局面初始化单元401和过滤器构造单元402进行训练，获取机动通信网网络规划模型；

[0113] 网络规划模块600：应用训练好的网络规划模型，输入架设地域、保障节点、被保障用户参数，获取机动通信网络规划参数，具体包括：

[0114] 网络规划要素输入单元601：输入架设地域、保障节点、被保障用户参数；

[0115] 模型运算单元602：调用训练好的网络规划模型进行运算；

[0116] 网络规划参数生成单元603：模型生成网络规划参数。

标题	发布/更新时间	阅读量
车门信息检测方法、装置、计算机设备和存储介质	2020-05-08	102
一种多模态智能分析方法及系统	2020-05-12	447
基于改进直流潮流算法的电网无功潮流调整方法及装置	2020-05-12	141
用于控制或调节技术系统的方法	2020-05-12	965
基于强化学习的复杂薄壁结构物体3D打印路径规划方法	2020-05-12	230
一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法	2020-05-12	393
虚拟对象的动画生成方法、装置、设备及存储介质	2020-05-13	829
一种基于文本信息的深度强化学习交互式推荐方法及系统	2020-05-08	865
机位智能分配方法、计算机装置及存储介质	2020-05-11	127
一种基于算法学习的边缘提取方法	2020-05-13	973

一种基于深度强化学习的机动通信网智能规划方法

一种基于深度强化学习的机动通信网智能规划方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：