首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 深度神经网络 / 一种自主学习优化物联网拓扑结构鲁棒性的方法

一种自主学习优化物联网拓扑结构鲁棒性的方法

阅读:1017发布:2020-06-24

专利汇可以提供一种自主学习优化物联网拓扑结构鲁棒性的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种自主学习优化 物联网 拓扑结构鲁棒性的方法,步骤1:初始化物联网拓扑结构;步骤2:压缩拓扑结构;步骤3:初始化自主学习模型。根据 深度学习 与增强学习的特征,构建一种深度确定性学习策略模型来训练物联网拓扑结构;步骤4:训练与测试模型;步骤5:一次独立重复实验中周期性的重复步骤4,多次独立重复性实验中周期性的重复步骤1、2、3和4;直至最大的 迭代 次数。在此过程中,最大的迭代次数被设置,每次独立重复实验,选取最优的结果。多次重复实验,选取平均值作为此次实验的结果。本发明可以显著的提高初始拓扑结构抵御攻击的能 力 ;自主学习优化网络拓扑结构的鲁棒能力,保证高可靠的数据传输。,下面是一种自主学习优化物联网拓扑结构鲁棒性的方法专利的具体信息内容。

1.一种自主学习优化物联网拓扑结构鲁棒性的方法,其特征在于,该方法包括以下步骤:
步骤1:初始化物联网拓扑结构,即根据无标度网络模型的规则、边密度参数M随机部署节点,并固定地理位置,其中,边密度参数设置为M=2;
步骤2:压缩拓扑结构,即剔除多余的不在通信范围内的节点信息,在邻接矩阵的形式上仅保留通信范围内的节点连接关系,压缩网络拓扑结构的存储空间,并将压缩后的网络拓扑作为环境空间S,其中,环境空间S为一个行向量,该行向量会随着网络拓扑状态的改变而改变;
步骤3:初始化自主学习模型,即根据深度学习与增强学习的特征构建一种深度确定性学习策略模型来训练物联网拓扑结构:采用一种深度确定性Q-学习网络模型,模拟动作的选取策略π与网络的优化策略Q,将连续动作空间映射到离散动作空间中,设计目标优化函数O与整个训练模型的更新规则;其中:
动作选择策略π由式(1)定义:
at=π(st|θ)      (1)
式中,at表示选取出来的确定性动作,st表示当前网络拓扑状态,θ表示动作网络的参;
网络优化策略Q由式(2)定义:
Q(st,at)=E(r(st,at)+γQ(st+1,π(st+1)))     (2)
式中,r表示当前动作at对当前网络状态st的即时回报值,γ表示折扣因子,累积学习经验,Q(st+1,π(st+1))表示在下个网络状态下采取动作的未来回报值,因此,当前动作对当前网络状态的效果Q(st,at)由即时回报值和未来回报值组成,E()表示期望值,对一系列的动作选取策略累积之前的效果;
自主学习模型的目标函数O根据上述描述由式(3)定义:
O(θ)=Ε(r1+γr2+γ2r3+...|π(,θ))      (3)
式中,r表示每次动作对环境O(θ)=Ε(r1+γr2+γ2r3+...|π(,θ))产生的效果,即回报值,γ表示折扣因子,累积学习经验,π(,θ)表示动作选取的策略,θ表示动作策略网络的参数,E表示平均期望值;
网络的更新规则由式(4)定义:
式中,Ti表示目标期望值,由式(5)定义:
Ti=ri+γQ'(si,π'(si+1|θπ′)|θQ′)      (5)
式中,Q',π'表示动作选取策略和优化策略的目标网络,计算整个自主学习模型的误差;
步骤4:训练与测试模型,即在训练阶段,通过动作选取神经网络模型随机得到离散动作a,络优化神经网络模型策略评估该动作对当前环境的效果,同时累积之前的学习经验并更新整个网络模型,最后得到最优的结果;在测试阶段,对样本数据进行测试,得到测试结果;其中:
离散动作的输出由式(6)定义:
d=MAP(a)         (6)
式中,MAP表示连续动作空间与离散动作空间的映射关系,a由式(7)定义:
a=π(s)=π(s|θ)+N        (7)
式中,N表示一个随机抽样规则,探索动作空间中更多的有效动作行为,s表示当前的网络状态;
其中,动作选取策略网络更新原则是朝着使得策略选取网络值最大的方向来更新,因此,选取出来的动作使得策略选取网络最大;
目标网络的更新规则如式(10)定义;
Q′ Q Q′
θ ←τθ+(1-τ)θ
θπ′←τθπ+(1-τ)θπ′        (10)
式中,τ表示目标网络的更新率;
步骤5:一次独立重复实验中周期性的重复步骤4,多次独立重复性实验中周期性的重复步骤1、2、3和4;直至最大的迭代次数;
在此过程中,最大的迭代次数被设置,每次独立重复实验,选取最优的结果,多次重复实验,选取平均值作为此次实验的结果。

说明书全文

一种自主学习优化物联网拓扑结构鲁棒性的方法

技术领域

[0001] 本发明涉及一种物联网网络技术领域技术领域,特别是涉及一种优化物联网拓扑结构鲁棒性方法。

背景技术

[0002] 物联网是智慧城市网络中的重要组成部分,大规模的设备节点通过物联网连接在一起为人们提供高质量的服务。但是,连接的设备节点需要容忍失效的威胁,比如设备的随机故障、人为的恶意破坏和自然灾害能量耗尽等导致的网络部分节点失效从而使得整个网络瘫痪的事件。在物联网广泛的应用场景下,如何保证大规模的节点在网络部分节点失效的前提下保证网络高质量的数据服务通信具有重要的研究意义。
[0003] 在传统的物联网网络拓扑结构优化中,节点通常被部署在固定的地点,具有一定的通信范围限制。网络拓扑结构按照一种无标度网络模型初始化其网络模型。在网络拓扑结构优化策略中,据我们所知,大部分研究采用贪婪的换边策略或演化算法优化网络拓扑结构的鲁棒性,使得整个网络具有非常高的抵御攻击的能。比如期刊“Robustness optimization scheme with multi-population co-evolution for scale-free wireless sensor networks”提出一种多种群的遗传算法来解决局部最优的问题从而得到全局最优的网络拓扑结构,但是,优化一张网络拓扑结构的时间开销大,而且算法不能累积每次的优化经验导致算法每次运行都需要重新启动。其次,还有的研究者利用神经网络模型来表征网络拓扑结构优化前后的学习行为,减少拓扑的优化时间,但是该方法需要标签目标数据,标签目标数据限定了优化的最大值。因此,在物联网拓扑结构优化中,利用自主学习优化网络拓扑结构策略提高网络拓扑鲁棒性,消除优化目标值的上线,累积每次学习的经验指导后续的优化行为。

发明内容

[0004] 为解决现有技术存在的问题,本发明旨在提出一种自主学习优化物联网拓扑结构鲁棒性的方法,根据强化学习深度学习的特性,将物联网拓扑结构作为一个环境空间,同时设计动作空间对其进行环境探索,优化每步动作对环境空间的效果,使累积的优化效果最大化,以此来提高物联网拓扑结构的鲁棒性,同时增加整个网络拓扑结构的自主学习行为。
[0005] 本发明的一种自主学习优化物联网拓扑结构鲁棒性的方法,该方法包括以下步骤:
[0006] 步骤1:初始化物联网拓扑结构,即根据无标度网络模型的规则、边密度参数M随机部署节点,并固定地理位置,其中,边密度参数设置为M=2;
[0007] 步骤2:压缩拓扑结构,即剔除多余的不在通信范围内的节点信息,在邻接矩阵的形式上仅保留通信范围内的节点连接关系,压缩网络拓扑结构的存储空间,并将压缩后的网络拓扑作为环境空间S,其中,环境空间S为一个行向量,该行向量会随着网络拓扑状态的改变而改变;
[0008] 步骤3:初始化自主学习模型,即根据深度学习与增强学习的特征构建一种深度确定性学习策略模型来训练物联网拓扑结构:采用一种深度确定性Q-学习网络模型,模拟动作的选取策略π与网络的优化策略Q,将连续动作空间映射到离散动作空间中,设计目标优化函数O与整个训练模型的更新规则;其中:
[0009] 动作选择策略π由式(1)定义:
[0010] at=π(st|θ)      (1)
[0011] 式中,at表示选取出来的确定性动作,st表示当前网络拓扑状态,θ表示动作网络的参;
[0012] 网络优化策略Q由式(2)定义:
[0013] Q(st,at)=E(r(st,at)+γQ(st+1,π(st+1)))      (2)
[0014] 式中,r表示当前动作at对当前网络状态st的即时回报值,γ表示折扣因子,累积学习经验,Q(st+1,π(st+1))表示在下个网络状态下采取动作的未来回报值,因此,当前动作对当前网络状态的效果Q(st,at)由即时回报值和未来回报值组成,E()表示期望值,对一系列的动作选取策略累积之前的效果;
[0015] 自主学习模型的目标函数O根据上述描述由式(3)定义:
[0016] O(θ)=Ε(r1+γr2+γ2r3+...|π(,θ))      (3)
[0017] 式中,r表示每次动作对环境O(θ)=Ε(r1+γr2+γ2r3+...|π(,θ))产生的效果,即回报值,γ表示折扣因子,累积学习经验,π(,θ)表示动作选取的策略,θ表示动作策略网络的参数,E表示平均期望值;
[0018] 网络的更新规则由式(4)定义:
[0019]
[0020] 式中,Ti表示目标期望值,由式(5)定义:
[0021] Ti=ri+γQ'(si,π'(si+1|θπ’)|θQ’)    (5)
[0022] 式中,Q',π'表示动作选取策略和优化策略的目标网络,计算整个自主学习模型的误差;
[0023] 步骤4:训练与测试模型,即在训练阶段,通过动作选取神经网络模型随机得到离散动作a,络优化神经网络模型策略评估该动作对当前环境的效果,同时累积之前的学习经验并更新整个网络模型,最后得到最优的结果;在测试阶段,对样本数据进行测试,得到测试结果;其中:
[0024] 离散动作的输出由式(6)定义:
[0025] d=MAP(a)        (6)
[0026] 式中,MAP表示连续动作空间与离散动作空间的映射关系,a由式(7)定义:
[0027] a=π(s)=π(s|θ)+N        (7)
[0028] 式中,N表示一个随机抽样规则,探索动作空间中更多的有效动作行为;
[0029] 其中,动作选取策略网络更新原则是朝着使得策略选取网络值最大的方向来更新,因此,选取出来的动作使得策略选取网络最大;
[0030] 目标网络的更新规则如式(10)定义;
[0031] θQ’←τθQ+(1-τ)θQ’
[0032] θπ’←τθπ+(1-τ)θπ’      (10)
[0033] 式中,τ表示目标网络的更新率;
[0034] 步骤5:一次独立重复实验中周期性的重复步骤4,多次独立重复性实验中周期性的重复步骤1、2、3和4;直至最大的迭代次数;
[0035] 在此过程中,最大的迭代次数被设置,每次独立重复实验,选取最优的结果,多次重复实验,选取平均值作为此次实验的结果。
[0036] 本发明所获得的积极的技术效果包括:
[0037] (1)本发明利用深度增强学习神经网络模型设计了一种自主学习优化物联网拓扑结构鲁棒的策略,可以显著的提高初始拓扑结构抵御攻击的能力;
[0038] (2)本发明利用物联网拓扑结构的状态表示、离散动作空间映射关系和网络的无标度特性以及压缩特性来自主学习优化网络拓扑结构的鲁棒能力,保证高可靠的数据传输。附图说明
[0039] 图1为本发明的一种自主学习优化物联网拓扑结构鲁棒性的方法整体流程图
[0040] 图2为自主学习优化模型连续与离散动作映射关系示意图;
[0041] 图3为物联网拓扑结构压缩模型示意图。

具体实施方式

[0042] 以下结合附图,对依据本发明设计的节点部署策略的具体方式、结构、特征及作用详细说明如下。
[0043] 如图1所示,为本发明的一种自主学习优化物联网拓扑结构鲁棒性的方法整体流程图,该方法综合考虑大规模连续动作空间与离散动作空间的映射关系、网络拓扑结构的压缩方式和节点的连接关系,在有效的提高网络鲁棒性能力的同时增强整体网络的自主学习行为,平衡节点连接分布和保证网络高质量的通信能力。该方法的流程具体包括以下步骤:
[0044] 步骤1:初始化物联网拓扑结构。根据无标度网络模型的规则、边密度参数M随机部署节点,并固定地理位置。大部分节点具有很少的度数,少数节点具有很大的度数,最大程度地描述现实世界的物联网拓扑结构。每个节点具有相同的属性。
[0045] 其中,边密度参数设置为M=2,表示网络中的边数是节点数的2倍。
[0046] 步骤2:压缩拓扑结构。不同于网络拓扑结构的邻接矩阵表征方式,本发明剔除多余的不在通信范围内的节点信息,在邻接矩阵的形式上仅保留通信范围内的节点连接关系,压缩网络拓扑结构的存储空间,并将压缩后的网络拓扑作为环境空间S。
[0047] 其中,环境空间S为一个行向量,该行向量会随着网络拓扑状态的改变而改变。
[0048] 步骤3:初始化自主学习模型。根据深度学习与增强学习的特征,构建一种深度确定性学习策略模型来训练物联网拓扑结构。采用一种深度确定性Q-学习网络模型,模拟动作的选取策略π与网络的优化策略Q,将连续动作空间映射到离散动作空间中,设计目标优化函数O与整个训练模型的更新规则。
[0049] 其中,动作选择策略π由式(1)定义。
[0050] at=π(st|θ)        (1)
[0051] 式中,at表示选取出来的确定性动作,st表示当前网络拓扑状态,θ表示动作网络的参数。当前网络拓扑结构状态st经过动作策略函数π,得到一个确定性的动作,该动作可以直接对当前网络拓扑结构进行操作。
[0052] 其中,网络优化策略Q由式(2)定义,衡量选取出来的动作对环境空间的效果。
[0053] Q(st,at)=E(r(st,at)+γQ(st+1,π(st+1)))     (2)
[0054] 式中r表示当前动作at对当前网络状态st的即时回报值,γ是折扣因子,累积学习经验。Q(st+1,π(st+1))表示在下个网络状态下采取动作的未来回报值,因此,当前动作对当前网络状态的效果Q(st,at)由即时回报值和未来回报值组成,E()表示期望值,对一系列的动作选取策略累积之前的效果。
[0055] 其中,自主学习模型的目标函数O根据上述描述可以定义具体为式(3)[0056] (3)
[0057] 式中,r表示每次动作对环境O(θ)=Ε(r1+γr2+γ2r3+...|π(,θ))产生的效果,即回报值。γ表示折扣因子,累积学习经验。π(,θ)表示动作选取的策略,θ是动作策略网络的参数。E表示平均期望值,作为整个自主学习模型的目标函数。
[0058] 其中,网络的更新规则由式(4)定义。
[0059]
[0060] 式中,Ti表示目标期望值,由式(5)定义。
[0061] Ti=ri+γQ'(si,π'(si+1|θπ’)|θQ’)     (5)
[0062] 式中,Q',π'表示动作选取策略和优化策略的目标网络,计算整个自主学习模型的误差。
[0063] 步骤4:训练与测试模型。在训练阶段,通过动作选取神经网络模型随机得到离散动作a,络优化神经网络模型策略评估该动作对当前环境的效果,同时累积之前的学习经验并更新整个网络模型,最后得到最优的结果。测试阶段,对样本数据进行测试,得到测试结果。
[0064] 其中,离散动作的输出由式(6)定义。
[0065] d=MAP(a)         (6)
[0066] 式中,MAP表示连续动作空间与离散动作空间的映射关系,a由式(7)定义:
[0067] a=π(s)=π(s|θ)+N
[0068] (7)
[0069] 式中,N表示一个随机抽样规则,探索动作空间中更多的有效动作行为。
[0070] 其中,在得到该动作对当前环境的效果即回报值后,将其存储到一个记忆体中,在候选的优化学习中利用之前的学习经验,加快自主学习模型的收敛速度,其规则如式(8)定义。
[0071] (st,at,rt,st+1)→D        (8)
[0072] 式中,D表示网络模型中的记忆体,存储当前的网络状态、动作、即时回报值以及下一个网络状态等信息。
[0073] 其中,在更新自主学习优化模型阶段,动作选取策略网络更新规则由式(9)定义。
[0074] ▽π=Eπ'[▽aQ(s,a)▽θπ(s)]       (9)
[0075] 式中,动作选取策略网络更新原则是朝着使得策略选取网络值最大的方向来更新,因此,选取出来的动作使得策略选取网络最大。
[0076] 其中,目标网络的更新规则如式(10)定义。
[0077] θQ’←τθQ+(1-τ)θQ’
[0078] θπ’←τθπ+(1-τ)θπ’       (10)
[0079] 式中,τ表示目标网络的更新率。
[0080] 步骤5:一次独立重复实验中周期性的重复步骤4,多次独立重复性实验中周期性的重复步骤1、2、3和4;直至最大的迭代次数。在此过程中,最大的迭代次数被设置,每次独立重复实验,选取最优的结果。多次重复实验,选取平均值作为此次实验的结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈