专利类型 | 发明公开 | 法律事件 | 公开; 实质审查; |
专利有效性 | 实质审查 | 当前状态 | 实质审查 |
申请号 | CN202410156813.3 | 申请日 | 2024-02-04 |
公开(公告)号 | CN118018471A | 公开(公告)日 | 2024-05-10 |
申请人 | 国网江苏省电力有限公司信息通信分公司; 北京万可信息技术有限公司; | 申请人类型 | 企业 |
发明人 | 张瑞; 缪巍巍; 曾锃; 滕昌志; 余益团; 张震; 夏元轶; 张明轩; 李世豪; 洪涛; 肖茂然; 蔺鹏; | 第一发明人 | 张瑞 |
权利人 | 国网江苏省电力有限公司信息通信分公司,北京万可信息技术有限公司 | 权利人类型 | 企业 |
当前权利人 | 国网江苏省电力有限公司信息通信分公司,北京万可信息技术有限公司 | 当前权利人类型 | 企业 |
省份 | 当前专利权人所在省份:江苏省 | 城市 | 当前专利权人所在城市:江苏省南京市 |
具体地址 | 当前专利权人所在详细地址:江苏省南京市鼓楼区北京西路20号 | 邮编 | 当前专利权人邮编:210024 |
主IPC国际分类 | H04L45/02 | 所有IPC国际分类 | H04L45/02 ; H04L41/40 ; H04L41/16 ; G06N3/092 |
专利引用数量 | 0 | 专利被引用数量 | 0 |
专利权利要求数量 | 10 | 专利文献类型 | A |
专利代理机构 | 北京品源专利代理有限公司 | 专利代理人 | 孟金喆; |
摘要 | 本 发明 公开了一种多模态路由路径规划方法、装置、设备及存储介质。该方法包括:获取交换机集合和交换机之间的链路属性集合;根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型;获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG 强化学习 模型,得到至少一个目标业务对应的多模态路由规划路径,通过本发明的技术方案,能够实现业务的最佳路由路径规划,保障多模态业务传输 质量 的同时提高网络的资源利用率。 | ||
权利要求 | 1.一种多模态路由路径规划方法,其特征在于,由SDN控制器执行,包括: |
||
说明书全文 | 一种多模态路由路径规划方法、装置、设备及存储介质技术领域背景技术[0002] 传统的网络路由规划方法主要是基于最短路径算法来规划路由路径,但该方法存在收敛速度慢,难以处理网络拥塞的问题。同时,网络路由方法主要依赖于传统交换机进行路由控制,由于网络中使用多模态寻址方式的业务无法被传统交换机识别,使得这类多模态流量在网络中的路由规划存在一定的局限性,因此,如何综合网络状态,进行多模态路由路径规划是保障多模态业务质量以及推动网络发展的关键因素。 发明内容[0003] 本发明实施例提供一种多模态路由路径规划方法、装置、设备及存储介质,解决了现有技术中多模态路由在规划路径时存在局限性的问题。 [0004] 根据本发明的一方面,提供了一种多模态路由路径规划方法,由SDN控制器执行,包括: [0005] 获取交换机集合和交换机之间的链路属性集合; [0006] 根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型; [0007] 获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0008] 根据本发明的另一方面,提供了一种多模态路由路径规划装置,该多模态路由路径规划装置包括: [0009] 获取模块,用于获取交换机集合和交换机之间的链路属性集合; [0010] 构建模块,用于根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型; [0011] 规划模块,用于获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0012] 根据本发明的另一方面,提供了一种电子设备,所述电子设备包括: [0013] 至少一个处理器;以及 [0014] 与所述至少一个处理器通信连接的存储器;其中, [0015] 所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的多模态路由路径规划方法。 [0016] 根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的多模态路由路径规划方法。 [0017] 本发明实施例通过获取交换机集合和交换机之间的链路属性集合;根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型;获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,解决了现有技术中多模态路由在规划路径时存在局限性的问题,能够综合网络状态,优化多模态路由路径规划,保障业务传输质量的同时提高资源利用率。 [0019] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。 [0020] 图1是本发明实施例一中的一种多模态路由路径规划方法的流程图; [0021] 图2是本发明实施例一中的一种混合白盒网络模型的示意图; [0022] 图3是本发明实施例一中的一种DDPG强化学习模型对应的待训练模型强化学习的示意图; [0023] 图4是本发明实施例二中的一种多模态路由路径规划装置的结构示意图; [0024] 图5是本发明实施例三中的一种电子设备的结构示意图。 具体实施方式[0025] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。 [0026] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 [0027] 可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。 [0028] 实施例一 [0029] 图1是本发明实施例一中的一种多模态路由路径规划方法的流程图,本实施例可适用于对多模态路由路径规划的情况,该方法可以由本发明实施例中的多模态路由路径规划装置来执行,该装置可采用软件和/或硬件的方式实现。如图1所示,该方法由SDN(Software Defined Network,软件定义网络)控制器执行,具体包括如下步骤: [0030] S110,获取交换机集合和交换机之间的链路属性集合。 [0031] 其中,交换机集合中包括白盒交换机集合和非白盒交换机集合,该交换机可以交换机标识的方式表示。交换机之间的链路属性集合包括至少一条两个交换机之间的链路属性,其中,链路属性包括链路两端的交换机标识和链路性质信息。 [0032] 可选的,获取交换机之间的链路属性集合,包括: [0033] 根据每条链路的两端的交换机标识和链路性质信息确定每条链路属性,根据每条链路属性得到链路属性集合,其中,所述链路性质信息包括:链路类型、当前可用带宽、最大带宽、链路时延以及链路抖动。 [0034] 具体的,链路属性表示为:Lij={ni,nj,βij,bij,wij,Dij,Jij},其中,ni和nj为链路两端的交换机标识,βij为Lij的链路类型,bij为Lij的当前可用带宽,wij为Lij的最大带宽,Dij为Lij的链路时延,Jij为Lij的链路抖动,链路的性质信息还可以包括链路可靠性。其中,链路类型βij=1时表示该链路为多模态路由链路,βij=0时表示该链路不是多模态路由链路。需要说明的是,交换机之间的链路可称为数据链路,若数据链路的两端的交换机中至少有一个交换机为白盒交换机,则该链路为多模态路由链路,能够支持多模态路由。 [0035] S120,根据交换机集合和交换机之间的链路属性集合构建混合白盒网络模型。 [0036] 具体的,根据获取的交换机集合和交换机之间的链路属性集合搭建混合白盒网络模型,该混合白盒网络模型包括白盒交换机和非白盒交换机,能够支持IP网络、内容标识、身份标识、地理空间标识等标识的多模态网络流量,传统的非白盒交换机支持对IP网络流量的路由控制,但只有白盒交换机能够实现对多模态网络流量的路由控制。 [0037] 例如可以是,图2是本发明实施例一中的一种混合白盒网络模型的示意图,如图2所示,实心原点表示白盒交换机,空心原点表示非白盒交换机,SDN控制器可直接访问混合白盒网络,并能通过下发流表至混合白盒网络,进而实现对业务的多模态路由控制,实线表示链路两端的交换机均为非白盒交换机,该链路为传统路由链路,虚线表示链路两端的交换机至少有一个交换机为白盒交换机,该链路为多模态路由链路,可用图G=(N,E)表示混合白盒网络模型,其中,N表示交换机集合,E表示链路集合,还可以设定一个二元变量αi来表示交换机类型,若αi=1表示交换机为白盒交换机,αi=0表示交换机为非白盒交换机。 [0038] S130,获取目标业务集合,并将混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0039] 其中,目标业务集合为网络业务集合,其中,目标业务集合中的每一业务均包括该业务的带宽要求、时延要求以及抖动要求,还可以包括可靠性要求。其中,DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)强化学习模型可对业务的多模态路由路径进行规划。 [0040] 其中,混合白盒网络模型的当前网络状态可表示为Ω={E,N,F},其中,E表示链路集合,N表示交换机集合,F为当前混合白盒网络模型的流量集合,需要说明的是,SDN控制器可实时获取混合白盒网络模型的当前网络状态,在完成一个目标业务对应的多模态路由规划路径后,该目标业务按照规划的多模态路由路径使用混合白盒网络模型中的资源,此时混合白盒网络模型的流量集合发生变化,即混合白盒网络模型的当前网络状态会发生变化。 [0041] 具体的,获取目标业务集合和混合白盒网络模型的当前网络状态,将目标业务集合和混合白盒网络模型的当前网络状态输入DDPG强化学习模型,该DDPG强化学习模型能够得到至少一个目标业务对应的多模态路由规划路径,SDN控制器能够动态下发多模态路由规划路径至混合白盒网络模型中,其中,多模态路由规划路径符合预设约束条件,预设约束条件可根据混合白盒网络模型的网络状态和目标业务进行设定。 [0042] 可选的,将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,包括: [0043] 获取目标业务集合中每个目标业务的优先级; [0044] 按照每个目标业务的优先级从高到低排序,得到排序后的目标业务集合; [0045] 获取所述混合白盒网络模型的当前网络状态; [0046] 将所述混合白盒网络模型的当前网络状态和排序后的目标业务集合中的每个目标业务依次输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0047] 具体的,目标业务集合中每个目标业务的优先级可为目标业务的固有属性,也可根据每个目标业务的目标带宽、目标丢包率、目标时延以及目标抖动确定,其中,目标带宽、目标丢包率、目标时延以及目标抖动为每个目标业务的业务要求。例如可以是,若目标业务的目标带宽在1Gbps‑2Gbps之间,目标丢包率低于0.01%,目标时延低于30ms,目标抖动低于30ms,则目标业务对低时延和低抖动有较高要求,需要较大的带宽和低丢包率,确定目标业务为一级业务;若目标业务的目标带宽在500Mbps‑1Gbps之间,目标丢包率低于0.05%,目标时延低于30ms,目标抖动低于50ms,则目标业务对时延的要求较高,对抖动的要求中等,通常需要较大的带宽和中等的丢包率,确定目标业务为二级业务;若目标业务的目标带宽在200Mbps‑500Mbps之间,目标丢包率低于0.01%,目标时延低于50ms,目标抖动低于30ms,则目标业务对抖动的要求较高,对时延的要求中等,通常需要较低的丢包率和合适的带宽,确定目标业务为三级业务;若目标业务的目标带宽在200Mbps以下,目标丢包率低于 0.05%,目标时延低于50ms,目标抖动低于50ms,则目标业务对时延和抖动的要求均不高,对带宽和丢包率的要求相对较低,确定目标业务为四级业务。 [0048] 具体的,按照每个目标业务的优先级从高到低排序,得到排序后的目标业务集合,其中,在优先级方面,一级业务>二级业务>三级业务>四级业务。排序后的目标业务集合中的目标业务可表示为:Sa={Pa,Ba,Da,Ra,Ja}(1≤a≤Num),其中,Sa表示第a个目标业务,Pa表示该目标业务的优先级,Ba表示该目标业务的目标带宽,Da表示该目标业务的目标时延,Ra表示该目标业务的目标丢包率,Ja表示该目标业务的目标抖动,Num表示目标业务集合中的目标业务的数量。 [0049] 具体的,实时获取混合白盒网络模型的当前网络状态,将混合白盒网络模型的当前网络状态和排序后的目标业务集合中的每个目标依次输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,也就是说,将混合白盒网络模型的当前网络状态确定为初始网络状态,将初始网络状态和第一个目标业务输入DDPG强化学习模型,得到第一个目标业务对应的备选路由规划路径,若该备选路由规划路径满足预设业务约束条件,则确定该备选路由规划路径为第一个目标业务对应的多模态路由规划路径,若该备选路由规划路径满足预设业务约束条件,则直接将初始网络状态和下一个目标业务输入DDPG强化学习模型;然后根据第一个目标业务对应的多模态路由规划路径确定第一个目标业务所需要的流量,根据第一个目标业务所需要的流量和初始网络状态更新混合白盒网络的当前网络状态,将更新后的混合白盒网络的当前网络状态和下一个目标业务输入DDPG强化学习模型,循环执行上述步骤,直至遍历完排序后的目标业务集合中的所有目标业务,可得到至少一个目标业务对应的多模态路由规划路径。 [0050] 通过按照每个目标业务优先级从高到低排序,得到排序后的目标业务集合,将混合白盒网络模型的当前网络状态和排序后的目标业务集合中的每个目标业务依次输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,解决了现有技术中每个业务只选择最短路径作为最优路由导致部分链路拥塞且未考虑业务的优先级的问题,能够在混合白盒网络模型中在满足业务需求的前提下,满足尽可能多的高优先级的业务,保障业务质量。 [0051] 可选的,获取所述混合白盒网络模型的当前网络状态,包括: [0052] 将排序后的目标业务集合中第N个目标业务输入DDPG强化学习模型,得到第N个目标业务对应的多模态路由规划路径; [0053] 根据第N个目标业务对应的多模态路由规划路径确定排序后的目标业务集合中第N+1个目标业务对应的混合白盒网络模型的当前网络状态。 [0054] 具体的,将排序后的目标业务集合中第N个目标业务和第N个目标业务对应的混合白盒网络模型的当前网络状态输入DDPG强化学习模型后,得到第N个目标业务对应的多模态路由规划路径后,第N个目标业务根据第N个目标业务对应的多模态路由规划路径进行多模态路由,第N个目标业务会在混合白盒网络模型中产生数据流量,该数据流量与原有的混合白盒网络模型中的数据流量进行汇总,得到更新后的流量,即SDN控制器可得到更新后的混合白盒网络模型的当前网络状态,更新后的混合白盒网络模型的当前状态为第N+1个目标业务对应的混合白盒网络模型的当前网络状态。在得到第N+1个目标业务对应的混合白盒网络模型的当前网络状态后,将第N+1个目标业务对应的混合白盒网络模型的当前网络状态和第N+1个目标业务输入DDPG强化学习模型,获取第N+1个目标业务对应的多模态路由规划路径。 [0055] 可选的,将所述混合白盒网络模型的当前网络状态和排序后的目标业务集合中的每个目标业务依次输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,包括: [0056] 将混合白盒网络模型的当前网络状态和排序后的目标业务集合中的目标业务输入DDPG强化学习模型,若根据目标业务的源交换机标识确定源交换机类型为非白盒交换机,则根据当前网络状态、源交换机标识以及预设最短路径算法确定源交换机标识对应的下一跳交换机标识; [0057] 若根据目标业务的源交换机标识确定源交换机类型为白盒交换机,则根据当前网络状态和源交换机标识确定源交换机标识对应的下一跳交换机标识; [0058] 根据下一跳交换机标识和当前网络状态确定下一跳交换机标识对应的下一跳交换机标识; [0059] 根据源交换机标识、源交换机标识对应的下一跳交换机标识、下一跳交换机标识对应的下一跳交换机标识以及目的交换机标识之间的链路确定目标业务对应的备选路由规划路径; [0060] 根据所述目标业务对应的备选路由规划路径和预设业务约束条件确定目标业务对应的多模态路由规划路径。 [0061] 具体的,将混合白盒网络模型的当前网络状态和排序后的目标业务集合中的当前的目标业务输入DDPG强化学习模型,得到当前目标业务的源交换机标识和目的交换机标识,源交换机标识和目的交换机标识中可携带类型标识,若根据源交换机标识确定源交换机类型为非白盒交换机,也就是说源交换机标识ni_αi中若αi=1表示交换机为白盒交换机,αi=0表示交换机为非白盒交换机,则根据混合白盒网络模型的当前网络状态、源交换机标识以及预设最短路径算法确定源交换机标识对应的下一跳交换机标识,其中,预设最短路径算法可为传统路由协议,如OSPF协议(Open Shortest Path First,开放式最短路径优先)。 [0062] 具体的,若根据源交换机标识确定源交换机类型为白盒交换机,则根据当前网络状态获取与源交换机标识连接的交换机集合和链路集合,根据源交换机标识、与源交换机标识对应的源交换机连接的交换机集合和链路集合确定源交换机标识对应的下一跳交换机标识。 [0063] 具体的,若根据下一跳交换机标识确定下一跳交换机类型为非白盒交换机,则根据当前网络状态、下一跳交换机标识以及预设最短路径算法确定下一跳交换机标识对应的下一跳交换机标识,若根据下一跳交换机标识确定下一跳交换机类型为白盒交换机,则根据当前网络状态和下一跳交换机标识确定下一跳交换机标识对应的下一跳交换机标识。 [0064] 具体的,根据源交换机标识、源交换机标识对应的下一跳交换机标识、下一跳交换机标识对应的下一跳交换机标识以及目的交换机标识确定源交换机、源交换机对应的下一跳交换机、下一跳交换机对应的下一跳交换机以及目的交换机,根据源交换机、源交换机对应的下一跳交换机、下一跳交换机对应的下一跳交换机以及目的交换机之间的链路构成当前目标业务对应的备选路由规划路径。 [0065] 具体的,若目标业务对应的备选路由规划路径满足预设业务约束条件,则确定目标业务对应的备选路由规划路径为目标业务对应的多模态路由规划路径;若不满足预设业务约束条件,则将当前目标业务的下一目标业务和当前网络状态输入DDPG强化学习模型,得到当前目标业务的下一目标业务对应的备选路由规划路径。例如可以是,若目标业务为Sa,其备选路由规划路径可表示为:Ra={ni_αi,nj_αj,L,pro},其中,ni表示路径的起点,nj表示路径的终点,αi表示路径的起点对应的交换机是否为白盒交换机,αj表示路径的终点对应的交换机是否为白盒交换机,L为路径经过的链路的集合,pro表示该条路径的性质信息,其中,pro={B,D,J},B表示路径带宽,D表示路径时延,J表示路径抖动,整条路径的时延、抖动由组成该路径的各链路得出: 路径的带宽受组成该路径的各个链路的带宽约束:B≤min{Bij|Lij∈L}。其中,预设业务约束条件包括: [0066] [0067] 其中,Ba表示目标业务Sa的目标带宽,Da表示目标业务Sa的目标时延,Ja表示目标业务Sa的目标抖动,Bij、Dij、Jij分别为备选路由规划路径Ra中的路径Lij的带宽、时延和抖动。若备选路由规划路径不满足预设业务约束条件,说明备选路由规划路径不符合目标业务的业务要求,则该目标业务无法进行路由路径规划,则获取混合白盒网络模型的当前网络状态和排序后的目标业务集合中目标业务Sa的下一目标业务输入DDPG强化学习模型,得到目标业务Sa的下一目标业务对应的备选路由规划路径。 [0068] 可选的,根据当前网络状态和源交换机标识确定源交换机标识对应的下一跳交换机标识,包括: [0069] 根据当前网络状态和预设排序规则得到与源交换机标识对应的源交换机直接相连的交换机对应的第一交换机标识有序集; [0070] 获取第一交换机标识有序集中的每一交换机标识对应的交换机与目的交换机标识对应的目的交换机之间的最小距离,根据所述最小距离对第一交换机标识有序集中的每一交换机标识按照从小到大的顺序进行排序,得到第二交换机标识有序集; [0071] 将第一交换机标识有序集中的交换机标识对应的序数与其在第二交换机标识有序集中对应的序数相加,得到序数之和; [0072] 将序数之和最小的交换机标识确定为源交换机标识对应的下一跳交换机标识。 [0073] 其中,预设排序规则可根据DDPG强化学习模型中的策略神经网络采样得到。具体的,若根据源交换机标识确定源交换机类型为白盒交换机,则根据当前网络状态得到与源交换机标识对应的源交换机直接相连的交换机,然后按照预设排序规则将与源交换机直接相连的交换机的标识进行排序,得到第一交换机标识有序集。需要说明的是,在使用DDPG强化学习模型时,需要搜索噪声,则将交换第一交换机标识有序集中的任意两个相邻项的顺序设定为搜索噪声。 [0074] 具体的,根据当前网络状态获取第一交换机标识有序集中每一交换机标识对应的交换机与目的交换机标识对应的目的交换机之间的所有可能路径对应的距离,进而得到所有可能路径对应的距离中的最小距离,然后根据每一交换机标识对应的交换机与目的交换机标识对应的目的交换机之间的最小距离将第一交换机标识有序集中的每一交换机标识按照它们的最小距离从小到大进行排序,得到第二交换机标识有序集。 [0075] 具体的,若源交换机标识为ni,则与源交换机标识对应的源交换机直接相连的第一交换机标识有序集可为cwi=[…,wα,…,wβ,…,wγ,…],第二交换机标识有序集可为di=[…,wβ,…,wα,…,wγ,…],结合两个有序集,计算第一交换机标识有序集中的每个交换机标识对应的序数与该交换机在第二交换机标识有序集中对应的序数相加,得到每个交换机的序数之和。 [0076] 具体的,将序数之和最小的交换机标识确定为源交换机标识对应的下一跳交换机标识,也就是说,将序数之和最小的交换机标识对应的交换机确定为源交换机标识对应的交换机的下一跳交换机,同样的,根据下一跳交换机标识和当前网络状态确定下一跳交换机标识对应的下一跳交换机标识时,若根据下一跳交换机标识确定下一跳交换机类型为白盒交换机,则根据当前网络状态和下一跳交换机标识确定下一跳交换机标识对应的下一跳交换机标识的具体步骤与根据当前网络状态和源交换机标识确定源交换机标识对应的下一跳交换机标识的具体步骤相似,在此不进行赘述。需要说明的是,源交换机标识对应的下一跳交换机标识不能是源交换机标识,下一跳交换机标识对应的下一跳交换机标识不能是上一跳交换机标识。 [0077] 可选的,在将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径之前,还包括: [0078] 获取待训练模型和训练样本集; [0079] 基于训练样本集,根据预设的损失函数和双经验池机制对待训练模型进行迭代强化学习,直至满足迭代结束条件,得到DDPG强化学习模型。 [0080] 其中,待训练模型包括策略神经网络(Actor网络)和值函数网络(Critic网络),分别由两个深度神经网络组成,Actor网络的输入为当前网络状态,输出为确定性的动作策略,Critic网络根据Actor的状态‑动作策略计算出相应的Q值进行评估。训练样本集包括:训练业务集和训练混合白盒网络模型的网络状态。 [0081] 其中,双经验池机制表示在强化学习时,将每次学习时的探索经验存储于经验池R1或经验池R2中,具体的,为了令DDPG强化学习模型迅速收敛得到符合预设业务约束条件的路由规划路径的结果,采用双经验池机制进行迭代强化学习,根据路由路径是否满足预设业务约束条件将本次经验路径进行分类,每次强化学习时,产生的经验样本被存储于临时经验池RT,检查该经验样本中的规划路由路径是否满足预设业务约束条件,若满足,则将此次探索经验存储于经验池R1中,若不满足,则将此次探索经验存储于经验池R2中,在随机采样时增大R1经验池的比重,从而提高强化学习时向有较大学习价值的样本进行学习的概率。 [0082] 例如可以是,图3是本发明实施例一中的一种DDPG强化学习模型对应的待训练模型强化学习的示意图,具体的,图3中强化学习的具体过程为: [0083] 输入:训练样本集(训练业务集St和t时刻的训练混合白盒网络模型的初始网络状t态Ω ),输出为:目标值 (表示满足预设业务约束条件的得到规划路由路径的业务数量)和多模态路由规划路径对应的矩阵 其中,NW为训练混合白盒网络模型中的白盒交换机的数量; [0084] 1)初始化Actor网络参数θπ、Critic网络参数θQ,与相对应的参考网络参数θπ′、θQ′;初始化回放经验池R1,R2; [0085] 2)for episode=1:MaxEpisode: [0086] 3)将t时刻的训练混合白盒网络的初始网络状态Ωt作为初始状态St [0087] 4)for t=1:MaxStep [0088] 5)利用Actor网络输出At并执行,得到先验状态 [0089] 6)根据规划的路由路径是否满足预设业务约束条件得到奖励值Rt和后验状态记录此时 与对应的 [0090] 7)存储本次动作经验 到临时回放经验池RT [0091] 8)更新下一时刻网络状态 [0092] 9)从R1中采样大小为N1的随机小批量经验,从R2中采样大小为N2的随机小批量经验 [0093] 10)将St、At、Rt、St+1、N1的随机小批量经验以及N2的随机小批量经验输入值函数网Q络,得到当前Q值Q(St,At|θ) [0094] 11)利用参考网络参数对应的Actor网络输出A′t [0095] 12)将St、At′、Rt′(A′t对应的奖励值)、St+1、N1的随机小批量经验以及N2的随机小批量经验输入值函数网络,得到计算参考Q值 [0096] 13)根据当前Q值和参考Q值计算损失函数K,并更新Critic网络参数θQπ [0097] 14)计算策略梯度 更新Actor网络的参数θ [0098] 15)每隔C步进行相对应的参考网络参数软更新,计算θQ′、θπ′ [0099] 16)end for [0100] 17)if满足预设业务约束条件 [0101] 18)RT→R1 [0102] 19)Else [0103] 20)RT→R2 [0104] 21)end if [0105] 22)end for [0106] 其中,At表示当前训练业务规划的路由路径中包含的每一跳交换机,包括当前训练任务的源交换机、至少一个下一跳交换机、目的交换机。经过At,将当前训练业务的流量加入训练混合白盒网络中,和原训练混合白盒网络中的流量共同组成下一网络状态St+1,其中,先验状态 为规划路由路径后,训练业务的流量对应的网络状态;后验状态 包括由SDN控制器在训练混合白盒网络中采集的背景流量(非白盒交换机支持的IP流量)与其它多模态流量。其中,奖励值Rt决定强化学习时的优化目标,为了在满足预设业务约束条件的前提下,尽可能多地满足更多优先级高的业务,奖励值是表示策略神经网络输出的At的质量,原则为优先级越高,则获取的奖励值越高,可定义为:当规划的路由路径满足预设业务约束2 条件时,Rt=(W‑Pi) ,Pi为训练业务的优先级,W为所定义的优先级的数量+1,在训练时,定义优先级为一级业务、二级业务、三级业务以及四级业务,W为5;当规划的路由路径不满足预设业务约束条件时,Rt=0。 [0107] 通过对待训练模型进行强化学习训练,得到DDPG强化学习模型,以便将混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,能够在满足业务约束条件的前提下,尽可能多的满足更高优先级的业务,达到最大化混合白盒网络的利用率,优化用户体验的效果。 [0108] 本实施例的技术方案,通过获取交换机集合和交换机之间的链路属性集合;根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型;获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径,能够综合网络状态,优化多模态路由路径规划,保障业务传输质量的同时提高资源利用率。 [0109] 实施例二 [0110] 图4是本发明实施例二中的一种多模态路由路径规划装置的结构示意图。本实施例可适用于对多模态路由路径规划的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供多模态路由路径规划的功能的设备中,如图4所示,所述多模态路由路径规划装置具体包括:获取模块210、构建模块220和规划模块230。 [0111] 其中,获取模块210,用于获取交换机集合和交换机之间的链路属性集合; [0112] 构建模块220,用于根据所述交换机集合和交换机之间的链路属性集合构建混合白盒网络模型; [0113] 规划模块230,用于获取目标业务集合,并将所述混合白盒网络模型的当前网络状态和目标业务集合输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0114] 可选的,所述获取模块具体用于: [0115] 根据每条链路的两端的交换机标识和链路性质信息确定每条链路属性,根据每条链路属性得到链路属性集合,其中,所述链路性质信息包括:链路类型、当前可用带宽、最大带宽、链路时延以及链路抖动。 [0116] 可选的,所述规划模块具体用于: [0117] 获取目标业务集合中每个目标业务的优先级; [0118] 按照每个目标业务的优先级从高到低排序,得到排序后的目标业务集合; [0119] 获取所述混合白盒网络模型的当前网络状态; [0120] 将所述混合白盒网络模型的当前网络状态和排序后的目标业务集合中的每个目标业务依次输入DDPG强化学习模型,得到至少一个目标业务对应的多模态路由规划路径。 [0121] 可选的,所述规划模块具体用于: [0122] 将排序后的目标业务集合中第N个目标业务输入DDPG强化学习模型,得到第N个目标业务对应的多模态路由规划路径; [0123] 根据第N个目标业务对应的多模态路由规划路径确定排序后的目标业务集合中第N+1个目标业务对应的混合白盒网络模型的当前网络状态。 [0124] 可选的,所述规划模块具体用于: [0125] 将混合白盒网络模型的当前网络状态和排序后的目标业务集合中的目标业务输入DDPG强化学习模型,若根据目标业务的源交换机标识确定源交换机类型为非白盒交换机,则根据当前网络状态、源交换机标识以及预设最短路径算法确定源交换机标识对应的下一跳交换机标识; [0126] 若根据目标业务的源交换机标识确定源交换机类型为白盒交换机,则根据当前网络状态和源交换机标识确定源交换机标识对应的下一跳交换机标识; [0127] 根据下一跳交换机标识和当前网络状态确定下一跳交换机标识对应的下一跳交换机标识; [0128] 根据源交换机标识、源交换机标识对应的下一跳交换机标识、下一跳交换机标识对应的下一跳交换机标识以及目的交换机标识之间的链路确定目标业务对应的备选路由规划路径; [0129] 根据所述目标业务对应的备选路由规划路径和预设业务约束条件确定目标业务对应的多模态路由规划路径。 [0130] 可选的,所述规划模块具体用于: [0131] 根据当前网络状态和预设排序规则得到与源交换机标识对应的源交换机直接相连的交换机对应的第一交换机标识有序集; [0132] 获取第一交换机标识有序集中的每一交换机标识对应的交换机与目的交换机标识对应的目的交换机之间的最小距离,根据所述最小距离对第一交换机标识有序集中的每一交换机标识按照从小到大的顺序进行排序,得到第二交换机标识有序集; [0133] 将第一交换机标识有序集中的交换机标识对应的序数与其在第二交换机标识有序集中对应的序数相加,得到序数之和; [0134] 将序数之和最小的交换机标识确定为源交换机标识对应的下一跳交换机标识。 [0135] 可选的,还包括: [0136] 模型获取模块,用于获取待训练模型和训练样本集; [0137] 强化学习模块,用于基于训练样本集,根据预设的损失函数和双经验池机制对待训练模型进行迭代强化学习,直至满足迭代结束条件,得到DDPG强化学习模型。 [0138] 上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。 [0139] 实施例三 [0140] 图5是本发明实施例三中的一种电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。 [0141] 如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。 [0142] 电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。 [0143] 处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如多模态路由路径规划方法。 [0144] 在一些实施例中,多模态路由路径规划方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时,可以执行上文描述的多模态路由路径规划方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行多模态路由路径规划方法。 [0145] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。 [0146] 用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。 [0147] 在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。 [0148] 为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。 [0149] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。 [0150] 计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。 [0151] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。 [0152] 上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。 |