基于部分部署分段路由的IPv6网络的流量工程方法及装置专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

基于部分部署分段路由的IPv6网络的流量工程方法及装置

阅读：1033发布：2020-09-04

专利汇可以提供基于部分部署分段路由的IPv6网络的流量工程方法及装置专利检索，专利查询，专利分析的服务。并且一种基于部分部署分段路由的IPv6网络的流量工程方法，包括：获取IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；基于设定时长内的多个流量矩阵，计算设定时长内的代表流量矩阵；基于网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，对深度强化学习网络进行M次训练，根据深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。，下面是基于部分部署分段路由的IPv6网络的流量工程方法及装置专利的具体信息内容。

权利要求

1.一种基于部分部署分段路由的IPv6网络的流量工程方法，其特征在于，包括：
获取IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；
基于所述设定时长内的多个流量矩阵，计算所述设定时长内的代表流量矩阵；
基于所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，对深度强化学习网络进行M次训练，根据所述深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。
2.根据权利要求1所述的方法，其特征在于，所述深度强化学习网络包括行动深度神经网络、评估深度神经网络以及目标深度神经网络；
所述深度强化学习网络的每次训练过程中进行以下处理：
根据所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，确定所述初始的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；
执行T个步骤，在每个步骤中进行以下处理：
确定本步骤的网络链路权重矩阵；
根据所述网络拓扑、本步骤的网络链路权重矩阵以及所述代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；
根据本步骤的网络链路权重矩阵对应的最大链路利用率和所述初始的网络链路权重矩阵对应的最大链路利用率，计算本步骤的奖励；
将上一步骤的网络链路权重矩阵对应的网络流量分布情况、本步骤的网络链路权重矩阵、本步骤的奖励、本步骤的网络链路权重矩阵对应的网络流量分布情况记为一个事务，存储至回放缓冲区；
从所述回放缓冲区采样设定大小的数据，计算采样出的所述数据中的每个事务的目标Q值；
基于所述目标Q值，计算最小化损失L，并根据所述最小化损失L更新所述评估深度神经网络的参数；
计算策略梯度，并根据所述策略梯度更新所述行动深度神经网络的参数；
采用平滑替换方式更新所述目标深度神经网络的参数；
其中，T为大于0的正整数。
3.根据权利要求2所述的方法，其特征在于，所述根据所述网络拓扑、本步骤的网络链路权重矩阵以及所述代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率，包括：
根据所述网络拓扑、本步骤的网络链路权重矩阵、所述代表流量矩阵以及分段路由节点部署率，确定本步骤的网络链路权重矩阵对应的分段路由节点集合；
根据所述网络拓扑、所述代表流量矩阵、本步骤的网络链路权重矩阵以及本步骤的网络链路权重矩阵对应的分段路由节点集合，计算出所述代表流量矩阵中每条流的可用路径；
构造线性规划问题，其中，目标为最小化所述部分部署分段路由的IPv6网络的最大链路利用率，变量为每条流在可用路径上的分流比；
求解所述线性规划问题，得到每条流在可用路径上的最佳分流比以及所述部分部署分段路由的IPv6网络的最小化的最大链路利用率。
4.根据权利要求3所述的方法，其特征在于，所述线性规划问题的限制条件包括：
经过任一链路的所有流量小于或等于所述链路的容量与所述链路的最大链路利用率的乘积；
任一条流在所有的可用路径上的流量之和大于或等于所述流的流量需求大小；
任一条流在任一可用路径上的流量大于或等于0。
5.根据权利要求3所述的方法，其特征在于，所述根据所述深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率之后，所述方法还包括：
采用所述最小化的最大链路利用率对应的分段路由节点集合、所述代表流量矩阵中每条流的可用路径以及在所述可用路径上的分流比，优化所述部分部署分段路由的IPv6网络。
6.根据权利要求1所述的方法，其特征在于，所述基于所述设定时长内的多个流量矩阵，计算所述设定时长内的代表流量矩阵，包括：
基于所述设定时长内的多个流量矩阵，采用数据挖掘聚类算法，计算所述设定时长内的代表流量矩阵。
7.一种基于部分部署分段路由的IPv6网络的流量工程装置，其特征在于，包括：
获取模块，适于获取IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；
代表流量矩阵计算模块，适于基于所述设定时长内的多个流量矩阵，计算所述设定时长内的代表流量矩阵；
深度强化学习模块，适于基于所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，对深度强化学习网络进行M次训练，根据所述深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。
8.根据权利要求7所述的装置，其特征在于，所述深度强化学习模块，包括：
初始计算单元，适于在每次训练过程中进行以下处理：根据所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，确定所述初始的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；
步骤执行单元，适于在每次训练过程中执行T个步骤，且在每个步骤中进行以下处理：
确定本步骤的网络链路权重矩阵；根据所述网络拓扑、本步骤的网络链路权重矩阵以及所述代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；根据本步骤的网络链路权重矩阵对应的最大链路利用率和所述初始的网络链路权重矩阵对应的最大链路利用率，计算本步骤的奖励；将上一步骤的网络链路权重矩阵对应的网络流量分布情况、本步骤的网络链路权重矩阵、本步骤的奖励、本步骤的网络链路权重矩阵对应的网络流量分布情况记为一个事务，存储至回放缓冲区；从所述回放缓冲区采样设定大小的数据，计算采样出的所述数据中的每个事务的目标Q值；基于所述目标Q值，计算最小化损失L，并根据所述最小化损失L更新评估深度神经网络的参数；计算策略梯度，并根据所述策略梯度更新行动深度神经网络的参数；采用平滑替换方式更新目标深度神经网络的参数；其中，T为大于0的正整数。
9.一种终端，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的流量工程方法的步骤。
10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的流量工程方法的步骤。

说明书全文

基于部分部署分段路由的IPv6网络的流量工程方法及装置

技术领域

[0001] 本文涉及流量工程技术领域，尤指一种基于部分部署分段路由的IPv6(Internet Protocol Version 6，互联网协议第6版)网络的流量工程方法及装置。

背景技术

[0002] 随着互联网飞速发展，互联网出现了网络流量爆炸式增长等问题。另外，音视频业务的不断发展也对互联网提出了服务质量的要求。受限于路由算法和调度策略，网络流量极易在链路上分配不均，从而导致网络拥塞和网络服务质量下降。

[0003] 流量工程是一种优化网络流量分配的技术，可以对网络流量优化调度，从而实现网络流量负载均衡，减少拥塞，提高网络资源的利用率。

[0004] 分段路由(Segment Routing，SR)是一种最新出现的源路由机制，它仅需要对现有IGP(Interior Gateway Protocol，内部网关协议)进行简单的扩展便可应用在IP(Internet Protocol，互联网协议)/MPLS(Multi-Protocol Label Switching，多协议标签交换)或IPv6网络中。在SR网络中，每条流的状态仅储存在SR域的入口节点中，中间节点不需要存储流的状态信息，因此具有极高的可扩展性。考虑到SR的简单、易部署、可扩展等优点，基于SR的流量工程算法已经成为流量工程研究中的热点问题。

[0005] 其中，部署SR的IPv6网络可以称为SRv6网络，SRv6可以和IPv6网络无缝互操作。然而，从纯IPv6网络直接迁移到全SRv6网络是困难甚至不可行的。发明内容

[0006] 本申请提供了一种基于部分部署分段路由的IPv6网络的流量工程方法及装置，可以最小化部分部署分段路由的IPv6网络的最大链路利用率。

[0007] 一方面，本申请提供了一种基于部分部署分段路由的IPv6网络的流量工程方法，包括：获取IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；基于所述设定时长内的多个流量矩阵，计算所述设定时长内的代表流量矩阵；基于所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，对深度强化学习网络进行M次训练，根据所述深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。

[0008] 另一方面，本申请提供一种基于部分部署分段路由的IPv6网络的流量工程装置，包括：获取模块，适于获取IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；代表流量矩阵计算模块，适于基于所述设定时长内的多个流量矩阵，计算所述设定时长内的代表流量矩阵；深度强化学习模块，适于基于所述网络拓扑、所述初始的网络链路权重矩阵以及所述代表流量矩阵，对深度强化学习网络进行M次训练，根据所述深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。

[0009] 另一方面，本申请提供一种终端，包括：存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述的流量工程方法的步骤。

[0010] 另一方面，本申请提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的流量工程方法的步骤。

[0011] 本申请中，在部分部署分段路由的IPv6网络(即SRv6网络)中，综合优化网络链路权重矩阵、部署的分段路由节点集合以及流量路径，从而最小化部分部署SRv6网络的最大链路利用率。

[0012] 本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

[0013] 附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

[0014] 图1为SRv6路由过程的一个示例图；

[0015] 图2为本申请实施例提供的基于部分部署分段路由的IPv6网络的流量工程方法的流程图；

[0016] 图3为散点式部署的部分部署的SRv6网络的示例图；

[0017] 图4为节点的最大链路利用率的计算示例图；

[0018] 图5为本实施例中的子路径的计算示例图；

[0019] 图6为本实施例中的可用路径的示例图；

[0020] 图7为采用本实施例提供的流量工程方法的一种应用示例的效果图；

[0021] 图8为采用本实施例提供的流量工程方法的另一种应用示例的效果图；

[0022] 图9为本实施例提供的基于部分部署分段路由的IPv6网络的流量工程装置的示意图；

[0023] 图10为本实施例提供的终端的示意图。

具体实施方式

[0024] 本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

[0025] 本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

[0026] 此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

[0027] 在部署SR的IPv6网络(即SRv6网络)中，段代表的是拓扑或基于服务的一种指令，有前缀段、节点段、邻接段等类别。在本申请实施例仅涉及节点段。SR域的入口节点会把端到端的逻辑路径分成段，然后通过一系列需要经过的中间节点表示这条路径。

[0028] 图1为SRv6路由过程的一个例子的示意图。其中，一个包的内容可以包括IP包头、SRv6包头和有效载荷(payload)。IP包头中包括目的地址(Destination Address，DA)和源地址(Source Address，SA)。入口路由器插入SRv6包头，其中包括总段数目(Last Segment)、剩余段数(Segment Left)和段列表。需要注意的是，此处的段列表是逆序编码的，即要经过的第一个中间节点位于段列表的最后一位。

[0029] 如图1所示，数据包从节点A出发，段列表是。最初IP目的地址为节点C，数据包根据IGP协议沿最短路路由到达节点C，在经过节点B时不会进行任何处理。到达节点C后，段列表剩余段数减1，指向节点E，而且IP包头中的目的地址被修改为节点E，数据包根据IGP协议沿最短路路由到达节点E，同样地，节点D不对数据包进行任何处理。

[0030] 由于从纯IPv6网络直接迁移到全SRv6网络是困难甚至不可行的，因此，采用软迁移的办法，即，只将纯IPv6网络中的部分路由器升级为支持SRv6的路由器，会大大提高操作的可行性和简便性。

[0031] 本申请实施例提供一种基于部分部署分段路由的IPv6网络的流量工程方法及装置，通过在部分部署SR的IPv6网络(即SRv6网络)中，综合优化网络链路权重矩阵、分段路由节点集合以及流量路径，达到最小化SRv6网络的最大链路利用率。

[0032] 图2为本申请实施例提供的一种基于部分部署分段路由的IPv6网络的流量工程方法的流程图。本实施例提供的流量工程方法可以由独立于SRv6网络的终端(比如，台式电脑或笔记型电脑)执行。然而，本申请对此并不限定。

[0033] 如图2所示，本实施例提供的流量工程方法，包括以下步骤：

[0034] S201、获取部分部署分段路由的IPv6网络(即部分部署SRv6网络)的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；

[0035] S202、基于设定时长内的多个流量矩阵，计算设定时长内的代表流量矩阵；

[0036] S203、基于网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，对深度强化学习(Reinforcement Learning，RL)网络进行M次训练，根据深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。

[0037] 本实施例中，SRv6网络的网络拓扑可以包括SRv6网络中的节点集合V以及有向链路集合E。SRv6网络中的流量矩阵表示在一段时间内网络所必须处理的流量需求的集合；流量矩阵中共有L条流，所述流指唯一的源点与目的点对之间的聚合流量。任一链路的利用率等于经过该链路的流量与该链路的容量之比。SRv6网络的最大链路利用率为网络中所有链路的利用率中的最大值。

[0038] 在一示例性实施例中，S202可以包括：基于设定时长内的多个流量矩阵，采用数据挖掘聚类算法K-means，计算设定时长内的代表流量矩阵。比如，代表流量矩阵可以根据以下式子确定：

[0039]

[0040] 其中，|| ||2代表的是欧氏距离。

[0041] 在一示例性实施例中，深度强化学习网络可以包括行动深度神经网络(actor DNN)、评估深度神经网络(critic DNN)以及目标深度神经网络(target DNN)；

[0042] 相应地，深度强化学习网络的每次训练过程中进行以下处理：

[0043] 根据网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，确定初始的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；

[0044] 执行T个步骤，在每个步骤中进行以下处理：

[0045] 确定本步骤的网络链路权重矩阵；根据网络拓扑、本步骤的网络链路权重矩阵以及代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；根据本步骤的网络链路权重矩阵对应的最大链路利用率和初始的网络链路权重矩阵对应的最大链路利用率，计算本步骤的奖励；将上一步骤的网络链路权重矩阵对应的网络流量分布情况、本步骤的网络链路权重矩阵、本步骤的奖励、本步骤的网络链路权重矩阵对应的网络流量分布情况记为一个事务，存储至回放缓冲区；从回放缓冲区采样设定大小的数据，计算采样出的数据中的每个事务的目标Q值；基于目标Q值，计算最小化损失L，并根据最小化损失L更新评估深度神经网络的参数；计算策略梯度，并根据策略梯度更新行动深度神经网络的参数；采用平滑替换方式更新目标深度神经网络的参数；其中，T为大于0的正整数。

[0046] 在本示例性实施例中，深度强化学习网络中的DNN被训练M组，每组有T个步骤，最后一次训练得到的网络链路权重矩阵、分段路由节点集合以及对应的最大化链路利用率作为最后的优化结果。

[0047] 在本示例性实施例中，根据网络拓扑、本步骤的网络链路权重矩阵以及代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率，可以包括：

[0048] 根据网络拓扑、本步骤的网络链路权重矩阵、代表流量矩阵以及分段路由节点部署率，确定本步骤的网络链路权重矩阵对应的分段路由节点集合；

[0049] 根据网络拓扑、代表流量矩阵、本步骤的网络链路权重矩阵以及本步骤的网络链路权重矩阵对应的分段路由节点集合，计算出代表流量矩阵中每条流的可用路径；

[0050] 构造线性规划问题，其中，目标为最小化部分部署SRv6网络的最大链路利用率，变量为每条流在可用路径上的分流比；

[0051] 求解线性规划问题，得到每条流在可用路径上的最佳分流比以及部分部署SRv6网络的最小化的最大链路利用率。

[0052] 在本示例性实施例中，线性规划问题的限制条件可以包括：经过任一链路的所有流量小于或等于该链路的容量与该链路的最大链路利用率的乘积；任一条流在所有的可用路径上的流量之和大于或等于该条流的流量需求大小；任一条流在任一可用路径上的流量大于或等于0。

[0053] 在本示例性实施例中，根据网络拓扑、本步骤的网络链路权重矩阵、代表流量矩阵以及分段路由节点部署率，确定本步骤的网络链路权重矩阵对应的分段路由节点集合，可以包括：

[0054] 通过弗洛伊德函数，计算出在本步骤的网络链路权重矩阵下SRv6网络中任意两节点间的最短路；根据计算得到的最短路以及代表流量矩阵，计算每条链路的利用率；针对每个节点，计算以该节点为起点的链路的利用率的最大值，作为该节点的最大链路利用率；将该SRv6网络中的节点按照各自的最大链路利用率从大到小的顺序进行排序；按照节点的最大链路利用率从大到小的顺序，选择目标数目的节点加入分段路由节点集合，其中，目标数据大于或等于待部署分段路由节点总数，待部署分段路由节点总数根据SRv6网络的节点总数与分段路由节点的部署率确定。

[0055] 在本示例性实施方式中，根据节点的最大链路利用率来选择分段路由节点。其中，节点的最大链路利用率指以该节点为起点的链路中，链路的利用率的最大值。

[0056] 在本示例性实施例中，根据网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，确定初始的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率，可以包括：

[0057] 根据网络拓扑、初始的网络链路权重矩阵、代表流量矩阵以及分段路由节点部署率，确定初始的网络链路权重矩阵对应的分段路由节点集合；

[0058] 根据网络拓扑、代表流量矩阵、初始的网络链路权重矩阵以及初始的网络链路权重矩阵对应的分段路由节点集合，计算出代表流量矩阵中每条流的可用路径；

[0059] 构造线性规划问题，其中，目标为最小化部分部署SRv6网络的最大链路利用率，变量为每条流在可用路径上的分流比；

[0060] 求解线性规划问题，得到每条流在可用路径上的最佳分流比以及部分部署SRv6网络的初始的最小化的最大链路利用率。

[0061] 在一示例性实施例中，在S203之后，本实施例提供的流量工程方法还可以包括：采用最小化的最大链路利用率对应的分段路由节点集合、代表流量矩阵中每条流的可用路径以及在可用路径上的分流比，优化部分部署SRv6网络。

[0062] 在本实施例中，在通过本实施例的流量工程方法得到部分部署SRv6网络的最小化的最大链路利用率之后，可以将得到该最大链路利用率所对应的每条流的可用路径以及在可用路径上的最佳分流比提供给SRv6网络中的交换机，由交换机存储相关的流量路径，以供后续的流量传输使用；而且，可以根据得到该最大链路利用率所对应的分段路由节点集合，在SRv6网络部署分段路由节点，从而提高网络资源利用率。

[0063] 下面以散点式部署的部分部署SRv6网络为例对本实施例提供的流量工程方法进行说明。

[0064] 图3为散点式部署的部分部署SRv6网络的示例图。在散点式部署的部分部署SRv6网络中，只有部分节点支持SRv6，其余节点仅支持IPv6和OSPFv3，且支持SRv6的节点在网络中散点状分布，即支持SRv6的节点不一定构成原网络拓扑的联通子图。

[0065] 如图3所示，图中虚线框起来的节点为SRv6节点，即节点B、D、F，其余节点为普通节点。包从节点A出发，此时只有一个IPv6包头和有效载荷(payload)。节点B将整个包封装在一个新的外层IPv6包头和SR包头中，目的地址是D，段列表是。包根据最短路从节点B到达节点D。由于节点C不支持SRv6，而且不是外层IPv6包头所声明的目的地址，因此，节点C不会对包进行任何处理。节点D将剩余段数减一，然后修改目的地址为F。同理，由于节点E不支持SRv6，且不是外层IPv6包头所声明的目的地址，因此，节点E不会对包进行任何处理。包到达节点F后，由于节点F已经是段列表中的最后一个节点，因此，节点F会将包解封装，并把解封装后的包按最短路发送给节点G。

[0066] 在本示例性实施例中，整个网络可抽象为一个有向图G＝(V，E)，其中，V是节点集合，E是有向链路集合。对 es(e)代表链路e的源点、et(e)代表链路e的目的点，c(e)代表链路e的容量，c(e)>0；ω(e)代表链路e的权重，ω(e)∈[1，216-1]且为整数；ω为权重矩阵。网络中的流量矩阵TM是已知的，其中，流量矩阵代表在一段时间内网络所必须处理的流量需求的集合。流量矩阵中共有L条流，这里的流指唯一的源点-目的点对之间的聚合流量。对任意流i，s(i)代表流i的源节点，t(i)代表流i的目的节点，d(i)代表流i的流量需求。对 f(e)代表经过链路e的流量，则链路e的利用率util(e)＝f(e)/c(e)。网络的最大链路利用率是在网络链路权重矩阵为ω时，流量需
求l在链路e上分布的流量比例。SR_Ratio为IPv6网络中分段路由节点的部署率。SRN为IPv6网络中分段路由节点集合。

[0067] 本实施例中，基于部分部署SRv6网络的流量工程方法可以通过WA-SRTE(Weight Adjustment-Segment Routing Traffic Engineering)算法实现。其中，WA-SRTE算法使用了强化学习(RL，Reinforcement Learning)方法。在RL中，有一个代理(agent)不断和环境(environment)交互，交互的内容是状态(state)、动作(action)和奖励(reward)，代理可以迭代地从环境中学习。在第t步，代理可以从环境观察到状态st并采取动作at；根据动作at，状态转变为st+1，环境向代理发送反馈rt。代理根据策略π采取动作，策略π是从状态空间到动作空间的映射。RL的目标是最大化期望折扣奖励E[∑γtrt]，其中，γ是折扣系数。

[0068] 本示例性实施例中的流量工程方法的优化目标为最小化部分部署SRv6网络的最大链路利用率。在本示例中，部分部署SRv6网络的流量工程问题可以转化为如下的RL问题：

[0069] 状态：在步骤t，状态st是当前网络流量分布情况，它取决于网络链路权重矩阵、SRv6节点部署情况和路由策略；具体而言，状态是一个1*|E|的向量，

[0070] 动作：at是网络链路权重矩阵，具体而言，动作是一个1*|E|的向量，at＝ω。

[0071] 奖励：奖励可以根据如下式子计算：

[0072]

[0073]

[0074] 本示例性实施例中，WA-SRTE算法的伪代码如下：

[0075]

[0076] 由上可知，算法WA-SRTE的输入为网络拓扑G、初始的网络链路权重矩阵ω0以及一系列流量矩阵TMs，输出为优化后的网络链路权重矩阵ω，分段路由节点集合(SRN)和对应的最小化的最大链路利用率Umax。

[0077] 在上述WA-SRTE算法中，首先根据一系列流量矩阵TMs，计算出一个代表流量矩阵它可以概括在一段时间内流量矩阵的特征。然后，使用深度强化学习算法DDPG(Deep Deterministic Policy Gradient)进行处理。上述第2至5行伪代码为初始化过程。其中，初始化一个行动深度神经网络(actor DNN)μ(s|θμ)和一个评估深度神经网络(critic DNN)Q(s，a|θQ)，其中，s和a是神经网络的输入，θμ和θQ是随机初始化的参数；还初始化两个目标深度神经网络(target DNN)μ′和Q′，使用target DNN的目的是提高训练的稳定性。另外，还初始化了一个大小为N的回放缓冲区以及一个Ornstein-Uhlenbeck过程，用来生成对于动作的噪声。

[0078] 在本示例性实施例中，深度强化学习网络内的各个DNN被训练了M组，一组有T个步骤；M和T均为大于0的正整数。其中，可以使用get_state函数，在网络链路权重矩阵确定时，得到对应的状态(即网络流量分布情况)、对应的Umax以及SRN。

[0079] 在每组训练中，首先使用get_state函数，根据初始的网络链路权重矩阵ω0得到最初的状态s1、Umax(s1)和SRN1(对应上述第7行伪代码)。在每一个步骤中，可以得到动作at，并执行动作at得到st+1(对应上述第9至10行伪代码)；其中，at是actor DNN的输出和噪声之和，使用get_state函数，根据at可以得到st+1、Umax(st+1)和SRNt+1。然后，计算出奖励rt(对应上述第11行伪代码)。然后，可以将这一次事务(transition)(即st、at、rt、st+1)存储到回放缓冲区中(对应上述第12行伪代码)。然后，可以从回放缓冲区中采样出大小为N’的一批数据，并计算出这一批数据中每个事务的target Q-valueyi(对应上述第13至16行伪代码)。critic DNN的参数θQ可以根据最小化损失L来更新(对应上述第17行伪代码)。actor DNN的参数θμ使用策略梯度(policy gradient)来更新，其中，已被证明为是actor策略表现的梯度(对应上述第18行伪代码)。target DNN的参数使用平滑替换方式进行更新(对应上述第19和20行伪代码)，其中，τ＜＜1。最后一次训练步骤得到的aT、SRNT+1和Umax(sT+1)是最后输出的优化结果。

[0080] 在一示例性实施例中，上述各个参数的取值可以如下：M＝100，T＝500，N＝3200，N’＝128，γ＝0.9，τ＝0.001。然而，本申请对此并不限定。

[0081] 下面分别对get_representative_TM函数和get_state函数进行说明。

[0082] get_representative_TM函数用于根据一系列流量矩阵TMs得到代表流量矩阵其中，可以使用经典的数据挖掘聚类算法K-means，根据过去一段时间的一系列流量矩阵计算代表流量矩阵具体而言，满足如下式子：

[0083]

[0084] 其中，|| ||2代表的是欧氏距离。

[0085] get_state函数用于在网络链路权重矩阵固定为at时，得到st+1、Umax(st+1)和SRNt+1。在本实施例中，可以通过以下三个步骤，得到当网络链路权重矩阵固定为at时的st+1、Umax(st+1)和SRNt+1：

[0086] 确定网络链路权重矩阵固定为at时的SRNt+1；

[0087] 在确定SRNt+1后，计算代表流量矩阵中每条流的可用路径；

[0088] 构造并求解线性规划问题。

[0089] 下面依次对这三个步骤进行详细说明。

[0090] 本实施例中，根据节点的最大链路利用率来选择SR节点，得到SRN。其中，任一节点的最大链路利用率指以该节点为起点的链路中，链路利用率的最大值。任一节点的最大链路利用率的计算式如下所示：

[0091]

[0092] 图4为节点的最大链路利用率的计算示例图。图中链路容量均为10。网络中有三条流D1、D2、D3，D1的路径为A-D-F-E，D2的路径为A-D-F-H，D3的路径为A-D-G。三条流的流量需求均为6。则链路A-D的负载为18，链路D-F的负载为12，链路F-E、F-H、D-G的负载均为6。如图4所示，假设此时要计算节点D的最大链路利用率，以节点D为起点的链路有D-F、D-G两条，这两条链路的利用率分别为1.2和0.6，则节点D的最大链路利用率maxu(D)＝max{util(D-F)，util(D-G)}＝1.2。

[0093] 本实施例中，SR节点选择算法choose_SR_nodes的伪代码如下：

[0094]

[0095]

[0096] 由上可知，SR节点选择算法choose_SR_nodes的输入为网络拓扑G、当前的网络链路权重矩阵at、代表流量矩阵和SR节点的部署率SR_Ratio，其中，SR_Ratio可以是一个0到1之间的实数，实验表明SR_Ratio可以设为0.3；输出为SR节点集合SRN。其中，在初始化过程中，将SRN初始化为空集，并将集合中节点的数目SR_num赋值为0。然后，枚举网络中的每一个节点，将任一节点的中介中心性初始化为0；然后，调用弗洛伊德函数，根据当前的网络链路权重矩阵，计算得到网络任意两个节点间的最短路(即route)；然后，调用get_util函数，计算得到网络中每条链路的利用率。枚举网络中的每个节点，计算以该节点为起点的链路利用率的最大值，就得到了网络中所有节点的最大链路利用率；然后，将网络中的节点按照最大链路利用率从大到小排序，并优先选择最大链路利用率大的节点部署为SR节点；分别枚举集合V中的每一个节点，将它加入到SRN中，直到SRN中的节点数目大于或等于待部署的SR节点总数；最终返回最后的SRN。其中，待部署的SR节点总数等于SR节点的部署率与网络中节点总数的乘积。

[0097] 在本实施例中，在确定SR节点部署以后，计算出每条流量需求所有可用路径。其中，流量从源节点首先根据OSPF协议走最短路进行路由，在到达源点-目的节点最短路上的一个SR点后，可能会使用SR路由，流量到达路径上的最后一个SR点后，会从SR路由转为OSPF路由到达目的节点。

[0098] 如表1所示，一条流量所有可用的子路径可以分为以下三类：

[0099] 第一类是流的源节点到源节点-目的节点最短路上SR点之间的最短路，这类子路径对应的是路由方式的第一阶段；流量从这类子路径出发，路由方式为传统IP路由，在经过这类子路径后，流量就到达了第一个SR节点，路由方式从传统IP路由转为SR路由；

[0100] 第二类是网络中任意两个SR节点之间的最短路；其中，流量在到达第一个SR节点之后，就会通过这类子路径实现“绕路”，从而达到网络流量工程的目标，在这类子路径上，流量的路由方式是使用节点段的SR路由；

[0101] 第三类是网络中任意SR节点(或源节点)到目的节点的最短路；其中，流量从路径上的最后一个SR节点离开后，路由方式转为传统IP路由，通过这类子路径到达目的节点。此处源节点到目的节点的最短路也可为一条可用子路径，使用此子路径则说明流量在整个过程中没有使用SR节点进行路由，直接使用了OSPF协议路由从源节点走最短路到达了目的节点。

[0102] 表1、一条流量的可用子路径

[0103]

[0104] 图5为本实施例中的子路径的一个计算示例图。图5中共有A到H八个节点，其中，SR节点为节点B、D、G，其余节点为普通节点。节点之间的链路用直线表示，线上的数字代表链路权重。流量需求为A到H，A到H的最短路为A–B–C–D–E–H，此路径上的SR节点为B和D，则流量所有的可用子路径如表2所示。

[0105] 表2、子路径计算结果

[0106]

[0107] 在得到了一个流量需求所有可用的子路径以后，就可以把目的节点、源节点相同的两条子路径依次连接起来，得到它的所有可用路径。考虑到目前的商用路由器，一般会对一条路径使用的节点段数目进行限制，在构成可用路径时，也可以限制一条可用路径使用的节点段(即第二类子路径)的数目不超过K。表3是可用路径的计算结果。其中，在计算过程中，限制了一条路径使用的节点段数目最大为2。表3中的第二列为可用路径所对应的子路径序列，其中加粗的子路径为SR中的节点段。第三列为子路径序列所对应的图5中节点A到节点H的实际路径。图6为本实施例中的可用路径的示例图。图6中标出了四条可用路径(P1采用点双划线表示，P2采用点表示，P3采用点划线表示，P4采用虚线表示)，其中，P4为按照OSPF路由得到的最短路，P1、P2、P3都是加入了SR路由后，得到的“绕路”路径。

[0108] 表3、可用路径的计算结果

[0109]图6中A到H所有路径子路径序列实际路径
A–B–D–G–H (A,B)(B,D)(D,G)(G,H) A–B–C–D–G–H
A–B–G–D–H (A,B)(B,G)(G,D)(G,H) A–B–F–G–D–E–H
A–B–G–H (A,B)(B,G)(G,H) A–B–F–G–H
A–H (A,H) A–B–C–D–E–H

[0110] SR有以下特性：可以为一个流量需求定义多个段列表(即多条路径)，源节点会按照一个预先配置好的分流比，将流量在定义的多条路径上分流传输。本实施例利用SR的这个特性，将流量在预先计算好的多条路径上进行分流，从而达到缓解网络拥塞的目标。例如在图6所示的例子中，假设流量需求为1，每条链路的容量也为1，若流量不进行分流，只在路径P4上路由，那么链路A–B、B–C、C–D、D–E、E–H的利用率都为100％；若流量在四条链路上均匀分流，则P1、P2、P3、P4分别承担0.25的流量，网络中所有链路的利用率都为50％，网络的最大链路利用率下降了一半，拥塞程度大大缓解。

[0111] 通过上述过程，已经得到了每条流所有的可用路径。本实施例针对流量在这些路径上，按照怎样的比例分流才能得到最小的最大链路利用率的问题，构造了如式(1)到式(4)所示的线性规划问题。

[0112] min Umax 式(1)

[0113]

[0114]

[0115]

[0116] 其中，网络拓扑G＝(V,E)，V为网络的节点集合，E为网络的有向链路集合；Umax为网络的最大链路利用率；c(e)为链路e的容量；L为流量需求的数目；d(i)为第i条流的流量需求大小；Pi为第i条流的可用路径集合；p为一条可用路径；fi(p)为第i条流在可用路径p上的流量比例；Sp为构成可用路径p的子路径集合；s为一条子路径；Is,e∈{0,1}，Is,e＝0说明子路径s包含链路e，Is,e＝1说明子路径s不包含链路e。

[0117] 式(1)是线性规划问题的优化目标，即最小化网络的最大链路利用率。

[0118] 式(2)是链路容量限制；其中，对于网络中的每条链路，枚举所有流量需求i，枚举该流量需求的所有可用路径p，并枚举该可用路径的所有子路径s，若该子路径包含链路e，则在求和值上加上流量需求i在路径p上的流量。通过这样的操作，就得到了在链路e上的所有流量，这个求和值应当不大于链路e的容量c(e)与最大链路利用率Umax的乘积。

[0119] 式(3)是链路的流量需求限制。对于每条流i，枚举它的所有路径p，流量需求i在它所有可用路径上的流量之和，应当不小于流量需求大小d(i)。

[0120] 式(4)是非负性约束，任何流量需求在任何路径上的流量大小，都应当是一个非负数。

[0121] 在上述问题中，Umax为优化目标，fi(p)为变量，其余量都为已知量(可以通过数据获取或在之前的阶段计算得到)。该问题的优化目标是线性的，所有约束条件也为线性，所以该问题是一个线性规划问题，且所有变量连续取值。此问题在多项式时间内是可解的。

[0122] 本实施例中，针对上述线性规划问题，可以采用比如内点法、单纯形法、拉格朗日松弛法、原始对偶法等等方式进行求解。示例性地，可以直接使用数学优化问题求解器CPLEX及其C++编程接口进行求解。然而，本申请对此并不限定。

[0123] 在本实施例中，通过对上述线性规划问题进行求解，可以得到网络中的流量分布st+1和对应的最大链路利用率Umax(st+1)。

[0124] 在一应用示例中，分别获取以下三个网络拓扑：Abilene(America Research and Education Network，美国科研教育网)、CERNET(China Education and Research Network，中国教育和科研网)、GEANT(Europe Research and Education Network，欧洲科研教育网)。其中，网络拓扑的链路容量已知，链路权重初始化为1。三个网络拓扑的信息可以参见表4。

[0125] 表4、网络拓扑的信息

[0126]拓扑 #节点 #链路
Abilene 12 30
CERNET 14 32
GEANT 23 74

[0127] 在本应用示例中，分别选取了三个网络拓扑在两天内的流量矩阵的数据，对于每一天(24个小时)，对每个网络拓扑得到了288或96个流量矩阵。为更直观地体现算法效果，本示例将流量矩阵的数值进行了标准化，将它们的数值等比例放大或缩小，达到优化前网络的最大链路利用率在100％。其中，流量矩阵的信息可以参见表5。

[0128] 表5、流量矩阵的信息

[0129]拓扑测量间隔(分钟) #流量矩阵
Abilene 5 288
CERNET 5 288
GEANT 15 96

[0130] 基于上述数据集合，在一应用示例中，使用第一天的流量矩阵计算出代表流量矩阵并观察结果。图7为本应用示例的效果图。其中，图7(a)为在Abilene上的效果图；图7(b)为在CERNET上的效果图；图7(c)为在GEANT上的效果图。在图7中横轴为SR节点的部署率SR_Ratio，纵轴为在当前部署率下的最大链路利用率Umax。从图7可以看到仅部署30％的SR节点就可以取得和全SRv6网络十分接近的流量工程优化效果。在三个拓扑上，最大链路利用率分别从100％下降到80％、55％和38％左右。

[0131] 基于上述数据集合，在另一应用示例中，使用第一天的流量矩阵计算得到网络链路权重和SR节点部署位置，然后，使用第二天的流量矩阵，仅针对每个流量矩阵运行线性规划问题求解，得到对应的流量路径和对应的最大链路利用率。这是因为网络链路权重和SR节点部署属于网络部署阶段，在网络部署以后不宜短期内进行变动，但是流量路径属于SR协议控制的内容，可以在网络运行中根据当前流量矩阵进行变动。图8为本应用示例中288(或96)个流量矩阵的最大链路利用率的CDF图(累计概率分布图)。其中，图8(a)为在Abilene上的效果图；图8(b)为在CERNET上的效果图；图8(c)为在GEANT上的效果图。在图8中为在当前部署率下的最大链路利用率Umax，纵轴为最大链路利用率的累积概率(Cumulative Probability)。在图8中，WA-SRTE代表本申请实施例提供的流程工程算法，MCF代表的是理论最优值。从图8可以看到本申请实施例提供的算法结果与理论最优值非常接近。

[0132] 图9为本申请实施例提供的一种基于部分部署的SR网络的流量工程装置的示意图。如图9所示，本实施例提供的流量工程装置包括：获取模块901、代表流量矩阵计算模块902以及深度强化学习模块903；其中，获取模块901，适于获取部分部署分段路由的IPv6网络的网络拓扑、初始的网络链路权重矩阵、设定时长内的多个流量矩阵；代表流量矩阵计算模块902，适于基于设定时长内的多个流量矩阵，计算设定时长内的代表流量矩阵；深度强化学习模块903，适于基于网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，对深度强化学习网络进行M次训练，根据深度强化学习网络的第M次训练，确定优化后的网络链路权重矩阵、分段路由节点集合以及对应的最小化的最大链路利用率；其中，M为大于0的正整数。

[0133] 在一示例性实施例中，深度强化学习模块903可以包括：初始计算单元以及步骤执行单元；初始计算单元，适于在每次训练过程中进行以下处理：根据网络拓扑、初始的网络链路权重矩阵以及代表流量矩阵，确定初始的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；步骤执行单元，适于在每次训练过程中执行T个步骤，且在每个步骤中进行以下处理：确定本步骤的网络链路权重矩阵；根据网络拓扑、本步骤的网络链路权重矩阵以及代表流量矩阵，确定本步骤的网络链路权重矩阵对应的网络流量分布情况、分段路由节点集合以及最大链路利用率；根据本步骤的网络链路权重矩阵对应的最大链路利用率和初始的网络链路权重矩阵对应的最大链路利用率，计算本步骤的奖励；将上一步骤的网络链路权重矩阵对应的网络流量分布情况、本步骤的网络链路权重矩阵、本步骤的奖励、本步骤的网络链路权重矩阵对应的网络流量分布情况记为一个事务，存储至回放缓冲区；从回放缓冲区采样设定大小的数据，计算采样出的数据中的每个事务的目标Q值；基于目标Q值，计算最小化损失L，并根据最小化损失L更新评估深度神经网络的参数；计算策略梯度，并根据策略梯度更新行动深度神经网络的参数；采用平滑替换方式更新目标深度神经网络的参数；其中，T为大于0的正整数。

[0134] 关于本实施例提供的流量工程装置的相关说明可以参照上述方法实施例的描述，故于此不再赘述。

[0135] 图10为本申请实施例提供的终端的示意图。如图10所示，本申请实施例提供一种终端1000，包括：存储器1001和处理器1002，存储器1001适于存储计算机程序，该计算机程序被处理器1002执行时实现上述实施例提供的流量工程方法的步骤，比如图2所示的步骤。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的示意图，并不构成对本申请方案所应用于其上的终端1000的限定，终端1000可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0136] 其中，处理器1002可以包括但不限于微处理器(MCU，Microcontroller Unit)或可编程逻辑器件(FPGA，Field Programmable Gate Array)等的处理装置。存储器1001可用于存储应用软件的软件程序以及模块，如本实施例中的流量工程方法对应的程序指令或模块，处理器1002通过运行存储在存储器1001内的软件程序以及模块，从而执行各种功能应用以及数据处理，比如实现本实施例提供的流量工程方法。存储器1001可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些示例中，存储器1001可包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至终端1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

[0137] 此外，本申请实施例还提供一种计算机可读介质，存储有计算机程序，该计算机程序被处理器执行时实现上述实施例提供的流量工程方法的步骤，比如，图2所示的步骤。

[0138] 本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

标题	发布/更新时间	阅读量
一种基于强化学习的泊车路径规划方法	2020-05-08	724
基于强化学习和双线性卷积网络的车型识别方法	2020-05-11	923
一种目标用户的选择方法和装置	2020-05-13	883
一种基于多智能体Q学习的车载通信MAC层信道接入方法	2020-05-12	355
一种城市快速路智慧交通管控方法和系统	2020-05-13	25
基于强化学习的机器学习模型预测时机估计模型	2020-05-11	93
机位智能分配方法、计算机装置及存储介质	2020-05-11	387
一种IP-光网络通信业务联合分配方法及装置	2020-05-08	579
一种基于强化学习的人脸识别方法	2020-05-11	825
多元强化耦合智能调控防止高粘性灰在催化剂表面沉积的系统及方法	2020-05-12	892

基于部分部署分段路由的IPv6网络的流量工程方法及装置

基于部分部署分段路由的IPv6网络的流量工程方法及装置

技术领域

背景技术

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：