相干光波分复用传输系统的链路功率控制方法和系统专利检索-··功率控制专利检索查询-专利查询网

相干光波分复用传输系统的链路功率控制方法和系统

专利类型	发明公开	法律事件	实质审查;
专利有效性	实质审查	当前状态	实质审查
申请号	CN202411926195.2	申请日	2024-12-25
公开(公告)号	CN119853814A	公开(公告)日	2025-04-18
申请人	上海交通大学;	申请人类型	学校
发明人	义理林; 肖俊哲; 牛泽坤; 李律; 史明辉;	第一发明人	义理林
权利人	上海交通大学	权利人类型	学校
当前权利人	上海交通大学	当前权利人类型	学校
省份	当前专利权人所在省份：上海市	城市	当前专利权人所在城市：上海市闵行区
具体地址	当前专利权人所在详细地址：上海市闵行区东川路800号	邮编	当前专利权人邮编：200240
主IPC国际分类	H04B10/564	所有IPC国际分类	H04B10/564 ; H04B10/25 ; H04J14/02 ; H04J14/00 ; G06N3/045 ; G06N3/084
专利引用数量	0	专利被引用数量	0
专利权利要求数量	10	专利文献类型	A
专利代理机构	上海汉声知识产权代理有限公司	专利代理人	胡晶;
摘要	本发明提供了一种相干光波分复用传输系统的链路功率控制方法和系统，包括：搭建相干光波分复用传输仿真系统；配置波分复用系统中各个通道的发射功率；将发射功率的起始状态作为执行神经网络的输入，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率；配置波分复用系统中波长选择开关各个通道的衰减；将波长选择开关的起始状态作为执行神经网络的输入，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。本发明基于深度强化学习算法，通过调整相干光波分复用系统中不同通道的发射功和波长选择开关中不同通道的衰减，实现链路中功率的优化配置，从而优化传输后收端各个通道的通信质量。
权利要求	1.一种相干光波分复用传输系统的链路功率控制方法，其特征在于，包括：步骤1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离；步骤2：利用仿真环境进行深度神经网络的训练，配置波分复用系统中各个通道的发射功率；步骤3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率；步骤4：利用仿真环境进行深度神经网络的训练，配置波分复用系统中波长选择开关各个通道的衰减；步骤5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。 2.根据权利要求1所述的相干光波分复用传输系统的链路功率控制方法，其特征在于，所述步骤2包括：步骤2.1：将发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，通过起始状态和发射功率调整值计算通道发射功率，然后进行传输，并获得接收端的结果；在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比计算相应的奖励，并将起始状态更新为下一状态；将起始状态、发射功率调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；步骤2.2：通过数据池中的数据训练批判神经网络，将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降法更新批判神经网络的参数；步骤2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，将数据对中的当前状态作为执行神经网络的输入，获得执行神经网络的输出，将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将批判神经网络输出的相反数作为损失函数，通过梯度下降法更新执行神经网络的参数。 3.根据权利要求2所述的相干光波分复用传输系统的链路功率控制方法，其特征在于，通过起始状态和发射功率调整值计算通道发射功率，表达式为： Pch＝P0+PΔ 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值；通过接收端获得的信噪比和目标信噪比，计算相应的奖励，表达式为： 2 Ri＝\|\|SNRi‑SNRtarget\|\| 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 4.根据权利要求2所述的相干光波分复用传输系统的链路功率控制方法，其特征在于，所述步骤4包括：步骤4.1：将衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值，通过起始状态和衰减调整值，计算出各个通道的衰减，之后进行传输，并获得接收端的结果；最后在接受端获得各个通道的信噪比，通过在接收端获得的信噪比和目标信噪比，计算相应的奖励，并将起始状态更新为下一状态；将起始状态、衰减调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；步骤4.2：利用数据池中的数据训练批判神经网络；步骤4.3：利用数据池中的数据和批判神经网络，训练执行神经网络。 5.根据权利要求4所述的相干光波分复用传输系统的链路功率控制方法，其特征在于，通过起始状态和衰减调整值，计算出各个通道的衰减，表达式为： Ach＝A0+AΔ 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。 6.一种相干光波分复用传输系统的链路功率控制系统，其特征在于，包括：模块M1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离；模块M2：利用仿真环境进行深度神经网络的训练，配置波分复用系统中各个通道的发射功率；模块M3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率；模块M4：利用仿真环境进行深度神经网络的训练，配置波分复用系统中波长选择开关各个通道的衰减；模块M5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。 7.根据权利要求6所述的相干光波分复用传输系统的链路功率控制系统，其特征在于，所述模块M2包括：模块M2.1：将发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，通过起始状态和发射功率调整值计算通道发射功率，然后进行传输，并获得接收端的结果；在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比计算相应的奖励，并将起始状态更新为下一状态；将起始状态、发射功率调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；模块M2.2：通过数据池中的数据训练批判神经网络，将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降法更新批判神经网络的参数；模块M2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，将数据对中的当前状态作为执行神经网络的输入，获得执行神经网络的输出，将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将批判神经网络输出的相反数作为损失函数，通过梯度下降法更新执行神经网络的参数。 8.根据权利要求7所述的相干光波分复用传输系统的链路功率控制系统，其特征在于，通过起始状态和发射功率调整值计算通道发射功率，表达式为： Pch＝P0+PΔ 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值；通过接收端获得的信噪比和目标信噪比，计算相应的奖励，表达式为： 2 Ri＝\|\|SNRi‑SNRtarget\|\| 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 9.根据权利要求7所述的相干光波分复用传输系统的链路功率控制系统，其特征在于，所述模块M4包括：模块M4.1：将衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值，通过起始状态和衰减调整值，计算出各个通道的衰减，之后进行传输，并获得接收端的结果；最后在接受端获得各个通道的信噪比，通过在接收端获得的信噪比和目标信噪比，计算相应的奖励，并将起始状态更新为下一状态；将起始状态、衰减调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；模块M4.2：利用数据池中的数据训练批判神经网络；模块M4.3：利用数据池中的数据和批判神经网络，训练执行神经网络。 10.根据权利要求9所述的相干光波分复用传输系统的链路功率控制系统，其特征在于，通过起始状态和衰减调整值，计算出各个通道的衰减，表达式为： Ach＝A0+AΔ 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。
说明书全文	相干光波分复用传输系统的链路功率控制方法和系统技术领域 [0001] 本发明涉及链路功率控制技术领域，具体地，涉及一种相干光波分复用传输系统的链路功率控制方法和系统。背景技术 [0002] 相干关光波分复用系统是光传输的主流系统，在相干光波分复用共系统中，各通道信号受到光纤非线性的影响，传输质量不一致，从而影响了系统的总体传输水平。链路功率控制被用于平衡各个通道的通信质量。目前基于深度学习控制链路功率的方法依赖链路传输的准确模型。 [0003] 专利申请文献CN116938383A公开了一种基于模组复用系统的非线性补偿方法及系统，包括以下步骤：选取任意一个模式设置为第二模式，其余模式设置为第一模式；采用第一光移频器对第二模式的波分复用光信号施加频率偏移；将第一模式的波分复用光信号和偏移后的第二模式的波分复用光信号输入至同一个模分复用器，经同一根多模光纤后从同一个模分解复用器中输出；采用第二光移频器对模分解复用器中输出的第二模式的波分复用光信号施加反向频率偏移；对模分解复用器中输出的第一模式的波分复用光信号和施加反向频率偏移的第二模式的波分复用光信号进行波分解复用，完成非线性补偿。然而该专利无法完全解决目前存在的技术问题，也无法满足本发明的需求。发明内容 [0004] 针对现有技术中的缺陷，本发明的目的是提供一种相干光波分复用传输系统的链路功率控制方法和系统。 [0005] 根据本发明提供的相干光波分复用传输系统的链路功率控制方法，包括： [0006] 步骤1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离； [0007] 步骤2：利用仿真环境进行深度神经网络的训练，配置波分复用系统中各个通道的发射功率； [0008] 步骤3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率； [0009] 步骤4：利用仿真环境进行深度神经网络的训练，配置波分复用系统中波长选择开关各个通道的衰减； [0010] 步骤5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。 [0011] 优选地，所述步骤2包括： [0012] 步骤2.1：将发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，通过起始状态和发射功率调整值计算通道发射功率，然后进行传输，并获得接收端的结果；在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比计算相应的奖励，并将起始状态更新为下一状态；将起始状态、发射功率调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据； [0013] 步骤2.2：通过数据池中的数据训练批判神经网络，将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降法更新批判神经网络的参数； [0014] 步骤2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，将数据对中的当前状态作为执行神经网络的输入，获得执行神经网络的输出，将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将批判神经网络输出的相反数作为损失函数，通过梯度下降法更新执行神经网络的参数。 [0015] 优选地，通过起始状态和发射功率调整值计算通道发射功率，表达式为： [0016] Pch＝P0+PΔ [0017] 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值； [0018] 通过接收端获得的信噪比和目标信噪比，计算相应的奖励，表达式为： [0019] Ri＝\|\|SNRi‑SNRtarget\|\|2 [0020] 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 [0021] 优选地，所述步骤4包括： [0022] 步骤4.1：将衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值，通过起始状态和衰减调整值，计算出各个通道的衰减，之后进行传输，并获得接收端的结果；最后在接受端获得各个通道的信噪比，通过在接收端获得的信噪比和目标信噪比，计算相应的奖励，并将起始状态更新为下一状态；将起始状态、衰减调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据； [0023] 步骤4.2：利用数据池中的数据训练批判神经网络； [0024] 步骤4.3：利用数据池中的数据和批判神经网络，训练执行神经网络。 [0025] 优选地，通过起始状态和衰减调整值，计算出各个通道的衰减，表达式为： [0026] Ach＝A0+AΔ [0027] 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。 [0028] 根据本发明提供的相干光波分复用传输系统的链路功率控制系统，包括： [0029] 模块M1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离； [0030] 模块M2：利用仿真环境进行深度神经网络的训练，配置波分复用系统中各个通道的发射功率； [0031] 模块M3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率； [0032] 模块M4：利用仿真环境进行深度神经网络的训练，配置波分复用系统中波长选择开关各个通道的衰减； [0033] 模块M5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。 [0034] 优选地，所述模块M2包括： [0035] 模块M2.1：将发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，通过起始状态和发射功率调整值计算通道发射功率，然后进行传输，并获得接收端的结果；在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比计算相应的奖励，并将起始状态更新为下一状态；将起始状态、发射功率调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据； [0036] 模块M2.2：通过数据池中的数据训练批判神经网络，将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降法更新批判神经网络的参数； [0037] 模块M2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，将数据对中的当前状态作为执行神经网络的输入，获得执行神经网络的输出，将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将批判神经网络输出的相反数作为损失函数，通过梯度下降法更新执行神经网络的参数。 [0038] 优选地，通过起始状态和发射功率调整值计算通道发射功率，表达式为： [0039] Pch＝P0+PΔ [0040] 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值； [0041] 通过接收端获得的信噪比和目标信噪比，计算相应的奖励，表达式为： [0042] Ri＝\|\|SNRi‑SNRtarget\|\|2 [0043] 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 [0044] 优选地，所述模块M4包括： [0045] 模块M4.1：将衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值，通过起始状态和衰减调整值，计算出各个通道的衰减，之后进行传输，并获得接收端的结果；最后在接受端获得各个通道的信噪比，通过在接收端获得的信噪比和目标信噪比，计算相应的奖励，并将起始状态更新为下一状态；将起始状态、衰减调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据； [0046] 模块M4.2：利用数据池中的数据训练批判神经网络； [0047] 模块M4.3：利用数据池中的数据和批判神经网络，训练执行神经网络。 [0048] 优选地，通过起始状态和衰减调整值，计算出各个通道的衰减，表达式为： [0049] Ach＝A0+AΔ [0050] 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。 [0051] 与现有技术相比，本发明具有如下的有益效果： [0052] (1)本发明基于深度强化学习算法，通过调整相干光波分复用系统中不同通道的发射功和波长选择开关中不同通道的衰减，实现链路中功率的优化配置，从而优化传输后收端各个通道的通信质量； [0053] (2)本发明通过深度强化学习，使神经网络不依赖准确的可微模型便可以进行训练，从而实现相干光通信系统中不同通道通信质量不同的问题，使不同的通道可以获得相同的信噪比。附图说明 [0054] 通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显： [0055] 图1为训练数据的生成和数据池的构建； [0056] 图2为评价网络训练流程图； [0057] 图3为执行网络训练流程图； [0058] 图4为设置发端功率和波长选择开关的流程图； [0059] 图5为设置发端功率优化结果。具体实施方式 [0060] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。 [0061] 实施例1 [0062] 本发明提供了一种基于深度强化学习的相干光波分复用传输系统的链路功率控制方法，包括： [0063] 步骤1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离； [0064] 步骤2：利用仿真环境进行深度神经网络的训练，使执行神经网络可以配置波分复用系统中各个通道的发射功率； [0065] 步骤2.1：选取合理的发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，之后通过起始状态和发射功率调整值按照式(1)计算通道发射功率，之后进行传输，并获得接收端的结果。 [0066] Pch＝P0+PΔ (1) [0067] 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值。 [0068] 最后在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比，按照式(2)计算相应的奖励，并将起始状态更新为下一状态。 [0069] Ri＝\|\|SNRi‑SNRtarget\|\|2 (2) [0070] 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 [0071] 将起始状态，发射功率调整值，下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据，如图1。 [0072] 步骤2.2：通过数据池中的数据训练批判神经网络，如图2。将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降的方法更新批判神经网络的参数。 [0073] 步骤2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，如图3。将数据对中的当前状态作为执行神经网络的输入，获得其输出；将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将该输出的相反数作为损失函数，后通过梯度下降的方法更新执行神经网络的参数。 [0074] 步骤3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值。后通过起始状态和发射功率调整值，按照式(1)和计算通道发射功率。 [0075] 步骤4：利用仿真环境进行深度神经网络的训练，使执行神经网络可以配置波分复用系统中波长选择开关各个通道的衰减，如图4。 [0076] 步骤4.1：选取合理的衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值。之后通过起始状态和衰减调整值按照(3)式，计算出各个通道的衰减，之后进行传输，并获得接收端的结果，如图5。 [0077] Ach＝A0+AΔ (3) [0078] 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。 [0079] 最后在接受端获得各个通道的信噪比。通过在接收端获得的信噪比和目标信噪比，按照式(2)计算相应的奖励，并将起始状态更新为下一状态。 [0080] 将起始状态，衰减调整值，下一状态和奖励，集合为数据对，存储到数据池中。通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据。 [0081] 步骤4.2：通过与步骤2.2一样的流程，利用数据池中的数据训练批判神经网络。 [0082] 步骤4.3：通过与步骤2.2一样的流程，利用数据池中的数据和批判神经网络，训练执行神经网络。 [0083] 步骤5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值。后通过起始状态和衰减调整值，按照式(3)计算通道发射功率。 [0084] 实施例2 [0085] 本发明还提供一种相干光波分复用传输系统的链路功率控制系统，所述相干光波分复用传输系统的链路功率控制系统可以通过执行所述相干光波分复用传输系统的链路功率控制方法的流程步骤予以实现，即本领域技术人员可以将所述相干光波分复用传输系统的链路功率控制方法理解为所述相干光波分复用传输系统的链路功率控制系统的优选实施方式。 [0086] 根据本发明提供的相干光波分复用传输系统的链路功率控制系统，包括：模块M1：搭建相干光波分复用传输仿真系统，包括设置链路中光纤的长度，光放大器的参数，并设置总体的传输距离；模块M2：利用仿真环境进行深度神经网络的训练，配置波分复用系统中各个通道的发射功率；模块M3：将发射功率的起始状态作为输入，输进训练好的执行神经网络中，获得不同通道发端功率的调整值，通过起始状态和发射功率调整值计算通道发射功率；模块M4：利用仿真环境进行深度神经网络的训练，配置波分复用系统中波长选择开关各个通道的衰减；模块M5：将波长选择开关的起始状态作为输入，输进训练好的执行神经网络中，获得波长选择开关衰减的调整值，通过起始状态和衰减调整值计算通道发射功率。 [0087] 所述模块M2包括：模块M2.1：将发射功率初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为发射功率的调整值，通过起始状态和发射功率调整值计算通道发射功率，然后进行传输，并获得接收端的结果；在接受端获得各个通道的信噪比，通过接收端获得的信噪比和目标信噪比计算相应的奖励，并将起始状态更新为下一状态；将起始状态、发射功率调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；模块M2.2：通过数据池中的数据训练批判神经网络，将数据对中的当前状态和执行动作作为批判神经网络的输入，获得其输出；通过该输出和奖励函数做差并取绝对值，作为批判神经网络的损失函数，通过梯度下降法更新批判神经网络的参数；模块M2.3：通过数据池中的数据和批判神经网络，训练执行神经网络，将数据对中的当前状态作为执行神经网络的输入，获得执行神经网络的输出，将该输出和当前状态，作为批判神经网络的输入，获取批判神经网络的输出；将批判神经网络输出的相反数作为损失函数，通过梯度下降法更新执行神经网络的参数。 [0088] 通过起始状态和发射功率调整值计算通道发射功率，表达式为： [0089] Pch＝P0+PΔ [0090] 其中，Pch为通道发射功率，P0为初始状态，PΔ为功率调整值； [0091] 通过接收端获得的信噪比和目标信噪比，计算相应的奖励，表达式为： [0092] Ri＝\|\|SNRi‑SNRtarget\|\|2 [0093] 其中，Ri为奖励，SNRi为收端信噪比，SNRtarget为目标信噪比。 [0094] 所述模块M4包括：模块M4.1：将衰减初始值作为起始状态，把起始状态作为执行神经网络的输入，并获得输出作为衰减的调整值，通过起始状态和衰减调整值，计算出各个通道的衰减，之后进行传输，并获得接收端的结果；最后在接受端获得各个通道的信噪比，通过在接收端获得的信噪比和目标信噪比，计算相应的奖励，并将起始状态更新为下一状态；将起始状态、衰减调整值、下一状态和奖励，集合为数据对，存储到数据池中，通过执行神经网络和仿真传输系统的不断交互，生成数据池中的数据；模块M4.2：利用数据池中的数据训练批判神经网络；模块M4.3：利用数据池中的数据和批判神经网络，训练执行神经网络。 [0095] 通过起始状态和衰减调整值，计算出各个通道的衰减，表达式为： [0096] Ach＝A0+AΔ [0097] 其中，Ach为通道衰减，A0为初始状态，AΔ为衰减调整值。 [0098] 本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。 [0099] 以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

意见反馈