首页 / 专利库 / 电信 / 迭代 / 一种提高直播视频系统用户体验质量的方法

一种提高直播视频系统用户体验质量的方法

阅读:861发布:2024-01-24

专利汇可以提供一种提高直播视频系统用户体验质量的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种提高直播视频系统用户体验 质量 的方法,本发明旨在提高直播视频系统中用户的体验质量,在保证观看视频的质量的同时降低时间延迟。与现有文献不同,本发明将可获得的计算资源和无线 频谱 资源都建模为随机过程,更加逼近真实的无线通信环境。将动态系统建模为 马 尔科夫判决过程,由于其中的动作空间和 状态空间 都是连续多维的,传统的 强化学习 算法 如深度Q学习网络和策略梯度在处理这类问题时效率较低难度较大。对此,本发明联合 视频流 转码策略、用户调度策略和资源分配方法,提出在线Actor-Critic强化学习算法,在Actor部分和Critic部分都引入了资格迹, 加速 了学习过程。理论仿真证明其性能明显好于深度Q学习网络,收敛速度也快于策略梯度算法。,下面是一种提高直播视频系统用户体验质量的方法专利的具体信息内容。

1.一种提高直播视频系统用户体验质量的方法,其特征在于:包括有
步骤1:将动态系统建模为尔科夫决策过程,简称为MDP,包括S、A、P、r四个参数,其中的状态空间S包括三部分:1)移动边缘计算服务器可获得的计算资源,2)可获得的无线频谱资源,3)无线信道下行链路的信干噪比;其中的动作空间A包括四部分:1)用户调度策略,2)转码策略,3)计算资源分配策略,4)无线频谱资源分配策略;P为状态转移概率矩阵;r是回报函数,由以下步骤获得;
步骤2:将直播视频流划分成若干小段,进行播放和处理,每一段的播放时间长度是L,当播放一小段视频的同时处理下一小段视频流,处理所需的时间记作Tn,k,若保证连续播放需满足Tn,k≤L,否则产生时延Dn,k;
步骤3:首先移动边缘计算服务器对视频流进行转码处理,从原始的高质量视频流转到较低质量的视频流,所消耗的时间如下:
其中参数cn,k=1表示用户由小基站提供服务,cn,k=0表示用户由宏基站提供服务,表示原始视频流, 表示用户收到的由移动边缘计算服务器转码后的视频流,表示将视频流从 版本转码到 版本所需的计算资源,fn,k表示由序号为n的小基站的移动边缘计算服务器分配给第k个用户的计算资源; 表示由宏基站的移动边缘计算服务器分配给第k个用户的计算资源;
步骤4:步骤3中对视频流转码要用到视频流的质量函数Zn,k,由下式计算得到其中参数 和 表示转码后视频流的分辨率和比特速率,qn,k和bn,k分别表示原始视频流的分辨率和比特速率,ln是自然对数运算符号,ξ和ξ都是正数;
步骤5:然后将步骤3转码后的视频通过下行链路传输到移动终端设备,所消耗的时间为:
其中 是步骤4中转码后视频流的比特速率, 表示转码后视频流的大小,该数值可由媒体流分割器软件直接获得,Bn,k表示由序号为n的小基站分配给第k个用户的无线频谱资源; 表示由宏基站分配给第k个用户的无线频谱资源, 表示可达
到的瞬时速率,由下式计算得到 其中Gn,k表
示序号为n的小基站能提供给第k个用户的频谱效率,由下式计算得到
其中ρn,k是从序号n的小基站到第k个用户的下行链路的信干噪
比 , 表示宏基站能提供给第k个用户的频谱效率 ,由下式计算得到
其中 是从宏基站到第k个用户的下行链路的信干噪比;
步骤6:移动终端设备对接收到的视频流进行解码,视频解码所消耗的时间记作 为一常数;
步骤7:根据步骤3、步骤5和步骤6的结果,得到步骤2中总时间Tn,k的值,用方程表示为同时得到时延Dn,k的值,用下式计算Dn,k
=Tn,k-L;
步骤8:根据步骤4和步骤7的结果,得到MDP的回报函数r如下
其中 是视频流质量的价格,单位是$,Zn,k是步骤4中视频流的质量函数,υn,k是时延的价格,单位是$,Dn,k是步骤7中时延函数;
步骤9:采用双资格迹的Actor-Critic算法来解决上述MDP问题,首先进行参数初始化,初始化Actor部分的资格迹衰减速率λθ∈[0,1)和Critic部分的资格迹衰减速率λω∈[0,
1),初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω;初始化Actor部分和Critic部分的资格迹向量为零向量,初始化Actor部分的学习率αa,t>0和Critic部分的学习率αc,t>0;设置一个迭代次数的最大值,开始步骤10进行迭代;
步骤10:在每一次迭代中,根据动作的概率分布函数π(a|s,θ)选择得到一个动作a,其中μ(s,θμ)是正太分布的均值,σ(s,θσ)是正
太分布的均方差, θμ和θσ是估计器的参数,θ=[θμ,θσ]T,其中s表示当前状态,θ是当前策略,在当前状态下执行该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态,并得到下一状态的即时奖励值rt+1;
步骤11:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数Vπ(s),估计方法为Vπ(s)≈V(s,ω)=ωTφ(s),其中ω是Critic部分的状态值函数的参数,ωT是ω的转置,为了加速学习过程,在Actor部分和Critic部分都采用资格迹进行多步更新;
步骤12:更新时序差分函数δ,更新方法为δ=rt+1+γωV(st+1,ω)-V(st,ω),其中rt+1+γωV(st+1,ω)是下一状态的总奖励值,γω是衰减因子数值在0到1之间,V(st,ω)是当前状态下的奖励值;
步骤13:更新Critic部分的资格迹向量z(ω,t),更新方法为:
其中 是参数ω的梯度,λω∈[0,1)是衰减参数,z
(ω,t-1)是在第t-1个时隙的Critic部分的资格迹向量;
步骤14:更新状态值函数的参数ω(t),更新方法为ω(t+1)=ω(t)+αc,tδz(ω,t),其中αc,t是Critic部分的学习率,满足
步骤15:更新Actor部分的资格迹向量z(θ,t),更新方法为:
其中 是参数θ的梯度,γθλθ是衰减参数,z
(θ,t-1)是在第t-1个时隙的Actor部分的资格迹向量;
步骤16:更新下一个时隙的策略参数θt+1,更新方法为θ(t+1)=θ(t)+αa,tδz(θ,t),其中αa,t是Actor部分的学习率,是一个正数,而且满足
步骤17:更新步骤10中正太分布的均值μ(s,θμ),更新方法为 更新步骤
15中正太分布的均方差σ(s,θσ),这个值是正数,更新方法为 判断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤10继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。

说明书全文

一种提高直播视频系统用户体验质量的方法

技术领域

[0001] 本发明涉及第五代无线通信技术领域,尤其涉及一种提高直播视频系统用户体验质量的方法。

背景技术

[0002] 直播视频在救援抢险、路线导航和休闲娱乐中有很大的应用价值。视频流按照质量不同可分成多个版本,视频传输哪个版本,受到几个因素的影响:①无线信道环境的带宽限制;②用户喜好不同;③移动设备支持的视频格式。在下行链路利用视频转码技术可以将直播视频变成清晰度不同的几个版本。但是,现有的直播视频系统却存在一些问题。
[0003] 问题一:核心网的负担大和时延问题。由于视频转码的计算量非常大,目前常见的做法是借助计算系统强大的计算能,根据不同的用户要求,将直播视频数据卸载到远程云端来处理,一个视频在云端先被转码成多种格式和质量,再穿越互联网和核心网传输给用户使用。这样做的问题是极大地增加了核心网的负担,带来严重的时延。
[0004] 问题二:资源优化的效率低问题。由于无线网络的动态特性,想要高效的利用所有网络边缘可获得的无线频谱资源和计算资源就变得很困难。
[0005] 问题三:用户体验质量(Quality ofExperience,QoE)函数研究的片面性问题。一方面,有的文献只考虑视频质量,如D.Wang等人在2018年提出一种自适应的视频转码框架,根据时变的无线信道条件来联合调整转码策略和无线频谱资源分配方法,旨在最大化用户的QoE;另一方面,有的文献只考虑时延,如Q.He等人在2017年提出一种基于雾计算的视频转码框架旨在减小时延,Y.Zhu等人在2018年提出一种云边缘协作系统,综合使用云端资源和空闲终端观众的资源,以降低成本和时延。然而视频质量和时延对用户来说都非常重要,①牺牲时延换来高质量的视频,用户体验时视频虽然高清但是经常停顿,严重影响用户体验质量;②牺牲视频质量换来低时延的视频,用户体验时视频虽然流畅但是看不清楚,也会严重影响用户体验质量。
[0006] 问题四:传统的强化学习算法的性能差效率低问题。将直播视频系统建模为一个尔科夫判决过程(Markov Decision Process,MDP),其中的状态空间和动作空间都是连续的多维的,传统的值迭代强化学习算法如Q学习和SARSA等性能差,传统的策略梯度算法学习效率低收敛慢导致时延长。在处理连续空间问题时,Actor-Critic算法比上述两类算法更胜一筹被广泛研究,如R.Li等人在2014年提出单步更新Actor-Critic算法,Y.Wei等人在2018年提出基于Actor-Critic算法的资源分配方法来最大化系统能量效率,H.Yang等人在2019年将Actor-Critic算法用在物联网系统中。然而,目前的Actor-Critic算法存在的问题是:只在Critic部分引入资格迹,学习效率较低。

发明内容

[0007] 为解决现有技术的缺点和不足,提供一种提高直播视频系统用户体验质量的方法,从而提高用户体验质量。在云辅助异构网络中,利用移动边缘计算和SDN技术,将视频转码策略、用户调度策略和资源分配进行联合优化,并采用改进Actor-Critic算法,在Actor部分和Critic部分都采用资格迹进行多步更新,以达到提高学习效率的目的。
[0008] 为实现本发明目的而提供的一种提高直播视频系统用户体验质量的方法,包括有[0009] 步骤1:将动态系统建模为马尔科夫决策过程,简称为MDP,包括S、A、P、r四个参数,其中的状态空间S包括三部分:1)移动边缘计算服务器可获得的计算资源,2)可获得的无线频谱资源,3)无线信道下行链路的信干噪比;其中的动作空间A包括四部分:1)用户调度策略,2)转码策略,3)计算资源分配策略,4)无线频谱资源分配策略;P为状态转移概率矩阵;r是回报函数,由以下步骤获得;
[0010] 步骤2:将直播视频流划分成若干小段,进行播放和处理,每一段的播放时间长度是L,当播放一小段视频的同时处理下一小段视频流,处理所需的时间记作Tn,k,若保证连续播放需满足Tn,k≤L,否则产生时延Dn,k;
[0011] 步骤3:首先MEC服务器对视频流进行转码处理,从原始的高质量视频流转到较低质量的视频流,所消耗的时间如下:
[0012]
[0013] 其中参数cn,k=1表示用户由小基站提供服务,cn,k=0表示用户由宏基站提供服务, 表示原始视频流, 表示用户收到的由MEC服务器转码后的视频流,表示将视频流从 版本转码到 版本所需的计算资源,fn,k表示由序号为n的SBS的MEC服务器分配给第k个用户的计算资源; 表示由MBS的MEC服务器分配给第k个用户的计算资源;
[0014] 步骤4:步骤3中对视频流转码要用到视频流的质量函数Zn,k,由下式计算得到[0015]
[0016] 其中参数 和 表示转码后视频流的分辨率和比特速率,qn,k和bn,k分别表示原始视频流的分辨率和比特速率,ln是自然对数运算符号,ζ和ξ都是正数;
[0017] 步骤5:然后将步骤3转码后的视频通过下行链路传输到移动终端设备,所消耗的时间为:
[0018]
[0019] 其中 是步骤4中转码后视频流的比特速率, 表示转码后视频流的大小,该数值可由媒体流分割器软件直接获得,Bn,k表示由序号为n的小基站分配给第k个用户的无线频谱资源; 表示由宏基站分配给第k个用户的无线频谱资源, 表示可达到的瞬时速率,由下式计算得到 其
中Gn,k表示序号为n的小基站能提供给第k个用户的频谱效率,由下式计算得到
其中ρn,k是从序号n的小基站到第k个用户的下行链路的信干噪
比 , 表示宏基站能提供给第k个 用户的频谱效率 ,由下式计算得到
其中 是从宏基站到第k个用户的下行链路的信干噪比;
[0020] 步骤6:移动终端设备对接收到的视频流进行解码,视频解码所消耗的时间记作为一常数;
[0021] 步骤7:根据步骤3、步骤5和步骤6的结果,得到步骤2中总时间Tn,k的值,用方程表示为 同时得到时延Dn,k的值,用下式计算Dn,k=Tn,k-L;
[0022] 步骤8:根据步骤4和步骤7的结果,得到MDP的回报函数r如下
[0023]
[0024] 其中 是视频流质量的价格,单位是$,Zn,k是步骤4中视频流的质量函数,υn,k是时延的价格,单位是$,Dn,k是步骤7中时延函数;
[0025] 步骤9:采用双资格迹的Actor-Critic算法来解决上述MDP问题,首先进行参数初始化,初始化Actor部分的资格迹衰减速率λθ∈[0,1)和Critic部分的资格迹衰减速率λω∈[0,1),初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω;初始化Actor部分和Critic部分的资格迹向量为零向量,初始化Actor部分的学习率αa,t>0和Critic部分的学习率αc,t>0;设置一个迭代次数的最大值,开始步骤10进行迭代;
[0026] 步骤10:在每一次迭代中,根据动作的概率分布函数π(a|s,θ)选择得到一个动作a, 其中μ(s,θμ)是正太分布的均值,σ(s,θσ)是正太分布的均方差, θμ和θσ是估计器的参数,θ=[θμ,θσ]T,其中s表示当前状态,θ是当前策略,在当前状态下执行该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态,并得到下一状态的即时奖励值rt+1;
[0027] 步骤11:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数Vπ(s),估计方法为Vπ(s)≈V(s,ω)=ωTφ(s),其中ω是Critic部分的状态值函数的参数,ωT是ω的转置,为了加速学习过程,在Actor部分和Critic部分都采用资格迹进行多步更新;
[0028] 步骤12:更新时序差分函数δ,更新方法为δ=rt+1+γωV(st+1,ω)-V(st,ω),其中rt+1+γωV(st+1,ω)是下一状态的总奖励值,γω是衰减因子数值在0到1之间,V(st,ω)是当前状态下的奖励值;
[0029] 步骤13:更新Critic部分的资格迹向量z(ω,t),更新方法为:
[0030] 其中 是参数ω的梯度,λω∈[0,1)是衰减参数,z(ω,t-1)是在第t-1个时隙的Critic部分的资格迹向量;
[0031] 步骤14:更新状态值函数的参数ω(t),更新方法为ω(t+1)=ω(t)+αc,tδz(ω,t),其中αc,t是Critic部分的学习率,满足
[0032] 步骤15:更新Actor部分的资格迹向量z(θ,t),更新方法为:
[0033] 其中 是参数θ的梯度,γθλθ是衰减参数,z(θ,t-1)是在第t-1个时隙的Actor部分的资格迹向量;
[0034] 步骤16:更新下一个时隙的策略参数θt+1,更新方法为θ(t+1)=θ(t)+αa,tδz(θ,t),[0035] 其 中αa ,t 是 A c t o r 部 分 的 学 习 率 ,是 一 个 正 数 ,而 且 满足[0036] 步骤17:更新步骤15中正太分布的均值μ(s,θμ),更新方法为 更新步骤15中正太分布的均方差σ(s,θσ),这个值是正数,更新方法为 判
断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤10继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。
[0037] 本发明的有益效果是:
[0038] 与现有技术相比,本发明的优势在于:
[0039] 1)本发明采用移动边缘计算系统,在靠近移动用户的网络边缘提供云计算服务,可以减少视频数据在核心网来回传输,极大地缓解了核心网的数据传输负担,将视频转码的计算任务卸载到距离用户很近的基站附近边缘网络,降低了传输时延;
[0040] 2)更全面的定义了用户体验质量函数,包括视频质量和时延,其中视频质量用分辨率和比特率来衡量,时延作为一个惩罚因子,这样定义使得优化目标更加明确——提高视频质量降低时延;
[0041] 3)本发明改进了Actor-Critic算法,首次在Actor部分和Critic部分都引入了资格迹,进行多步更新,以提高学习效率加速收敛,加速了学习过程,达到降低时延的目的,在处理连续的状态空间和连续的动作空间问题上,与传统的强化学习算法相比,性能更好,收敛速度更快;
[0042] 4)与现有文献不同,本发明创新性地将可获得的计算资源和无线频谱资源都建模为随机过程,更加逼近真实的无线通信环境。
[0043] 本发明提供的一种提高直播视频系统用户体验质量的方法,在云辅助异构网络中,利用移动边缘计算和SDN技术,将视频转码策略、用户调度策略和资源分配进行联合优化,并采用改进Actor-Critic算法,在Actor部分和Critic部分都采用资格迹进行多步更新,可以提高用户体验质量,并且达到提高学习效率的目的。附图说明
[0044] 以下结合附图对本发明的具体实施方式作进一步的详细说明,其中:
[0045] 图1为本发明发明适用的场景图。

具体实施方式

[0046] 如图1所示,这个服务区的中心有一个单独的宏基站(Microcell Base Station,MBS)和许多小基站(Small Base Station,SBS),用来进行视频流的转码和传输,每个基站都以有线的方式连接一个MEC服务器,用来提供计算服务。网络结构分为三层,最上面的是应用层,根据视频分辨率和比特速率的不同分成多种质量版本,分辨率有四种224p、360p、720p和1080p,对应视频流的比特速率依次为400kbps、1Mbps、1.5Mbps和2Mbps。中间一层为控制层,包括用户分配、计算资源分配、无线频谱资源分配、分辨率和比特速率选择。最下面一层为基础设施层,包括核心网、SBS和与它连接的MEC服务器、MBS和与它连接的MEC服务器、原始视频流的提供端和用户终端;基础设施层中的所有设施都以无线的方式连接到控制层中的SDN控制器,因此控制层和基础设施层是分离的,它们之间的所有无线连接都通过OpenFlow协议来配置。在每个时隙开始的时候,基础设施层会发送设施的状态信息给控制层,如:可获得无线频谱资源和计算资源。基于这些状态信息,SDN控制器将控制信息发送给对应的设施。
[0047] 具体实施例:一个1km*1km面积大小的服务区,其中心分布有一个MBS,其他位置随机分布10个SBS,每个SBS可为多个用户提供服务,在每个SBS的服务区内有3个用户。MBS和SBS之间通过单天线传输,MBS所占用的频谱资源和SBS所分配的频谱资源是正交的。无线信道模型是基于3GPP标准,从SBS到用户下行链路的传输功率是50mW,从MBS到用户下行链路的传输功率是20W;背景噪声功率是-174dB。在一个时隙内序号为n的SBS可获得的计算资源在[0,5GHz]范围内随机分布,均值为2.5GHz,MBS可获得的计算资源在[0,100GHz]范围内随机分布,均值为50GHz。在一个时隙内序号为n的SBS可获得的无线频谱资源在[0,10MHz]范围内随机分布,均值为5MHz,MBS可获得的无线频谱资源在[0,20MHz]范围内随机分布,均值为10MHz。视频被等分成若干小段播放和处理,每一段的播放时间长度L=2s。
[0048] 首先建立网络模型、视频流模型、移动边缘计算模型、下行链路通信模型和效用函数模型,明确优化目标,将动态系统建模为MDP,并通过如下步骤实现:
[0049] 步骤1:将动态系统建模为马尔科夫决策过程,简称为MDP,包括S、A、P、r四个参数,其中的状态空间S包括三部分:1)移动边缘计算服务器可获得的计算资源,2)可获得的无线频谱资源,3)无线信道下行链路的信干噪比;其中的动作空间A包括四部分:1)用户调度策略,2)转码策略,3)计算资源分配策略,4)无线频谱资源分配策略;P为状态转移概率矩阵;r是回报函数,由以下步骤获得;
[0050] 步骤2:将直播视频流划分成若干小段,进行播放和处理,每一段的播放时间长度是L,当播放一小段视频的同时处理下一小段视频流,处理所需的时间记作Tn,k,若保证连续播放需满足Tn,k≤L,否则产生时延Dn,k;
[0051] 步骤3:首先移动边缘计算服务器对视频流进行转码处理,从原始的高质量视频流转到较低质量的视频流,所消耗的时间如下:
[0052]
[0053] 其中参数cn,k=1表示用户由小基站提供服务,cn,k=0表示用户由宏基站提供服务, 表示原始视频流, 表示用户收到的由移动边缘计算服务器转码后的视频流,表示将视频流从 版本转码到 版本所需的计算资源,fn,k表示由序号为n的小基站的移动边缘计算服务器分配给第k个用户的计算资源; 表示由宏基站的移动边缘计算服务器分配给第k个用户的计算资源;
[0054] 步骤4:步骤3中对视频流转码要用到视频流的质量函数Zn,k,由下式计算得到[0055]
[0056] 其中参数 和 表示转码后视频流的分辨率和比特速率,qn,k和bn,k分别表示原始视频流的分辨率和比特速率,ln是自然对数运算符号,ζ和ξ都是正数;
[0057] 步骤5:然后将步骤3转码后的视频通过下行链路传输到移动终端设备,所消耗的时间为:
[0058]
[0059] 其中 是步骤4中转码后视频流的比特速率, 表示转码后视频流的大小,该数值可由媒体流分割器软件直接获得,Bn,k表示由序号为n的小基站分配给第k个用户的无线频谱资源; 表示由宏基站分配给第k个用户的无线频谱资源, 表示可达到的瞬时速率,由下式计算得到 其
中Gn,k表示序号为n的小基站能提供给第k个用户的频谱效率,由下式计算得到
其中ρn,k是从序号n的小基站到第k个用户的下行链路的信干噪
比 , 表示宏基站能提供给第k个用户的频谱效率 ,由下式计算得到
其中 是从宏基站到第k个用户的下行链路的信干噪比;
[0060] 步骤6:移动终端设备对接收到的视频流进行解码,视频解码所消耗的时间记作为一常数;
[0061] 步骤7:根据步骤3、步骤5和步骤6的结果,得到步骤2中总时间Tn,k的值,用方程表示为 同时得到时延Dn,k的值,用下式计算Dn,k=Tn,k-L;
[0062] 步骤8:根据步骤4和步骤7的结果,得到MDP的回报函数r如下
[0063]
[0064] 其中 是视频流质量的价格,单位是$,Zn,k是步骤4中视频流的质量函数,υn,k是时延的价格,单位是$,Dn,k是步骤7中时延函数;
[0065] 步骤9:采用双资格迹的Actor-Critic算法来解决上述MDP问题,首先进行参数初始化,初始化Actor部分的资格迹衰减速率λθ∈[0,1)和Critic部分的资格迹衰减速率λω∈[0,1),初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω;初始化Actor部分和Critic部分的资格迹向量为零向量,初始化Actor部分的学习率αa,t>0和Critic部分的学习率αc,t>0;设置一个迭代次数的最大值,开始步骤10进行迭代;
[0066] 步骤10:在每一次迭代中,根据动作的概率分布函数π(a|s,θ)选择得到一个动作a, 其中μ(s,θμ)是正太分布的均值,σ(s,θσ)是正太分布的均方差, θμ和θσ是估计器的参数,θ=[θμ,θσ]T,其中s表示当前状态,θ是当前策略,在当前状态下执行该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态,并得到下一状态的即时奖励值rt+1;
[0067] 步骤11:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数Vπ(s),估π T T计方法为V (s)≈V(s,ω)=ωφ(s),其中ω是Critic部分的状态值函数的参数,ω是ω的转置,为了加速学习过程,在Actor部分和Critic部分都采用资格迹进行多步更新;
[0068] 步骤12:更新时序差分函数δ,更新方法为δ=rt+1+γωV(st+1,ω)-V(st,ω),其中rt+1+γωV(st+1,ω)是下一状态的总奖励值,γω是衰减因子数值在0到1之间,V(st,ω)是当前状态下的奖励值;
[0069] 步骤13:更新Critic部分的资格迹向量z(ω,t),更新方法为:
[0070] 其中 是参数ω的梯度,λω∈[0,1)是衰减参数,z(ω,t-1)是在第t-1个时隙的Critic部分的资格迹向量;
[0071] 步骤14:更新状态值函数的参数ω(t),更新方法为ω(t+1)=ω(t)+αc,tδz(ω,t),其中αc,t是Critic部分的学习率,满足
[0072] 步骤15:更新Actor部分的资格迹向量z(θ,t),更新方法为:
[0073] 其中 是参数θ的梯度,γθλθ是衰减参数,z(θ,t-1)是在第t-1个时隙的Actor部分的资格迹向量;
[0074] 步骤16:更新下一个时隙的策略参数θt+1,更新方法为θ(t+1)=θ(t)+αa,tδz(θ,t),[0075] 其 中αa ,t 是 A c t o r 部 分 的 学 习 率 ,是 一 个 正 数 ,而 且 满足[0076] 步骤17:更新步骤10中正太分布的均值μ(s,θμ),更新方法为 更新步骤15中正太分布的均方差σ(s,θσ),这个值是正数,更新方法为 判
断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤10继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。
[0077] 与现有技术相比,本发明的优势在于:
[0078] 1)本发明采用移动边缘计算系统,在靠近移动用户的网络边缘提供云计算服务,可以减少视频数据在核心网来回传输,极大地缓解了核心网的数据传输负担,将视频转码的计算任务卸载到距离用户很近的基站附近边缘网络,降低了传输时延;
[0079] 2)更全面的定义了用户体验质量函数,包括视频质量和时延,其中视频质量用分辨率和比特率来衡量,时延作为一个惩罚因子,这样定义使得优化目标更加明确——提高视频质量降低时延;
[0080] 3)本发明改进了Actor-Critic算法,首次在Actor部分和Critic部分都引入了资格迹,进行多步更新,以提高学习效率加速收敛,加速了学习过程,达到降低时延的目的,在处理连续的状态空间和连续的动作空间问题上,与传统的强化学习算法相比,性能更好,收敛速度更快;
[0081] 4)与现有文献不同,本发明创新性地将可获得的计算资源和无线频谱资源都建模为随机过程,更加逼近真实的无线通信环境。
[0082] 本发明提供的一种提高直播视频系统用户体验质量的方法,在云辅助异构网络中,利用移动边缘计算和SDN技术,将视频转码策略、用户调度策略和资源分配进行联合优化,并采用改进Actor-Critic算法,在Actor部分和Critic部分都采用资格迹进行多步更新,可以提高用户体验质量,并且达到提高学习效率的目的。
[0083] 以上实施例不局限于该实施例自身的技术方案,实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈