首页 / 专利库 / 制造过程 / 计算机集成制造 / 计算机辅助设计 / 一种毫米波通信系统中智能波束训练方法及预编码系统

一种毫米波通信系统中智能波束训练方法及预编码系统

阅读:463发布:2020-05-12

专利汇可以提供一种毫米波通信系统中智能波束训练方法及预编码系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种毫米波通信中智能波束训练方法及预编码系统,该智能波束训练方法利用信道的 时空 相关性,通过 感知 环境的变化以确定最佳波束所在的码本区间。具体地,本发明利用 马 尔科夫决策过程(MDP)进行对问题进行建模;基于深度 强化学习 进行求解,创新性地构造图形化的 状态空间 以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度。本发明设计的智能波束训练方法能够感知环境的变化速率,并自适应地调整波束训练区间,这不仅降低了波束训练开销,同时有效地提高了系统的吞吐量。,下面是一种毫米波通信系统中智能波束训练方法及预编码系统专利的具体信息内容。

1.一种毫米波通信系统中智能波束训练方法,其特征在于,该方法包括如下步骤:
步骤(1)利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
步骤(2)确定初始状态,即在前c时隙求解出所有用户的最优波束;
步骤(3)搭建神经网络并初始化神经网络参数以拟合步骤(1)中所定义的Q值函数;
步骤(4)在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
步骤(5)在时隙t,对步骤(4)中所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt;
步骤(6)根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
步骤(7)基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
2.根据权利要求1所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(1)的方法如下:
步骤(1.1):毫米波通信系统模型
在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路的基站,U个运动单天线用户,用户构成的集合用 表示,采用混合模拟预编码 和数字预
编码 对信号进行预处理,模拟预编码A基于预先给定的码本 进行设
计,即模拟预编码A中的每一列都是从码本 中选出的码字,其中,fi表示码本中的第i个码字,M表示码本中码字的数量,假设基站与用户u之间的信道矢量为 在用户u端接收信号表达为:
其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声;
使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量,码本 可以表示成一个复矩阵 则等效信道信息表达成:
模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0,公式(1.1)中的信号表达可以等效为:
设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模
动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;
bu,t是t时隙所确定波束区间内波束的数量,反映环境变化的方差,波束搜索从原来的整个空间 缩小为 其中, 表示在时隙t所有用户进行波束训练的波束空
间, 表示用户u在时隙t进行波束训练的波束空间,是 的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au,t,bu,t),则
状态:前c个时隙的历史波束训练结果组成的图像,表示为St=[It-c,It-c+1,...,It-1],M×U
其中,It=[I1,t,I2,t,...,IU,t]∈R ,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|;
奖励:当前时隙的平均可达速率即rt=Rt,平均可达速率定义为:
其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间;
模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若
则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩
阵B,数字预编码的设计需要求解以下优化问题:
其中,(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标;
Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间 使得折扣累积等效传输速率最大。
3.根据权利要求2所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(2)的方法如下:波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本 中波束依次发送导频信号得到等效信道信息
则用户u的最优波束的索引为 同理,可以求出其它用户所对应的
最佳波束及其索引,从而可以确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
4.根据权利要求3所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(3)的方法如下:使用神经网络不断更新参数逼近Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示,神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。
5.根据权利要求4所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(4)的方法如下:设当前时隙为t,当前状态为St,当前网络参数为θt,以1-ε的概率根据(at,bt)=arg maxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子,整数对为Num=M2个,根据时隙(t-1)的最优波束索引确定最优波束所在的区间 其中,
6.根据权利要求5所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(5)的方法如下:
(6.1)基站端根据对步骤(4)所确定的波束区间 利用导频进行波束训练;用户接收导频信息并反馈等效信道信息 基站端接收所有用户反馈的等效信道信息并将其存储至存储单元,选择第ku个码字作为用户u的模拟预编码矢量,
进而确定模拟预编码 和选择矩阵Bt;
(6.2)利用优化方法求解问题(1.6)以确定最优数字预编码矩阵 该问题是
一个非凸问题,引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
利用迭代算法求解上述问题可得到数字预编码 将所求解的At和
带入(1.4)求解每个用户在时隙t的信干噪比 进而得到可达和速
率 基站以速率ft进行数据传输,从而根据公式(1.5)可求得Rt,即强
化学习中奖励rt。
7.根据权利要求6所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(6)的方法如下:基站端从存储单元中采样出样本集 样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s',存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本,如果存储单元中的样本数大于样本集数 则计算相应的损失函数为:
其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
如果存储单元中的样本数小于样本集数 则θt+1=θt。
8.根据权利要求7所述的一种毫米波通信系统中智能波束训练方法,其特征在于,根据步骤(1)中所定义的状态,可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
9.一种毫米波通信系统中智能波束训练的预编码系统,其特征在于,该系统包括如下单元:
波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt;
网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述权利要求1-8任一项的毫米波通信系统中智能波束训练方法。

说明书全文

一种毫米波通信系统中智能波束训练方法及预编码系统

技术领域

[0001] 本发明属于无线通信领域,尤其涉及一种毫米波通信系统中智能波束训练方法预编码系统。

背景技术

[0002] 由于带宽短缺,移动数据需求的爆炸式增长给无线服务提供商克服带来前所未有的挑战。毫米波作为一项关键技术,由于其大带宽特性可以满足高速数据业务的需求,引起了人们的广泛关注。与微波相比,毫米波信号由于波长短导致更严重的路径损耗,但可以通过在接收/发送端安装大规模天线阵列以抵消路径损耗。考虑到射频(RF)链路的功耗和造价成本,毫米波通信系统通常采用混合模数架构,其中RF链路的数量远远少于天线数。在已有的混合预编码设计的工作中,大部分需要利用获得完全的信道状态信息(CSI)。在具有较多天线的毫米波通信系统中,估计信道信息需要大量的开销,CSI很难获取到。尤其是在移动等动态环境下,CSI的获取变得更加困难。
[0003] 获取信道信息的一般方法是充分利用毫米波信道的稀疏特性,通过波束训练获取等效CSI信息,而不是直接获取CSI。在波束训练阶段,发送端/接收端可以基于码本通过分层搜索、穷搜和自适应的方式确定最优模拟域波束,但是此类方案主要适用于单用户单流传输的场景中。在大规模天线阵列系统使用上述搜索方式会造成极大的波束训练开销。特别是在动态或时变场景中,为获取高速的传输速率要求频繁切换波束,但快速变化的毫米波信道由于相干时间短而无法实现频繁而精确地波束训练,这也为波束训练带来挑战。

发明内容

[0004] 发明目的:应对快速变化毫米波信道带来的挑战和针对现有技术中存在的问题,本发明旨在提出一种毫米波通信系统中智能波束训练方法预编码系统。基站通过接收用户反馈的等效信道确定最优波束所在的波束区间,基于该区间求解出最优混合预编码,并对预处理后的数据进行传输。该方法能自适应地根据环境状态信息确定动作,缩小波束的训练空间,能有效地降低波束训练开销,同时还可以提高系统的有效传输速率和吞吐量。
[0005] 技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种毫米波通信系统中智能波束训练方法,包括如下步骤:
[0006] 步骤(1):利用MDP过程为毫米波通信系统中的波束训练问题进行建模。
[0007] 本步骤中,首先介绍毫米波通信系统模型,然后给出利用尔科夫决策过程(MDP)为波束训练问题的数学建模。
[0008] 步骤(1.1):毫米波通信系统模型。
[0009] 在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路(RF)的基站,U个运动单天线用户,用户构成的集合用 表示。毫米波通信系统中全数字预编码实现成本高,所以通常采用混合模拟预编码 和数字预编码 对信号进行
预处理。实际上,模拟预编码A通常基于预先给定的码本 进行设计,即模拟
预编码A中的每一列都是从码本 中选出的码字(波束),其中,fi表示码本中的第i个码字,M表示码本中码字的数量。假设基站与用户u之间的信道矢量为 那么在用户u端接收信号表达为:
[0010]
[0011] 其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声。
[0012] 由于精确的信道矢量 的获取极其困难,通常使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量。码本可以表示成一个复矩阵 则等效信道信息可以表达成:
[0013]
[0014] 模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0。公式(1.1)中的信号表达可以等效为:
[0015]
[0016] 设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
[0017]
[0018] 步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模。
[0019] 根据公式(1.2),等效信道信息的获取要求在整个码本空间进行波束训练,这样将造成大量的训练开销。尤其在快变信道情况下,频繁的波束训练占用大部分时间,使得数据有效传输时间大大较少,系统吞吐量同样将降低。为了降低训练开销,一种有效的方法是减小波束训练的空间。利用MDP进行建模,创新性地构造图形化的状态空间以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度,在t时隙的动作、状态、奖励和Q值函数分别定义如下:
[0020] 动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;bu,t是t时隙所确定波束区间内波束的数量,反映环境变化的方差。那么,波束搜索从原来的整个空间 缩小为 其中, 表示在时隙t所有用户进行波束训练的波束空间, 表示用户u在时隙t进行波束训练的波束空间,是 的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au ,t ,bu ,t) ,则
[0021] 状态:前c个时隙的历史波束训练结果(即等效信道信息)组成的“图像”,表示为St=[It-c,It-c+1,...,It-1],其中,It=[I1,t,I2,t,...,IU,t]∈RM×U,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|。以系统中存在两个用户为例,图5是状态设计直观表示。这样设计的状态可以更好地感知外界环境变化,从而更有效地挖掘有用的信息。
[0022] 奖励:当前时隙的平均可达速率即rt=Rt。如图2所示,每个时隙包括决策时间、波束训练时间、混合模拟和数字预编码求解时间、数据传输时间和神经网络更新时间,波束训练的目标是确定最佳模拟波束和数字预编码矩阵以提高系统的传输速率。考虑到数据传输时间占用部分时隙,故采用平均可达速率Rt作为性能指标,平均可达速率定义为:
[0023]
[0024] 其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间。
[0025] 这里,模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩阵B。数字预编码的设计需要求解以下优化问题:
[0026]
[0027] 其中(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标。
[0028] Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
[0029]
[0030] 其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励。
[0031] 那么,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间 使得折扣累积等效传输速率最大。
[0032] 步骤(2):利用深度强化学习求解步骤(1)中的MDP问题,需要搭建多层神经网络以拟合Q值函数(1.7)。
[0033] 神经网络具有强大的能,其本质是一个带参数的非线性函数,能逼近任意一个函数。一个深度神经网络输入层,多个隐藏层输出层构成,每一层有多个神经元,连续两个层之间由矩阵参数连接,神经元上有偏置参数和激活函数。为此,本发明使用深度神经网络不断更新参数逼近所Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示。神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。随机初始化连接矩阵参数和偏置参数的值。
[0034] 步骤(3):利用深度强化学习求解步骤(1)中的MDP问题,需要确定初始状态,即在前c时隙根据 求解出所有用户的最优波束。
[0035] 波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,为了确定波束所在区间,还需求解初始化最优波束做参考。初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本 中波束依次发送导频信号得到等效信道信息 则用户u的最优波束的索引为
同理,可以求出其他用户所对应的最佳波束及其索引,从而可以
确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
[0036] 步骤(4):深度强化学习是通过不断与环境交互进行学习,在时隙t,根据当前状态为St和当前神经网络参数为θt确定最优波束所在的区间
[0037] 设当前时隙为t,当前状态为St,当前网络参数为θt,那么以1-ε的概率根据(at,bt)=argmaxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子。由于at和bt都有M个可能,故有Num=M2个整数对。进一步,根据时隙(t-1)的最优波束索引 确定最优波束所在的区间 其中,
[0038] 步骤(5):深度强化学习是通过不断与环境交互进行学习,在时隙t,对步骤(4)中所确定的波束区间 进行训练确定模拟预编码A和选择矩阵B,求解问题(1.6)可以得到所有用户在时隙t对应的数字预编码vu,t, 进而得到系统的和速率ft和奖励rt。
[0039] 基站端根据对步骤(4)所确定的波束区间 利用导频进行波束训练;用户接收导频信息并反馈等效信道信息 基站端接收所有用户反馈的等效信道信息并将其存储至存储单元。选择第ku个码字作为用户u的模拟预编码矢量,
进而确定模拟预编码 和选择矩阵Bt。
[0040] 为了确定最优数字预编码矩阵vu,t, 利用优化方法求解问题(1.6)。该问题是一个非凸问题,这里引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
[0041]
[0042] 利用迭代算法求解上述问题可得到数字预编码vu,t,
[0043] 将所求解的At和vu,t, 带入(1.4)求解每个用户在时隙t的信干噪比SINRu,t,进而得到和速率 基站以可达传输速率ft进行数据传输,从而根据公式(1.5)可求得率Rt,即强化学习中奖励rt。
[0044] 步骤(6):深度强化学习不断与环境交互进行学习,其神经网络θt的更新是基于样本集 利用梯度下降法进行更新。
[0045] 基站端从存储单元中采样出样本集 样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s'。这里需要说明的是,存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本。如果存储单元中的样本数大于样本集数 则计算相应的损失函数为:
[0046]
[0047] 其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
[0048]
[0049] 如果存储单元中的样本数小于样本集数 则θt+1=θt。
[0050] 步骤(7):基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励等样本信息,下一个时隙t+1开始。
[0051] 根据步骤(1)中所定义的状态,此时可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
[0052] 本发明还提出一种毫米波通信系统中智能波束训练的预编码系统,该系统包括如下单元:
[0053] 波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
[0054] 状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
[0055] 函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
[0056] 决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
[0057] 参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt;
[0058] 网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
[0059] 时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
[0060] 本发明还提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述毫米波通信系统中智能波束训练方法。
[0061] 本发明还提出一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述毫米波通信系统中智能波束训练方法。
[0062] 有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
[0063] 本发明的技术方案可以感知环境的变化速率,自适应地调整波束训练的区间,有效地减少了训练开销,提高了有效传输速率。附图说明
[0064] 图1为本发明实施例的毫米波智能波束训练算法流程图
[0065] 图2为本发明实施例中每个时隙决策、波束训练、混合预编码、数据传输以及神经网络更新时间分配的示意图;
[0066] 图3为本发明实施例中动态通信环境示意图;
[0067] 图4为本发明实施例中两种最优波束转移概率模型概率模型;
[0068] 图5为本发明实施例中的状态示意图;
[0069] 图6为本发明实施例中所提方法与其他现有方法的最优波束对齐成功率对比图;
[0070] 图7为本发明实施例中所提方法与其他现有方法的平均可达速率性能曲线对比图;
[0071] 图8为本发明实施例中在两种最优波束转移概率模型概率模型的性能平均可达速率性能曲线对比图。

具体实施方式

[0072] 下面结合附图和具体实施例,进一步阐明本发明所提的智能波束训练算法。
[0073] 本发明实施例提出的毫米波通信系统中智能波束训练方法、装置及系统,通过不断地与环境交互,感知通信环境变化速率,能够有效地确定下一个时隙最佳波束所在的区间。一般情况下,由于此区间远小于整个码本空间,训练开销将相应的减少,系统的吞吐量将有效提高。此外,该方法不要求获知信道建模相关的先验知识,可以适用于更加复杂的动态场景。
[0074] 如图1所示,本发明提出了一种毫米波通信系统中智能波束训练方法,包括如下步骤:
[0075] 步骤(1):利用MDP过程为毫米波通信系统中的波束训练问题进行建模。
[0076] 本步骤中,首先介绍毫米波通信系统模型,然后给出利用马尔科夫决策过程(MDP)为波束训练问题的数学建模。
[0077] 步骤(1.1):毫米波通信系统模型。
[0078] 在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路(RF)的基站,U个运动单天线用户,用户构成的集合用 表示。毫米波通信系统中全数字预编码实现成本高,所以通常采用混合模拟预编码 和数字预编码 对信号进行
预处理。实际上,模拟预编码A通常基于预先给定的码本 进行设计,即模拟
预编码A中的每一列都是从码本 中选出的码字(波束),其中,fi表示码本中的第i个码字,M表示码本中码字的数量。假设基站与用户u之间的信道矢量为 那么在用户u端接收信号表达为:
[0079]
[0080] 其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声。
[0081] 由于精确的信道矢量 的获取极其困难,通常使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量。码本可以表示成一个复矩阵 则等效信道信息可以表达成:
[0082]
[0083] 模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对角矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0。公式(1.1)中的信号表达可以等效为:
[0084]
[0085] 设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
[0086]
[0087] 步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模。
[0088] 根据公式(1.2),等效信道信息的获取要求在整个码本空间进行波束训练,这样将造成大量的训练开销。尤其在快变信道情况下,频繁的波束训练占用大部分时间,使得数据有效传输时间大大较少,系统吞吐量同样将降低。为了降低训练开销,一种有效的方法是减小波束训练的空间。利用MDP进行建模,创新性地构造图形化的状态空间以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度,在t时隙的动作、状态、奖励和Q值函数分别定义如下:
[0089] 动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;bu,t是t时隙所确定波束区间内波束的数量,反映环境变化的方差。那么,波束搜索从原来的整个空间 缩小为 其中, 表示在时隙t所有用户进行波束训练的波束空间, 表示用户u在时隙t进行波束训练的波束空间,是 的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au,t,bu,t),则
[0090] 状态:前c个时隙的历史波束训练结果(即等效信道信息)组成的“图像”,表示为St=[It-c,It-c+1,...,It-1],其中,It=[I1,t,I2,t,...,IU,t]∈RM×U,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|。以系统中存在两个用户为例,图5是状态设计直观表示。这样设计的状态可以更好地感知外界环境变化,从而更有效地挖掘有用的信息。
[0091] 奖励:当前时隙的平均可达速率即rt=Rt。如图2所示,每个时隙包括决策时间、波束训练时间、混合模拟和数字预编码求解时间、数据传输时间和神经网络更新时间,波束训练的目标是确定最佳模拟波束和数字预编码矩阵以提高系统的传输速率。考虑到数据传输时间占用部分时隙,故采用平均可达速率Rt作为性能指标,平均可达速率定义为:
[0092]
[0093] 其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间。
[0094] 这里,模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩阵B。数字预编码的设计需要求解以下优化问题:
[0095]
[0096] 其中(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标。
[0097] Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
[0098]
[0099] 其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励。
[0100] 那么,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间 使得折扣累积等效传输速率最大。
[0101] 步骤(2):利用深度强化学习求解步骤(1)中的MDP问题,需要搭建多层神经网络以拟合Q值函数(1.7)。
[0102] 神经网络具有强大的能力,其本质是一个带参数的非线性函数,能逼近任意一个函数。一个深度神经网络由输入层,多个隐藏层和输出层构成,每一层有多个神经元,连续两个层之间由矩阵参数连接,神经元上有偏置参数和激活函数。为此,本发明使用深度神经网络不断更新参数逼近所Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示。神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。随机初始化连接矩阵参数和偏置参数的值。
[0103] 步骤(3):利用深度强化学习求解步骤(1)中的MDP问题,需要确定初始状态,即在前c时隙根据 求解出所有用户的最优波束。
[0104] 波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,为了确定波束所在区间,还需求解初始化最优波束做参考。初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本 中波束依次发送导频信号得到等效信道信息 则用户u的最优波束的索引为
同理,可以求出其他用户所对应的最佳波束及其索引,从而可以
确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
[0105] 步骤(4):深度强化学习是通过不断与环境交互进行学习,在时隙t,根据当前状态为St和当前神经网络参数为θt确定最优波束所在的区间
[0106] 设当前时隙为t,当前状态为St,当前网络参数为θt,那么以1-ε的概率根据(at,bt)=argmaxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子。由于at和bt都有M个可能,故有Num=M2个整数对。进一步,根据时隙(t-1)的最优波束索引 确定最优波束所在的区间 其中,
[0107] 步骤(5):深度强化学习是通过不断与环境交互进行学习,在时隙t,对步骤(4)中所确定的波束区间 进行训练确定模拟预编码A和选择矩阵B,求解问题(1.6)可以得到所有用户在时隙t对应的数字预编码vu,t, 进而得到系统的和速率ft和奖励rt。
[0108] 基站端根据对步骤(4)所确定的波束区间 利用导频进行波束训练;用户接收导频信息并反馈等效信道信息 基站端接收所有用户反馈的等效信道信息并将其存储至存储单元。选择第ku个码字作为用户u的模拟预编码矢量,
进而确定模拟预编码 和选择矩阵Bt。
[0109] 为了确定最优数字预编码矩阵vu,t, 利用优化方法求解问题(1.6)。该问题是一个非凸问题,这里引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
[0110]
[0111] 利用迭代算法求解上述问题可得到数字预编码vu,t,
[0112] 将所求解的At和vu,t, 带入(1.4)求解每个用户在时隙t的信干噪比SINRu,t,进而得到和速率 基站以可达传输速率ft进行数据传输,从而根据公式(1.5)可求得率Rt,即强化学习中奖励rt。
[0113] 步骤(6):深度强化学习不断与环境交互进行学习,其神经网络θt的更新是基于样本集 利用梯度下降法进行更新。
[0114] 基站端从存储单元中采样出样本集 样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s'。这里需要说明的是,存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本。如果存储单元中的样本数大于样本集数 则计算相应的损失函数为:
[0115]
[0116] 其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
[0117]
[0118] 如果存储单元中的样本数小于样本集数 则θt+1=θt。
[0119] 步骤(7):基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励等样本信息,下一个时隙t+1开始。
[0120] 根据步骤(1)中所定义的状态,此时可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
[0121] 本发明还提出一种毫米波通信系统中智能波束训练的预编码系统,该系统包括如下单元:
[0122] 波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
[0123] 状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
[0124] 函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
[0125] 决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
[0126] 参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt;
[0127] 网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
[0128] 时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
[0129] 本发明还提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述毫米波通信系统中智能波束训练方法。
[0130] 本发明还提出一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述毫米波通信系统中智能波束训练方法。
[0131] 为了说明所提方法(ESBT)的优势,本实例还给出了穷搜(exhaustive search)算法(ExSeBT)、层次搜索(hierarchical search)算法(HSBT)和基于Oracle的算法-理想化(OABT)的性能曲线。
[0132] 图6给出了第一种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束训练方法与ExSeBT、HSBT关于波束对准成功率的对比图。在三种算法中,HSBT的性能最差,ExSeBT有最大的波束对准成功率。但使用ExSeBT算法需要扫描整个波束空间,这将产生大量时间消耗,如果环境变化或者信道变化快,该方法将不适用。当SNR或天线数量增加时,ExSeBT与ESBT算法之间的差距变小。
[0133] 图7给出了第一种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束训练方法与ExSeBT、HSBT和OABT算法关于平均可达速率的对比图。可以看出所提的ESBT在三种种算法中能达到最佳性能,并OABT理想算法的性能。这是因为ESBT可以感知环境的变化,并智能地调整波束区间,从而有效地减少了波束训练的开销,并增加了数据传输时间。随着天线数量的增加,ESBT具有更加明显的优势。
[0134] 图8给出了在两种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束算法与ExSeBT算法关于平均可达速率的对比图。由于ExSeBT算法不受环境变化的影响,该算法在两个转移概率模型下具有相同的性能。从图中还可以看到更关键的结论,即ESBT在两个转移概率模型下的取得基本一样的平均可达速率。这是因为尽管两种概率模型对应的环境变化不一致,但具有相同的变化率方差,故其对应相同的训练开销。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈