首页 / 国际专利分类库 / 物理 / 控制;调节 / 一种智能环境下机器人运动路径深度学习控制规划方法

一种智能环境下机器人运动路径深度学习控制规划方法

申请号 CN201710640558.X 申请日 2017-07-31 公开(公告)号 CN107368076A 公开(公告)日 2017-11-21
申请人 中南大学; 发明人 刘辉; 李燕飞; 黄家豪; 段超; 王孝楠;
摘要 本 发明 公开了一种智能环境下 机器人 运动路径 深度学习 控制规划方法,该方法包括:步骤1:对运载机器人运载区域构建全局地图三维 坐标系 ,获取在全局地图三维坐标系下的可行走区域坐标;步骤2:获取训练样本集;步骤3:构建运载机器人的全局静态路径规划模型;步骤4:将运输任务中的起点和终点坐标输入至基于模糊神经网络的全局静态路径规划模型,获得对应的运载机器人最优规划路径。本发明通过分别建立全局静态路径规划模型和局部动态避障规划模型,利用深度学习的极强的非线性拟合特性,快速的找到全局最优路径,避免了常见的路径规划中陷入局部最优的问题。
权利要求

1.一种智能环境下机器人运动路径深度学习控制规划方法,其特征在于,包括以下步骤:
步骤1:对运载机器人运载区域构建全局地图三维坐标系,获取在全局地图三维坐标系下的可行走区域坐标;
运载区域地面中心点为原点,正东方向为X轴,正北方向为Y轴,垂直地面方向为Z轴;
所述运载机器人运载区域为一个楼栋内所有的地板连通区域,所述可行走区域是指从所有的地板连通区域中删除楼栋内的障碍物所在区域;
步骤2:获取训练样本集;
在全局地图三维坐标系中,设计至少200组可行走区域中不同的点到点的最优设计全局路径,以每条最优设计全局路径作为一个训练样本;
步骤3:构建运载机器人的全局静态路径规划模型;
利用全局训练样本集中每个全局样本的起点-终点坐标和对应的最优设计全局路径分别作为输入数据和输出数据,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的全局静态路径规划模型;
其中,在全局训练过程中,深度学习DBN网络所使用的BP网络权值采用差分进化狼群算法进行寻优获得;
步骤4:分别将运输任务中从初始待命点到取物点,从取物点到放物点,和从放物点到待命点坐标输入至基于深度学习DBN网络的全局静态路径规划模型,获得对应的区间的运载机器人最优全局规划路径。
2.根据权利要求1所述的方法,其特征在于,对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的全局静态路径规划模型:
深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
第一层限制玻儿兹曼机RBM的训练是指,从200组静态规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
BP网络层的训练是指,使用差分进化狼群算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组训练样本,训练完成后输出整个DBN模型作为全局静态路径规划算法模型。
3.根据权利要求2所述的方法,其特征在于,所述基于深度学习DBN网络的全局静态路径规划模型所使用的BP网络权值采用差分进化狼群算法进行寻优获得的过程如下:
步骤2.1:以个体狼的位置作为BP网络权值,初始化狼群中的个体狼并设置狼群参数;
狼群规模的取值范围为[50,300],步长因子的取值范围为[80,160],探狼比例因子的取值范围为[2,6],最大游走次数的取值范围为[15,30],距离判定因子的取值范围为[50,
100],最大奔袭次数的取值范围为[5,15],更新比例因子的取值范围为[2,6],最大迭代次数的取值范围为[500,1000],最大搜索精度的取值范围为[0.001,0.01];
步骤2.2:设定适应度函数,并确定初始最优头狼位置和迭代次数t,t=1;
将个体狼位置体对应的BP网络权值代入基于深度学习DBN网络的全局静态路径规划模型中,并利用个体狼位置确定的基于深度学习DBN网络的全局静态路径规划模型输出全局训练样本集中每个全局训练样本起点和终点对应的全局规划路径,将所有全局训练样本的规划全局路径和最优设计全局长度作商后,再取均值,作为第一适应度函数F1;
其中,M为训练样本数,n为输出的全局规划路径所经历的坐标点的个数,xi,j和xi,j-1为第i个样本使用该狼确定的深度学习DBN模型得到的路径中第j点和第j-1点的X轴坐标,类似的,yi,j和yi,j-1分别为第j点和第j-1点的标Y轴坐标,第j点和第j-1点为相邻两点,L为人工设置的样本对应最优设计全局路径的长度;
步骤2.3:更新狼群,并获得更新后的最优头狼位置;
依次对所有个体狼进行游走行为、奔袭行为、围攻行为、变异操作、交叉操作、选择操作;
步骤2.4:判断是否达到优化精度要求或t达到最大迭代次数,若达到,输出头狼的位置对应的BP网络的权值,若未达到,令t=t+1,返回步骤2.3。
4.根据权利要求1-3任一项所述的方法,其特征在于,运载机器人依据得到的最优全局规划路径前行,执行运输任务时,在前行过程中,利用Kinect传感器实时获取的新增障碍物所在区域的起点和终点输入局部动态避障规划模型进行避障;
利用局部避障训练样本集中每个样本的起点和终点坐标作为输入数据,对应的最优设计避障路径为输出,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的局部避障模型;
其中,在训练过程中,基于深度学习DBN网络的局部避障模型的BP网络权值采用混沌蝙蝠算法寻优确定;
所述Kinect传感器获取的新增障碍物所在区域的起点和终点是通过Kinect传感器发出测量信号与接收到的设置在天花板的定位片位置信息计算获得;
所述局部避障训练样本集是在全局地图三维坐标系中,设计至少200组可行走区域中新增障碍物所在区域中不同的点到点的最优设计避障路径构成,每条最优设计避障路径作为一个避障训练样本。
5.根据权利要求4所述的方法,其特征在于,对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的局部避障模型:
深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
第一层限制玻儿兹曼机RBM的训练是指,从200组避障规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
BP网络层的训练是指,使用混沌蝙蝠算法算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组避障训练样本,训练完成后输出整个DBN模型作为局部动态避障规划模型。
6.根据权利要求5所述的方法,其特征在于,所述基于深度学习DBN网络的局部避障模型中深度学习DBN网络所使用的BP网络权值采用混沌蝙蝠算法寻优获得的过程如下:
步骤4.1:以混沌蝙蝠个体的位置作为基于深度学习DBN网络的局部避障模型中深度学习DBN网络中的BP网络权值,设置混沌蝙蝠种群参数并初始化混沌蝙蝠种群中的混沌蝙蝠个体;
混沌蝙蝠种群规模M的取值范围为[120,300],蝙蝠个体最大脉冲频度R0,取值范围为[0.45,0.55],最大脉冲声音强度A0的取值范围为[0.40,0.6],蝙蝠搜索频度增加系数的取值范围为[0.03,0.05],声音强度衰减系的取值范围为[0.90,0.95],适应度方差阈值的取值范围为[0.01,0.05],搜索脉冲频率的取值范围为[0,0.15],最大迭代次数的取值范围为[300,1000],最大搜索精度的取值范围为[0.001,0.01];
步骤4.2:设定适应度函数,并确定初始最优混沌蝙蝠个体位置和迭代次数t,t=1;
将混沌蝙蝠个体位置对应的BP网络权值代入基于深度学习DBN网络的局部避障模型中,并利用混沌蝙蝠个体位置确定的基于深度学习DBN网络的局部避障模型输出避障训练样本集中每个避障训练样本起点和终点对应的规划局部路径,将所有避障训练样本的规划局部路径和最优设计避障长度作商后,再取均值,作为第二适应度函数F2;
步骤4.3:利用设定的脉冲频率更新混沌蝙蝠的搜索脉冲频率、位置和速度;
步骤4.4:若R1<Ri,则更新混沌蝙蝠当前位置,否则对混沌蝙蝠当前位置进行扰动,扰动后位置代替混沌蝙蝠当前位置;
其中,R1为在[0,1]上均匀分布的随机数,Ri为第i只混沌蝙蝠的脉冲频度;
步骤4.5:若R2<Ai,则利用步骤4.4得到的扰动位置作为混沌蝙蝠个体的最新位置,否则,不对混沌蝙蝠个体进行更新;
其中,R2为在[0,1]上均匀分布的随机数,Ai为第i只混沌蝙蝠的声音强度;
步骤4.6假如更新位置后蝙蝠个体i优于混沌蝙蝠种群中最优混沌蝙蝠个体位置F2(xi)>F2(x*),更新最优混沌蝙蝠个体位置,对所有混沌蝙蝠个体的脉冲频度和脉冲音强进行更新;
步骤4.7根据适应度值评估判定新的混沌蝙蝠群体,将混沌蝙蝠群体中适应度排在前
5%的混沌蝙蝠个体作为精英个体,对适应度排在后5%的混沌蝙蝠个体进行淘汰;
同时,对精英个体采用Logistic映射混沌优化策略进行优化,并随机产生新的混沌蝙蝠个体代替淘汰的混沌蝙蝠个体,得到新的混沌蝙蝠种群;
步骤4.8:依据每个混沌蝙蝠个体位置的适应度从新的混沌蝙蝠种群中,找出最优混沌蝙蝠个体位置;
步骤4.9:若满足预设搜索精度或达到最大迭代次数,则转入步骤4.10,否则,令t=t+
1,转步骤4.3,直到找到满足设定的最优混沌蝙蝠个体位置为止;
步骤4.10:输出最优混沌蝙蝠个体位置对应的基于深度学习DBN网络的局部避障模型中BP网络权值。
7.根据权利要求6所述的方法,其特征在于,利用运载机器人自带的Kinect传感器与设置在天花板的定位片,通过Kinect传感器发出的测量信号与接收到的定位片位置信息,获取运载机器人的实时位置,将实时位置与规划路径位置之间的误差进行比较,对实时前行中的运载机器人进行坐标校准。
8.根据权利要求7所述的方法,其特征在于,当运载机器人需要从一个楼层运动至另外一个楼层时,将全局路径规划分解成在两个楼层中的局部路径规划,每个局部路径规划均采用基于模糊神经网络的全局静态路径规划模型;
第一个局部路径规划的起点为运输任务起点,终点为第一个楼层的电梯所在位置;
第二个局部路径规划的起点为第二个楼层的电梯所在位置,终点为运输任务终点;
第一个楼层的电梯和第二个楼层的电梯为同一电梯。

说明书全文

一种智能环境下机器人运动路径深度学习控制规划方法

技术领域

[0001] 本发明属于机器人路径规划领域,特别涉及一种智能环境下机器人运动路径深度学习控制规划方法。

背景技术

[0002] 随着世界工业4.0的趋势,运载机器人越来越广泛的地被应用在实验室、工厂、医疗智能环境当中,执行运输各种零件、试验原料、医疗物品等任务,代替工人进行体劳动,大幅提升自动化平。其中,路径规划作为移动机器人导航关键技术,直接决定了机器人完成运输任务的质量
[0003] 当前典型的路径规划方法包括:传统的有栅格法、人工势场法、Dijkstra算法、A*算法、Voronoi图等。智能算法有模糊规则法、神经网络算法、遗传算法、蚁群算法、粒子群优化等方法。如中国专利CN105116902A中公开一种移动机器人避障导航的方法和系统,包括该方法包括:建立家庭环境的全局地图;设置机器人移动的起点和终点;根据A*算法规划机器人的移动路径;在所述全局地图中标记障碍物的位置;根据A*算法重新规划机器人的移动路径;根据所述规划的路径控制机器人移动;机器人到达终点,则停止移动。A*算法是机器人路径规划中最有效的直接搜索方法,搜索速度快,效率高,但是易陷于局部最优。

发明内容

[0004] 本发明提供了一种智能环境下机器人运动路径深度学习控制规划方法,其目的在于,克服上述现有技术中存在的问题,通过分别建立全局静态路径规划模型和局部动态避障规划模型,利用深度学习的极强的非线性拟合特性,快速的找到全局最优路径,避免了常见的路径规划中陷入局部最优的问题。在全局静态路径规划中使用差分进化狼群算法优化BP层的深度置信网络模型,局部动态避障规划中使用混沌蝙蝠算法优化BP层的深度置信网络模型,保证了路径规划中路径的最优特性。
[0005] 一种智能环境下机器人运动路径深度学习控制规划方法,包括以下步骤:
[0006] 步骤1:对运载机器人运载区域构建全局地图三维坐标系,获取在全局地图三维坐标系下的可行走区域坐标;
[0007] 运载区域地面中心点为原点,正东方向为X轴,正北方向为Y轴,垂直地面方向为Z轴;
[0008] 所述运载机器人运载区域为一个楼栋内所有的地板连通区域,所述可行走区域是指从所有的地板连通区域中删除楼栋内的障碍物所在区域;
[0009] 在全局地图三维坐标系中,每个楼层的地板连通区域的二维平面坐标相同,z坐标不同;
[0010] 步骤2:获取训练样本集;
[0011] 在全局地图三维坐标系中,设计至少200组可行走区域中不同的点到点的最优设计全局路径,以每条最优设计全局路径作为一个训练样本;
[0012] 步骤3:构建运载机器人的全局静态路径规划模型;
[0013] 利用全局训练样本集中每个全局样本的起点-终点坐标和对应的最优设计全局路径分别作为输入数据和输出数据,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的全局静态路径规划模型;
[0014] 其中,在全局训练过程中,深度学习DBN网络所使用的BP网络权值采用差分进化狼群算法进行寻优获得;
[0015] 步骤4:分别将运输任务中从初始待命点到取物点,从取物点到放物点,和从放物点到待命点坐标输入至基于深度学习DBN网络的全局静态路径规划模型,获得对应区间的运载机器人最优全局规划路径。
[0016] 运载机器人依据得到的最优规划路径前行,完成运输任务。
[0017] 运载机器人得到从初始待命点出发前往取物点,得到运输物品后前往放物点,放下物品后前往放物点最近的待命点。
[0018] 进一步的,对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的全局静态路径规划模型:
[0019] 深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
[0020] 使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
[0021] 第一层限制玻儿兹曼机RBM的训练是指,从200组静态规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0022] 第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0023] BP网络层的训练是指,使用差分进化狼群算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组训练样本,训练完成后输出整个DBN模型作为全局静态路径规划算法模型。
[0024] 进一步的,所述基于深度学习DBN网络的全局静态路径规划模型所使用的BP网络权值采用差分进化狼群算法进行寻优获得的过程如下:
[0025] 步骤2.1:以个体狼的位置作为BP网络权值,初始化狼群中的个体狼并设置狼群参数;
[0026] 狼群包含多只个体狼;
[0027] 狼群规模的取值范围为[50,300],步长因子的取值范围为[80,160],探狼比例因子的取值范围为[2,6],最大游走次数的取值范围为[15,30],距离判定因子的取值范围为[50,100],最大奔袭次数的取值范围为[5,15],更新比例因子的取值范围为[2,6],最大迭代次数的取值范围为[500,1000],最大搜索精度的取值范围为[0.001,0.01];
[0028] 步骤2.2:设定适应度函数,并确定初始最优头狼位置和迭代次数t,t=1;
[0029] 将个体狼位置体对应的BP网络权值代入基于深度学习DBN网络的全局静态路径规划模型中,并利用个体狼位置确定的基于深度学习DBN网络的全局静态路径规划模型输出全局训练样本集中每个全局训练样本起点和终点对应的全局规划路径,将所有全局训练样本的规划全局路径和最优设计全局长度作商后,再取均值,作为第一适应度函数F1;
[0030]
[0031] 其中,M为训练样本数,n为输出的全局规划路径所经历的坐标点的个数,xi,j和xi,j-1为第i个全局样本使用该狼确定的深度学习DBN模型得到的路径中第j点和第j-1点的X轴坐标,类似的,yi,j和yi,j-1分别为第j点和第j-1点的标Y轴坐标,第j点和第j-1点为相邻两点,L为人工设置的样本对应最优设计全局路径的长度;
[0032] 模型输出的路径越短,个体狼的适应度F越大,个体狼越优秀。
[0033] 步骤2.3:更新狼群,并获得更新后的最优头狼位置;
[0034] 依次对所有个体狼进行游走行为、奔袭行为、围攻行为、变异操作、交叉操作、选择操作;
[0035] 步骤2.4:判断是否达到优化精度要求或t达到最大迭代次数,若达到,输出头狼的位置对应的BP网络的权值,若未达到,令t=t+1,返回步骤2.3。
[0036] 进一步的,运载机器人依据得到的最优全局规划路径前行,执行运输任务时,在前行过程中,利用Kinect传感器实时获取的新增障碍物所在区域的起点和终点输入局部动态避障规划模型进行避障;
[0037] 利用局部避障训练样本集中每个样本的起点和终点坐标作为输入数据,对应的最优设计避障路径为输出,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的局部避障模型;
[0038] 其中,在训练过程中,基于深度学习DBN网络的局部避障模型的BP网络权值采用混沌蝙蝠算法寻优确定;
[0039] 所述Kinect传感器获取的新增障碍物所在区域的起点和终点是通过Kinect传感器发出测量信号与接收到的设置在天花板的定位片位置信息计算获得;
[0040] 所述局部避障训练样本集是在全局地图三维坐标系中,设计至少200组可行走区域中新增障碍物所在区域中不同的点到点的最优设计避障路径构成,每条最优设计避障路径作为一个避障训练样本。
[0041] 进一步的,对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的局部避障模型:
[0042] 深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
[0043] 使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
[0044] 第一层限制玻儿兹曼机RBM的训练是指,从200组避障规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0045] 第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0046] BP网络层的训练是指,使用混沌蝙蝠算法算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组避障训练样本,训练完成后输出整个DBN模型作为局部动态避障规划模型。
[0047] 进一步的,所述基于深度学习DBN网络的局部避障模型中深度学习DBN网络所使用的BP网络权值采用混沌蝙蝠算法寻优获得的过程如下:
[0048] 步骤4.1:以混沌蝙蝠个体的位置作为基于深度学习DBN网络的局部避障模型中深度学习DBN网络中的BP网络权值,设置混沌蝙蝠种群参数并初始化混沌蝙蝠种群中的混沌蝙蝠个体;
[0049] 混沌蝙蝠种群规模M的取值范围为[120,300],蝙蝠个体最大脉冲频度R0,取值范围为[0.45,0.55],最大脉冲声音强度A0的取值范围为[0.40,0.6],蝙蝠搜索频度增加系数的取值范围为[0.03,0.05],声音强度衰减系的取值范围为[0.90,0.95],适应度方差阈值的取值范围为[0.01,0.05],搜索脉冲频率的取值范围为[0,0.15],最大迭代次数的取值范围为[300,1000],最大搜索精度的取值范围为[0.001,0.01];
[0050] 步骤4.2:设定适应度函数,并确定初始最优混沌蝙蝠个体位置和迭代次数t,t=1;
[0051] 将混沌蝙蝠个体位置对应的BP网络权值代入基于深度学习DBN网络的局部避障模型中,并利用混沌蝙蝠个体位置确定的基于深度学习DBN网络的局部避障模型输出避障训练样本集中每个避障训练样本起点和终点对应的规划局部路径,将所有避障训练样本的规划局部路径和最优设计避障长度作商后,再取均值,作为第二适应度函数F2;
[0052]
[0053] 其中,M为训练样本数,n为输出的局部避障路径所经历的坐标点的个数,xi,j和xi,j-1为第i个避障训练样本使用该蝙蝠确定的深度学习DBN模型得到的路径中第j点和第j-1点的X轴坐标,类似的,yi,j和yi,j-1分别为第j点和第j-1点的标Y轴坐标,第j点和第j-1点为相邻两点,L为人工设置的样本对应最优设计避障路径的长度;
[0054] 模型输出的路径越短,蝙蝠个体的适应度F越大,蝙蝠个体越优秀。
[0055] 步骤4.3:利用设定的脉冲频率更新混沌蝙蝠的搜索脉冲频率、位置和速度;
[0056] 步骤4.4:若R1<Ri,则更新混沌蝙蝠当前位置,否则对混沌蝙蝠当前位置进行扰动,扰动后位置代替混沌蝙蝠当前位置;
[0057] 其中,R1为在[0,1]上均匀分布的随机数,Ri为第i只混沌蝙蝠的脉冲频度;
[0058] 步骤4.5:若R2<Ai,则利用步骤4.4得到的扰动位置作为混沌蝙蝠个体的最新位置,否则,不对混沌蝙蝠个体进行更新;
[0059] 其中,R2为在[0,1]上均匀分布的随机数,Ai为第i只混沌蝙蝠的声音强度;
[0060] 步骤4.6假如更新位置后蝙蝠个体i优于混沌蝙蝠种群中最优混沌蝙蝠个体位置*F2(xi)>F2(x),更新最优混沌蝙蝠个体位置,对所有混沌蝙蝠个体的脉冲频度和脉冲音强进行更新;
[0061] 步骤4.7根据适应度值评估判定新的混沌蝙蝠群体,将混沌蝙蝠群体中适应度排在前5%的混沌蝙蝠个体作为精英个体,对适应度排在后5%的混沌蝙蝠个体进行淘汰;
[0062] 同时,对精英个体采用Logistic映射混沌优化策略进行优化,并随机产生新的混沌蝙蝠个体代替淘汰的混沌蝙蝠个体,得到新的混沌蝙蝠种群;
[0063] 步骤4.8:依据每个混沌蝙蝠个体位置的适应度从新的混沌蝙蝠种群中,找出最优混沌蝙蝠个体位置;
[0064] 步骤4.9:若满足预设搜索精度或达到最大迭代次数,则转入步骤4.10,否则,令t=t+1,转步骤4.3,直到找到满足设定的最优混沌蝙蝠个体位置为止;
[0065] 步骤4.10:输出最优混沌蝙蝠个体位置对应的基于深度学习DBN网络的局部避障模型中BP网络权值。
[0066] 进一步的,利用运载机器人自带的Kinect传感器与设置在天花板的定位片,通过Kinect传感器发出的测量信号与接收到的定位片位置信息,获取运载机器人的实时位置,将实时位置与规划路径位置之间的误差进行比较,对实时前行中的运载机器人进行坐标校准。
[0067] 进一步的,当运载机器人需要从一个楼层运动至另外一个楼层时,将全局路径规划分解成在两个楼层中的局部路径规划,每个局部路径规划均采用基于模糊神经网络的全局静态路径规划模型;
[0068] 第一个局部路径规划的起点为运输任务起点,终点为第一个楼层的电梯所在位置;
[0069] 第二个局部路径规划的起点为第二个楼层的电梯所在位置,终点为运输任务终点;
[0070] 第一个楼层的电梯和第二个楼层的电梯为同一电梯。
[0071] 根据实际任务的起点和终点使用路径规划算法模型进行路径规划,如果起点和终点跨楼层,那么路径规划的输入改为起点坐标和起点楼层电梯路径点坐标,终点和终点楼层电梯路径点坐标,输出两个楼层中的最优线路,并将其与电梯模进行连接,构成完整路径轨迹。没有跨楼层情况发生的情况下,直接输入起点和终点坐标,使用算法模型进行路径规划。
[0072] 定位片布置方法如下:
[0073] 在机器人工作环境中布置定位片,用以机器人在运行中实时校准自身坐标在全局坐标系中的位置。
[0074] 首先保证全局环境内部能够被定位片覆盖,在室内环境下定位片密度为一个定位片控制1.5m2范围的环境,在楼道中每隔3m设置一个定位片。
[0075] 其次,在机器人的待命处,取物处,放物处,电梯前,门禁前等地点布置定位片,有利于机器人在保证自身位置精度的基础进行取物、放物、门禁交互、电梯交互操作。
[0076] 在前行过程中,利用运载机器人自带的Kinect传感器获取障碍物所在区域信息,将新增障碍物所在的区域从可行区域中删除,更新可行区域范围。
[0077] 从初始待命点出发前往取物点,得到运输物品后前往放物点,放下物品后返回待命点。
[0078] 有益效果
[0079] 本发明提供了一种智能环境下机器人运动路径深度学习控制规划方法,该方法利用深度学习的隐藏层数增多提升网络的复杂性,相比于各种神经网络网络,深度学习以其极强的拟合能力,使机器人路径规划中将全局地图坐标划分极细的条件下导致的巨大运算量的运算成为可能,使用深度学习使规划的路径平滑化,真正的趋近于全局最优。避障操作时,使用训练完毕的深度学习模型,相比于普通神经网络以及算法,时间上可以优化一半以上,同时保证路径的最优。附图说明
[0080] 图1为本发明所述方法的路径规划流程图
[0081] 图2为本发明设计的深度学习DBN网络结构图。

具体实施方式

[0082] 下面将结合附图和实施例对本发明做进一步的说明。
[0083] 如图1所示,一种智能环境下机器人运动路径深度学习控制规划方法,包括以下步骤:
[0084] 步骤1:对运载机器人运载区域构建全局地图三维坐标系,获取在全局地图三维坐标系下的可行走区域坐标;
[0085] 运载区域地面中心点为原点,正东方向为X轴,正北方向为Y轴,垂直地面方向为Z轴;
[0086] 所述运载机器人运载区域为一个楼栋内所有的地板连通区域,所述可行走区域是指从所有的地板连通区域中删除楼栋内的障碍物所在区域;
[0087] 在全局地图三维坐标系中,每个楼层的地板连通区域的二维平面坐标相同,z坐标不同;
[0088] 步骤2:获取训练样本集;
[0089] 在全局地图三维坐标系中,设计200组可行走区域中不同的点到点的最优设计全局路径,以每条最优设计全局路径作为一个训练样本;
[0090] 步骤3:构建运载机器人的全局静态路径规划模型;
[0091] 利用全局训练样本集中每个全局样本的起点-终点坐标和对应的最优设计全局路径分别作为输入数据和输出数据,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的全局静态路径规划模型;
[0092] 对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的全局静态路径规划模型:
[0093] 深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
[0094] 使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
[0095] 第一层限制玻儿兹曼机RBM的训练是指,从200组静态规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0096] 第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0097] BP网络层的训练是指,使用差分进化狼群算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组训练样本,训练完成后输出整个DBN模型作为全局静态路径规划算法模型。
[0098] 在全局训练过程中,深度学习DBN网络所使用的BP网络权值采用差分进化狼群算法进行寻优获得;
[0099] 所述基于深度学习DBN网络的全局静态路径规划模型所使用的BP网络权值采用差分进化狼群算法进行寻优获得的过程如下:
[0100] 步骤2.1:以个体狼的位置作为BP网络权值,初始化狼群中的个体狼并设置狼群参数;
[0101] 狼群包含多只个体狼;
[0102] 狼群规模的取值为200,步长因子的取值为90,探狼比例因子的取值为4,最大游走次数的取值为25,距离判定因子的取值为60,最大奔袭次数的取值为10,更新比例因子的取值为3,最大迭代次数的取值为800,最大搜索精度的取值为0.001;
[0103] 步骤2.2:设定适应度函数,并确定初始最优头狼位置和迭代次数t,t=1;
[0104] 将个体狼位置体对应的BP网络权值代入基于深度学习DBN网络的全局静态路径规划模型中,并利用个体狼位置确定的基于深度学习DBN网络的全局静态路径规划模型输出全局训练样本集中每个全局训练样本起点和终点对应的全局规划路径,将所有全局训练样本的规划全局路径和最优设计全局长度作商后,再取均值,作为第一适应度函数F1;
[0105]
[0106] 其中,M为训练样本数,n为输出的全局规划路径所经历的坐标点的个数,xi,j和xi,j-1为第i个全局样本使用该狼确定的深度学习DBN模型得到的路径中第j点和第j-1点的X轴坐标,类似的,yi,j和yi,j-1分别为第j点和第j-1点的标Y轴坐标,第j点和第j-1点为相邻两点,L为人工设置的样本对应最优设计全局路径的长度;
[0107] 模型输出的路径越短,个体狼的适应度F越大,个体狼越优秀。
[0108] 步骤2.3:更新狼群,并获得更新后的最优头狼位置;
[0109] 依次对所有个体狼进行游走行为、奔袭行为、围攻行为、变异操作、交叉操作、选择操作;
[0110] 步骤2.4:判断是否达到优化精度要求或t达到最大迭代次数,若达到,输出头狼的位置对应的BP网络的权值,若未达到,返回步骤2.3,并且t=t+1。
[0111] 步骤4:分别将运输任务中从初始待命点到取物点,从取物点到放物点,和从放物点到待命点坐标输入至基于深度学习DBN网络的全局静态路径规划模型,获得对应的运载机器人最优全局规划路径。
[0112] 运载机器人依据得到的最优规划路径前行,完成运输任务。
[0113] 运载机器人得到从初始待命点出发前往取物点,得到运输物品后前往放物点,放下物品后前往放物点最近的待命点。
[0114] 运载机器人依据得到的最优全局规划路径前行,执行运输任务时,在前行过程中,利用Kinect传感器实时获取的新增障碍物所在区域的起点和终点输入局部动态避障规划模型进行避障;
[0115] 所述Kinect传感器获取的新增障碍物所在区域的起点和终点是通过Kinect传感器发出测量信号与接收到的设置在天花板的定位片位置信息计算获得;
[0116] 利用运载机器人自带的Kinect传感器与设置在天花板的定位片,通过Kinect传感器发出的测量信号与接收到的定位片位置信息,获取运载机器人的实时位置,将实时位置与规划路径位置之间的误差进行比较,对实时前行中的运载机器人进行坐标校准。
[0117] 利用局部避障训练样本集中每个样本的起点和终点坐标作为输入数据,对应的最优设计避障路径为输出,对深度学习DBN网络进行训练,得到基于深度学习DBN网络的局部避障模型;
[0118] 在训练过程中,基于深度学习DBN网络的局部避障模型的BP网络权值采用混沌蝙蝠算法寻优确定;
[0119] 所述局部避障训练样本集是在全局地图三维坐标系中,设计200组可行走区域中新增障碍物所在区域中不同的点到点的最优设计避障路径构成,每条最优设计避障路径作为一个避障训练样本。
[0120] 对深度学习DBN网络进行如下训练过程得到基于深度学习DBN网络的局部避障模型:
[0121] 深度学习DBN模型包括为五层,分别为:一层输入层、三层隐藏层以及一层输出层,其中可视层和第一隐藏层构成第一层限制玻儿兹曼机RBM,第一隐藏层和第二隐藏层构成第二层限制玻儿兹曼机RBM,第二隐藏层和第三隐藏层构成BP网络层;
[0122] 使用逐层训练的方法依次对两层限制玻儿兹曼机RBM和BP网络层进行训练:
[0123] 第一层限制玻儿兹曼机RBM的训练是指,从200组避障规划训练样本中随机抽取150组训练样本作为第一层限制玻儿兹曼机RBM训练样本,训练完成后得到第一层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0124] 第二层限制玻儿兹曼机RBM的训练是指,使用与第一层第一层限制玻儿兹曼机RBM训练时相同的150组训练样本,以及同样的方法训练第二层限制玻儿兹曼机RBM,得到第二层限制玻儿兹曼机RBM的参数:权值矩阵、可见层偏置以及隐藏层偏置;
[0125] BP网络层的训练是指,使用混沌蝙蝠算法算法优化的BP网络对整个DBN模型进行微调,训练样本为剩余的50组避障训练样本,训练完成后输出整个DBN模型作为局部动态避障规划模型。
[0126] 所述基于深度学习DBN网络的局部避障模型中深度学习DBN网络所使用的BP网络权值采用混沌蝙蝠算法寻优获得的过程如下:
[0127] 步骤4.1:以混沌蝙蝠个体的位置作为基于深度学习DBN网络的局部避障模型中深度学习DBN网络中的BP网络权值,设置混沌蝙蝠种群参数并初始化混沌蝙蝠种群中的混沌蝙蝠个体;
[0128] 混沌蝙蝠种群规模M的取值范围为200,蝙蝠个体最大脉冲频度R0,取值为0.5,最大脉冲声音强度A0的取值范围为0.5,蝙蝠搜索频度增加系数的取值范围为0.04,声音强度衰减系的取值范围为0.95,适应度方差阈值的取值范围为0.01,搜索脉冲频率的取值范围为[0,0.15],最大迭代次数的取值范围为800,最大搜索精度的取值范围为0.001;
[0129] 步骤4.2:设定适应度函数,并确定初始最优混沌蝙蝠个体位置和迭代次数t,t=1;
[0130] 将混沌蝙蝠个体位置对应的BP网络权值代入基于深度学习DBN网络的局部避障模型中,并利用混沌蝙蝠个体位置确定的基于深度学习DBN网络的局部避障模型输出避障训练样本集中每个避障训练样本起点和终点对应的规划局部路径,将所有避障训练样本的规划局部路径和最优设计避障长度作商后,再取均值,作为第二适应度函数F2;
[0131]
[0132] 其中,M为训练样本数,n为输出的局部避障路径所经历的坐标点的个数,xi,j和xi,j-1为第i个避障样本使用该蝙蝠确定的深度学习DBN模型得到的路径中第j点和第j-1点的X轴坐标,类似的,yi,j和yi,j-1分别为第j点和第j-1点的标Y轴坐标,第j点和第j-1点为相邻两点,L为人工设置的样本对应最优设计避障路径的长度;
[0133] 模型输出的路径越短,蝙蝠个体的适应度F越大,蝙蝠个体越优秀。
[0134] 步骤4.3:利用设定的脉冲频率更新混沌蝙蝠的搜索脉冲频率、位置和速度;
[0135] 步骤4.4:若R1<Ri,则更新混沌蝙蝠当前位置,否则对混沌蝙蝠当前位置进行扰动,扰动后位置代替混沌蝙蝠当前位置;
[0136] 其中,R1为在[0,1]上均匀分布的随机数,Ri为第i只混沌蝙蝠的脉冲频度;
[0137] 步骤4.5:若R2<Ai,则利用步骤4.4得到的扰动位置作为混沌蝙蝠个体的最新位置,否则,不对混沌蝙蝠个体进行更新;
[0138] 其中,R2为在[0,1]上均匀分布的随机数,Ai为第i只混沌蝙蝠的声音强度;
[0139] 步骤4.6:假如更新位置后蝙蝠个体i优于混沌蝙蝠种群中最优混沌蝙蝠个体位置*F2(xi)>F2(x),更新最优混沌蝙蝠个体位置,对所有混沌蝙蝠个体的脉冲频度和脉冲音强进行更新;
[0140] 步骤4.7:根据适应度值评估判定新的混沌蝙蝠群体,将混沌蝙蝠群体中适应度排在前5%的混沌蝙蝠个体作为精英个体,对适应度排在后5%的混沌蝙蝠个体进行淘汰;
[0141] 同时,对精英个体采用Logistic映射混沌优化策略进行优化,并随机产生新的混沌蝙蝠个体代替淘汰的混沌蝙蝠个体,得到新的混沌蝙蝠种群;
[0142] 步骤4.8:依据每个混沌蝙蝠个体位置的适应度从新的混沌蝙蝠种群中,找出最优混沌蝙蝠个体位置;
[0143] 步骤4.9:若满足预设搜索精度或达到最大迭代次数,则转入步骤4.10,否则,令t=t+1,转步骤4.3,直到找到满足设定的最优混沌蝙蝠个体位置为止;
[0144] 步骤4.10:输出最优混沌蝙蝠个体位置对应的基于深度学习DBN网络的局部避障模型中BP网络权值。
[0145] 当运载机器人需要从一个楼层运动至另外一个楼层时,将全局路径规划分解成在两个楼层中的局部路径规划,每个局部路径规划均采用基于模糊神经网络的全局静态路径规划模型;
[0146] 第一个局部路径规划的起点为运输任务起点,终点为第一个楼层的电梯所在位置;
[0147] 第二个局部路径规划的起点为第二个楼层的电梯所在位置,终点为运输任务终点;
[0148] 第一个楼层的电梯和第二个楼层的电梯为同一电梯。
[0149] 根据实际任务的起点和终点使用路径规划算法模型进行路径规划,如果起点和终点跨楼层,那么路径规划的输入改为起点坐标和起点楼层电梯路径点坐标,终点和终点楼层电梯路径点坐标,输出两个楼层中的最优线路,并将其与电梯模块进行连接,构成完整路径轨迹。没有跨楼层情况发生的情况下,直接输入起点和终点坐标,使用算法模型进行路径规划。
[0150] 运输过程中,机器人开启安装于头部的Kinect,并实时监测路径前方的道路通畅情况,一旦发现有障碍物,通过头部Kinect的深度传感器将障碍物的轮廓位置扫描并传输到车载计算机,计算机开启局部动态避障MEA-MKSVM模型,将障碍物轮廓位置,对应为不可行区域添加在地图中,计算最优避障路径,并根据最优避障路径通过障碍物;
[0151] 定位片布置方法如下:
[0152] 在机器人工作环境中布置定位片,用以机器人在运行中实时校准自身坐标在全局坐标系中的位置。
[0153] 首先保证全局环境内部能够被定位片覆盖,在室内环境下定位片密度为一个定位片控制1.5m2范围的环境,在楼道中每隔3m设置一个定位片。
[0154] 其次在机器人的待命处,取物处,放物处,电梯门前,门禁前等地点布置定位片,有利于机器人在保证自身位置精度的基础进行取物、放物、门禁交互、电梯交互操作。
[0155] 在前行过程中,利用运载机器人自带的Kinect传感器获取障碍物所在区域信息,将。
[0156] 从初始待命点出发前往取物点,得到运输物品后前往放物点,放下物品后前往待命点。
[0157] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
QQ群二维码
意见反馈