首页 / 专利库 / 电脑图像 / 虚拟摄像机 / 一种基于虚拟场景训练的机器人避障方法

一种基于虚拟场景训练的机器人避障方法

阅读:525发布:2020-05-12

专利汇可以提供一种基于虚拟场景训练的机器人避障方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于虚拟场景训练的 机器人 避障方法。所述方法包括以下步骤:S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;基于S1构建的 虚拟环境 ,采用域随机化 算法 ,获取数据集;构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割 机械臂 ,人体肢干,背景的语义分割模型;约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建 强化学习 模型,对机械臂进行避障训练;将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。本发明以构建虚拟环境的方式,在虚拟环境中采用域随机化得到充足的数据集,训练得到一个鲁棒性良好的语义分割网络,结合基于Sarsa-lamda强化学习模型,实现机械臂轨迹重构以及有效避障。,下面是一种基于虚拟场景训练的机器人避障方法专利的具体信息内容。

1.一种基于虚拟场景训练的机器人避障方法,其特征在于,包括以下步骤:
S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;
S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;
S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;
S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;
S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。
2.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S1包括以下步骤:
S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台。
3.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S2中包括以下步骤:
S2.1、在步骤S1得到的虚拟环境中,进行随机化;
S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集。
4.根据权利要求3所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S2.1中,采用域随机化算法进行以下的随机化:
S2.1.1、随机化摄像机镜头的俯仰、方位角和偏移参数;
S2.1.2、随机化灯光的数量,强度;
S2.1.3、随机化深度信息的噪声;
S2.1.4、随机化人体肢干部,桌面,机器人的颜色
5.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S3中,语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
S3.1、采用图像分割(FCNs)技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;
S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置像素点的值组成向量,经过sofmax函数处理,选取概率值最大的像素点的值为代表,将特征图由C*H*W转化为H*W;损失函数L由下列式子构成:
其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
6.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S3.1中,改进后的语义分割网络的结构如下:
Input_images(C*H*W)
->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
->Output(Num_class*H*W);
其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
7.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4包括以下步骤:
S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;
S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1;
S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建。
8.根据权利要求7所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4.1具体包括以下步骤:
S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
9.根据权利要求7所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4.4具体包括以下步骤:
S4.4.1、创建Q(s,a)函数并随机初始化;
S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;
设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有
1-ε的概率随机选取动作;依次执行以下流程:
δ=R+γ*Q(S',A')-Q(S,A)
E(S,A)=E(S,A)+1
Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
E(s,a)=γ*λ*E(s,a) forall s∈S,a∈A
其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
10.根据权利要求书1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S5中,语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4所述的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。

说明书全文

一种基于虚拟场景训练的机器人避障方法

技术领域

[0001] 本发明涉及机器人避障领域,具体涉及一种基于虚拟场景训练的机器人避障方法。

背景技术

[0002] 在工业4.0的今天,形形色色的机器人走入工厂,它们代替工人们完成精密的,费的,亦或是危险的任务。显而易见的是,机器人们不会觉得疲倦,它们会严格地遵循着设计程序高效地运作。优良的性价比使得机器人们受到工业界的欢迎,很多工厂引进机器人,通过连接合适的传感器使得机器人能和环境交互,以此来完成对应的工业任务。
[0003] 然而,随着工业机器人普及,人机安全问题也被频频提出。尽管工厂管理人员着力于对工人们进行人机安全培训,企图在主观能动方面控制人机安全问题。但在一些时候,由于各种各样的原因,机器运作会和人的运动发生碰撞冲突,危险总是难以意料地发生。通过提出一种碰撞检测的方法,让处于同一个工作空间的机器人能够在与工人发生碰撞前急停或规避,或者是与工人发生碰撞后尽快将危险降至最低,已经成为目前研究的热课题。
[0004] 目前机器人碰撞检测的主流技术主要有基于力反馈技术方案,基于柔性杆件或柔性关节技术方案,以及基于红外线或视觉传感器的技术方案。基于力反馈技术方案(刘家武,“六自由度串联式力反馈机械臂研发与应用研究”),可实现通过机械臂关节处的力反馈装置,捕获来自外部的撞击,紧急制动,以达到避免二次伤害的目的。但这种方法存在缺陷。一是机械臂必须在碰撞后才能停止,二是紧急制动的同时也会停止当前指令,对机身和当前任务影响较大。柔性机械臂(许斌,"Two performance enhanced control of flexible-link manipulator with system uncertainty and disturbances",2017)很好地解决了部分问题,采用柔性杆件或柔性关节的柔性机械臂在收到撞击时展示出极为良好的缓冲效果,大大降低碰撞可能造成的伤害,但该方法也只能在碰撞后发挥作用。想要让机械臂能提前预知碰撞,甚至主动去规避碰撞,需采用第三种方法,给机械臂连接额外的传感器,如,红外线传感器,视觉传感器。哈佛商学院一项研究表明,视觉占人脑每天从外界获取到信息的
83%。而同样道理通过视觉传感器,机器人能从外界获取更多的信息。运用视觉传感器来支撑机器人避障所需要的信息量具有极大的可行性。但此法极大地受限于传感器的工作参数和质量,尽管有很多方法(Koditschek,D.E.,Exact robot navigation by means of potential functions:Some topological considerations,In Proc.IEEE 
Int.Conf.Robotics Automation,1987,Zhu,X.Y.,Zhu,L.M.,Zhong,B.L.,Robot collision-free path planning utilizing gauge function,Science in China,Series E,1997,40,Xiong,Y.L.,Ding,H.,General criterion and control strategy of collision-free movement for manipulators,Int.J.Robotics&Automation,1989,4)试图在算法决策上改善这一点。当受到外界光源温度,物理撞击影响时,传感器对外界信息采集会受到一定的影响。而在多数情况下,视觉信息的微小变化可能导致基于视觉的模型产生极大的误差。我们的方法是在虚拟的环境中,使用域随机化算法,提升模型的鲁棒性,解决视觉传感器容易受到外界干扰的问题。当虚拟环境下训练的模型迁移到现实时,模型有更好的泛化能力,以提供给强化学习更为稳定,靠谱的视觉信息判定结果。

发明内容

[0005] 本发明以构建虚拟环境的方式,在虚拟环境中采用域随机化得到充足的数据集,训练得到一个鲁棒性良好的语义分割网络,结合基于Sarsa-lamda强化学习模型,实现机械臂轨迹重构以及有效避障。
[0006] 本发明的目至少通过如下技术方案之一实现。
[0007] 一种基于虚拟场景训练的机器人避障方法,包括以下步骤:
[0008] S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;
[0009] S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;
[0010] S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;
[0011] S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;
[0012] S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。
[0013] 进一步地,步骤S1包括以下步骤:
[0014] S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
[0015] S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台。
[0016] 进一步地,步骤S2中包括以下步骤:
[0017] S2.1、在步骤S1得到的虚拟环境中,进行随机化;
[0018] S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
[0019] S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
[0020] S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集。
[0021] 进一步地,步骤S2.1中,采用域随机化算法进行以下的随机化:
[0022] S2.1.1、随机化摄像机镜头的俯仰、方位角和偏移参数;
[0023] S2.1.2、随机化灯光的数量,强度;
[0024] S2.1.3、随机化深度信息的噪声;
[0025] S2.1.4、随机化人体肢干部,桌面,机器人的颜色
[0026] 进一步地,步骤S3中,语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
[0027] S3.1、采用图像分割(FCNs)技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;因为在简单的少类别的分割情景中,低层网络学习到的特征已经足够胜任。同时,更少层的池化层和上采样次数将有效地减轻模型重量,减少运行时间。
[0028] S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
[0029] S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置像素点的值组成向量,经过sofmax函数处理,选取概率值最大的像素点的值为代表,将特征图由C*H*W转化为H*W;损失函数L由下列式子构成:
[0030]
[0031] 其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
[0032] 进一步地,步骤S3.1中,改进后的语义分割网络的结构如下:
[0033] Input_images(C*H*W)
[0034] ->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)[0035] ->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
[0036] ->Output(Num_class*H*W);
[0037] 其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
[0038] 进一步地,步骤S4包括以下步骤:
[0039] S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;
[0040] S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
[0041] S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
[0042]
[0043] 其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1;
[0044] S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建。
[0045] 进一步地,步骤S4.1具体包括以下步骤:
[0046] S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
[0047] S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
[0048] S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
[0049] 10、进一步地,步骤S4.4具体包括以下步骤:
[0050] S4.4.1、创建Watkins论文Learning from Delayed Reward提出的Q(s,a)函数并随机初始化;
[0051] S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
[0052] S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有1-ε的概率随机选取动作;依次执行以下流程:
[0053] δ=R+γ*Q(S',A')-Q(S,A)
[0054] E(S,A)=E(S,A)+1
[0055] Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
[0056] E(s,a)=γ*λ*E(s,a) for all s∈S,a∈A
[0057] 其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
[0058] S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
[0059] 进一步地,步骤S5中,语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4所述的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。
[0060] 与现有技术相比,本发明具有以下优势:
[0061] (1)本发明实现了机械臂碰撞预警,并为机械臂重新规划新的目标轨迹,降低对当前任务的影响。
[0062] (2)本发明采用域随机算法获取了充足数据,深度学习模型具有很高的鲁棒性,这给强化学习提供了稳定的视觉信息判断。
[0063] (3)新轨迹规划过程强化学习的奖励随机械臂和人体躯干改变而调整,能够实时获取人体肢干位置,并及时规划新路径。新路径尚未规划完成前,机械臂可以处于静止状态。附图说明
[0064] 图1为本发明实施例中基于强化学习和域随机化深度学习模型的机器人避障方法的流程图
[0065] 图2为本发明实施例中语义分割网络结构图。

具体实施方式

[0066] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明的具体实施进行详细说明。
[0067] 一种基于虚拟场景训练的机器人避障方法,如图1所示,包括以下步骤:
[0068] S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;包括以下步骤:
[0069] S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
[0070] S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台。
[0071] S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;包括以下步骤:
[0072] S2.1、在步骤S1得到的虚拟环境中,进行随机化;采用域随机化算法进行以下的随机化:
[0073] S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数;
[0074] S2.1.2、随机化灯光的数量,强度;
[0075] S2.1.3、随机化深度信息的噪声;
[0076] S2.1.4、随机化人体肢干部,桌面,机器人的颜色。
[0077] S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
[0078] S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
[0079] S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集。
[0080] S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
[0081] S3.1、采用图像分割(FCNs)技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;因为在简单的少类别的分割情景中,低层网络学习到的特征已经足够胜任。同时,更少层的池化层和上采样次数将有效地减轻模型重量,减少运行时间。
[0082] 如图2所示,改进后的语义分割网络的结构如下:
[0083] Input_images(C*H*W)
[0084] ->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
[0085] ->Output(Num_class*H*W);
[0086] 其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
[0087] 如图2所示,以网格的形式代表特征图,行、列的小网格数可代表特征图的宽和长,经过池化层后特征图的长宽变小,经过上采样层后特征图的长宽变大,并最终和输入图像大小一致。
[0088] S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
[0089] S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置的像素点的值组成向量,经过sofmax函数处理,选取概率值最大的像素点的值为代表,将特征图由C*H*W转化为H*W;损失函数L由下列式子构成:
[0090]
[0091] 其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
[0092] S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;包括以下步骤:
[0093] S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;具体包括以下步骤:
[0094] S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
[0095] S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
[0096] S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
[0097] S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
[0098] S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
[0099]
[0100] 其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1;
[0101] S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建;具体包括以下步骤:
[0102] S4.4.1、创建Watkins论文Learning from Delayed Reward提出的Q(s,a)函数并随机初始化;
[0103] S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
[0104] S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有1-ε的概率随机选取动作;依次执行以下流程:
[0105] δ=R+γ*Q(S',A')-Q(S,A)
[0106] E(S,A)=E(S,A)+1
[0107] Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
[0108] E(s,a)=γ*λ*E(s,a) forall s∈S,a∈A
[0109] 其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
[0110] S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
[0111] S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上;语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4所述的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。
[0112] 本发明的实施方式并不受上述实施例的限制,其他任何未背离发明精神实质与原理下所做的改变,修饰,替代,组合,简化均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈