首页 / 专利库 / 电脑零配件 / 接口 / 人机界面 / 数据手套 / 一种基于深度强化学习的按摩机械手训练方法

一种基于深度强化学习的按摩机械手训练方法

阅读:1015发布:2020-07-02

专利汇可以提供一种基于深度强化学习的按摩机械手训练方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度 强化学习 的按摩机械手训练方法,它解决了 现有技术 中按摩机械手动作仅处于仿真状态、按摩动作不够精确的问题,具有能够增强按摩机械手的技巧性、提供专业精确的按摩、减少人工按摩的疲劳的效果;其技术方案为:采集动作、压 力 数据,处理所述数据,构建参考动作集、参考压力集,并设置压力值舒适度范围;将所述数据、参考动作、参考压力输入神经网络进行预测和决策,执行神经网络输出决策对应的动作值、压力值,并与参考动作、压力值舒适度范围对比;满足设定条件后将训练好的网络与按摩机械手的控制系统相连。,下面是一种基于深度强化学习的按摩机械手训练方法专利的具体信息内容。

1.一种基于深度强化学习的按摩机械手训练方法,其特征在于,采集动作、压数据,处理所述数据,构建参考动作集、参考压力集,并设置压力值舒适度范围;
将所述数据、参考动作、参考压力输入神经网络进行预测和决策,执行神经网络输出决策对应的动作值、压力值,并与参考动作、压力值舒适度范围对比;
满足设定条件后将训练好的网络与按摩机械手的控制系统相连。
2.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,通过动作捕捉手套采集数据,动作捕捉手套用于捕捉各手指关节、腕关节处动作数据。
3.根据权利要求2所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,所述动作捕捉手套对应于各手指关节、腕关节处安装压力传感器
4.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,处理数据过程为:将采集的每个动作片段剪辑为设定长度,并将剪辑后的动作片段平均分成若干份。
5.根据权利要求4所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,提取动作片段的初始状态值和压力值,将动作值作为参考动作,将压力值归一化后作为参考压力值。
6.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,所述压力值舒适度范围由压力传感器多次收集反馈的压力数据得到。
7.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,所述按摩机械手包括14个指关节、1个腕关节和一个肘关节,指关节和腕关节处安装带有压力传感器的触手。
8.根据权利要求7所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,所述触手为软垫。
9.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,所述神经网络采用卷积神经网络,动作分布用高斯进行建模。
10.根据权利要求1所述的一种基于深度强化学习的按摩机械手训练方法,其特征在于,通过收集按摩机械手的动作、压力数据进行微调。

说明书全文

一种基于深度强化学习的按摩机械手训练方法

技术领域

[0001] 本发明涉及机械手领域,尤其涉及一种基于深度强化学习的按摩机械手训练方法。

背景技术

[0002] 现如今,用于按摩的机械设备并不多样化,大多是单功能或多功能的按摩器、按摩椅等,动作较少、机械化,很难把握道的使用,不能给使用者提供更舒服、更专业的服务。
人工按摩动作细腻柔和,尤其是专业人士按摩,技巧性较强,手法力度娴熟。但是专业按摩
师的数量较少,且无法做到随时随地服务,成本较大,所以不能满足普通人的需求。
[0003] 随着人工智能的发展和生产力需求的不断提升,工业机械臂已经在越来越多的场合被使用。深层强化学习应用于越来越多的控制问题,在机械臂路径规划领域和动画仿真
领域表现出了极大的优势。由于强化学习算法具有高维样本复杂性和其他物理限制,所以
通过深度学习与强化学习结合训练大大降低了数据的维度和复杂性,但目前只处于仿真状
态,并不能完全应用于实际情况。
[0004] 目前机械臂控制领域的主要攻克点为路径规划、轨迹规划问题,但对于机械臂模仿动作,尤其是用深度强化学习的方法进行机械臂动作模仿的情况十分稀少,而且实现起
来十分的困难。

发明内容

[0005] 为了克服现有技术的不足,本发明提供了一种基于深度强化学习的按摩机械手训练方法,其具有能够增强按摩机械手的技巧性、提供专业精确的按摩、减少人工按摩工作量
的效果。
[0006] 本发明采用下述技术方案:
[0007] 一种基于深度强化学习的按摩机械手训练方法,采集动作、压力数据,处理所述数据,构建参考动作集、参考压力集,并设置压力值舒适度范围;
[0008] 将所述数据、参考动作、参考压力输入神经网络进行预测和决策,执行神经网络输出决策对应的动作值、压力值,并与参考动作、压力值舒适度范围对比;
[0009] 满足设定条件后将训练好的网络与按摩机械手的控制系统相连。
[0010] 进一步的,通过动作捕捉手套采集数据,动作捕捉手套用于捕捉各手指关节、腕关节处动作数据。
[0011] 进一步的,所述动作捕捉手套对应于各手指关节、腕关节处安装压力传感器
[0012] 进一步的,处理数据过程为:将采集的每个动作片段剪辑为设定长度,并将剪辑后的动作片段平均分成若干份。
[0013] 进一步的,提取动作片段的初始状态值和压力值,将动作值作为参考动作,将压力值归一化后作为参考压力值。
[0014] 进一步的,所述压力值舒适度范围由压力传感器多次收集反馈的压力数据得到。
[0015] 进一步的,所述按摩机械手包括14个指关节、1个腕关节和一个肘关节,指关节和腕关节处安装带有压力传感器的触手。
[0016] 进一步的,所述触手为软垫。
[0017] 进一步的,所述神经网络采用卷积神经网络,动作分布用高斯进行建模。
[0018] 进一步的,通过收集按摩机械手的动作、压力数据进行微调。
[0019] 与现有技术相比,本发明的有益效果是:
[0020] (1)本发明通过深度强化学习使机械手达到专业人士的手法,在不断学习、模仿参考动作同时,根据实际情况进行适当的调整,更好的适应不同的环境和按摩对象,给用户提
供更舒适、更专业的按摩体验;
[0021] (2)本发明减少了人类治疗师的疲劳工作、减少成本、提高了按摩的专业性。附图说明
[0022] 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0023] 图1为本申请的流程图
[0024] 图2为本申请的神经网络训练图。

具体实施方式

[0025] 应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常
理解的相同含义。
[0026] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0027] 正如背景技术所介绍的,现有技术中存在按摩机械手动作仅处于仿真状态、按摩动作不够精确的不足,为了解决如上的技术问题,本申请提出了一种基于深度强化学习的
按摩机械手训练方法。
[0028] 本申请的一种典型的实施方式中,如图1-图2所示,提供了一种基于深度强化学习的按摩机械手训练方法,包括以下步骤:
[0029] 步骤1、采集手部动作和压力数据:
[0030] 动作采集是让专业按摩人士或动作提供者佩戴现有的动作捕捉手套,所述动作捕捉手套可以捕捉并记录手指14个关节(拇指有两个关节,其余四指各有三个关节)和腕关节
处的动作数据,作为参考动作集;由于肘关节通过和腕关节的度进行调整,因此无需作为
动作捕捉数据。
[0031] 在动作捕捉手套上对应于手指关节、腕关节位置安装压力传感器。
[0032] 采集多个力度的按摩动作及压力值,方便用户根据自身需要选择力度。
[0033] 步骤2、处理采集到的数据,构建参考动作集、参考压力集,并设置压力值舒适范围:
[0034] 处理数据过程为:将采集的每个动作片段剪辑为设定长度,并将剪辑后的动作片段平均分成若干份。
[0035] 获取剪辑后的动作片段初始状态值和压力值,动作值作为参考动作,将压力值归一化后作为参考压力值。
[0036] 压力值舒适度范围是根据收集和多次测试反馈的压力数据得到的。
[0037] 在一些实施方式中,将采集的每个动作片段剪辑成1.5秒,不足1.5秒的片段空缺时间设置为0;再将每个1.5秒的动作片段平均分成5份,每份0.3秒。由于手部按摩动作时间
一般比较短,重复一个周期内同样的动作,1.5秒内基本可以完成一个动作,节约时间,增加
效率,而平分成0.3秒基本可以保证在高效的情况下将1.5秒内的5个动作片段连贯的拼成
一个完整的动作。
[0038] 步骤3、模仿人的手关节构建按摩机械手结构:
[0039] 所述按摩机械手包括14个指关节、1个腕关节和一个肘关节,指关节和腕关节处安装带有压力传感器的触手。
[0040] 在一些实施方式中,所述触手为软垫,用于增加舒适度;压力传感器安装于软垫内。
[0041] 进一步的,所述软垫采用橡胶材质制成。
[0042] 步骤4、采用神经网络进行训练:
[0043] 将采集到的动作、参考动作、参考压力值输入卷积神经网络进行预测和决策,执行网络输出决策对应的动作、压力值,并与参考动作、压力值舒适范围对比。
[0044] 当动作与参考动作足够相似(相似度达到99%)、压力值足够适宜时,执行动作,将训练后的网络连接按摩机械手的控制系统;
[0045] 当动作、压力值不满足上述条件时,重复卷积神经网络预测和决策过程。
[0046] 策略网络π由一个的卷积神经网络来表示,动作分布用高斯进行建模,
[0047] π(a|s)=N(μ(s),Σ)  (1)
[0048] 而学习的目标就是找到最优策略π*=argπmaxJ(π)。
[0049] 如果每集以固定的初始状态开始,则可以将预期的返回重写为从第一步开始的预期返回,
[0050] J(π)=E(R0|π)=Eτ~p(τ|π)[∑r(st,at)]  (2)
[0051]
[0052] 以上各式中,J(π)为长期积累奖励,st为当前状态,st+1为下一状态,at为当前动作,s0为初始状态,τ是采样元组,p(τ|π)代表在策略π下轨迹τ的可能性。
[0053] 神经网络上面一层的输入为状态s、上一步生成的动作ai-1;下面一层的输入为状态s和参考动作agi、参考压力,上下层分别经过一个具有512个单元的完全连接的层,再会和
共同经过两个128个单元的线性输出层,输出决定的动作,如图2所示。
[0054] 网络输入状态、参考动作(作为目标和衡量奖励值的元素)、参考压力值、上一步生成的动作,通过奖励、值函数V制定策略,每个策略对应一个输出动作,动作产生的状态作为
下一个状态继续作为输入。
[0055] 网络的具体内容为:
[0056] (1)机械手的状态s:
[0057] 由47维的元组θ=(θ1,θ2,θ3,θ4,θ5,θ6,θ7,θ8,θ9,θ10,θ11,θ12,θ13,θ14,θ15,θ16)组成,前14个分别定义了从大拇指到小拇指、从指尖到指根的关节,第15个定义为腕关节,第16个定义为肘关节。
[0058] 每个关节又包含角度、角速度两个分量,指关节连接处和腕关节处共包含15个压力传感器。
[0059] 压力值通过角度和角速度来决定,但组合不唯一。将θ进行归一化处理,便于神经网络的训练的准确性。
[0060] (2)机械手的动作a由32维的元组ψ=(θ1+ψ1,……,θ16+ψ16)组成。
[0061] ψ为在当前状态的情况下需要旋转的角度和角速度。
[0062] 将ψi也进行归一化,若θi+ψi大于1,则θi+ψi=θi+ψi-1。
[0063] ψ16由于是肘关节没有参考动作,所以可根据位置需要自行学习。
[0064] (3)奖励函数的设定:
[0065] 如果压力不在舒适度压力值范围内,r=-10;如果压力在舒适度范围内,则
[0066] r=wa*ra+ww*rw+wy*ry+wt*rt+c+wp*peo,
[0067] 式中wa=-0,55,ww=-0.05,wy=-0.3,wt=-0.1,c=1,wp=5。
[0068] ra是关节角度和参考动作中角度的差值,rw是关节的角速度的差值,ry是实际压力值和参考压力值的差值,rt是实际速度和参考动作帧(0.3秒)的差值。
[0069] peo默认为0,当用户按下调强度按钮时,peo=-|调前档位-调后档位|,以帮助机械手更快的切换到下一个档位。
[0070] 所有差值采用指数形式的欧氏距离如下形式,即:
[0071] r=exp(∑||y-y’||2)
[0072] 式中y为实际变量值,y’为参考变量的值。
[0073] 步骤5、微调
[0074] 通过收集机械手在真实环境中动作和压力的反馈数据再进行微调。
[0075] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈