一种基于动态系统模型的机器人模仿学习的方法专利检索-非完整机器人机器人机器人技术人工智能人工智能专利检索查询-专利查询网

一种基于动态系统模型的 机器人模仿学习的方法

阅读：978发布：2020-06-12

专利汇可以提供一种基于动态系统模型的机器人模仿学习的方法专利检索，专利查询，专利分析的服务。并且本发明公开一种基于动态系统模型的机器人模仿学习的方法，通过学习来实现机器人对于示教运动的模仿。具体地，通过高斯混合模型将示教运动建模为一非线性动态系统模型，另外通过附加稳定性约束条件的方法，来保证运动模型的稳定性。并将运动模型的参数学习问题转化为求解一个约束优化问题，以此来获得对于运动模型的完整描述。最后，将学习得到的运动模型作为控制策略来指导机器人对于示教运动的模仿。本发明对于目标点固定的示教运动，具有很好的稳定性，生成的所有运动轨迹均收敛到目标点，对于简单和较复杂的示教运动有很好的表达能力，而且运动模型的泛化能力表现也较好，示教运动范围外也可以生成平滑的且收敛到目标的运动轨迹。，下面是一种基于动态系统模型的机器人模仿学习的方法专利的具体信息内容。

权利要求

1.一种基于动态系统模型的机器人模仿学习的方法，其特征在于，具体步骤如下：
步骤1、示教者通过手把手的方式指导机器人手臂完成一次或多次的示教运动，机器人由其内部的关节传感器记录示教运动过程中的关节角度变化情况，通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息；
步骤2、通过高斯混合模型GMM将示教运动轨迹数据建模为一非线性动态系统模型；由GMM得到关于示教运动模型的参数化表示；
步骤3、考虑所建模的运动模型的稳定性问题，基于李雅普诺夫稳定性理论，构造满足要求的李雅普诺夫函数，结合动态系统稳定性的条件求解模型在示教运动目标点全局稳定的约束；
步骤4、在得到稳定性约束后，进行模型参数的学习；将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题，借助于非线性规划的方法求解约束优化问题，得到最优模型参数，进而得到对于运动模型的完整描述；
步骤5、结合所构建的机器人模仿学习系统，将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。
2.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法，其特征在于：步骤1中通过示教者对机器人进行运动的示教，由其内部的关节传感器记录示教运动过程中的关节角度变化情况，通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息，记为示教运动轨迹数据集其中ζ表示位置，表示速度，t表示时间，N＝1,2,3,......表示示教运动轨迹的条数。
3.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法，其特征在于，步骤2具体如下：
给定一组N条示教运动轨迹数据的集合 GMM由以下概率密度函数表示：
以上两式中GP(·)是高斯过程概率密度函数，K为GMM中混合模型的个数，ωk是第k个高斯过程的权重，且 μk为该密度函数的均值向量，Σk为对应的协方差矩阵；
对于给定ζ，的条件概率分布是：
其中N(·)同样是服从高斯分布的概率密度函数，表示第k个高斯分布的情况，为对应的均值向量，为对应的方差矩阵，而且有
公式(4)(5)中 Σζζk分别是变量和变量ζ的方差矩阵，是变量与ζ之间的协方差矩阵，和μζk分别表示为对应于和ζ的均值向量，而且以上均表示为第k个高斯分布时的情况；由公式(3)，对应于ζ的条件概率可定义
而且有
其中变量i与k表示的含义相同；由公式(6)的条件期望求得高斯混合模型中的总的期望为：
而且有
公式(8)即为参数化的运动模型，且为一个动态系统模型，用表示；公式(9)中p(ζ|k)＝N(ζ|μζk,Σζζk)及变量i与公式(7)中的表示相同。
4.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法，其特征在于：步骤3具体为如下，由以上得到的参数化的运动模型,即公式(8)所示，为了提高运动模型的稳定性，需要考虑稳定性问题；根据李雅普诺夫稳定性理论，通过构造如下的李雅普诺夫函数V(ζ):Rd→R：
V(ζ):Rd→R表示函数V(ζ)是d维实数空间Rd到一维实数域R的映射，V(ζ)是一个连续且具有连续的一阶偏导数的标量函数，其应该满足如下的条件：
运动模型将会在唯一的目标点处ζ*全局收敛，也即其生成轨迹均收敛到同一个目标点；
经过推导和计算得到使运动模型稳定的约束条件：
公式(12)中＜0表示一个矩阵是负定矩阵，将公式(12)的条件作为运动模型的约束。
5.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法，其特征在于，步骤4具体为如下：在得到运动模型的稳定性约束后，需要学习得到模型的参数θ＝{ω1,···,ωk；μ1,···,μk；Σ1,···,Σk}；将运动模型的参数学习问题转化为求解一个约束优化问题，通过非线性规划的方法求解模型的未知参数；待优化的目标函数为对数似然函数：
以上公式中是训练数据点总的数量，目标函数对应的约束条件是：
以上通过附加约束条件的方法来保证运动模型的稳定性，将稳定性约束和GMM的约束条件共同组成了运动模型的完整的约束，最终求解得到最优参数θ*，即得到对于运动模型的完整描述。
6.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法，其特征在于：步骤5将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿；
其中，首先利用学习得到的控制策略和机械臂初始的运动状态，由控制策略得到下一时刻期望的运动状态；然后，通过机械臂的逆向运动学将机械臂期望的末端位置和速度状态转化为机械臂期望的关节控制角度，通过机器人系统，实现在关节空间的运动控制；随后，将机械臂的正向运动学用于求解当前机械臂的状态，也即位置和速度，以此再结合动态模型的位置和速度演化关系，得到下一时刻的位置和速度，重复以上流程，直到机器人完成对于示教运动的模仿。

说明书全文

一种基于动态系统模型的机器人模仿学习的方法

技术领域

[0001] 本发明属于人工智能和机器人控制领域，尤其涉及一种基于动态系统模型的机器人模仿学习的方法。

背景技术

[0002] 当前，在机器人技术的研究中，如何使机器人具备类似于人类的智能行为已成为一大研究热点。而从人类学习中发展而来的模仿学习，作为机器人直接获取知识和技能的方式之一，在机器人的智能性的提升方面愈来愈发挥出巨大的作用，越来越多地受到学术界的关注和研究。其主要在于，一方面，相对于传统的机器人编程控制，模仿学习将使得机器人编程更加容易，减少了对于操控人员的专业性要求，且大大提高了机器人的作业效率；另一方面，模仿学习赋予机器人获取知识和学习知识的能力，使其能够快速学习，并具备更高的智能性。

[0003] 对于机器人模仿学习，一般由三个过程组成：示教过程，学习过程，再现过程。目前，对于机器人模仿学习的研究，学术界和工业界主要集中在对学习过程的研究，而且已经出现了多种模仿学习的方法用来实现机器人的学习过程。这些方法主要分为三个大的类别，一是基于监督学习的方法，二是基于强化学习的方法，三是基于生成对抗网络的方法。这些方法的共同特点是，如何学习得到一个最优的控制策略，以此来指导机器人对于各种任务进行模仿或再现。虽然以上各种方法的出现解决了机器人模仿学习中的一些问题，但是对于机器人模仿学习，仍然存在着学习得到的运动模型或控制策略稳定性差、泛化能力差的问题，限制了机器人模仿学习的性能。具体表现在学习得到的运动模型并不能完全收敛到示教运动的目标点，对于示教运动范围外的空间缺乏足够的泛化能力，而且由于示教运动的复杂性，运动模型往往缺乏对于示教运动的表达能力。

[0004] 针对以上机器人模仿学习中的问题，对于机器人行为运动的模仿学习，提出了一种基于动态系统模型的机器人模仿学习的方法。基于动态系统模型的方法由于将示教运动建模为一非线性动态模型，可以方便表达复杂的示教运动轨迹信息，从而学习更复杂的运动技能。同时，考虑给动态模型附加稳定性约束条件，从而可以提高运动模型的稳定性和泛化能力，有利于提高机器人的智能化程度。

发明内容

[0005] 本发明针对现有机器人模仿学习方法存在的问题，提出了一种基于动态系统模型的机器人模仿学习的方法。首先，该方法通过高斯混合模型GMM的方法将示教运动建模为一非线性动态系统模型；其次，将运动模型全局稳定的充分条件作为约束条件，以保证其所生成的所有轨迹都收敛到示教运动的目标点；再次，将运动模型的参数学习问题转化为求解一个约束优化问题，从而得到模型参数，实现对于运动模型的完整描述；最后，将学习得到的运动模型作为控制策略结合机器人系统来指导机器人完成运动的模仿。

[0006] 为了实现以上目的，本发明一种基于动态系统模型的机器人模仿学习的方法，具体步骤如下：

[0007] 步骤1、示教者通过手把手的方式指导机器人手臂完成一次或多次的示教运动，机器人由其内部的关节传感器记录示教运动过程中的关节角度变化情况，通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息

[0008] 步骤2、通过GMM将示教运动建模为一非线性动态系统模型。由GMM得到关于示教运动模型的参数化表示。

[0009] 步骤3、考虑所建模的运动模型的稳定性问题，基于李雅普诺夫稳定性理论，构造满足要求的李雅普诺夫函数，结合稳定性理论求解模型在示教运动目标点全局稳定的约束条件。

[0010] 步骤4、在得到稳定性约束后，进行模型参数的学习。将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题，其中约束条件包括两个部分：稳定性约束条件和GMM模型的约束条件。借助于非线性规划的方法求解约束优化问题，得到最优模型参数，进而得到对于运动模型的完整描述。

[0011] 步骤5、结合所构建的机器人模仿学习系统，将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。附图说明

[0012] 图1是机器人模仿学习系统工作流程图；

[0013] 图2(a)是单次简单示教运动轨迹；

[0014] 图2(b)是单次简单示教运动中的学习效果；

[0015] 图2(c)是单次简单示教运动中运动模型的生成轨迹；

[0016] 图2(d)是单次简单示教运动中运动模型的生成轨迹；

[0017] 图3(a)是多次简单示教运动轨迹；

[0018] 图3(b)是多次简单示教运动中的学习效果；

[0019] 图3(c)是多次简单示教运动中运动模型的生成轨迹；

[0020] 图4(a)是单次复杂示教运动轨迹；

[0021] 图4(b)是单次复杂示教运动中的学习效果；

[0022] 图4(c)是单次复杂示教运动中运动模型的生成轨迹；

[0023] 图4(d)是单次复杂示教运动中运动模型的生成轨迹；

[0024] 图5(a)是多次复杂示教运动轨迹；

[0025] 图5(b)是多次复杂示教运动中的学习效果；

[0026] 图5(c)是多次复杂示教运动中运动模型的生成轨迹；

[0027] 图6(a)是三维空间中的示教运动轨迹；

[0028] 图6(b)是三维空间中的运动模型的生成轨迹。

具体实施方式

[0029] 下面结合附图对本发明的具体实施方式进行详细说明。本发明提供一种基于动态系统模型的机器人模仿学习的方法，如图1所示是机器人模仿学习系统工作流程图。首先，对于某个目标点固定的模仿学习任务(如：拿放物品、篮球投篮等任务)，通过手把手地抓取机器人手臂末端执行器进行多次目标点相对固定的运动示教，获得示教运动轨迹数据；然后，将获得的示教轨迹数据预处理后作为学习算法的输入数据，进而学习关于运动模型的参数，得到对于运动模型的完整描述。最后，将学习得到的运动模型作为机器人的控制策略，设置机器人手臂初始的运动位置，结合机器人的控制系统完成对示教任务的模仿。具体实现步骤如下：

[0030] (1)手把手拖动机器人手臂末端进行N次运动任务的示教，且N＝1,2,3,......，由机器人手臂的内部关节传感器记录运动过程中的关节角度变化情况，通过机械臂的正向运动学计算得到手臂末端执行器的位置和速度变化信息，即为示教运动轨迹信息，记为其中ζ表示位置，表示速度，t表示时间，N表示示教运动轨迹的条数。此后，示教运动轨迹信息可用作模仿学习算法的输入数据。

[0031] (2)对于示教运动的建模，使用基于统计方法的高斯混合模型GMM来建立对于示教运动轨迹数据的概率描述。GMM是一种有限混合模型，其通过有限的高斯函数的混合来建立对示教运动数据的表示，同时可以消除数据的噪声。

[0032] 给定一组N条示教运动轨迹数据的集合 GMM由以下概率密度函数表示：

[0033]

[0034]

[0035] 以上两式中GP(·)是高斯过程概率密度函数，K为GMM中混合模型的个数，ωk是第k个高斯过程的权重，且 μk为该密度函数的均值向量，Σk为对应的协方差矩阵，d是变量ζ和的维度。

[0036] 对于给定ζ，的条件概率分布是：

[0037]

[0038] 其中N(·)同样是服从高斯分布的概率密度函数，表示第k个高斯分布的情况，为对应的均值向量，为对应的方差矩阵，而且有

[0039]

[0040]

[0041] 公式(4)(5)中 Σζζk分别是变量和变量ζ的方差矩阵，是变量与ζ之间的协方差矩阵，和μζk分别表示为对应于和ζ的均值向量，而且以上均表示为第k个高斯分布时的情况。由公式(3)，对应于ζ的条件概率可定义为：

[0042]

[0043] 而且有

[0044]

[0045] 其中变量i与k表示的含义相同。由公式(6)条件期望可求得高斯混合模型中的总的期望为：

[0046]

[0047] 而且有

[0048]

[0049] 公式(8)即为参数化的运动模型，且为一个动态模型，用表示。公式(9)中及变量i与公式(7)中的表示相同。在得到对于运动模型的参数化描述后，接下来的工作是学习得到运动模型的参数。

[0050] (3)由以上得到的参数化的运动模型，如果直接求解模型的未知参数，则得到的运动模型普遍存在稳定性问题，运动模型往往收敛不到运动的目标点ζ*。为了提高运动模型的稳定性，需要考虑其稳定性问题。根据李雅普诺夫稳定性理论，构造如下的李雅普诺夫函数V(ζ):Rd→R：

[0051]

[0052] V(ζ):Rd→R表示函数V(ζ)是d维实数空间Rd到一维实数域R的映射，V(ζ)是一个连续且具有连续的一阶偏导数的标量函数，而且应该满足如下的条件：

[0053]

[0054] 那么，运动模型将会在唯一的目标点ζ*处全局收敛，也即其生成轨迹均收敛到同一个目标点。经过推导和计算得到可以使运动模型稳定的约束条件：

[0055]

[0056] 公式(12)中＜0表示一个矩阵是负定矩阵，将公式(12)条件作为运动模型的约束，则运动模型稳在目标点处稳定。

[0057] (4)在得到运动模型的稳定性约束后，为了得到完整的运动的描述，需要学习得到模型的参数θ＝{ω1,…,ωk；μ1,…,μk；Σ1,…,Σk}。本方法将运动模型的参数学习问题转化为求解一个约束优化问题，通过非线性规划的方法求解模型的未知参数。使用对数似然函数作为优化的目标函数：

[0058]

[0059] 以上公式中是训练数据点总的数量，目标函数对应的约束条件是：

[0060]

[0061] 通过附加约束条件的方法来保证运动模型的稳定性，将稳定性约束和GMM的约束条件共同组成了运动模型的完整的约束，最终求解得到最优参数θ*，即得到对于运动模型的完整描述。

[0062] (5)将学习得到的动态模型作为机器人的控制策略，即结合机器人系统可以用来实现对于示教运动的模仿。其中，首先利用学习得到的控制策略和机械臂初始的运动状态，由控制策略得到下一时刻期望的运动状态。然后，通过机械臂的逆向运动学将机械臂期望的末端位置和速度状态转化为机械臂期望的关节控制角度，通过机器人系统，实现在关节空间的运动控制。随后，将机械臂的正向运动学用于求解当前机械臂的状态，也即位置和速度，以此再结合动态模型的位置和速度演化关系，得到下一时刻的位置和速度，重复以上流程，直到机器人完成对于示教运动的模仿。

[0063] 实施例1：

[0064] 将一种基于动态系统模型的机器人模仿学习的方法用于机器人从人类示教中学习运动技能。通过手把手示教的方式，拖动机械臂的末端进行运动示教，完成一个类似于拿和放物品的运动任务，并记录示教运动轨迹的数据。经过学习算法的学习达到再现示教运动的目的。具体实施方式如下：

[0065] 步骤1、通过手把手示教的方式，完成需要的示教运动，由机械臂的内部关节传感器记录运动过程中各个关节角度的变化，通过连接机械臂的上位机程序，由机械臂的正向运动学来求解得到末端执行器的位置和速度的变化情况，并将其记为用于后续的运动建模。如图2(a)所示为单次简单示教运动轨迹，且轨迹条数N＝1。

[0066] 步骤2、基于动态系统的机器人模仿学习的方法用于学习运动控制策略。初始化模型的超参数，设置K＝3，将示教运动的轨迹信息作为学习算法的输入数据通过GMM的方法将示教运动建模为一非线性动态系统模型。考虑所建模的运动模型的稳定性问题，基于构造的李雅普诺夫函数，结合稳定性理论求解模型在示教运动目标点全局稳定的约束条件。在得到稳定性约束后，进行模型参数的学习。将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题，借助于非线性规划的方法求解约束优化问题，得到运动模型的最优参数，并将学习得到的运动模型作为机器人的控制策略。如图2(b)所示是单次简单示教运动中的学习效果。可见本文的方法具有很好的学习能力，且学习得到的模型稳定收敛到示教运动的目标点。图2(c)(d)分别为不同起始点开始的运动模型的生成轨迹，可见轨迹平滑，且均收敛到目标点，模型具有不错的泛化能力。

[0067] 同理，图3(a)是多次简单示教运动轨迹，轨迹条数N＝3，图3(b)是多次简单示教运动中的学习效果，图3(c)是多次简单示教运动中运动模型的生成轨迹。可见本文的方法具有多任务的学习能力，对于多条示教轨迹也可以同时学习，提高了机器人的学习能力和智能化程度。

[0068] 图4(a)是单次复杂示教运动轨迹，轨迹条数N＝1，图4(b)是单次复杂示教运动中的学习效果，图4(c)(d)分别是不同起始点开始的运动模型的生成轨迹。可见，对于复杂的示教运动，模型也具有不错的学习能力，一方面稳定性较好，生成轨迹均收敛；另一方面模型的泛化能力较好，示教范围外也具有不错的轨迹生成能力。

[0069] 同理，对于多任务的学习，图5(a)是多次复杂示教运动轨迹，轨迹条数N＝3，图5(b)是多次复杂示教运动中的学习效果，图5(c)是多次复杂示教运动中运动模型的生成轨迹，可见模型的学习效果不错，具有与以上相同的结论。

[0070] 图6(a)是三维空间中的示教运动轨迹，图6(b)是三维空间中的运动模型的生成轨迹，可见在三维空间中同样具有以上的结论。

[0071] 步骤3、最后，可以结合机器人系统，将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。

标题	发布/更新时间	阅读量
一种基于深度学习的2D+3D大飞机外形缺陷检测与分析方法	2020-05-08	965
一种物流系统和配货运输流程	2020-05-13	974
一种用于义齿性能测试的仿生咀嚼机器人及使用方法	2020-05-15	729
一种视觉机器人的地图表示系统及其构建方法	2020-05-17	697
一种变电站智能巡检机器人安全通信接入系统	2020-05-11	765
一种移动机器人同步定位与地图构建方法	2020-05-14	640
一种清洁机器人及其控制方法	2020-05-22	651
用于铁路客运车站巡更机器人的巡更方法及系统	2020-05-14	312
一种切削加工机器人的动态误差补偿与控制方法	2020-05-11	25
表面清洁机器人	2020-05-20	586

一种基于动态系统模型的机器人模仿学习的方法

一种基于动态系统模型的机器人模仿学习的方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：