机器人的模仿学习方法、装置、机器人及存储介质专利检索-收线钓鱼与渔业专利检索查询-专利查询网

机器人的模仿学习方法、装置、机器人及存储介质

阅读：513发布：2024-01-07

专利汇可以提供机器人的模仿学习方法、装置、机器人及存储介质专利检索，专利查询，专利分析的服务。并且本发明适用机器人和智能控制领域，提供了一种机器人的模仿学习方法、装置、机器人及存储介质，该方法包括：当接收到运动指令时，获取末端执行器当前时刻的位姿，检测当前时刻的位姿是否为目标位姿，是则，确定末端执行器完成预设的模仿学习任务，否则，根据该位姿和动态预测模型，生成末端执行器下一时刻的预测位姿，根据该预测位姿调节各个关节的关节角度，将末端执行器调节后的位姿设置为当前时刻的位姿，并跳转至检测当前时刻的位姿是否为目标位姿的步骤，动态预测模型由极限学习机模型结合预设的稳定性约束条件训练得到，从而同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度，有效地提高了机器人运动的人性化程度。，下面是机器人的模仿学习方法、装置、机器人及存储介质专利的具体信息内容。

权利要求

1.一种机器人的模仿学习方法，其特征在于，所述方法包括下述步骤：
当接收到预设的运动指令时，获取末端执行器当前时刻的位姿；
检测所述当前时刻的位姿是否为预设的目标位姿，是则，确定所述末端执行器完成预设的模仿学习任务，否则，根据所述当前时刻的位姿和预先训练好的动态预测模型，生成所述末端执行器下一时刻的预测位姿，所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到；
根据所述下一时刻的预测位姿，调节各个关节的关节角，获取所述末端执行器调节后的位姿；
将所述调节后的位姿设置为所述当前时刻的位姿，并跳转至检测所述当前时刻的位姿是否为预设的目标位姿的步骤。
2.如权利要求1所述的方法，其特征在于，当接收到预设的运动指令时，获取末端执行器当前时刻的位姿步骤之前，所述方法还包括：
构建所述极限学习机模型，并根据在预设的示教过程中采集的训练样本集，初始化所述极限学习机模型的输入和目标输出；
根据预设的李雅普诺夫定理，构建所述稳定性约束条件，所述稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件；
根据所述稳定性约束条件，对所述极限学习机模型进行有监督的训练，将训练好的所述极限学习机模型设置为所述动态预测模型。
3.如权利要求2所述的方法，其特征在于，构建所述极限学习机模型的步骤之前，所述方法还包括：
在所述示教过程中按照预设的采样时间间隔，在所述末端执行器的每条示教轨迹上采集所述末端执行器的位姿；
根据所述采样时间间隔和所述末端执行器每个采样点处的位姿，计算所述末端执行器每个采样点处的速度，将所述末端执行器每个采样点处的位姿、速度组合构成所述训练样本集的训练样本。
4.如权利要求3所述的方法，其特征在于，构建所述极限学习机模型，并根据在预设的示教过程中采集的训练样本集，初始化所述极限学习机模型的输入和目标输出的步骤，包括：
构建所述极限学习机模型，所述极限学习机模型表示为：
其中，所述和分别为所述极限学习机模
型中隐藏层的神经元个数、偏置和权重，所述β＝(β1,...,βN)为所述极限学习机模型中输出层的权重，所述x、g(x)分别为所述极限学习机模型的输入和激活函数；
将所述训练样本集的训练样本中所述末端执行器的位姿和所述末端执行器的速度分别设置为所述极限学习机模型的输入和目标输出，以获得所述极限学习机模型的优化目标，所述优化目标表示为:
其中，所述所述O为所述训练样本集的训练样本中所述
末端执行器的速度，也为所述极限学习机模型的目标输出。
5.如权利要求4所述的方法，其特征在于，根据预设的李雅普诺夫定理，构建所述稳定性约束条件的步骤，包括：
根据所述李雅普诺夫定理，构建所述全局渐近稳定的约束条件，所述全局渐近稳定的约束条件为：
且Φi中的所述个特征值中存在d个特征值线性无关，
其中，所述
根据所述李雅普诺夫定理，构建所述局部渐近稳定的约束条件，所述局部渐近稳定的约束条件为：
6.一种机器人的模仿学习装置，其特征在于，所述装置包括：
位姿获取单元，用于当接收到预设的运动指令时，获取末端执行器当前时刻的位姿；
位姿判断单元，用于检测所述当前时刻的位姿是否为预设的目标位姿，是则，确定所述末端执行器完成预设的模仿学习任务，否则，根据所述当前时刻的位姿和预先训练好的动态预测模型，生成所述末端执行器下一时刻的预测位姿，所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到；
运动调节单元，用于根据所述下一时刻的预测位姿，调节各个关节的关节角，获取所述末端执行器调节后的位姿；以及
位姿设置单元，用于将所述调节后的位姿设置为所述当前时刻的位姿，并由所述位姿判断单元执行检测所述当前时刻的位姿是否为预设的目标位姿的操作。
7.如权利要求6所述的装置，其特征在于，所述装置还包括：
模型构建单元，用于构建所述极限学习机模型，并根据在预设的示教过程中采集的训练样本集，初始化所述极限学习机模型的输入和目标输出；
约束构建单元，用于根据预设的李雅普诺夫定理，构建所述稳定性约束条件，所述稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件；以及模型训练单元，用于根据所述稳定性约束条件，对所述极限学习机模型进行有监督的训练，将训练好的所述极限学习机模型设置为所述动态预测模型。
8.如权利要求7所述的装置，其特征在于，所述装置还包括：
示教采集单元，用于在所述示教过程中按照预设的采样时间间隔，在所述末端执行器的每条示教轨迹上采集所述末端执行器的位姿；以及
样本生成单元，用于根据所述采样时间间隔和所述末端执行器每个采样点处的位姿，计算所述末端执行器每个采样点处的速度，将所述末端执行器每个采样点处的位姿、速度组合构成所述训练样本集的训练样本。
9.一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。

说明书全文

机器人的模仿学习方法、装置、机器人及存储介质

技术领域

[0001] 本发明属于机器人和智能控制技术领域，尤其涉及一种机器人的模仿学习方法、装置、机器人及存储介质。

背景技术

[0002] 在现阶段机器人应用中，尤其是在机器人的工业应用中，用户通常预先定义机器臂的运动轨迹，或者预先设定某种任务环境，让机械臂按照计划重复执行即可。在这种控制模式下，机械臂无法面对任务环境的变化或者突如其来的扰动，或者需要较为繁重的人工编程才能实现复杂场景下的任务或较困难任务，更重要的是，机械臂的运动轨迹没有隐含人的操作习惯。机器人的模仿学习正是解决这些问题的重要方法。

[0003] 在通过模仿学习对机器人运动进行建模时，研究人员通常希望实现以下三个目标：第一，希望机器人能够始终运动到我们所期望的目标，从控制的角度来说，希望系统具有一定的稳定性，即机器人在运动过程中遇到某种时间或空间的干扰而偏离了轨迹时，仍然能够准确地收敛到目标；第二，希望机器人在运动时运动轨迹能够尽可能与之前人类的示教轨迹具有相似的轮廓，即机器人复现时的“精度”；第三，希望尽量减小机器学习方法训练模型参数时所需的时间，也即提高模型训练的“速度”。

[0004] “稳定性”、“精度”和“速度”通常是相互牵制和矛盾的关系，实现精度、速度、稳定性三者的最佳权衡是机器人模仿学习的关键。目前，国际上较为著名的机器人模仿学习方法是通过建立一个“动态系统”来对机器人的运动进行建模，“动态系统”最初通过高斯混合模型来建模，并考虑到了稳定性约束，但由于模型训练较为复杂，无法对“稳定性”、“精度”和“速度”进行有效权衡，国内的机器人模仿学习方法也大多基于高斯混合模型、高斯过程，且未考虑到稳定性问题，同样无法对“稳定性”、“精度”和“速度”三者进行有效权衡。

发明内容

[0005] 本发明的目的在于提供一种机器人的模仿学习方法、装置、机器人及存储介质，旨在解决由于现有技术中机器人模仿学习的稳定性、复现精度、模型训练速度无法同时得到保证的问题。

[0006] 一方面，本发明提供了一种机器人的模仿学习方法，所述方法包括下述步骤：

[0007] 当接收到预设的运动指令时，获取末端执行器当前时刻的位姿；

[0008] 检测所述当前时刻的位姿是否为预设的目标位姿，是则，确定所述末端执行器完成预设的模仿学习任务，否则，根据所述当前时刻的位姿和预先训练好的动态预测模型，生成所述末端执行器下一时刻的预测位姿，所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到；

[0009] 根据所述下一时刻的预测位姿，调节各个关节的关节角，获取所述末端执行器调节后的位姿；

[0010] 将所述调节后的位姿设置为所述当前时刻的位姿，并跳转至检测所述当前时刻的位姿是否为预设的目标位姿的步骤。

[0011] 另一方面，本发明提供了一种机器人的模仿学习装置，所述装置包括：

[0012] 位姿获取单元，用于当接收到预设的运动指令时，获取末端执行器当前时刻的位姿；

[0013] 位姿判断单元，用于检测所述当前时刻的位姿是否为预设的目标位姿，是则，确定所述末端执行器完成预设的模仿学习任务，否则，根据所述当前时刻的位姿和预先训练好的动态预测模型，生成所述末端执行器下一时刻的预测位姿，所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到；

[0014] 运动调节单元，用于根据所述下一时刻的预测位姿，调节各个关节的关节角，获取所述末端执行器调节后的位姿；以及

[0015] 位姿设置单元，用于将所述调节后的位姿设置为所述当前时刻的位姿，并由所述位姿判断单元执行生成检测所述当前时刻的位姿是否为预设的目标位姿的操作。

[0016] 另一方面，本发明还提供了一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述机器人的模仿学习方法所述的步骤。

[0017] 另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述机器人的模仿学习方法所述的步骤。

[0018] 本发明预先构建了极限学习机模型，并推导出极限学习机模型的稳定性约束条件，由极限学习机模型结合稳定性约束条件训练得到动态预测模型，在接收到运动指令时，检测末端执行器当前时刻的位姿是否为目标位姿，是则确定末端执行器完成模仿学习任务，否则根据末端执行器当前时刻的位姿和动态预测模型，生成末端执行器下一时刻的预测位姿，根据该预测位姿调节末端执行器的关节，并跳转至检测末端执行器当前时刻的位姿是否为目标位姿的步骤，从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。附图说明

[0019] 图1是本发明实施例一提供的机器人的模仿学习方法的实现流程图；

[0020] 图2是本发明实施例二提供的机器人的模仿学习方法中采集数据样本集和训练动态预测模型的实现流程图；

[0021] 图3是本发明实施例三提供的机器人的模仿学习装置的结构示意图；

[0022] 图4是本发明实施例四提供的机器人的模仿学习装置的结构示意图；以及[0023] 图5是本发明实施例五提供的机器人的结构示意图。

具体实施方式

[0024] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0025] 以下结合具体实施例对本发明的具体实现进行详细描述：

[0026] 实施例一：

[0027] 图1示出了本发明实施例一提供的机器人的模仿学习方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

[0028] 在步骤S101中，当接收到预设的运动指令时，获取末端执行器当前时刻的位姿。

[0029] 本发明实施例适用于但不限于带有关节、连杆等结构、可实现伸缩、抓取等动作的机器人。在接收到用户或者控制系统发送的运动或移动指令时，机器人可获取各个关节的关节角，再根据这些关节角和正运动学，计算得到末端执行器当前时刻的位姿，此外，若机器人自身带有末端执行器的位置传感器，可通过该位置传感器直接获得末端执行器当前时刻的位姿，其中，位姿包括末端执行器的位置和方向。

[0030] 在步骤S102中，检测当前时刻的位姿是否为预设的目标位姿。

[0031] 在本发明实施例中，检测末端执行器当前时刻的位姿是否为预设的目标位姿，当末端执行器当前时刻的位姿为目标位姿时，执行步骤S106，否则执行步骤S103。

[0032] 在步骤S103中，根据当前时刻的位姿和预先训练好的动态预测模型，生成末端执行器下一时刻的预测位姿，动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。

[0033] 在本发明实施例中，当末端执行器当前时刻的位姿不是预设的目标位姿时，需要对末端执行器的位姿进行调整。预先训练得到的动态预测模型用来根据末端执行器的当前状态预测出末端执行器当前状态的变化，因此在将末端执行器当前时刻的位姿输入动态预测模型后，可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度，可计算得到末端执行器下一时刻的预测位姿，计算公式可表示为：

[0034] 其中，xt+1为末端执行器下一时刻t+1的预测位姿，xt为末端执行器当前时刻t的预测位姿，为动态预测模型的输出，δt为预设的采样时间间隔。

[0035] 在本发明实施例中，预先在动态预测模型的训练过程中，构建极限学习机模型，并根据李雅普诺夫定理构建极限学习机模型对应的稳定性约束条件，结合该稳定性约束条件对极限学习机模型进行有监督的训练，训练好的极限学习机模型即训练好的动态预测模型，从而通过极限学习机与李雅普诺夫定理推导的稳定性约束条件的结合，有效地同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度。

[0036] 其中，用于极限学习机模型训练的训练样本在用户的示教过程采集得到，训练样本的采集、动态预测模型的训练过程可参照实施例二中各步骤的详细描述，在此不再赘述。

[0037] 在步骤S104中，根据下一时刻的预测位姿，调节各个关节的关节角，获取末端执行器调节后的位姿。

[0038] 在本发明实施例中，在获得末端执行器下一时刻的预测位姿后，可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿，当前机器人各个关节分别需要变化的关节角，进而调节机器人各个关节的关节角，由于调节过程中的误差和精度，末端执行器调节后的位姿和预测位姿存在差异，可根据机器人调节后各个关节的角度，通过正运动学计算得到末端执行器调节后的位姿。

[0039] 在步骤S105中，将调节后的位姿设置为当前时刻的位姿。

[0040] 在本发明实施例中，将末端执行器调节后的位置设置为末端执行器当前时刻的位姿，并跳转至步骤S102中执行检测末端执行器当前时刻的位姿是否为预设的目标位姿操作，如此循环，直到末端执行器当前时刻的位姿与预设目标位姿相同。

[0041] 在步骤S106中，确定末端执行器完成预设的模仿学习任务。

[0042] 在本发明实施例中，当末端执行器调节后的位姿为目标位姿时，可认为末端执行器成功模仿人的运动特性、收敛到了目标点，确定末端执行器完成了预设的模仿学习任务。

[0043] 在本发明实施例中，在末端执行器当前时刻的位姿不是目标位姿时，将当前时刻的位姿输入动态预测模型，得到末端执行器下一时刻的预测位姿，根据该预测位姿调节各个关节的角度，获得末端执行器调节后的位姿，继续判断末端执行器当前时刻的位姿是否为目标位姿，如此循环，直至末端执行器的位姿达到目标位姿，从而根据极限学习机模型和基于李雅普诺夫定理的稳定性约束条件的结合，同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。

[0044] 实施例二：

[0045] 图2示出了本发明实施例二提供的机器人的模仿学习方法中采集训练样本集和训练动态预测模型的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

[0046] 在步骤S201中，在示教过程中按照预设的采样时间间隔，在末端执行器的每条示教轨迹上采集末端执行器的位姿。

[0047] 在本发明实施例中，在示教过程中可由示教者或者用户给出示教动作，末端执行器按照示教动作进行运动，通过机器人自身或者外部的动作捕捉器按照预设的采样时间间隔，在每条运动轨迹(示教轨迹)上采集末端执行器的位姿，采集到的末端执行器的位姿可表示为其中，i＝1,...,Ntraj，k＝1,...,Ni，Ntraj为示教轨迹的数量，Ni为第i条示教轨迹上的采样点数目。

[0048] 在本发明实施例中，对示教过程中的示教方式不做限制，作为示例地，示教者可通过遥控器或示教器对机器人进行操纵来给出示教动作，也可通过抓握住末端执行器在平面或空间中运动出一条轨迹来给出示教动作，还可通过戴着数据手套亲自完成运动任务由数据手套采集示教动作。

[0049] 在步骤S202中，根据采样时间间隔和末端执行器每个采样点处的位姿，计算末端执行器每个采样点处的速度，将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本。

[0050] 在本发明实施例中，在采样得到末端执行器每个采样点处的位姿后，可计算末端执行器每个采样点处的速度，作为示例地，末端执行器每个采样点处的速度的计算公式可表示为：

[0051] 其中，δt为预设的采样时间间隔，和为末端执行器在第i条示教轨迹上第k个采样点处的速度。之后，将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本，训练样本可表示为

[0052] 在步骤S203中，构建极限学习机模型，并根据在预设的示教过程中采集的训练样本集，初始化极限学习机模型的输入和目标输出。

[0053] 在本发明实施例中，极限学习机模型是一种特殊的前向神经网络模型，其特殊之处在于仅含有一个隐藏层，且隐藏层的神经元个数、权值和偏置是随机确定的，在极限学习机模型训练的过程中，隐藏层的权值和偏置保持不变，仅修改输出层的权值，因此采用极限学习机模型作为机器人模仿学习的动态预测模型，在不需要大规模的训练数据的情况下就能够获得很好的训练效果，也便于为极限学习机模型添加稳定性约束。

[0054] 在本发明实施例中，构建极限学习机模型，极限学习机模型可表示为：

[0055] 其中，和为极限学习机模型中隐藏层的神经元个数、偏置和权重，为极限学习机网络
模型中输出层的权重，x、g(x)分别为极限学习机模型的输入和激活函数，激活函数可为S形函数(sigmoid函数)或双曲正切函数(tanh函数)，在此对激活函数不做限制。

[0056] 另外地，极限学习机模型的输入层和输出层应该具有相同的维度，即具有相同的神经元个数d，若末端执行器在二维平面运动，d＝2，若末端执行器在三维空间运动，d＝3。

[0057] 在本发明实施例中，将训练样本集中训练样本中末端执行器的位姿设置为极限学习机模型的输入，将训练样本中末端执行器的速度设置为极限学习机模型的目标输出，从而可得到极限学习机模型的优化目标为：

[0058] 其中， O为训练样本中末端执行器的速度，也为极限学习机模型的目标输出。

[0059] 在步骤S204中，根据预设的李雅普诺夫定理，构建稳定性约束条件，稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件。

[0060] 在本发明实施例中，基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件，稳定性约束条件通过对极限学习机模型中的权值进行条件约束，使得训练得到的极限学习机模型能够保证机器人模仿学习的稳定性。稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件，全局渐近稳定的约束条件可表示为：

[0061] 对于且Φi的个特征值中存在d个特征值线性无关，其中，Φi为的“对称部分”，为矩阵的负定。局部渐近稳定的
约束条件可表示为：

[0062] 对于

[0063] 在步骤S205中，根据稳定性约束条件，对极限学习机模型进行有监督的训练，将训练好的极限学习机模型设置为动态预测模型。

[0064] 在本发明实施例中，对极限学习机模型的优化目标进行优化，得到满足稳定性约束条件、且使得优化目标最优的一组输出层权值β。作为示例地，可通过最小二乘法对优化目标进行求解，得到再通过稳定性约束条件对
+
进行约束，其中，H 是矩阵H的Moore-Penrose广义逆矩阵。最后，训练好的极限学习机模型即训练好的动态预测模型。

[0065] 在本发明实施例中，构建极限学习机模型，基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件，根据示教过程中采集的训练样本集、稳定性约束条件，对极限学习机模型进行训练，训练好的极限学习机模型即训练好的动态预测模型，从而有效地提高了机器人模仿学习的模型训练速度，同时保证了机器人模仿学习的稳定性和复现精度。

[0066] 实施例三：

[0067] 图3示出了本发明实施例三提供的机器人的模仿学习装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

[0068] 位姿获取单元31，用于当接收到预设的运动指令时，获取末端执行器当前时刻的位姿。

[0069] 在本发明实施例中，在接收到用户或者控制系统发送的运动或移动指令时，机器人可获取各个关节的关节角，再根据这些关节角和正运动学，计算得到末端执行器当前时刻的位姿，此外，若机器人自身带有末端执行器的位置传感器，可通过该位置传感器直接获得末端执行器当前时刻的位姿。

[0070] 位姿判断单元32，用于检测当前时刻的位姿是否为预设的目标位姿，是则，确定末端执行器完成预设的模仿学习任务，否则，根据当前时刻的位姿和预先训练好的动态预测模型，生成末端执行器下一时刻的预测位姿，动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。

[0071] 在本发明实施例中，检测当前时刻的位姿是否为预设的目标位姿，是则，可认为末端执行器成功模仿人的运动特性、收敛到了目标点，确定末端执行器完成了预设的模仿学习任务，否则需要对末端执行器的位姿进行调整，直至末端执行器的位姿为目标位姿。预先训练得到的动态预测模型用来根据末端执行器的当前状态预测出末端执行器当前状态的变化，因此在将末端执行器当前时刻的位姿输入动态预测模型后，可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度，可计算得到末端执行器下一时刻的预测位姿，计算公式可表示为：

[0072] 其中，xt+1为末端执行器下一时刻t+1的预测位姿，xt为末端执行器当前时刻t的预测位姿，为动态预测模型的输出，δt为预设的采样时间间隔。

[0073] 在本发明实施例中，预先在动态预测模型的训练过程中，构建极限学习机模型，并根据李雅普诺夫定理构建极限学习机模型对应的稳定性约束条件，结合该稳定性约束条件对极限学习机模型进行有监督的训练，训练好的极限学习机模型即训练好的动态预测模型，从而通过极限学习机与李雅普诺夫定理推导的稳定性约束条件的结合，有效地同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度。

[0074] 其中，用于极限学习机模型训练的训练样本在用户的示教过程采集得到，训练样本的采集、动态预测模型的训练过程可参照实施例四中相应单元的详细描述，在此不再赘述。

[0075] 运动调节单元33，用于根据下一时刻的预测位姿，调节各个关节的关节角，获取末端执行器调节后的位姿。

[0076] 在本发明实施例中，在获得末端执行器下一时刻的预测位姿后，可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿，当前机器人各个关节分别需要变化的关节角，进而调节机器人各个关节的关节角，由于调节过程中的误差和精度，末端执行器调节后的位姿和预测位姿存在差异，可根据机器人调节后各个关节的角度，通过正运动学计算得到末端执行器调节后的位姿。

[0077] 位姿设置单元34，用于将调节后的位姿设置为当前时刻的位姿，并由位姿判断单元32执行检测当前时刻的位姿是否为预设的目标位姿的操作。

[0078] 在本发明实施例中，将末端执行器调节后的位置设置为末端执行器当前时刻的位姿，并由位姿判断单元32执行检测末端执行器当前时刻的位姿是否为预设的目标位姿操作，如此循环，直到末端执行器当前时刻的位姿与预设目标位姿相同。

[0079] 在本发明实施例中，在末端执行器当前时刻的位姿不是目标位姿时，将当前时刻的位姿输入动态预测模型，得到末端执行器下一时刻的预测位姿，根据该预测位姿调节各个关节的角度，获得末端执行器调节后的位姿，继续判断末端执行器当前时刻的位姿是否为目标位姿，如此循环，直至末端执行器的位姿达到目标位姿，从而根据极限学习机模型和基于李雅普诺夫定理的稳定性约束条件的结合，同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。

[0080] 实施例四：

[0081] 图4示出了本发明实施例四提供的机器人的模仿学习装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

[0082] 示教采集单元41，用于在示教过程中按照预设的采样时间间隔，在末端执行器的每条示教轨迹上采集末端执行器的位姿。

[0083] 在本发明实施例中，在示教过程中可由示教者或者用户给出示教动作，末端执行器按照示教动作进行运动，通过机器人自身或者外部的动作捕捉器按照预设的采样时间间隔，在每条运动轨迹(示教轨迹)上采集末端执行器的位姿，采集到的末端执行器的位姿可表示为其中，i＝1,...,Ntraj，k＝1,...,Ni，Ntraj为示教轨迹的数量，Ni为第i条示教轨迹上的采样点数目。在此对示教过程中的示教方式不做限制。

[0084] 样本生成单元42，用于根据采样时间间隔和末端执行器每个采样点处的位姿，计算末端执行器每个采样点处的速度，将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本。

[0085] 在本发明实施例中，在采样得到末端执行器每个采样点处的位姿后，可计算末端执行器每个采样点处的速度，作为示例地，末端执行器每个采样点处的速度的计算公式可表示为：

[0086] 其中，δt为预设的采样时间间隔，和为末端执行器在第i条示教轨迹上第k个采样点处的速度。之后，将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本，训练样本可表示为

[0087] 模型构建单元43，用于构建极限学习机模型，并根据在预设的示教过程中采集的训练样本集，初始化极限学习机模型的输入和目标输出。

[0088] 在本发明实施例中，构建极限学习机模型，极限学习机模型可表示为：

[0089] 其中，和为极限学习机模型中隐藏层的神经元个数、偏置和权重，β＝(β1,,βi,,βN)为极限学习机网络模型中输出层的权重，x、g(x)分别为极限学习机模型的输入和激活函数，在此对激活函数不做限制。

[0090] 另外地，极限学习机模型的输入层和输出层应该具有相同的维度，即具有相同的神经元个数d，若末端执行器在二维平面运动，d＝2，若末端执行器在三维空间运动，d＝3。

[0091] 在本发明实施例中，将训练样本集中训练样本中末端执行器的位姿设置为极限学习机模型的输入，将训练样本中末端执行器的速度设置为极限学习机模型的目标输出，从而可得到极限学习机模型的优化目标为：

[0092] 其中， O为训练样本中末端执行器的速度，也为极限学习机模型的目标输出。

[0093] 约束构建单元44，用于根据预设的李雅普诺夫定理，构建稳定性约束条件，稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件。

[0094] 在本发明实施例中，基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件，稳定性约束条件通过对极限学习机模型中的权值进行条件约束，使得训练得到的极限学习机模型能够保证机器人模仿学习的稳定性。稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件，全局渐近稳定的约束条件可表示为：

[0095] 对于且Φi的个特征值中存在d个特征值线性无关，其中，Φi为的“对称部分”，＜为矩阵的负定。局部渐近稳
定的约束条件可表示为：

[0096] 对于

[0097] 模型训练单元45，用于根据稳定性约束条件，对极限学习机模型进行有监督的训练，将训练好的极限学习机模型设置为动态预测模型。

[0098] 在本发明实施例中，对极限学习机模型的优化目标进行优化，得到满足稳定性约束条件、且使得优化目标最优的一组输出层权值β。作为示例地，可通过最小二乘法对优化目标进行求解，得到再通过稳定性约束条件对
进行约束，其中，H+是矩阵H的Moore-Penrose广义逆矩阵。最后，训练好的极限学习机模型即训练好的动态预测模型。

[0099] 位姿获取单元46，用于当接收到预设的运动指令时，获取末端执行器当前时刻的位姿。

[0100] 在本发明实施例中，在接收到用户或者控制系统发送的运动或移动指令时，机器人可获取各个关节的关节角，再根据这些关节角和正运动学，计算得到末端执行器当前时刻的位姿，此外，若机器人自身带有末端执行器的位置传感器，可通过该位置传感器直接获得末端执行器当前时刻的位姿。

[0101] 位姿判断单元47，用于检测当前时刻的位姿是否为预设的目标位姿，是则，确定末端执行器完成预设的模仿学习任务，否则，根据当前时刻的位姿和预先训练好的动态预测模型，生成末端执行器下一时刻的预测位姿，动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。

[0102] 在本发明实施例中，检测当前时刻的位姿是否为预设的目标位姿，是则，可认为末端执行器成功模仿人的运动特性、收敛到了目标点，确定末端执行器完成了预设的模仿学习任务，否则需要对末端执行器的位姿进行调整，直至末端执行器的位姿为目标位姿。

[0103] 在本发明实施例中，当末端执行器当前时刻的位姿不是目标位姿时，将末端执行器当前时刻的位姿输入动态预测模型，可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度，可计算得到末端执行器下一时刻的预测位姿，计算公式可表示为：

[0104] 其中，xt+1为末端执行器下一时刻t+1的预测位姿，xt为末端执行器当前时刻t的预测位姿，为动态预测模型的输出，δt为预设的采样时间间隔。

[0105] 运动调节单元48，用于根据下一时刻的预测位姿，调节各个关节的关节角，获取末端执行器调节后的位姿。

[0106] 在本发明实施例中，在获得末端执行器下一时刻的预测位姿后，可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿，当前机器人各个关节分别需要变化的关节角，进而调节机器人各个关节的关节角，由于调节过程中的误差和精度，末端执行器调节后的位姿和预测位姿存在差异，可根据机器人调节后各个关节的角度，通过正运动学计算得到末端执行器调节后的位姿。

[0107] 位姿设置单元49，用于将调节后的位姿设置为当前时刻的位姿，并由位姿判断单元47执行检测当前时刻的位姿是否为预设的目标位姿的操作。

[0108] 在本发明实施例中，预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件，训练得到动态预测模型，在获得末端执行器当前时刻的位姿时，通过动态预设模型对末端执行器的位姿进行调节，直至末端执行器当前时刻的位姿为目标位姿，从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。

[0109] 在本发明实施例中，机器人的模仿学习装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

[0110] 实施例五：

[0111] 图5示出了本发明实施例五提供的机器人的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

[0112] 本发明实施例的机器人5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个方法实施例中的步骤，例如图1所示的步骤S101至S106。或者，处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

[0113] 在本发明实施例中，预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件，训练得到动态预测模型，在获得末端执行器当前时刻的位姿时，通过动态预设模型对末端执行器的位姿进行调节，直至末端执行器当前时刻的位姿为目标位姿，从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。

[0114] 实施例六：

[0115] 在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个方法实施例中的步骤，例如，图1所示的步骤S101至S106。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

[0116] 在本发明实施例中，预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件，训练得到动态预测模型，在获得末端执行器当前时刻的位姿时，通过动态预设模型对末端执行器的位姿进行调节，直至末端执行器当前时刻的位姿为目标位姿，从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度，有效地提高了机器人运动的人性化程度。

[0117] 本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

[0118] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
考勤结果确定方法、装置、考勤系统及电子设备	2020-06-20	2
一种具有可回收功能的电磁弹射器	2020-07-15	1
高表面质量冷弯矩形钢管的生产方法	2021-01-02	0
智能路线规划方法及设备	2021-06-11	1
一种用于河湖的组合式碎草船	2021-01-15	2
一种分部段火箭电气系统及其测试方法	2022-05-26	1
一种火腿包装用定位移动式切割装置	2020-09-22	2
一种激光准直收发一体式直线度测量的标定系统	2021-02-28	2
一种多媒体音箱	2020-08-20	0
一种用于生产高可靠性电缆的挤塑机	2022-12-28	1

机器人的模仿学习方法、装置、机器人及存储介质

机器人的模仿学习方法、装置、机器人及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：