一种基于语境翻译的机器人模仿学习方法专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

一种基于语境翻译的 机器人模仿学习方法

阅读：1024发布：2021-01-21

专利汇可以提供一种基于语境翻译的机器人模仿学习方法专利检索，专利查询，专利分析的服务。并且本发明中提出的一种基于语境翻译的机器人模仿学习方法，其主要内容包括：学习语境翻译、用于特征追踪的奖励功能和加强学习算法的特征追踪，其过程为，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。本发明通过学习语境翻译模型，实现在高维度的观察和学习，也能处理语境改变的情况；此外，实现有效地语境翻译和学习，还能够应用于机器人的模仿学习中。，下面是一种基于语境翻译的机器人模仿学习方法专利的具体信息内容。

权利要求

1.一种基于语境翻译的机器人模仿学习方法，其特征在于，主要包括学习语境翻译(一)；用于特征追踪的奖励功能(二)；加强学习算法的特征追踪(三)。
2.基于权利要求书1所述的模拟观察算法，其特征在于，它是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。
3.基于权利要求书1所述的学习语境翻译(一)，其特征在于，由于每个演示Dk都是从一个未知的语境ωk生成的，所以学习者不能在自己的语境ωl中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
4.基于权利要求书3所述的翻译模型，其特征在于，翻译模型是通过对演示和进行训练的，其中，Dj来自未知语境ωi(源语境)，Dj来自
未知语境ωj(目标语境)；该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示Dk，将其转化为学习者的语境ωl进行跟踪。
5.基于权利要求书4所述的翻译，其特征在于，通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说，该模
型将来自Di的观察结果转化为语境ωj，仅限于Dj中的第一个观察
6.基于权利要求书3所述的模型的组件，其特征在于，该模型由四个组件组成：组件一为源观测编码器表示为z1；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2；组件三为转换器z3＝T(z1,z2)，其将特征z1转换为z2的语境的特征，表示为z3；组件四为将目标语境解码的解码器Dec(z3)，解码为
使用来表示从输入观察和语境图像生成特征z3的特征提取器；编码器
Enc1和Enc2可以具有不同的权重或束缚，这取决于演示场景的多样性；该模型在输出端和端对端之间进行了一个平方误差损失的监督。
7.基于权利要求书6所述的编码器和解码器，其特征在于，为了确保翻译的特征z3形成与编码图像z1内部一致的表示，共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将
其与特征z3对齐，使用损失这使编码器Enc1和解码器Dec采用一
致的特征表示，使得目标语境观察被编码成与被翻译的特征z3相似的特征；整个模型的训练目标由组合损失函数给出，其中，Di和Dj是从训练
集中随机选择的一对演示，而λ1和λ2是超参数。
8.基于权利要求书1所述的用于特征追踪的奖励功能(二)，其特征在于，特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：
其中，计算在时间步长t的观察特征，由给出，计算翻译特征。
9.基于权利要求书8所述的追踪奖励，其特征在于，追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：
最终奖励是加权组合其中，ωrec是一个小常数。
10.基于权利要求书1所述的加强学习算法的特征追踪(三)，其特征在于，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z3，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。

说明书全文

一种基于语境翻译的机器人模仿学习方法

技术领域

[0001] 本发明涉及模仿学习领域，尤其是涉及了一种基于语境翻译的机器人模仿学习方法。

背景技术

[0002] 随着科学技术的发展，机器人学已经成为人工智能领域研究的热点问题之一，它体现了目前研究的机器控制水平。在机器人控制中，机器人的模仿学习是自动系统获取控制策略的有效方法。模仿学习是使机器通过观察人类工具使用的视频来学习涉及工具使用的机器人技能。通过学习，机器人可以进一步学习各种技能，如完成扫地、拖地、洗碗、叠衣服等家务工作，又如完成传送和取回物品、开门关门等能够在未来减少人类工作量，给人们带来便利，提高人们幸福感的工作。然而，现有的模拟学习方法不能实现在高维度的观察和学习，而且不能处理语境改变的情况。

[0003] 本发明提出了一种基于语境翻译的机器人模仿学习方法，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。本发明通过学习语境翻译模型，实现在高维度的观察和学习，也能处理语境改变的情况；此外，实现有效地语境翻译和学习，还能够应用于机器人的模仿学习中。

发明内容

[0004] 针对不能处理语境改变的问题，本发明的目的在于提供一种基于语境翻译的机器人模仿学习方法，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。

[0005] 为解决上述问题，本发明提供一种基于语境翻译的机器人模仿学习方法，其主要内容包括：

[0006] (一)学习语境翻译；

[0007] (二)用于特征追踪的奖励功能；

[0008] (三)加强学习算法的特征追踪。

[0009] 其中，所述的模拟观察算法，它是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。

[0010] 其中，所述的学习语境翻译，由于每个演示Dk都是从一个未知的语境ωk生成的，所以学习者不能在自己的语境ωl中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。

[0011] 进一步地，所述的翻译模型，翻译模型是通过对演示和进行训练的，其中，Di来自未知语境ωi(源语境)，Dj来自未知语境ωj(目标语境)；该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示Dk，将其转化为学习者的语境ωl进行跟踪。

[0012] 进一步地，所述的翻译，通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说，该模型将来自Di的观察结果转化为语境ωj，仅限于Dj中的第一个观察

[0013] 进一步地，所述的模型的组件，该模型由四个组件组成：组件一为源观测编码器表示为z1；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2；组件三为转换器z3＝T(z1,z2)，其将特征z1转换为z2的语境的特征，表示为z3；组件四为将目标语境解码的解码器Dec(z3)，解码为

[0014] 使用来表示从输入观察和语境图像生成特征z3的特征提取器；编码器Enc1和Enc2可以具有不同的权重或束缚，这取决于演示场景的多样性；该模型在输出端和端对端之间进行了一个平方误差损失的监督。

[0015] 进一步地，所述的编码器和解码器，为了确保翻译的特征z3形成与编码图像z1内部一致的表示，共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将其与特征z3对齐，使用损失这使编码器Enc1和解码器Dec采用一致的特征表示，使
得目标语境观察被编码成与被翻译的特征z3相似的特征；整个模型的训练目标由组合损失函数给出，其中，Di和Dj是从训练集中随机选择的一
对演示，而λ1和λ2是超参数。

[0016] 其中，所述的用于特征追踪的奖励功能，特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：

[0017]

[0018] 其中，计算在时间步长t的观察特征，由给出，计算翻译特征。

[0019] 进一步地，所述的追踪奖励，追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：

[0020]

[0021] 最终奖励是加权组合其中，ωrec是一个小常数。

[0022] 其中，所述的加强学习算法的特征追踪，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z3，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。附图说明

[0023] 图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。

[0024] 图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。

[0025] 图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。

具体实施方式

[0026] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

[0027] 图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。主要包括学习语境翻译，用于特征追踪的奖励功能，加强学习算法的特征追踪。

[0028] 模拟观察算法是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。

[0029] 学习语境翻译，由于每个演示Dk都是从一个未知的语境ωk生成的，所以学习者不能在自己的语境ωl中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。

[0030] 加强学习算法的特征追踪，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z3，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。

[0031] 图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。翻译模型是通过对演示和进行训练的，其中，Di来自未知语境ωi(源语境)，Dj来自未知语境ωj(目标语境)；该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示Dk，将其转化为学习者的语境ωl进行跟踪。

[0032] 通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说，该模型将来自Di的观察结果转化为语境ωj，仅限于Dj中的第一个观察

[0033] 该模型由四个组件组成：组件一为源观测编码器表示为z1；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2；组件三为转换器z3＝T(z1,z2)，其将特征z1转换为z2的语境的特征，表示为z3；组件四为将目标语境解码的解码器Dec(z3)，解码为

[0034] 使用来表示从输入观察和语境图像生成特征z3的特征提取器；编码器Enc1和Enc2可以具有不同的权重或束缚，这取决于演示场景的多样性；该模型在输出端和端对端之间进行了一个平方误差损失的监督。

[0035] 为了确保翻译的特征z3形成与编码图像z1内部一致的表示，共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将其与特征z3对齐，使用损失这使编
码器Enc1和解码器Dec采用一致的特征表示，使得目标语境观察被编码成与被翻译的特征z3相似的特征；整个模型的训练目标由组合损失函数给
出，其中，Di和Dj是从训练集中随机选择的一对演示，而λ1和λ2是超参数。

[0036] 图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：

[0037]

[0038] 其中，计算在时间步长t的观察特征，由给出，计算翻译特征。

[0039] 追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：

[0040]

[0041] 最终奖励是加权组合其中，ωrec是一个小常数。

[0042] 对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

标题	发布/更新时间	阅读量
一种基于深度强化学习的机动通信网智能规划方法	2020-05-08	756
一种作业推送的方法、系统、设备和存储介质	2020-05-11	968
基于强化学习和双线性卷积网络的车型识别方法	2020-05-11	923
一种多模态智能分析方法及系统	2020-05-12	214
一种基于深度强化学习的舰载机进近引导方法	2020-05-13	47
一种基于深度强化学习的订单信息处理方法	2020-05-11	855
基于强化学习的复杂薄壁结构物体3D打印路径规划方法	2020-05-12	520
视频摘要模型的训练方法、视频摘要生成方法及装置	2020-05-13	605
一种云计算环境下的虚拟集群自动伸缩方法	2020-05-12	646
一种逆向深度强化学习的电力通信设备测试资源调度方法	2020-05-14	43

一种基于语境翻译的机器人模仿学习方法

一种基于语境翻译的机器人模仿学习方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：