首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 强化学习 / 一种基于语境翻译的机器人模仿学习方法

一种基于语境翻译的机器人模仿学习方法

阅读:1024发布:2021-01-21

专利汇可以提供一种基于语境翻译的机器人模仿学习方法专利检索,专利查询,专利分析的服务。并且本 发明 中提出的一种基于语境翻译的 机器人 模仿学习方法,其主要内容包括:学习语境翻译、用于特征追踪的奖励功能和加强学习 算法 的特征追踪,其过程为,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。本发明通过学习语境翻译模型,实现在高维度的观察和学习,也能处理语境改变的情况;此外,实现有效地语境翻译和学习,还能够应用于机器人的模仿学习中。,下面是一种基于语境翻译的机器人模仿学习方法专利的具体信息内容。

1.一种基于语境翻译的机器人模仿学习方法,其特征在于,主要包括学习语境翻译(一);用于特征追踪的奖励功能(二);加强学习算法的特征追踪(三)。
2.基于权利要求书1所述的模拟观察算法,其特征在于,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
3.基于权利要求书1所述的学习语境翻译(一),其特征在于,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一 可以用于隐含地提取关于语境ωk的信息。
4.基于权利要求书3所述的翻译模型,其特征在于,翻译模型是通过对演示和 进行训练的,其中,Dj来自未知语境ωi(源语境),Dj来自
未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值 因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
5.基于权利要求书4所述的翻译,其特征在于,通过学习整体翻译函数 使得其输出 对于所有t和每对训练演示Di和Dj都紧密匹配 也就是说,该模
型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
6.基于权利要求书3所述的模型的组件,其特征在于,该模型由四个组件组成:组件一为源观测编码器 表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器 表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用 来表示从输入观察和语境图像生成特征z3的特征提取器;编码器
Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端 和端对端之间进行了一个平方误差损失 的监督。
7.基于权利要求书6所述的编码器和解码器,其特征在于,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗 并且同时使特征表示此自动编码器,以将
其与特征z3对齐,使用损失 这使编码器Enc1和解码器Dec采用一
致的特征表示,使得目标语境观察 被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数 给出,其中,Di和Dj是从训练
集中随机选择的一对演示,而λ1和λ2是超参数。
8.基于权利要求书1所述的用于特征追踪的奖励功能(二),其特征在于,特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值 转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
其中, 计算在时间步长t的观察特征,由 给出, 计算翻译特征。
9.基于权利要求书8所述的追踪奖励,其特征在于,追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
最终奖励是加权组合 其中,ωrec是一个小常数。
10.基于权利要求书1所述的加强学习算法的特征追踪(三),其特征在于,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。

说明书全文

一种基于语境翻译的机器人模仿学习方法

技术领域

[0001] 本发明涉及模仿学习领域,尤其是涉及了一种基于语境翻译的机器人模仿学习方法。

背景技术

[0002] 随着科学技术的发展,机器人学已经成为人工智能领域研究的热点问题之一,它体现了目前研究的机器控制平。在机器人控制中,机器人的模仿学习是自动系统获取控制策略的有效方法。模仿学习是使机器通过观察人类工具使用的视频来学习涉及工具使用的机器人技能。通过学习,机器人可以进一步学习各种技能,如完成扫地、拖地、洗碗、叠衣服等家务工作,又如完成传送和取回物品、开关门等能够在未来减少人类工作量,给人们带来便利,提高人们幸福感的工作。然而,现有的模拟学习方法不能实现在高维度的观察和学习,而且不能处理语境改变的情况。
[0003] 本发明提出了一种基于语境翻译的机器人模仿学习方法,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。本发明通过学习语境翻译模型,实现在高维度的观察和学习,也能处理语境改变的情况;此外,实现有效地语境翻译和学习,还能够应用于机器人的模仿学习中。

发明内容

[0004] 针对不能处理语境改变的问题,本发明的目的在于提供一种基于语境翻译的机器人模仿学习方法,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。
[0005] 为解决上述问题,本发明提供一种基于语境翻译的机器人模仿学习方法,其主要内容包括:
[0006] (一)学习语境翻译;
[0007] (二)用于特征追踪的奖励功能;
[0008] (三)加强学习算法的特征追踪。
[0009] 其中,所述的模拟观察算法,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
[0010] 其中,所述的学习语境翻译,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一 可以用于隐含地提取关于语境ωk的信息。
[0011] 进一步地,所述的翻译模型,翻译模型是通过对演示 和进行训练的,其中,Di来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值 因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
[0012] 进一步地,所述的翻译,通过学习整体翻译函数 使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配 也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
[0013] 进一步地,所述的模型的组件,该模型由四个组件组成:组件一为源观测编码器表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
[0014] 使用 来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失 的监督。
[0015] 进一步地,所述的编码器和解码器,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失 这使编码器Enc1和解码器Dec采用一致的特征表示,使
得目标语境观察 被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数 给出,其中,Di和Dj是从训练集中随机选择的一
对演示,而λ1和λ2是超参数。
[0016] 其中,所述的用于特征追踪的奖励功能,特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值 转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
[0017]
[0018] 其中, 计算在时间步长t的观察特征,由 给出, 计算翻译特征。
[0019] 进一步地,所述的追踪奖励,追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
[0020]
[0021] 最终奖励是加权组合 其中,ωrec是一个小常数。
[0022] 其中,所述的加强学习算法的特征追踪,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。附图说明
[0023] 图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。
[0024] 图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。
[0025] 图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。

具体实施方式

[0026] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
[0027] 图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。主要包括学习语境翻译,用于特征追踪的奖励功能,加强学习算法的特征追踪。
[0028] 模拟观察算法是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
[0029] 学习语境翻译,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
[0030] 加强学习算法的特征追踪,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。
[0031] 图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。翻译模型是通过对演示 和 进行训练的,其中,Di来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值 因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
[0032] 通过学习整体翻译函数 使得其输出 对于所有t和每对训练演示Di和Dj都紧密匹配 也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
[0033] 该模型由四个组件组成:组件一为源观测编码器 表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器 表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
[0034] 使用 来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失 的监督。
[0035] 为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗 并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失 这使编
码器Enc1和解码器Dec采用一致的特征表示,使得目标语境观察 被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数 给
出,其中,Di和Dj是从训练集中随机选择的一对演示,而λ1和λ2是超参数。
[0036] 图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值 转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
[0037]
[0038] 其中, 计算在时间步长t的观察特征,由 给出, 计算翻译特征。
[0039] 追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
[0040]
[0041] 最终奖励是加权组合 其中,ωrec是一个小常数。
[0042] 对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈