专利汇可以提供一种基于语境翻译的机器人模仿学习方法专利检索,专利查询,专利分析的服务。并且本 发明 中提出的一种基于语境翻译的 机器人 模仿学习方法,其主要内容包括:学习语境翻译、用于特征追踪的奖励功能和加强学习 算法 的特征追踪,其过程为,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。本发明通过学习语境翻译模型,实现在高维度的观察和学习,也能处理语境改变的情况;此外,实现有效地语境翻译和学习,还能够应用于机器人的模仿学习中。,下面是一种基于语境翻译的机器人模仿学习方法专利的具体信息内容。
1.一种基于语境翻译的机器人模仿学习方法,其特征在于,主要包括学习语境翻译(一);用于特征追踪的奖励功能(二);加强学习算法的特征追踪(三)。
2.基于权利要求书1所述的模拟观察算法,其特征在于,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
3.基于权利要求书1所述的学习语境翻译(一),其特征在于,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧 可以用于隐含地提取关于语境ωk的信息。
4.基于权利要求书3所述的翻译模型,其特征在于,翻译模型是通过对演示和 进行训练的,其中,Dj来自未知语境ωi(源语境),Dj来自
未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值 因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
5.基于权利要求书4所述的翻译,其特征在于,通过学习整体翻译函数 使得其输出 对于所有t和每对训练演示Di和Dj都紧密匹配 也就是说,该模
型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
6.基于权利要求书3所述的模型的组件,其特征在于,该模型由四个组件组成:组件一为源观测编码器 表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器 表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用 来表示从输入观察和语境图像生成特征z3的特征提取器;编码器
Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端 和端对端之间进行了一个平方误差损失 的监督。
7.基于权利要求书6所述的编码器和解码器,其特征在于,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗 并且同时使特征表示此自动编码器,以将
其与特征z3对齐,使用损失 这使编码器Enc1和解码器Dec采用一
致的特征表示,使得目标语境观察 被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数 给出,其中,Di和Dj是从训练
集中随机选择的一对演示,而λ1和λ2是超参数。
8.基于权利要求书1所述的用于特征追踪的奖励功能(二),其特征在于,特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值 转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
其中, 计算在时间步长t的观察特征,由 给出, 计算翻译特征。
9.基于权利要求书8所述的追踪奖励,其特征在于,追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
最终奖励是加权组合 其中,ωrec是一个小常数。
10.基于权利要求书1所述的加强学习算法的特征追踪(三),其特征在于,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度强化学习的机动通信网智能规划方法 | 2020-05-08 | 756 |
一种作业推送的方法、系统、设备和存储介质 | 2020-05-11 | 968 |
基于强化学习和双线性卷积网络的车型识别方法 | 2020-05-11 | 923 |
一种多模态智能分析方法及系统 | 2020-05-12 | 214 |
一种基于深度强化学习的舰载机进近引导方法 | 2020-05-13 | 47 |
一种基于深度强化学习的订单信息处理方法 | 2020-05-11 | 855 |
基于强化学习的复杂薄壁结构物体3D打印路径规划方法 | 2020-05-12 | 520 |
视频摘要模型的训练方法、视频摘要生成方法及装置 | 2020-05-13 | 605 |
一种云计算环境下的虚拟集群自动伸缩方法 | 2020-05-12 | 646 |
一种逆向深度强化学习的电力通信设备测试资源调度方法 | 2020-05-14 | 43 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。