专利汇可以提供一种基于虚拟场景训练的机器人模仿学习方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于虚拟场景训练的 机器人 模仿学习方法。所述方法包括以下步骤:根据具体任务设计机器人模型和虚拟交互环境;采集和 整理 专家数据集;根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;从策略生成器 采样 数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。本发明采用判别学习一个价值回报函数,绕过大量复杂且计算量高的逆 强化学习 的中间步骤,学习过程更加简洁高效。,下面是一种基于虚拟场景训练的机器人模仿学习方法专利的具体信息内容。
1.一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,包括以下步骤:
S1、根据具体任务设计机器人模型和虚拟交互环境;
S2、采集和整理专家数据集;
S3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;
S4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;
S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。
2.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1包括以下步骤:
S1.1、根据具体任务设计机器人模型和虚拟环境,使用unity3D引擎设计仿真环境,所述仿真环境尽可能接近真实环境,其目的是提供一个可视化的图形界面,帮助更快的训练模型和后期迁移,减少直接在真实环境训练可能遇到的危险,降低训练成本;
S1.2、结合域随机化的方法,使仿真环境中可能影响输出的环境变量随机化,用于在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实环境的场景中;
S1.3、设计仿真环境的输入输出控制操作接口,包括和网络模型输出交互的网络接口和人机操作接口,便于对由策略生成器和判别器组成的网络模型进行训练和调试。
3.根据权利要求2所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1.2中,根据不同任务,所述仿真环境中可能影响输出的环境变量包括机器人当前状态,操作对象的数量和形状以及纹理特征,机器人放置的位置,灯光,障碍物位置和高度,相机位置方向和视野。
4.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2包括以下步骤:
S2.1、采集和整理专家数据集,通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数,作为模仿学习的样本,构建专家数据集;构建专家数据集的数学描述如下:
τE~πE,πE∈Π;
Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合,πE表示专家即人或者训练好的机器,τE表示从πE中采样出来的状态-动作数据样本集合;
S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理,剔除掉离群数据,对剔除掉离群数据后剩余的数据进行扩增,获得更多具有丰富表征的样本。
5.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2.2中,对剔除掉离群数据后剩余的数据进行扩增,包括加噪声,线性坐标变换,二次采样,轻微扰动。
6.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S3包括以下步骤:
S3.1、根据具体任务确定状态取值空间S和动作取值空间A,结合具体的任务,确定状态空间S和动作空间A的取值范围;
S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络,策略生成器的输入维度为和状态s的维度一样,使用简单的多层全连接分类网络作为策略生成器,输出维度等于|A|即预测当前状态下做出每个动作的概率,所述简单的多层全连接分类网络中的网络层不超过5层,结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小;判别器的输入维度是状态s和动作a的维度之和,s,a来自专家数据集和策略生成器采样的数据,中间层也用简单的多层全连接网络实现,输出层使用Sigmoid函数g(·)作为激活函数,预测状态-动作对来自专家数据集或者策略生成器的概率;Sigmoid函数定义如下:
其中,e、x分别表示自然底数和任意输入;
S3.3、分别将策略生成器和判别器的网络参数初始化为θ0和w0,θ0表示判别器全连接层全部待学习参数(权重系数和偏置参数)的初始值,w0为策略生成器全连接层全部待学习参数(权重系数和偏置参数)初始值,初始化方法使用高斯随机初始化。
7.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S4包括以下步骤:
S4.1、从策略生成器采样数据:πθ表示策略生成器,从策略生成器采样的过程表示为τ~πθ,即每次训练随机输入一组状态到策略生成器,将输出概率最大的动作作为该状态对应的动作,构成状态-动作对集合
其中Sj∈S,aj∈A,n表示状态-动作对的数目,τi表示第i次更新参数后的策略生成器,分别表示从第i次参数更新后的策略生成器采样的第j个状态和动作;
S4.2、设计参数更新策略,训练策略生成器和判别器。
8.根据权利要求7所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S4.2具体包括以下步骤:
S4.2.1、更新判别器网络参数:
S4.2.1.1、首先估计判别器网络参数的梯度,估计方法如下:
其中, 表示求f(x)关于判别器参数w的梯度,Dw(s,a)表示输入是状态-动作对(s,a)时,判别器对应的输出; 分别表示对
来自策略生成器和专家数据集的输入求判别器参数的梯度平均值;
S4.2.1.2、采用随机梯度下降法更新判别器的参数w,w为策略生成器全连接层的全部待学习参数(权重参数和偏置参数),更新过程如下:
其中,α表示学习速率、wi表示第i次更新后的判别器的全部参数;为了使得参数更快收敛,使用Adam策略进行参数更新;
S4.2.2、更新策略生成器参数:
估计策略生成器网络参数的梯度,估计方法如下:
其中 表示初始状态-动作对为 的
情况下 的统计平均值,E[x|y]表示条件期望;其中, 表示任意一个来自
状态空间集合和动作空间集合的元素;λ是一个常数,为通过训练效果选择的平衡因子、表示求函数f(x,θ)关于θ的梯度, 表示求统计平均值;
H(·)定义如下:
其中,Eπ[f(x)]表示求f(x)在策略生成器π确定的分布下的数学期望,∑a′ρπ(s,a′)表示在确定的策略生成器π和状态s下遍历整个动作空间集合A求占用率度量之和;ρπ(s,a)表示状态动作对(s,a)在策略生成器π占用率度量:
其中,γ是一个小于1的常数、π(a|s)表示输入状态为s的情况下输出动作为a的概率、st表示第t次的输入状态;
使用信赖域策略优化算法(TRPO)更新策略生成器参数θ;
S4.2.3、重复S4.2.1到S4.2.2的步骤,直到判别器网络收敛到某个鞍点,保存由训练完成的策略生成器和判别器组成的网络模型。
9.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S5中,对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入,使用判别器作为价值函数,获得动作输出;具体包括以下步骤:
S5.1、将真实环境下的初始状态作为网络输入,将预测的动作输出作为虚拟环境和外部真实环境机器人的输入,获得新的状态,重复上述过程;
S5.2、根据具体任务采用不同的衡量指标,统计测试表现结果,评估表现性能。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
虚拟化环境下支付应用的合规性检测方法 | 2020-09-15 | 4 |
一种变阻抗和基于事件的触觉反馈控制方法 | 2020-11-24 | 4 |
Participant interaction with entertainment in real and virtual environments | 2022-01-25 | 5 |
INITIATE EVENTS THROUGH HIDDEN INTERACTIONS | 2021-03-06 | 7 |
Virtual environment experience display device | 2022-02-20 | 2 |
METHOD AND APPARATUS FOR A VIRTUAL IMAGE WORLD | 2021-09-19 | 9 |
SYNCHRONIZING MULTIPLE HEAD-MOUNTED DISPLAYS TO A UNIFIED SPACE AND CORRELATING MOVEMENT OF OBJECTS IN THE UNIFIED SPACE | 2020-09-06 | 9 |
SYSTEM AND METHOD FOR PROCESSING APPLICATION LOGIC OF A VIRTUAL AND A REAL-WORLD AMBIENT INTELLIGENCE ENVIRONMENT | 2021-11-11 | 5 |
3D CONTENT AGGREGATION BUILT INTO DEVICES | 2021-09-11 | 7 |
可感壓之互動式玩具及結合虛擬與實境之玩具系統 | 2022-04-14 | 8 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。