一种基于深度学习的动作模型及其训练方法专利检索-监督学习机器学习人工智能专利检索查询-专利查询网

一种基于 深度学习的动作模型及其训练方法

阅读：1017发布：2020-05-21

专利汇可以提供一种基于深度学习的动作模型及其训练方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于深度学习的动作模型及其训练方法，动作模型包括数据补全模块、数据编解码模块和状态推理模块；对动作模型进行训练后，能够求解规划问题。本发明的动作模型能够补全原始数据的缺失部分，有效地解决在对动作模型训练的时候，原始数据部分缺失导致准确性差的问题。本动作模型通过数据训练，学习出状态在隐含空间的命题形式的表达，并学习在隐空间中的推理能力，使得问题可以通过搜索算法得到解序列；且训练过程均为无监督学习，高效地利用了深度学习在大量数据中总结规律的优点，无需耗费人工建模的成本。，下面是一种基于深度学习的动作模型及其训练方法专利的具体信息内容。

权利要求

1.一种基于深度学习的动作模型，其特征在于，包括数据补全模块、数据编解码模块、状态推理模块和搜索规划模块；
数据补全模块用于预测原始数据P中缺失的部分，并补充到原始数据中，生成完整可观测的数据O；
数据编解码模块，用于实现原始形式的数据O和隐含空间中的命题形式的数据S的双向转换；所述数码编解码模块包含两个子模块:编码模块和解码模块；编码模块用于将原始形式的数据O编码为隐含空间中的命题S；解码模块用于将隐含空间的命题S解码，得到原始形式的数据O；
状态推理模块，用于在隐含空间中的命题上进行推理，使得在给定当前时刻状态的命题S的条件下，可以得到下一个时刻的所有可能状态的命题S′。
2.根据权利要求1所述的一种基于深度学习的动作模型，其特征在于，所述数据补全模块包括生成器和判别器；
生成器的输入为:部分缺失的原始观测向量P、缺失部分的位置指示向量M；输出为:补全后的观测向量O；
判别器的输入为:补全后的观测向量O、缺失部分的位置提示向量T；输出为:与观测向量O维度数相等的概率值向量中的每一维表示在O中对应位置的数据不是补充数据的概率。
3.根据权利要求1所述的一种基于深度学习的动作模型，其特征在于，所述状态推理模块设置有状态判别器，所述状态判别器判断状态转移是否合法，用于对状态推理模块中的解码器计算得到的继任状态的集合进行筛选，滤除不合法的继任状态。
4.一种基于深度学习的动作模型的训练方法，其特征在于，用于训练上述权利要求1-3中的基于深度学习的动作模型，包括以下步骤：
步骤一：将用于训练的原始数据输入数据补全模块，原始数据的样本形式为步骤二：数据补全模块对原始数据的观测数据进行补全，得到原始观测数据，并使用该数据训练编解码模块；
步骤三：数据编解码模块的编码子模块对原始观测数据的样本进行编码，得到可用的观测数据并使用该数据训练状态推理模块。
5.根据权利要求4所述的一种基于深度学习的动作模型的训练方法，其特征在于：在所述步骤一中，需要用原始数据对数据补全模块进行训练，包括对生成器和判别器的训练，具体的公式为：
O＝G(P,M)
其中，O为生成器的定义式；为判别器的定义式；T为提示机制的变量；为从参数为pT的伯努利分布中进行d次采样得到的d维向量；⊙为逐元素相乘。
6.根据权利要求5所述的一种基于深度学习的动作模型的训练方法，其特征在于：生成器正向运算公式如下：
Pz＝M⊙P+(1-M)⊙Z
HG1＝ReLU(WG1*[Pz；M]+bG1)
HG2＝ReLU(WG2*HG1+bG2)
Ho＝σ(WGo*HG2+bGo)
O＝M⊙P+(1-M)⊙HGo
判别器正向运算公式如下：
HD1＝ReLU(WD1*[O,T]+bD1)
HD2＝ReLU(WD2*HD1+bD2)
其中，Z为d维噪声向量；[；]为维度相同的两个变量的拼接操作,*为矩阵相乘，ReLU(·)为线性整流函数，σ(·)为sigmoid函数；
WG1,bG1,WG2,bG2,WGo,bGo为网络超参数；
WD1,bD1,WD2,bD2,WDo,bDo为网络超参数。
7.根据权利要求4所述的一种基于深度学习的动作模型的训练方法，其特征在于，所述数据编解码模块的训练数据集的样本为观测向量P，将原始观测样本经过补全自后，得到原始观测数据O；所述数据编码模块包括编码器模块和解码模块，公式分别为：
S＝SEn(O)
其中，S的维度大小为m*2，表示m个2维one-hot向量，其现实含义为m个值为真或假的命题，m是一个人工设置的网络超参数；SEn为可训练的神经网络；为d维向量。SDe为可训练的神经网络。
8.根据权利要求4所述的一种基于深度学习的动作模型的训练方法，其特征在于，所述状态推理模块的训练数据集的样本为相邻观测向量对A＝AEn(S,S′)
其中，A为n维one-hot向量，其现实含义为n个动作中的一个，n为人工设置的网络超参数；的维度大小为m*2；AEn、ADe为可训练的神经网络。
9.根据权利要求4所述的一种基于深
度学习的动作模型的训练方法，其特征在于，所述状态推理模块中包括状态判别模块，其训练流程包括以下步骤：
S1：利用正样本数据集生成未标注样本数据集；正样本数据集P样本为S2：从正样本数据集P中采样k％得到K，令PK＝P-K，为正类集；UK＝U∪K，为负类集，训练一个二分类模型g；
S3：用g对未标注样本数据集U中的样本进行预测，得到每个样本的分类概率pi。根据预测的概率设定一个适当的阈值，当样本概率pi<θ时，可视为可靠负样本。可靠负样本组成一个新的数据集RN；
S4：使用正样本数据集P和可靠负样本数据集RN训练状态判别器。

说明书全文

一种基于深度学习的动作模型及其训练方法

技术领域

[0001] 本发明涉及深度学习神经网络模型领域，更具体地，涉及一种基于深度学习的动作模型及其训练方法。

背景技术

[0002] 在将经典规划的技术应用到实际生活时，有一个不可避免的过程，即建模。将现实生活的问题抽象为命题(Proposition)形式的表达、并且学习出其中的动作模型(Action Model)，即人类通过充分利用自己的先验知识，甚至通过发现问题领域的规律，将领域内可能发生的动作(Action)的前提(Predicate)和效果(Effect)都总结出来，建立一个可以进行逻辑计算的严格的模型。当问题较简单时，这一流程的工作量尚可接受；但当遇到复杂问题时，建模工作对建模者的要求显著提高，甚至在特别复杂的领域，人类目前还无法清晰地理清其中的逻辑关系，无法建立模型，因而不能使用规划器进行求解。可见，动作模型(Action Model)的学习是规划技术落地的一个瓶颈。

[0003] 如上文所述，将规划技术应用到实际生活中的问题上时，将问题抽象成命题形式、学习动作模型这样的建模工作对人类来说是成本较高的工作。对于这个技术难题，注意到深度学习在大量数据中挖掘规律的能力，可以通过提前收集的一些观测样本作为训练数据，使用深度学习的技术来学习出问题领域的动作模型。

[0004] 此外，经典规划问题通常假设问题的状态都是完全可观测的。而在现实问题中，人们在记录一个序列的时候，可能会因为记录过程被干扰或者其他因素，导致记录下来的状态并不是完全可观测的，而是有部分信息丢失的、部分可观测的(如拍摄视频时，目标和摄像头中间存在部分遮挡物)，由于信息的丢失，最后的模型训练以及规划问题求解都无法保证准确性。

发明内容

[0005] 本发明为克服上述现有技术中通过深度学习构建动作模型的方法中数据缺失的问题，提供一种基于深度学习的动作模型及其训练方法，能够补全缺失的数据并对动作模型进行训练。

[0006] 为解决上述技术问题，本发明采用的技术方案是：提供一种基于深度学习的动作模型：包括数据补全模块、数据编解码模块、状态推理模块和搜索规划模块；

[0007] 数据补全模块用于预测原始数据P中缺失的部分，并补充到原始数据中，生成完整可观测的数据O；

[0008] 数据编解码模块，用于实现原始形式的数据O和隐含空间中的命题形式的数据S的双向转换；所述数码编解码模块包含两个子模块:编码模块和解码模块；编码模块用于将原始形式的数据O编码为隐含空间中的命题S；解码模块用于将隐含空间的命题S解码，得到原始形式的数据O；对于数据编解码模块，本发明采用变分自编码器来实现，对用于表示状态的命题形式的低维编码的采样使用GumbelSoftmax来实现。

[0009] 状态推理模块，用于在隐含空间中的命题上进行推理，使得在给定当前时刻状态的命题S的条件下，可以得到下一个时刻的所有可能状态的命题S′；本发明采用变分自编码器来实现，对用于表示动作的低维编码的采样使用GumbelSoftmax来实现。

[0010] 优选的，所述数据补全模块包括生成器和判别器，生成器的输入为:部分缺失的原始观测向量P、缺失部分的位置指示向量M；输出为:补全后的观测向量O；判别器的输入为:补全后的观测向量O、缺失部分的位置提示向量T；输出为:与观测向量O维度数相等的概率值与观测向量O维度数相等的向量，它的每一维是一个概率值，它的第i维数值表示输入向量O中的第i维是来自原始观测向量P的概率。

[0011] 优选的，所述状态推理模块设置有状态判别器，所述状态判别器判断状态转移是否合法，用于对状态推理模块中的解码器计算得到的继任状态的集合进行筛选，滤除不合法的继任状态。

[0012] 还提供一种基于深度学习的动作模型的训练方法，用于训练上述的动作模型，包括以下步骤：

[0013] 步骤一：将用于训练的原始数据输入数据补全模块，原始数据的样本形式为,P为d维连续向量；M为d维离散向量；

[0014] 步骤二：数据补全模块对原始数据的观测数据进行补全，得到原始观测数据，并使用该数据训练编解码模块；

[0015] 步骤三：数据编解码模块的编码子模块对原始观测数据的样本进行编码，得到可用的观测数据并使用该数据训练状态推理模块。

[0016] 优选的，在所述步骤一中，需要用原始数据对数据补全模块进行训练，包括对生成器和判别器的训练，具体的公式为：

[0017] O＝G(P,M)

[0018]

[0019]

[0020] V(D,G)＝EO,M,T[MTlogD(O,T)+(1-M)Tlog(1-D(O,T))]

[0021]

[0022] 其中，O为生成器的定义式；为判别器的定义式；T为提示机制的变量；为从参数为pT的伯努利分布中进行d次采样得到的d维向量；⊙为逐元素相乘。

[0023] 模型的目标函数为：

[0024]

[0025] 优选的：生成器的正向运算过程公式如下：

[0026] Pz＝M⊙P+(1-M)⊙Z

[0027] HG1＝ReLU(WG1*[Pz；M]+bG1)

[0028] HG2＝ReLU(WG2*HG1+bG2)

[0029] Ho＝σ(WGo*HG2+bGo)

[0030] O＝M⊙P+(1-M)⊙HGo

[0031] 判别器正向运算公式如下：

[0032] HD1＝ReLU(WD1*[O,T]+bD1)

[0033] HD2＝ReLU(WD2*HD1+bD2)

[0034]

[0035] 其中，Z为d维噪声向量，从标准均匀分布中进行d次采样得出；[；]为维度相同的两个变量的拼接操作,*为矩阵相乘，ReLU(·)为线性整流函数，σ(·)为sigmoid函数；

[0036] WG1,bG1,WG2,bG2,WGo,bGo为网络超参数；

[0037] WD1,bD1,WD2,bD2,WDo,bDo为网络超参数。

[0038] 优选的，所述数据编解码模块的训练数据集的样本为观测向量P，将原始观测样本经过补全自后，得到新的样本O；这一模块使用VAE来实现，同时采用重参数技巧，使得编码得到的低维向量为离散向量，更具体的，是多个二维独热编码向量(one-hot vector)。其损失函数由O和的重构损失和S的分布与耿贝尔分布的信息散度两部分构成。所述数据编码模块包括编码器模块和解码模块，公式分别为：

[0039] S＝SEn(O)

[0040]

[0041] 其中，S的维度大小为m*2，表示m个2维one-hot向量，其现实含义为m个值为真或假的命题，m是一个人工设置的网络超参数；SEn为可训练的神经网络；为d维向量。SDe为可训练的神经网络。

[0042] 优选的，所述状态推理模块的训练数据集的样本为相邻观测向量对以及对应的指示缺失位置的向量，输出为命题对；这一模块使用VAE来实现，同时采用重参数技巧，使得编码得到的低维向量为离散向量，更具体的，是一个n维独热编码向量。其损失函数由S′和的重构损失和A的分布与耿贝尔分布的信息散度两部分构成。所述状态推理模块包括编码模块和解码模块，公式分别为：

[0043] A＝AEn(S,S′)

[0044]

[0045] 其中，A为n维独热编码向量，其现实含义为n个动作中的一个，n为人工设置的网络超参数；的维度大小为m*2；AEn、ADe为可训练的神经网络。

[0046] 另外的，所述状态推理模块中包括状态判别模块，判断状态转移是否合法，用于对解码器ADe计算得到的继任状态的集合进行筛选，滤除不合法的继任状态。判别器TD为一个二分类模型，其输入为两个状态，输出为0或1，分别表示状态转移S→S′是不合法的或合法的。由于训练数据中只有合法转移状态对，因此训练过程需要采用PU学习(Positive Unlabelled Learning)技术，具体训练流程包括以下步骤：

[0047] S1：利用正样本数据集生成未标注样本数据集；正样本数据集P的样本为，表示Si→S′i为合法的状态转移；将正样本数据集P拆分并重排后得到未标注样本数据集U，其样本为；

[0048] S2：从正样本数据集P中采样k％得到K，令PK＝P-K，为正类集；UK＝U∪K，为负类集，训练一个二分类模型g；

[0049] S3：用g对未标注样本数据集U中的样本进行预测，得到每个样本的分类概率pi。根据预测的概率设定一个适当的阈值，当样本概率pi<θ时，可视为可靠负样本。可靠负样本组成一个新的数据集RN；

[0050] S4：使用正样本数据集P和可靠负样本数据集RN训练状态判别器。

[0051] 与现有技术相比，本发明的有益效果是：本发明的动作模型能够补全原始数据的缺失部分，有效地解决在对动作模型训练的时候，原始数据部分缺失导致准确性差的问题。本动作模型通过数据训练，学习出状态在隐含空间的命题形式的表达，并学习在隐空间中的推理能力，使得问题可以通过搜索算法得到解序列；且训练过程均为无监督学习，高效地利用了深度学习在大量数据中总结规律的优点，无需耗费人工建模的成本。
附图说明

[0052] 图1是本发明的一种基于深度学习的动作模型的架构示意图；

[0053] 图2是本发明的一种基于深度学习的动作模型的训练流程图；

[0054] 图3是本发明的一种基于深度学习的动作模型的训练样本举例图；

[0055] 图4是本发明的一种基于深度学习的动作模型的规划问题求解举例图；

[0056] 图5是本发明的一种基于深度学习的动作模型的求解规划问题的流程图；

[0057] 图6是本发明的搜索规划模块的流程图。

具体实施方式

[0058] 附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

[0059] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

[0060] 下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

[0061] 实施例1

[0062] 如图1所示为一种基于深度学习的动作模型的实施例，包括数据补全模块、数据编解码模块、状态推理模块和搜索规划模块；

[0063] 数据补全模块用于预测原始数据P中缺失的部分，并补充到原始数据中，生成完整可观测的数据O；

[0064] 数据编解码模块，用于实现原始形式的数据O和隐含空间中的命题形式的数据S的双向转换；所述数码编解码模块包含两个子模块:编码模块和解码模块；编码模块用于将原始形式的数据O编码为隐含空间中的命题S；解码模块用于将隐含空间的命题S解码，得到原始形式的数据O；对于数据编解码模块，本发明采用变分自编码器来实现，对用于表示状态的命题形式的低维编码的采样使用GumbelSoftmax来实现。

[0065] 状态推理模块，用于在隐含空间中的命题上进行推理，使得在给定当前时刻状态的命题S的条件下，可以得到下一个时刻的所有可能状态的命题S′；本发明采用变分自编码器来实现，对用于表示动作的低维编码的采样使用GumbelSoftmax来实现。

[0066] 其中的，数据补全模块包括生成器和判别器，生成器的输入为:部分缺失的原始观测向量P、缺失部分的位置指示向量M；输出为:补全后的观测向量O；判别器的输入为:补全后的观测向量O、缺失部分的位置提示向量T；输出为:与观测向量O维度数相等的概率值向量中的每一维表示在O中对应位置的数据不是补充数据的概率。

[0067] 另外的，状态推理模块设置有状态判别器，状态判别器判断状态转移是否合法，用于对状态推理模块中的解码器计算得到的继任状态的集合进行筛选，滤除不合法的继任状态。

[0068] 本实施例的有益效果：本发明的动作模型能够补全原始数据的缺失部分，有效地解决在对动作模型训练的时候，原始数据部分缺失导致准确性差的问题。

[0069] 实施例2

[0070] 如图2-3所示为一种基于深度学习的动作模型的训练方法的实施例，用于训练实施例1的基于深度学习的动作模型，其中图3为已收集了八数码问题的一些部分观测数据，记为数据集X，具体的步骤如下：

[0071] 步骤一：将数据集X输入数据补全模块，数据集X的样本形式为,P为d维连续向量；M为d维离散向量；

[0072] 步骤二：数据补全模块对数据集X进行补全，得到数据集X2，并使用该数据集训练编解码模块；

[0073] 步骤三：数据编解码模块的编码子模块对数据集X2的样本进行编码，得到数据集X3并使用该数据集训练状态推理模块。

[0074] 其中，数据补全模块的训练包括生成器与判别器的训练，

[0075] 定义一个生成器G，实现O＝G(P,M)。

[0076] 定义一个判别器D，实现其中T为提示机制的变量，其意义是为判别器提供关于缺失区域的位置一定的提示信息，其定义如下：

[0077]

[0078] 其中是从参数为pT的伯努利分布中进行d次采样得到的d维向量，⊙表示逐元素相乘。

[0079] 具体训练过程中，数据补全模块的目标函数如下:

[0080] 定义函数V(D,G)＝EO,M,T[MTlogD(O,T)+(1-M)Tlog(1-D(O,T))]，

[0081] 定义函数

[0082] 模型的目标为

[0083]

[0084] 具体的，生成器正向运算公式如下：

[0085] Pz＝M⊙P+(1-M)⊙Z

[0086] HG1＝ReLU(WG1*[Pz；M]+bG1)

[0087] HG2＝ReLU(WG2*HG1+bG2)

[0088] Ho＝σ(WGo*HG2+bGo)

[0089] O＝M⊙P+(1-M)⊙HGo

[0090] 判别器正向运算公式如下：

[0091] HD1＝ReLU(WD1*[O,T]+bD1)

[0092] HD2＝ReLU(WD2*HD1+bD2)

[0093]

[0094] 其中，Z为d维噪声向量；[；]为维度相同的两个变量的拼接操作,*为矩阵相乘，ReLU(·)为线性整流函数，σ(·)为sigmoid函数；

[0095] WG1,bG1,WG2,bG2,WGo,bGo为网络超参数；

[0096] WD1,bD1,WD2,bD2,WDo,bDo为网络超参数。

[0097] 数据编解码模块的训练数据集X2的样本为观测向量P，将数据集X的样本经过补全自后，得到新的数据集X3的样本O；这一模块使用VAE来实现，同时采用重参数技巧，使得编码得到的低维向量为离散向量，更具体的，是多个二维独热编码向量(one-hot vector)。其损失函数由O和的重构损失和S的分布与耿贝尔分布的信息散度两部分构成。所述数据编码模块包括编码器模块和解码模块，公式分别为：

[0098] S＝SEn(O)

[0099]

[0100] 其中，S的维度大小为m*2，表示m个2维one-hot向量，其现实含义为m个值为真或假的命题，m是一个人工设置的网络超参数；SEn为可训练的神经网络；为d维向量。SDe为可训练的神经网络。

[0101] 还有的，状态推理模块的训练数据集的样本为相邻观测向量对以及对应的指示缺失位置的向量，输出为命题对；这一模块使用VAE来实现，同时采用重参数技巧，使得编码得到的低维向量为离散向量，更具体的，是一个n维独热编码向量。其损失函数由S′和的重构损失和A的分布与耿贝尔分布的信息散度两部分构成。所述状态推理模块包括编码模块和解码模块，公式分别为：

[0102] A＝AEn(S,S′)

[0103]

[0104] 其中，A为n维独热编码向量，其现实含义为n个动作中的一个，n为人工设置的网络超参数；的维度大小为m*2；AEn、ADe为可训练的神经网络。

[0105] 另外的，状态推理模块中包括状态判别模块，判断状态转移是否合法，用于对解码器ADe计算得到的继任状态的集合进行筛选，滤除不合法的继任状态。判别器TD为一个二分类模型，其输入为两个状态，输出为0或1，分别表示状态转移S→S′是不合法的或合法的。由于训练数据中只有合法转移状态对，因此训练过程需要采用PU学习(Positive Unlabelled Learning)技术，具体训练流程包括以下步骤：

[0106] S1：利用正样本数据集生成未标注样本数据集；正样本数据集P的样本为，表示Si→S′i为合法的状态转移；将正样本数据集P拆分并重排后得到未标注样本数据集U，其样本为；

[0107] S2：从P中采样k％得到K，令PK＝P-K，为正类集；UK＝U∪K，为负类集，训练一个二分类模型g；

[0108] S3：用g对未标注样本数据集U中的样本进行预测，得到每个样本的分类概率pi。根据预测的概率设定一个适当的阈值，当样本概率pi<θ时，可视为可靠负样本，可靠负样本组成一个新的数据集RN；

[0109] S4：使用正样本数据集P和可靠负样本数据集RN训练状态判别器。

[0110] 工作原理：在动作模型训练好后，通过将数据输入到搜索规划模块中，搜索规划模块用于利用状态推理模块在隐含空间内进行搜索，得到从初始状态到目标状态的序列。本发明采用A*算法来实现，其启发函数定义为当前状态与目标状态在隐空间上的曼哈顿距离。

[0111] 本实施的有益效果：本动作模型通过数据训练，学习出状态在隐含空间的命题形式的表达，并学习在隐空间中的推理能力，使得问题可以通过搜索算法得到解序列；且训练过程均为无监督学习，高效地利用了深度学习在大量数据中总结规律的优点，无需耗费人工建模的成本。

[0112] 实施例3

[0113] 如图4所示为有一些待求解的八数码问题的初始观测与目标观测，记为集合Q。将集合Q输入实施例2中已经训练好的动作模型，对集合Q中的问题进行求解，对每个问题，给定如图4所示的初始状态的观测图片P0和缺失部分的位置指示变量M0，以及目标状态的观测图片Pg和缺失部分的位置指示变量Mg，如图5所示，规划阶段的具体步骤如下：

[0114] 步骤1，将初始状态的观测图片P0和缺失部分的位置指示变量M0，以及目标状态的观测图片Pg和缺失部分的位置指示变量Mg，分别输入到数据补全模块的生成器G中，得到补全后的初始状态观测图片O0，以及补全后的目标状态的观测图片Og。

[0115] 步骤2：给定观测图片O0与Og，使用数据编解码模块的编码子模块，将O0与Og分别编码成隐空间下的命题形式状态向量S0与Sg。

[0116] 步骤3：以S0为起点，利用状态推理模块和搜索规划模块进行前向搜索，直到下一时刻的状态中包含Sg，并记录下搜索路径R。

[0117] 状态推理模块和搜索规划模块进行前向搜索的过程为：首先给定初始状态S0，目标状态Sg。然后，定义启发函数F(S)的计算规则：G(S)为当前实际成本，是指从初始状态S0到当前状态S的步数；H(S)为启发成本，是指当前状态S与目标状态Sg的曼哈顿距离。然后，进行以下搜索求解步骤：

[0118] 步骤i.初始化“开启”列表、“关闭”列表为空列表，计算状态S0的成本F(S0)＝G(S0)+H(S0)，并把初始状态S0放入“开启”列表。

[0119] 步骤ii.从“开启列表”中选择F最小的状态S，将其移出“开启”列表并添加到“关闭”列表。

[0120] 步骤iii.判断S是否等于Sg，若是，跳转到步骤vi；否则跳转到iv。

[0121] 步骤iv.枚举所有的动作A，通过状态推理模块的编码器AEn得到该状态下一时刻的所有可能状态{Sn}，将{Sn}中不在“关闭”列表内的状态去除，将这些状态的父节点设置为当前状态S。

[0122] 步骤v.计算{Sn}中各个状态的成本F(Sn)＝G(Sn)+H(Sn)，跳转到步骤ii。

[0123] 步骤vi.通过搜索过程中记录的每个状态的父节点，回溯获取从初始状态S0到当前状态S的路径，即解序列{Si}。输出{Si}，求解结束。

[0124] 步骤4：使用数据编解码模块的解码子模块，将搜索路径R的所有命题形式的状态向量{S0,S1,…,Sg}解码，得到图片形式的解序列{O0,O1,…,Og}，即规划问题的解。

[0125] 显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

标题	发布/更新时间	阅读量
一种基于深度学习的遥感影像自动标注方法	2020-05-08	157
一种声学模型训练方法和装置、计算机设备、存储介质	2020-05-08	960
基于长短期记忆网络的梯级水电站发电量预测方法	2020-05-11	517
射频基因库建立方法及违法违规无线电波检测方法	2020-05-12	14
行李车收集方法及行李车收集设备	2020-05-08	105
一种基于卷积神经网络和深度核网络的视频行为识别方法	2020-05-11	915
一种基于图像语义分割的损失函数及其设计方法	2020-05-12	676
基于半监督学习的图片分类方法、装置和计算机设备	2020-05-11	544
基于目标高度信息和色彩信息的固废在线识别方法	2020-05-08	116
一种图片标记方法、装置、设备及存储介质	2020-05-13	184

一种基于深度学习的动作模型及其训练方法

一种基于深度学习的动作模型及其训练方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：