首页 / 专利库 / 银行与财务事项 / 收益曲线 / 用于对动态模型进行安全的训练的方法

用于对动态模型进行安全的训练的方法

阅读:513发布:2020-05-16

专利汇可以提供用于对动态模型进行安全的训练的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种用计算机实现的方法,所述方法用于安全地、主动地训练用于用高斯过程对物理系统的时间序列进行建模的计算机辅助模型,所述方法具有以下步骤:规定安全 阈值 α;通过在所述系统上执行作为输入值的安全的初始曲线来初始化;创建初始的回归模型和初始的安全模型;重复地实施更新所述回归模型、更新所述安全模型、确定新的曲线区段、在所述物理系统上执行确定的新曲线区段并且测量输出值、将新的输出值列入到所述回归模型和安全模型中这些步骤;直到实施了N次循环;并且输出所述回归模型和安全模型。,下面是用于对动态模型进行安全的训练的方法专利的具体信息内容。

1.用计算机实现的方法(200),用于用高斯过程来安全地、主动地训练物理系统的基于时间序列的模型,所述方法具有以下步骤:
规定(210)安全阈值α;
通过在所述系统上执行作为输入值的安全的初始曲线来初始化(220),创建初始的回归模型和初始的安全模型;
重复地实施以下步骤
更新(240)所述回归模型;
更新(250)所述安全模型;
确定(260)新的曲线区段;
在所述物理系统上执行(270)确定的新的曲线区段并且测量输出值;
将新的输出值列入到(280)到所述回归模型和安全模型中;
直到实施了N次循环;并且
更新并且输出(290)所述回归模型和安全模型。
2.根据权利要求1所述的方法,其中如此确定(260)所述新的曲线区段,从而在满足安全模型的安全标准的情况下使信息收益最大化。
3.根据权利要求1和2中任一项所述的方法,其中在使用协方差矩阵的情况下确定(260)所述新的曲线区段。
4.根据权利要求1至3中任一项所述的方法,其中在附加条件下通过优化来确定(260)所述新的曲线区段。
5.根据权利要求1至4中任一项所述的方法,其中所述系统是用于内燃机机器人控制机构、物理传感器、化学反应等的试验台。
6.根据权利要求1至5中任一项所述的方法,其中所述安全模型包括所述系统的数值并且更确切地说包括压值、废气量、消耗值、功率值、关节位置值、运动极限、传感器数值、温度值、酸度值等等中的至少一个数值。
7.计算机辅助模型,用根据权利要求1至6中任一项所述的方法对所述计算机辅助模型进行训练。
8.计算机程序,所述计算机程序包括指令,所述指令被设立用于在计算机上执行所述计算机程序时执行根据权利要求1至6中任一项所述的方法。
9.机器可读的存储介质,在其上面保存了根据权利要求8所述的计算机程序。
10.装置,所述装置被设立用于执行根据权利要求1至6中任一项所述的方法。

说明书全文

用于对动态模型进行安全的训练的方法

技术领域

[0001] 本发明涉及一种利用安全条件用于为了借助于时间序列在高斯过程的基础上对动态系统进行建模的主动的学习的方法;一种用这种方法来训练的系统;一种包括指令的计算机程序,所述指令被设立用于在计算机上执行所述计算机程序时执行所述方法;一种机器可读的存储介质,在其上面保存了所述计算机程序;以及一种计算机,该计算机被设立用于执行所述方法。

背景技术

[0002] 从J. Schreiter、D. Nguyen-Tuong、M. Eberts、B. Bischoff、H. Markert和M. Toussaint的“Safe Exploration for Active Learning with Gaussian Processes”(ECML/PKDD,卷9286,2015年)中已知在主动的学习中进行安全的探索。具体来讲,在静止状态中检测逐点的数据。
[0003] 主动学习致于顺序的数据标识,以用于学习未知函数。在此,顺序地选择数据点以进行标识,从而使为了接近于未知函数所需要的信息的可用性最大化。普遍目标是创建精确的模型,而没有提供超出必要程度的信息。由此,所述模型更加有效,因为能够避免可能昂贵的测量。
[0004] 为了对数据进行分类、例如为了对图像进行标识,主动学习得到广泛使用。对于代表着物理系统的时间序列模型中的主动学习来说,必须如此产生数据,从而能够检测相关的动态过程。
[0005] 这意味着,必须通过输入区域内的动态运动通过输入曲线来如此激励物理系统,使得所收集的数据、也就是输入和输出曲线包含尽可能多的关于动态的信息。用于能够使用的输入曲线的实例尤其是正弦、斜坡和阶梯函数(Treppenfunktionen)以及白噪声。但是,在激励物理系统时,也必须额外地重视安全要求。在动态地探索输入区域时,所述激励不得损坏物理系统。
[0006] 因此,重要的是,识别以下区域,在所述区域内能够安全地执行动态的激励。

发明内容

[0007] 相对于现有技术,具有独立权利要求1的特征的方法拥有以下优点,即:其将动态的探索、主动的探索和安全的探索组合起来。
[0008] 在此,“动态的探索”是指在有待测量的系统的变化的条件下检测信息。主动的探索的目的是尽可能快地检测信息,其中尽可能按顺序地如此检测信息,从而能够在短时间内检测大量信息。换句话说,使单个的测量的信息收益最大化。最后,安全的探索确保尽可能不损坏有待测量的系统。
[0009] 用按本发明的方法,能够将这三种类型的探索组合起来。
[0010] 通过在从属权利要求中所列举的措施,能够实现在独立权利要求中所说明的方法的有利的拓展方案和改进方案。
[0011] 本发明公开了一种主动学习环境,其具有基于高斯过程的、用于时间序列模型的动态的探索(主动学习),所述动态的探索考虑到安全的观点,方法是:推导出合适的用于对输入区域进行动态的探索的标准。
[0012] 主动学习在许多应用中、像比如在模拟和预测计算中很有用。学习方法的目标通常是创建一描述现实的模型。为此,在检测关于所述目标的信息的意义上,测量真实的过程、真实的系统或真实的对象,这在下文中也被称为目标。然后,能够在模拟或预测计算中使用所创建的现实模型来取代所述目标。这种处理方式的优点在于节省、也就是不必重复所述过程,因为在此通常要消耗资源,或者所述对象或系统没有经受有待模拟的过程并且在此可能被消耗、损坏或改变。
[0013] 有利的是,所述模型尽可能准确地描述现实。在本发明中,尤其有利的是,能够在考虑到安全条件的情况下使用主动的学习。这些安全条件应该保证,有待检测的目标尽可能少地负面地/严重地、比如在对象或系统遭到损坏的意义上受到影响。
[0014] 在本发明中,使用具有时间序列结构、例如具有非线性的外生结构或非线性的自回归的外生结构的高斯过程。通过对于输入区域的动态的探索来产生对时间序列模型来说适当的输入及输出曲线或输出测量。输出测量、也就是说数据标识用作用于时间序列模型的信息。在此,输入曲线被参数化为彼此先后相随的曲线区域、例如斜坡函数或阶梯函数的彼此先后相随的区段,其以给定的安全要求和先前的观察逐步地通过探索性方案来确定。
[0015] 在考虑到以前的观察的情况下如此确定相应接下来的区段,使得在关于模型的标准方面的信息收益最大化。
[0016] 在此,将具有合适的探索标准的、拥有非线性的外生结构的高斯过程用作时间序列模型。同时使用另一个高斯过程模型,以用于关于给定的安全要求来预测安全的输入区域。通过用具有用于对安全预测加以考虑的附加条件来解决优化问题来确定输入曲线的区段。
[0017] 本发明的示范性的应用比如是内燃机的试验台,在所述试验台中应该能够模拟机器中的流程。在此,有待检测(erfassende)的参数比如是压力值、废气量、消耗值、功率值等。另一种应用比如是学习机器人控制机构的动态模型,其中要学习一种动态模型,所述动态模型将关节位置映射到机器人的关节力矩上,所述关节力矩能够用于控制机器人。能够主动地通过对于关节区域的探索来学习这种模型,但是这应该以安全的方式来实施,以便不超过关节的运动限制,否则由此可能会损坏机器人。另一种应用比如是学习一种取代物理传感器的动态模型。能够主动地通过探索在物理系统上产生并且测量用于学习这种模型的数据。在此,安全的探索是必要的,因为在不安全的区域进行测量可能会损坏物理系统。另一种应用比如是学习化学反应的性质,其中安全要求可能涉及诸如温度、压力、酸度等参数。
附图说明
[0018] 本发明的实施例在附图中示出并且在下面的说明书中进行详细解释。其中:图1示出了用于对计算机辅助的模型进行安全的训练的方法的流程100;
图2示出了用于对计算机辅助的模型进行安全的训练的方法的流程200。

具体实施方式

[0019] 应该实现与未知函数 的接近。就时间序列模型、像比如众所周知的非线性的外生(exogenen)(NX)模型的情况而言,输入区域包括离散的数值、所谓的调节量。
[0020] 用xk对时刻k来说适用: ,其中,代表着离散的调节曲线。在此  是系统的输入区域 的维数, 是NX结构的维数并且是X的维数(Dimension)。
[0021] 元素uk由物理系统来测量并且不必是等距的。出于更简单的记数法(Notation)的原因,示范性地以等距为出发点。通常,控制曲线是连续的信号并且能够明确地受到控制。
[0022] 在模型的学习环境(Lernumgebung)中,对以n个彼此先后相随的曲线区段的形式构成的数据进行观察,其中输入曲线 是矩阵并且由维数d的m个输入点所构成,也就是说 。输出曲线 包含m个相应的输出测
量,也就是说: 。
[0023] 现在应该如此确定下一个有待作为激励输入到物理系统中的曲线区段 ,从而不过在考虑到安全条件的情况下提高在f的建模方面的信息收益(Informationsgewinn)。
[0024] 为了接近于函数f,而使用高斯过程(下文缩写为GP),所述高斯过程通过其平均值函数μ(x)及其协方差函数 、也就是来规定 。
[0025] 在假设对输入和输出曲线进行带有噪声的观察的情况下,按照高斯过程的共同分布被给出为 ,其中 是将输出曲线连接起来的矢量并且 是包含输入曲线的矩阵。协方差矩阵通过 来表示。为了
进行说明,作为协方差函数而使用高斯核,也就是说 ,
其通过 来进行参数化。此外,将零矢量 假设为平均值,将nm维的单
位矩阵(Identitätsmatrix)I和 假设为输出噪声方差。
[0026] 在给定的共同分布的情况下,能够将所预测的用于新的曲线区段 的分布表述为[方程A:] 
其中,
[方程B:] 
[方程C:]  ,
其中, 是矩阵,其中 。此外,矩阵 包含关于以
前n条输入曲线的 的核心测评。由于协方差矩阵被完全填充,所以输入点x在利用用于规划下一条曲线的相关性的情况下不仅完全与曲线区段相关联而且超越不同的曲线。由于矩阵 可能具有高维数n·m,所以其反转可能是耗时的,因此能够使用GP-近似技术(GP-Approximationstechniken)。
[0027] 系统的安全状态通过未知函数g来描述,其中 ,所述未知函数为每个输入点x分配安全值z,所述安全值用作安全指示符。数值z在使用来自所述系统的信息的情况下得到确定并且如此设置,从而对于z的所有大于或等于零的数值来说相应的输入点x被认为是安全的。
[0028] 这样的安全值z取决于相应的系统并且能够如上面所解释的那样体现取决于系统的数值,所述取决于系统的数值用于安全的或不安全的压力值、废气量、消耗值、功率值、关节位置值、运动极限、传感器数值、温度值、酸度值等等。
[0029] z的数值通常是连续的并且表明给定的点x与输入区域内的未知的安全极限的间距。因此,用给定的函数g或对其的估计能够求取用于曲线 的安全平。曲线被分级为是安全的,如果曲线的安全值z大于零的可能性足够大,也就是说: ,其中 代表着 是不安全的阈值。用给定的数据 ,其中
,能够使用GP,以用于对函数g进行近似。用于给定的曲线区段
的预测分布 被计算为:
[方程D:]  ,
其中 和 是相应的平均值和协方差值。变量 和 如在方程2或3所示出
的一样来计算,但是其中 作为将所有 连接起来的目标矢量。通过用于对g进行近似的GP的使用,用于曲线 的安全条件 能够计算如下:
[方程E:]  。
[0030] 通常, 的计算难以通过分析方法来求解并且因此能够使用某种近似、像比如蒙特卡罗模拟(Monte-Carlo-Simulation)或期望值传播(英语:“Expectation Propagation”)。
[0031] 为了有效地选择最佳的 ,必须以合适的方式使曲线参数化。一种可能性是,已经在输入区域内进行参数化。曲线的参数化比如能够作为斜坡或阶梯函数(Stufenfunktionen)来实现。
[0032] 用按照方程A的预测分布和按照方程E的安全条件来进行曲线参数化,能够通过解决以下具有附加条件的优化问题来获得下一个曲线区段 :[方程F:]  ,
[方程G:]从而 ,
其中 表示曲线参数化并且 表示最佳标准(Optimalitätskriterium)。
[0033] 根据方程F,来自方程A的预测方差 用于探索。所述预测方差是协方差矩阵,其通过最佳标准 映射到实数,如方程F中所示。对于 来说,能够根据系统使用不同的最佳标准。因此,比如能够是:行列式(Determinante),也就是说等效于多重正态分布的预测置信椭圆体的体积的最大化;迹线,也就是等效于平均预测方差的最大化;或者最大的本征值,也就是等效于预测置信椭圆体的最大轴的最大化。但是,同样能够考虑其他最佳标准。
[0034] 参考图1,在步骤120中通过执行n0条安全的初始曲线来实施初始化。在此也创建回归过程和安全过程、高斯过程。初始曲线处于小的安全区域内,在所述小的安全区域内开始所述探索。这个小的安全区域事先通过关于所述系统的原有知识来选择。初始曲线通过来确定,其中n=n0。
[0035] 随后,在步骤160,根据方程F和G通过对 进行优化来确定新的曲线区段 。
[0036] 接着,在步骤170中,将所确定的曲线区段 用作输入,并且在这个区域内在物理系统上测量 和 。
[0037] 此后,在步骤150中,更新回归过程和安全过程。按照方程A在使用 的情况下更新回归模型f,并且按照方程D在使用 的情况下更新安全模型g。
[0038] 在此,使步骤150至170循环N次。除了以前规定的循环次数之外,也能够考虑在达到终止条件之后自动地结束。终止条件比如可能基于训练错误(模型预测和系统响应的错误度量)或者基于额外的可能的信息收益(如果最佳标准变得太小)。
[0039] 紧随此后,在步骤190中输出回归模型和安全模型。
[0040] 参考图2对所述方法的实现200进行解释。在步骤210中规定安全阈值。在此,为α选择处于0与1之间的数值。随后在步骤220中实施初始化,方法是:执行n0个安全的初始曲线,,其中n=n0。在此也创建回归过程和安全过程、高斯过程。初始曲线位于小的安全区域内,在所述小的安全区域内开始所述探索。这个小的安全区域事先通过关于所述系统的原有知识来选择。
[0041] 接下来,将所述方法的包括步骤240至280的部分执行N次,其中k是运行变量、也就是显示当前的循环。如在图1中一样,除了以前所规定的循环次数之外,也能够考虑在达到终止条件之后自动地结束。所述终止条件比如可能基于训练错误(模型预测和系统响应的错误度量)或者基于额外的可能的信息收益(如果最佳标准变得太小)。
[0042] 首先,在步骤240中,根据方程A在使用 的情况下更新回归模型f。在步骤250中,根据方程D在使用 的情况下更新安全模型g。在第一次
循环(Durchalufen)步骤240到280时,能够省略步骤240和250。
[0043] 随后,在步骤260中,根据等式F和G,通过对 进行优化来确定新的曲线区段。
[0044] 此后,在步骤270中,将所确定的曲线区段 用作输入,并且在这个区域内在物理系统上测量 和 。
[0045] 随后,在步骤280中,将在先前的步骤中经过处理的输入和输出曲线添加到或者 上。
[0046] 在结束步骤240到280的重复之后,进行步骤290,在该步骤中更新并且输出回归模型和安全模型。
[0047] 比如通过对于矩阵的排名的更新(秩一更新),能够有效地实施用于新数据的GP模型的递增(inkrementelle)的更新、也就是说步骤150或者240和250。尽管在这里结合用于进行时间序列建模的GP模型说明了NX结构,但是也能够使用一般的非线性的自动回归的外生情况,也就是具有NARX输入结构的GP,其中 。在此,为了为下一个曲线区段进行优化并且进行规划,而比如能够将预测平均值用作用于yk的代用值。然而,就NARX的情况而言,所述系统的输入激励通过调节量uk来实施。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈