首页 / 专利库 / 人工智能 / 机器学习 / 强化学习 / 基于强化学习的机器学习模型预测时机估计模型

基于强化学习机器学习模型预测时机估计模型

阅读:139发布:2020-05-11

专利汇可以提供基于强化学习机器学习模型预测时机估计模型专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 强化学习 的 机器学习 模型预测时机估计模型,首先采集一组时间序列数据输入到LSTM模型中,得到预测结果;然后将预测结果和时间序列数据同时输入到强化学习模型中,采用两次预测结果交叉熵的差值作为强化学习的奖励函数,得到强化学习模型的决策;最后根据决策数值判断预测结果是否准确,如果不准确,读取下一时刻数据与前述的时间序列数据组合形成新的时间序列数据输入到LSTM模型中进行下一轮的预测,循环进行预测操作。,下面是基于强化学习机器学习模型预测时机估计模型专利的具体信息内容。

1.一种基于强化学习机器学习模型预测时机估计模型,其特征在于,具体步骤如下:
步骤1:采集一组时间序列数据x=(x1,x2,…,xK),所述时间序列数据的真实标签为y;
步骤2:将所述时间序列数据和除去最后时刻的历史时间序列数据x′=(x1,x2,...,xK-1)分别输入到强化学习模型的预测单元中得到时间序列数据预测结果 和历史时间序列数据预测结果
步骤3:根据所述时间序列数据的所述真实标签,以及所述时间序列数据和所述前K-1个时刻数据的所述预测结果 和 计算获得预测结果交叉熵的差值作为奖励函数reward,优化所述强化学习模型参数;
步骤4:将所述时间序列数据x=(x1,x2,...,xK)和所述奖励函数reward输入到所述强化学习模型的决策单元中,得到所述强化学习模型做出的决策;
步骤5:如果所述决策为1,则输出当前所述预测结果作为最终预测结果;否则读取下一时刻数据并与所述时间序列数据进行组合,作为所述时间序列数据,进入所述步骤2。
2.根据权利要求1所述的基于强化学习的机器学习模型预测时机估计模型,其特征在于,所述奖励函数reward的公式如下:
其中,loss为所述LSTM模型使用的损失函数,
3.根据权利要求1所述的基于强化学习的机器学习模型预测时机估计模型,其特征在于,所述步骤3中采用所述奖励函数reward优化所述模型参数的具体过程为:根据所述奖励函数reward采用梯度上升方法对所述模型参数进行优化,所述优化公式为argmax(reward)。
4.根据权利要求1所述的基于强化学习的机器学习模型预测时机估计模型,其特征在于,所述预测单元采用LSTM模型;所述决策单元选用两种模型,一种由五层感知机模型组成,另一种由所述LSTM模型和所述五层感知机模型组成。

说明书全文

基于强化学习机器学习模型预测时机估计模型

技术领域

[0001] 本发明涉及机器学习技术领域,更具体的说是涉及一种基于强化学习的机器学习模型预测时机估计模型。

背景技术

[0002] 目前,随着海量数据的出现,AI技术迅速发展,而机器学习是AI发展到一定阶段的必然产物,其致于通过计算的手段,从大量数据中挖掘有价值的潜在信息。在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。而针对时间序列数据,现有及其学习算法尽管可以根据不同长度的数据给出预测结果,但是在长度较短的时候给出的预测结果准确率很低,可以说是十分不可信,只有当数据长度足够时,预测结果才是一个可信的结果,然而这个临界的长度是未知的,并且对于具体的每个实例而言,这个临界长度可能是不同的,因此数据长度的不确定导致的预测准确度的不可控。
[0003] 因此,如何在时间序列数据分析过程中根据数据长度判断预测时机实现精准预测是本领域技术人员亟需解决的问题。

发明内容

[0004] 有鉴于此,本发明提供了一种基于强化学习的机器学习模型预测时机估计模型,在传统的时间序列数据分析的及其学习算法基础上,引入强化学习方法,使得算法能够根据输入数据的情况动态的决定进行预测的时机。
[0005] 为了实现上述目的,本发明采用如下技术方案:
[0006] 一种基于强化学习的机器学习模型预测时机估计模型,具体步骤如下:
[0007] 步骤1:采集一组时间序列数据x=(x1,x2,...,xK),所述时间序列数据的真实标签为y;
[0008] 步骤2:将所述时间序列数据和除去最后时刻的历史时间序列数据x′=(x1,x2,...,xK-1)分别输入到强化学习模型的预测单元中得到时间序列数据预测结果 和历史时间序列数据预测结果
[0009] 步骤3:根据所述时间序列数据的所述真实标签,以及所述时间序列数据和所述前K-1个时刻数据的所述预测结果 和 计算获得预测结果交叉熵的差值作为奖励函数reward,优化所述强化学习模型参数;
[0010] 所述奖励函数reward的公式如下:
[0011]
[0012] 其中,loss为所述LSTM模型使用的损失函数,
[0013] 根据所述奖励函数reward采用梯度上升方法对所述模型参数进行优化,所述优化公式为argmax(reward);
[0014] 步骤4:将所述时间序列数据x=(x1,x2,...,xK)和所述奖励函数reward输入到所述强化学习模型的决策单元中,得到所述强化学习模型做出的决策;
[0015] 步骤5:如果所述决策为1,则输出当前所述预测结果作为最终预测结果;否则读取下一时刻数据并与所述时间序列数据进行组合,作为时间序列数据,组成一进入所述步骤2。
[0016] 优选的,所述预测单元采用LSTM模型;所述决策单元选用两种模型,一种由五层感知机模型组成,另一种由所述LSTM模型和所述五层感知机模型组成。
[0017] 经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于强化学习的机器学习模型预测时机估计模型,首先采集一组时间序列数据输入到强化学习模型的LSTM模型中,得到预测结果;然后将预测结果和时间序列数据同时输入到强化学习模型的决策单元中,采用两次预测结果交叉熵的差值作为强化学习的奖励函数,得到强化学习模型的决策;最后根据决策数值判断预测结果是否准确,如果不准确,读取下一时刻数据与前述的时间序列数据组合形成新的时间序列数据输入到LSTM模型中进行下一轮的预测,循环进行预测操作。附图说明
[0018] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0019] 图1附图为本发明提供的基于强化学习的机器学习模型预测时机估计模型整体结构示意图;
[0020] 图2附图为本发明提供的强化学习网络中五层感知机构成的决策单元结构示意图;
[0021] 图3附图为本发明提供的强化学习网络中五层感知机与LSTM模型构成的决策单元结构示意图;
[0022] 图4附图为本发明提供的实施例中预测估计结果示意图。

具体实施方式

[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 本发明实施例公开了一种基于强化学习的机器学习模型预测时机估计模型,具体步骤如下:
[0025] S1:采集一组时间序列数据x=(x1,x2,...,xK),时间序列数据的真实标签为y;
[0026] S2:将时间序列数据和除去最后时刻的历史时间序列数据x′=(x1,x2,...,xK-1)分别输入到强化学习模型的LSTM模型中得到时间序列数据预测结果 和历史时间序列数据预测结果
[0027] S3:基于时间序列数据的真实标签和预测结果 和 计算预测结果交叉熵的差值作为强化学习模型的奖励函数reward,利用奖励函数reward优化模型参数;
[0028] 奖励函数reward的公式如下:
[0029]
[0030] 其中,loss为LSTM模型使用的损失函数,
[0031] 根据奖励函数reward采用梯度上升方法对模型参数进行优化,优化公式为argmax(reward);
[0032] S4:将时间序列数据x=(x1,x2,...,xK)和奖励函数reward输入到强化学习模型的决策单元中,得到强化学习模型做出的决策;其中决策单元选用两种模型,一种由五层感知机模型组成,另一种由LSTM模型和五层感知机模型组成;
[0033] S5:如果决策为1,则输出当前预测结果作为最终预测结果;否则读取下一时刻数据并与时间序列数据进行组合,作为时间序列数据,进入S2。
[0034] 实施例
[0035] 以妊娠期高血压预测时机估计为例进行说明:
[0036] 1)数据说明
[0037] 强化学习模型t时刻的输入为(x_1,x_2,…,x_t),其中x_n(1≤n≤t)均为包含了受试者在孕检过程中产生的检查数据,包括年龄、体重、宫高、腹围、舒张压、收缩压、尿常规各项指标的检查结果等共87个特征。
[0038] 预测单元的LSTM模型的输出y_pred范围在0~1之间,代表着LSTM模型针对本次输入数据,预测受试者患有妊娠期高血压的概率。
[0039] 强化学习模型的决策单元输出action取值为{0,1},0代表本次预测结果不够准确,需要读取下一时刻的数据;1代表本次预测结果可信,输出预测单元y_pred作为预测结果。
[0040] 图2所示模型为强化学习网络中由五层感知机构成的决策单元模型,包括输入层、隐层和输出层,每一层的单元与之相邻层的所有单元连接,同一层的单元之间没有连接,其中(x11,x12,...,x1k)输入输入层中,经过隐层,最后由输出层输出决策,具体计算过程如下:
[0041] S11:输入xi=(xi1,xi2,...,xin),xi表示第i个时刻的特征向量,在本实施例中,n=87,同一时刻具有87个特征向量;
[0042] S12:根据公式h1=sigmoid(W1x+b1)输出第一个隐藏层的结果,其中h1表示第一个隐藏层的输出结果,W1表示第一个隐藏层的系数矩阵,b1表示第一个隐藏层的偏置;
[0043] S13:将h1输入到第二个隐藏层,通过公式h2=sigmoid(W2h1+b2)计算得到第二个隐藏层的结果,其中h2表示第二个隐藏层的输出结果,W2表示第二个隐藏层的系数矩阵,b2表示第二个隐藏层的偏置;
[0044] S14:将h2和上一次经过预测单元的LSTM模型获得的预测结果 拼接输入到第三个隐藏层,通过公式 计算得到输出结果(a1,a2),其中,a1,a2分别表示取值为0和1的概率,W3表示第三个隐藏层的系数矩阵,b3表示第三个隐藏层的偏置;
[0045] S15:根据输出的(a1,a2)进行采样得到最终的结果action。
[0046] 图3所示模型为强化学习网络中由五层感知机与LSTM模型构成的决策单元模型,其中(x1,x2,...,xn)输入LSTM模型,得到(o1,o2,...,on)的预测结果,并将其输入输入层,经过隐层,最后由输出层输出决策,其具体计算过程如下:
[0047] S21:输入为x=(x1,x2,...,xi),表示前i个时刻的特征向量;
[0048] S22:通过LSTM建模时序依赖:hk=LSTM(hk-1,xk),k∈[1,i],其中hk是LSTM在第k步编码得到的隐状态,最后一步得到的隐状态hi作为输入的表征,它包含了输入x中所有的时序依赖;h1=sigmoid(W1x+b1)
[0049] S23:将hi输入到五层感知机中,根据公式输出第一个隐藏层的结果,其中h1表示第一个隐藏层的输出结果,W1表示第一个隐藏层的系数矩阵,b1表示第一个隐藏层的偏置;
[0050] S24:将h1输入到第二个隐藏层,通过公式h2=sigmoid(W2h1+b2)计算得到第二个隐藏层的结果,其中h2表示第二个隐藏层的输出结果,W2表示第二个隐藏层的系数矩阵,b2表示第二个隐藏层的偏置;
[0051] S25:将h2和上一次经过预测单元的LSTM模型获得的预测结果 拼接输入到第三个隐藏层,通过公式 计算得到输出结果(a1,a2),其中,a1,a2分别表示取值为0和1的概率,W3表示第三个隐藏层的系数矩阵,b3表示第三个隐藏层的偏置;
[0052] S26:根据输出的(a1,a2)进行采样得到最终的结果action。
[0053] 评价指标
[0054] 计算所有时刻,所有样例的预测结果AUC作为baseline;图4中将模型提前预测样例的平均预测时刻作为x轴坐标,所有提前预测结果的AUC作为y轴坐标,用点标注提出模型对所有样例中提前预测样例平均预测时刻和预测结果的AUC。
[0055] 进行预测的结果如图4所示,横坐标表示序列长度,纵坐标表示AUC值,其中图中曲线代表baseline,点代表不同强化学习模型(LSTM或多层感知机)与不同奖励策略(两次预测结果交叉熵的差值或或者带正则项的交叉熵)组合下的模型性能(预测结果)。红色点代表avg_lstm_dyn,是LSTM模型和多层感知器构成的决策单元,并与预测结果交叉熵的差值组成的强化学习模型的预测结果;绿色点代表avg_mlp_dyn,是MLP模型(多层感知器)与预测结果交叉熵差值组成的强化学习模型的预测结果。可以看出,提出的模型均优于baseline,即与baseline相比,在相同预测时间下,模型的预测性能优于baseline,尤其是包含LSTM模型的决策单元与预测结果交叉熵的差值组成的强化学习模型,在相同的预测性能下,模型的预测时间早于baseline。
[0056] 2)图1表示的本发明的预测过程为:
[0057] a:获取一组包含K个历史时刻的时间序列数据;
[0058] b:将时间序列数据输入到LSTM模型,即为预测单元中,得到LSTM对此时的预测结果y_pred;
[0059] c:将步骤b中的时间序列数据和LSTM的预测结果y_pred输入到强化学习模型,即为决策单元中,以两次预测结果交叉熵的差值Dyn作为强化学习的奖励函数,得到强化学习模型做出的决策action;
[0060] d:如果action为1,输出y_pred作为预测结果;否则,读取下一时刻数据与前述数据组合形成一组新的包含K+1个历史时刻的时间序列数据作为输入,进入步骤b,重复进行预测。
[0061] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0062] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈