首页 / 专利库 / 人工智能 / 贝叶斯网络 / 基于动态贝叶斯网络的模糊PLS建模方法

基于动态贝叶斯网络的模糊PLS建模方法

阅读:104发布:2020-05-11

专利汇可以提供基于动态贝叶斯网络的模糊PLS建模方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于动态 贝叶斯网络 的模糊PLS建模方法,该方法可用于存在较强的非线性、时变性及不确定性的工业过程建模。首先采用模糊偏最小二乘建立潜变量模型,使得模型具备非线性建模能 力 ;其次对潜变量模型中提取的得分矩阵进行增广矩阵扩展,使得模型可以较好地适应数据的动态特征;最后结合贝叶斯网络,使得模型可以较好地描述实际工业过程中存在的不确定性;为验证模型预测的准确性,该方法用于废 水 处理 过程的软测量建模。实验结果表明,模糊偏最小二乘与动态贝叶斯网络应用可明显提高模型预测的准确性,更适用于复杂工业过程的软测量建模。,下面是基于动态贝叶斯网络的模糊PLS建模方法专利的具体信息内容。

1.基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,所述建模方法包括以下步骤:
S1.数据预处理:对输入数据X及输出数据Y进行标准化,通过数据的标准化消除数据的量纲;并划分数据为训练集与测试集,将训练集用于模型的构建及训练,测试集用于对模型的评估;
S2.构建FPLS潜变量模型,在PLS的基础上引入Takagi-Sugeno-Kang,TSK模糊规则及模糊C均值算法Fuzzy C-means,FCM来构建FPLS模型,同时提取所述FPLS潜变量模型中所含信息量较多的潜变量;
S3.构建动态模型:对FPLS潜变量模型中提取的潜变量,通过增广矩阵的方式实现动态模型的构建;
S4.构建动态贝叶斯网络的模糊PLS建模方法Dynamic-Fuzzy Partial Least Squares-Bayesian networks,D-FPLS-BN模型:将通过增广矩阵拓展后的数据作为贝叶斯网络的输入,构建贝叶斯网络。
2.根据权利要求1所述的基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,步骤1中的数据来源于废处理数据,输入数据X包含体现废水污染度的相关数据,输出数据Y为在废水出水口监测的污染物指标。
3.根据权利要求1所述的基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,所述步骤S2的具体过程为:
S21:使用偏最小二乘模型对输入数据X与输出数据Y作如下分解:
式中,t和u分别为X和Y的潜变量,p和q为对应的负载变量,E和F为对应的残差矩阵;
S22:计算第h对特征向量th,uh:
th=Eh-1wh                (4)
uh=Fh-1ch                    (7)
S23:计算高斯隶属度函数聚类中心:
其中ci(i=1,2…,L)为聚类中心;
S24:将数据聚类为L类后,对每类数据建立子模型,定义输入变量为x=[x1x2…xr]T,模型参数bi=[bi0bi1…bir]T;
S241:TSK模糊函数定义为:
式中,Gi为标准化触发强度;
S242:标准化的触发强度Gi及第i个模糊规则的高斯触发强度τi计算公式分别为:
式中,i=1,2,…,L,cir为第i个高斯隶属度函数的聚类中心,σi为隶属度函数的宽度。
S243:隶属度函数的宽度σi的计算采用最邻近方法:
其中,ci及cl分别为两个最邻近的聚类中心,l=1,2,…,n。
S244:计算L类个TSK子模型的总输出:
S245:最小化目标函数JG:
4.根据权利要求1所述的基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,所述步骤S3的具体过程为:
S31:提取FPLS潜变量模型中的得分矩阵T,根据累计方差贡献率选择潜变量个数;
S32:动态模型构建如下:
设原始FPLS潜变量模型的输入矩阵为X:
将选择的潜变量进行增广矩阵的拓展,并引入时间滞后系数d,则增广矩阵Xi为:
式中,x(t)为某样本点,d为时间滞后系数。
5.根据权利要求1所述的基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,所述步骤S4的具体过程为:
S41:将动态结构拓展后的数据Xi作为贝叶斯网络的节点
S42:将数据集划分为训练集与测试集,使用训练集进行贝叶斯网络结构的训练;
S43:计算训练集中随机变量ξ的先验分布记为π(ξ);
S44:计算样本x1,x2,x3,…对ξ的条件密度P(x1,x2,x3,…,xm|ξ);
S45:利用贝叶斯公式,根据先验分布π(ξ)和条件密度P(x1,x2,x3,…,xm|ξ)计算后验概率密度P(ξ|x1,x2,x3,…,xm);
S46:利用后验概率密度做出对测试集中ξ的推断:
6.根据权利要求1至5任一项所述的基于动态贝叶斯网络的模糊PLS建模方法,其特征在于,所述建模方法还包括模型预测能评估过程,具体为:将测试集数据带入训练后的模型进行预测,根据输入数据的预测值与真实值计算出均方根误差Root Square Error,RMSE,完成模型预测能力的评估。

说明书全文

基于动态贝叶斯网络的模糊PLS建模方法

技术领域

[0001] 本发明涉及废处理过程出水指标的软测量方法,具体涉及一种基于动态贝叶斯网络的模糊PLS建模方法。

背景技术

[0002] 随着现代工业的不断发展,生产过程开始逐步趋向于连续化及大型化,因此对工业过程中质量指标的监测有较高的要求。但所采集的数据样本存在的高度非线性、时变性,以及过程存在的不确定性,对传统的过程监测提出了较大的挑战。目前广泛使用的过程监测技术为在线仪表检测及离线实验室检测,但在线检测仪表成本较高且仪表维护及保养较为困难;而离线实验室检测又存在较大的时间滞后,并且检测试剂也会造成二次污染,难以满足实际生产过程的在线监测需求,因此在工业过程监测中建立软测量模型就十分的必要。
[0003] 目前常用的软测量模型有多元线性回归、主成分分析、偏最小二乘、支持向量机以及决策树等。然而在实际工业过程中普遍存在非线性及动态特性,使得以上此类基本模型无法较好地描述结构复杂的数据;且传统方法在软测量建模过程中使用的变量较多,不仅造成模型结构过于复杂,且获取辅助变量的成本也相应增大。此外,贝叶斯网络(Bayesian networks,BN)作为一种基于概率的网络结构,可以较好的处理过程中存在的不确定性,但在数据维度较高的情况下,使得网络结构较为复杂,易造成模型过拟合现象的产生。
[0004] 在上述问题中,为解决软测量模型过于复杂的问题,通常采用变量选择的方法,但往往所采集的数据维度远远大于预测模型中所需要的实际维度,这种明显的信息冗余现象给软测量建模带来较大困难。此外,还可以通过建立潜变量模型来克服数据维度较高的问题,通过选择包含信息量较多的潜变量,既保留了数据中大多数原始信息,又降低了数据的维度。在潜变量模型中较为常用的潜变量模型为偏最小二乘法(Partial Least Squares,PLS),但传统的线性PLS无法充分的解释工业过程中数据普遍具有的非线性特征,这导致PLS方法难以解释过程的非线性。除了数据普遍具有的非线性特征以外,在工业过程中存在的时变性同样给建模过程带来较大的局限性,而目前通常的解决方案是使用简单的时间序列模型。然而在实际工业过程中,数据具有较大的波动性及非周期性,因此简单的时间序列方法难以准确描述样本的动态特征。

发明内容

[0005] 本发明针对现有技术中存在的问题,提供一种基于动态贝叶斯网络的模糊PLS建模方法(Dynamic-Fuzzy Partial Least Squares-Bayesian networks,D-FPLS-BN)。
[0006] 本发明采用一种基于动态贝叶斯网络的模糊PLS建模方法,所述方法包括以下步骤:
[0007] S1.数据预处理:对输入数据X及输出数据Y进行标准化,通过数据的标准化消除数据的量纲;并划分数据为训练集与测试集。将训练集用于模型的构建及训练,测试集用于对模型的评估。
[0008] S2.构建FPLS潜变量模型,来提取非线性特征、降低数据维度:传统的PLS在解决实际工业过程中存在的非线性问题时有着较大的局限性,因此在PLS的基础上引入(Takagi-Sugeno-Kang,TSK)模糊规则及模糊C均值算法(Fuzzy C-means,FCM)构建FPLS模型;同时为了防止数据维度过高造成模型结构过于复杂,通过提取FPLS潜变量模型中所含信息量较多的潜变量,来建立FPLS的潜变量模型。
[0009] S3.构建动态模型:对FPLS潜变量模型中提取的潜变量,通过增广矩阵的方式实现动态模型的构建,从而克服过程中存在的时变性,以此更好的描述过程中数据存在的动态特性。
[0010] S4.构建D-FPLS-BN模型:将通过增广矩阵拓展后的数据作为贝叶斯网络的输入,构建贝叶斯网络,以此克服实际工业中存在的不确定性,提升模型对质量指标预测的准确性。
[0011] S5.对数据进行反标准化,并完成模型预测能的评估:将测试集数据带入训练后的模型进行预测,根据输入数据的预测值与真实值计算出均方根误差(Root Square Error,RMSE),完成模型预测能力的评估。
[0012] 该方法的优势在于,在FPLS潜变量模型的基础上,结合动态模型及贝叶斯网络,使得D-FPLS-BN软测量模型可以克服较强的非线性、时变性以及不确定性。因此,在面对复杂废水处理过程,该模型具备较高的准确性及泛化能力;且在过程监测中,软测量方法相较于传统的传感器,该模型具有较高的可靠性。
[0013] 采用上述方案后,本发明与现有技术相比具有如下效果:
[0014] 与现有技术相比,基于动态贝叶斯网络的模糊PLS建模方法的提出,对工业过程的质量指标监测的有益效果是:通过软测量建模的方法,克服了实际工业中在线仪表成本较高、难以维护的缺点,同时解决了离线检测具有较大时间滞后的问题;并在FPLS软测量模型中进行潜变量的选择,既避免了高数据维度使得模型过于复杂的问题,又有效的提取了数据的非线性特征;再通过动态模型的构建,使得模型具备了更为准确描述数据动态特征的能力,有效的解决了过程中的时变性;最后与贝叶斯网络相结合,有助于模型对过程不确定性的描述,能够保证工业过程中的软测量模型具有较高的精度及泛化能力。附图说明
[0015] 图1是基于动态贝叶斯网络的模糊PLS软测量建模方法流程图
[0016] 图2是PLS模型对实际废水处理过程数据的第一潜变量得分向量散点图;
[0017] 图3是FPLS模型取不同模糊规则个数时,对实际废水处理过程数据的第一潜变量得分向量散点图;
[0018] 图4是FPLS-BN及D-FPLS-BN在不同模糊规则下模型预测的RMSE结果图。

具体实施方式

[0019] 下面将对本发明进行更清楚、完整的进一步描述,显然,所描述的实例仅仅是本发明的一部分实例,而不是全部的实施例
[0020] 本发明提供的对废水处理的出水指标预测所采取的技术方案是:
[0021] S1.数据预处理:根据公式(1)完成输入数据X及输出数据Y的标准化处理;并划分训练集与测试集,训练集用于模型的构建,测试集用于模型性能的评估;
[0022] S2.构建FPLS潜变量模型:构建FPLS得分向量间的潜变量模型,以解释数据的非线性特征;
[0023] S3.构建动态模型:将FPLS潜变量模型中得分矩阵进行提取,通过累计方差贡献率进行潜变量的选择:根据累计方差贡献率在某个潜变量后变化平缓,故选择该潜变量作为模型的潜变量个数;并通过增广矩阵及引入时间滞后系数的方式实现动态模型构建;
[0024] S4.构建D-FPLS-BN模型:将通过增广矩阵拓展后的数据作为贝叶斯网络的输入,构建贝叶斯网络,完成对新的输入数据的预测;
[0025] S5.对数据进行反标准化,并完成模型预测能力的评估。将测试集数据带入模型进行预测,根据输入数据的预测值与真实值计算出均方根误差(Root Square Error,RMSE),完成模型预测能力的评估。
[0026] 步骤S1中,将数据标准化为均值为0,方差为1的标准数据,使得E0=X,F0=Y,h=1。
[0027] 标准化公式如下:
[0028]
[0029] 式中,X*为原始数据,X为标准化以后的数据,μ及σ分别为所有样本数据的均值和方差。
[0030] 步骤S2中,FPLS潜变量模型的构建如下:
[0031] S21:使用偏最小二乘模型对输入与输出数据作如下分解:
[0032]
[0033] 式中,t和u分别为X和Y的潜变量,p和q为对应的负载变量,E和F为对应的残差矩阵。
[0034] S22:计算第h对特征向量th,uh:
[0035]
[0036]
[0037] th=Eh-1wh   (5)
[0038]
[0039]
[0040] uh=Fh-1ch   (8)
[0041] S23:计算高斯隶属度函数聚类中心:
[0042]
[0043]
[0044] 其中ci(i=1,2…,L)为聚类中心。
[0045] S24:将数据聚类为L类后,对每类数据建立子模型,定义输入变量为x=[x1x2…xr]T,模型参数bi=[bi0bi1…bir]T。
[0046] S241:TSK模糊函数定义为:
[0047]
[0048] 式中,Gi为标准化触发强度,
[0049] S242:标准化的触发强度Gi及第i个模糊规则的高斯触发强度τi计算公式分别为:
[0050]
[0051]
[0052] 式中,i=1,2,…,L,cir为第i个高斯隶属度函数的聚类中心,σi为隶属度函数的宽度。
[0053] S243:隶属度函数的宽度σi的计算采用最邻近方法:
[0054]
[0055] 其中,ci及cl分别为两个最邻近的聚类中心,l=1,2,…,n。
[0056] S244:计算L类个TSK子模型的总输出:
[0057]
[0058] S245:最小化目标函数JG:
[0059]
[0060] S25:计算输入输出矩阵X和Y的负载向量:
[0061]
[0062]
[0063] S26:计算第h组特征向量残差Eh、Fh:
[0064]
[0065]
[0066] 令h=h+1,返回步骤S22进行计算,使得残差矩阵Eh和Fh中包含的有效信息被提取,则计算终止;
[0067] 步骤S3中,提取FPLS潜变量模型中得分矩阵,通过构建增广矩阵的方式实现动态模型:
[0068] S31:提取FPLS潜变量模型中的得分矩阵T,根据累计方差贡献率选择潜变量个数。
[0069] S32:动态模型构建如下:
[0070] 假设原始FPLS潜变量模型的输入矩阵为X:
[0071]
[0072] 将选择的潜变量进行增广矩阵的拓展,并引入时间滞后系数d,则增广矩阵Xi为:
[0073]
[0074] 式中,x(t)为某样本点,d为时间滞后系数。
[0075] 步骤S4中,构建D-FPLS-BN模型:
[0076] S41:将动态结构拓展后的数据Xi作为贝叶斯网络的节点
[0077] S42:将数据集划分为训练集与测试集,使用训练集进行贝叶斯网络结构的训练。
[0078] S43:计算训练集中随机变量ξ的先验分布记为π(ξ)。
[0079] S44:计算样本x1,x2,x3,…对ξ的条件密度P(x1,x2,x3,…,xm|ξ)。
[0080] S45:利用贝叶斯公式,根据先验分布π(ξ)和条件密度P(x1,x2,x3,…,xm|ξ)计算后验概率密度P(ξ|x1,x2,x3,…,xm)。
[0081] S46:利用后验概率密度做出对测试集中ξ的推断:
[0082]
[0083] 步骤S5中,对数据进行反标准化,并完成模型预测能力的评估;
[0084] 将测试集数据带入模型进行预测,根据输入数据的预测值与真实值计算出均方根误差(Root Square Error,RMSE),RMSE越接近于0,代表该模型有着更好的准确度。RMSE计算公式如下:
[0085]
[0086] 式中,yi为真实值,为估计值,N为样本数。
[0087] 实施例1:
[0088] 以某废水处理厂的废水处理过程为例。用于软测量建模的废水处理数据包含6个输入变量和一个输出变量,输入变量包含入水流量(Q)、入水固体悬浮物(SSin)、入水生物量(BODin)、入水化学需氧量(CODin)、入水总氮(TNin)和入水总磷(TPin),输出变量为出水固体悬浮物(SSeff)。结合图1对本发明做进一步详述:
[0089] 第一步:将358组数据分为训练集与测试集,前238组为训练集用于模型的建立,后120组为测试集用于模型性能的检验。
[0090] 第二步:对PLS模型进行分解,且结合TSK模糊规则建立FPLS潜变量模型。根据表1可得出PLS模型的累计方差,表2为不同模糊规则下FPLS模型的累计方差;根据累计方差的变化选择模型中合适的潜变量个数,并进行得分矩阵的提取。此外,探究了模糊规则取4时,在各个不同的潜变量下,模糊规则取4的个数对信息提取的能力;如表3所示展示了输出变量的方差贡献率及累计方差贡献率。如表1-3所示,This LV表示方差贡献率(%),Total表示累计方差贡献率(%),通过累计方差贡献率对潜变量个数进行选择,表1中PLS方法的潜变量个数为2;表2中FPLS_1潜变量个数为2,FPLS_2、FPLS_3及FPLS_4潜变量个数为3;表3中FPLS_5至FPLS_9的潜变量分别为2、3、4、5、5。
[0091] 表1 PLS潜变量模型的方差贡献率及累计方差贡献率
[0092]
[0093] 表2 FPLS潜变量模型对不同模糊规则的方差贡献率及累计方差贡献率[0094]
[0095] 表3 FPLS潜变量模型的模糊规则对不同潜变量个数的方差贡献率及累计方差贡献率
[0096]
[0097] 第三步:将潜变量模型中得到的得分矩阵进行增广矩阵的拓展,实现动态模型的构建;
[0098] 第四步:将增广矩阵拓展后的得分矩阵作为贝叶斯网络的输入对网络进行训练,并用训练后得到的D-FPLS-BN模型完成对测试集数据的预测;
[0099] 第五步:将预测后的数据进行反标准化,完成模型预测能力的评估。并将D-FPLS-BN模型与PLS、BN、PLS-BN、D-PLS-BN及FPLS-BN进行预测准确性的对比。图2为PLS在建模过程中,第一潜变量的输入与输出得分向量间的散点图。图3中t(1)与u(1)构成的子图为不同模糊规则下,FPLS建模过程中,第一潜变量的输入与输出得分向量间的散点图与内回归线图,(a)(b)(c)(d)分别为模糊规则取2、3、4及5的得分向量间的散点图;图中t(1)与Firing strength构成的子图中,虚线代表标准化触发强度,实线分别为模糊规则对应的触发强度;根据散点图可以得出:针对具有较强非线性结构的数据,FPLS相较于PLS方法具有更好的非线性拟合能力,表明FPLS方法有着更强的非线性建模能力;图4展示了不同模糊规则下模型的预测的均方根误差,横坐标中的模糊规则为1代表了PLS模型,2-5分别代表了模糊规则为
2、3、4、5时的FPLS模型;纵坐标为RMSE值。图中蓝线和红线分别为FPLD-BN及D-FPLS-BN在对应模糊规则下RMSE值,得到当模糊规则为4时,FPLD-BN及D-FPLS-BN模型均有着相对较好的预测性能,对于非线性数据有较强的解释能力。表4列出了6种模型对出水SS预测的RMSE结果,结果表明:PLS及BN的RMSE分别为1.01及2.35,预测结果最优的D-FPLS-BN的RMSE为
0.72,RMSE相较于PLS方法,其RMSE降低了28.63%。
[0100] 表4不同模型对测试集出水SS的预测结果
[0101]
[0102] 考虑到废水处理过程中数据存在的非线性、时变性以及工业过程存在的不确定性,使得软测量过程中的预测模型难以达到较好地预测效果。本发明方法通过FPLS来更好的解释数据的非线性,并通过动态模型的构建较好地描述了动态特征;且与贝叶斯网络进行结合,使得D-FPLS-BN模型更好的适应实际工业过程的软测量建模。
[0103] 以上描述了本发明的基本原理、主要特征及本发明的优势所在。以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不局限于此,本行业的技术人员在本发明展示的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该由所附的权利要求书及其等效物界定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈