首页 / 专利库 / 光学 / 近红外光谱 / 一种近红外光谱的多模型建模方法

一种近红外光谱的多模型建模方法

阅读:797发布:2020-05-13

专利汇可以提供一种近红外光谱的多模型建模方法专利检索,专利查询,专利分析的服务。并且一种 近红外 光谱 多模型建模方法,把采集的 近红外光谱 及对应的被测成分浓度数据分成训练集和预测集;利用boosting方法对训练集进行重 采样 ,一开始赋予所有 波长 点相同的取样权重,从中选取一定数目的波长点建立PLS子模型;通过PLS子模型的得分和 载荷 乘积得到预测光谱;利用预测光谱和建模子集光谱的差值的指数损失函数对训练子集的每个波长点赋予权重;下次选取波长点时,权重越大的样本取样概率越大;重复以上步骤,建立多个子模型;通过这些模型预测结果的加权平均值作为预测集样本的预测浓度值。该方法通过从波长方向建立子模型,采用boosting方法不断进行训练最终建立多模型,提高了定量分析模型的预测 精度 ,为近红外光谱多元校正分析提供了一种新的定量分析方法。,下面是一种近红外光谱的多模型建模方法专利的具体信息内容。

1.一种用于近红外光谱的多模型建模方法,其特征在于:它是从波长方法选取一定数目的波长点建立子模型,之后用boosting学习方法建立多个子模型,最后用所有子模型预测结果的加权平均得到未知样本浓度的最终预测结果。其中波长点权重的更新是基于偏最小二乘建立子模型的得分与载荷乘积得到的预测光谱与建模子集光谱的差值。
2.根据权利要求1所述的近红外光谱的多模型建模方法,其特征在于:所述一定数目的波长点的选取方法是:固定模型总数,按总波长点数的5%~100%,每间隔5%,改变被选取的波长点的数目(非整数时去尾法取整),计算RMSECV值,RMSECV最小值对应的波长点数为每次循环选取的波长点数。
3.根据权利要求1所述的近红外光谱的多模型建模方法,其特征在于:子模型个数的确定方式是:给定一个足够大的模型数目值,计算训练集采用多模型建模交叉验证均方根误差(RMSECV)随着模型个数的变化,RMSECV值不变或者几乎不变(趋于稳定)时为应建立的模型个数。

说明书全文

一种近红外光谱的多模型建模方法

技术领域

[0001] 本方法发明属于分析化学领域的无损分析技术,特别涉及一种近红外光谱建模方法。

背景技术

[0002] 复杂样本的定量分析一直是分析化学领域及工业生产中极具挑战性的问题。复杂样本一般基体复杂、组分繁多,传统的分析方法难以适用于复杂样本组分的定量分析,亟待发展新的、快速的定量分析技术。近红外光谱是一种无损分析技术,以其分析速度快、样本预处理简单、稳定性好等优点而在众多的分析方法中脱颖而出,广泛应用于农业、石油化工、医药、食品等领域。然而,由于近红外光谱谱带重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定量分析。在近红外光谱定量分析中,建立一个预测未知样本组分浓度的可靠的定量模型是最重要的任务,因此,需要进一步研究建模方法。
[0003] 在近红外光谱定量分析中,常用于建模的方法有多元线性回归(MLR)、主成分回归方法(PCR)、偏最小二乘回归(PLS)、人工神经网络(ANN)、支持向量回归(SVR)等。由于近红外光谱检测到的信号除样品信息外,还有噪声、背景等干扰信息,并且并不是所有的光谱信息都是有用信息,由此发展了一系列预处理以及波长选择技术,前者有标准正态变量(SNV)、多元散射校正(MSC)、SG平滑、一阶或二阶导数、正交信号校正(OSC)、连续小波变换(CWT)等,后者有遗传算法(GA)、无信息变量消除(UVE)、蒙特卡罗-无信息变量消除(MC-UVE)、随机检验-偏最小二乘(RT-PLS)等。然而这些传统的建模方法仅产生单个校正模型,即采用一定的训练集建立一个最优模型用于预测,当训练集样本数目有限或测定组分含量较低时,单模型建模方法的预测精度与稳定性往往不能令人满意。然而,在许多情况下,模型的预测精度至关重要,近年来,起源于机器学习领域的多模型建模技术,受到了学者的广泛关注。多模型建模就是从同一训练集中产生多个训练子集,然后利用这些训练子集建立多个子模型分别进行预测,并将多个预测结果通过一定的集成方法,形成一个最终结果。这种方法利用多个子模型协同的方式提升了预测模型精度,稳健性以及稳定性。
[0004] Bagging和boosting是两种典型的多模型算法。Bagging中训练子集的样本是随机选择的,各训练子集间相互独立,并行生成,子模型没有权重,最终的预测结果采用简单平均的方式集成,该方法可以减小模型的预测方差。而boosting样本选择与前轮训练有关,训练子集不独立,顺序生成,子模型权重不同,最终的预测结果采用权重中位值的方式集成。该方法不仅可以减小模型的预测方差,还可以减少模型的预测偏差。自从Massart等(参见:Zhang M H,Xu Q S,Massart D L.Boosting partial least squares.Anal Chem,2005,77:1423~1431)将boosting PLS方法引入到分析化学领域后,近年来在化学计量学领域发展了一系列基于bagging和boosting的多模型建模方法,如bagging PLS、bagging KPLS、boosting KPLS、boosting SVR、boosting ANN等,用于烟草样本、土壤样本、谷物样本、发酵过程和QSAR研究中,并且都取得了比单一模型更好的预测结果。
[0005] 以上基于bagging和boosting的多模型建模方法,都是利用对训练集的样本进行不同方式重采样来构建训练子集,以此实现多模型建模中精度和差异性的折中。如果不对样本进行重采样,而对光谱的波长变量采样来构建不同的训练子集,这不仅可以降低计算的复杂度,还可以避免全谱建模时出现的困难。谭等(参见:Tan C,Li M L,Qin X.Random subspace regression ensemble for near-infrared spectroscopic calibration of tobacco samples.Anal Sci,2008,24:647~653)首次提出对波长随机采样的方式来建立近红外光谱定量分析的bagging多模型,通过对波长随机采样,再建立多元线性回归子模型,产生了较好的预测效果。后来又发展了采用聚类算法对波长重采样(参见:Tan C,Qin X,Li M L.Subspace regression ensemble method based on variable clustering for near-infrared spectroscopic calibration.Anal Lett,2009,42:1693~1710)以及划分波段建立bagging多模型(参见:Jing M,Cai W S,Shao X G.Multiblock partial least squares regression based on wavelet transform for quantitative analysis of near infrared spectra.Chemometr Intell Lab Syst,20l0,100:22~27)的方法。boosting方法作为一种性能优良的多模型建模方法,其中基于样本重采样的boosting多模型建模取得了很好的效果,但当样本数目较少时,对样本的重采样就显得困难,因此,有必要进一步发展基于波长重采样的boosting多模型建模方法,以解决尤其是小数目样本时模型的预测精度。

发明内容

[0006] 本发明的目的是针对上述存在问题,提供一种用于近红外光谱定量分析的多模型建模方法,该方法可以模型的预测能、增强模型的稳定性,尤其在样本数目较少时,可以充分发挥优势。
[0007] 本发明利用boosting方法重采样,通过各个光谱点的预测误差来更新样本的权重,采样加权平均的方式来集成子模型,实现近红外光谱的多模型建模。
[0008] 为实现本发明所提供的技术方案包括以下步骤:
[0009] 1)采集被测物样本的近红外光谱数据,随机分成两部分,包括训练集和预测集样本,用常规方法测定训练集中样本的被测成分浓度含量,得到训练集样本的被测成分浓度向量,其中训练集样本用来建立模型并优化参数,预测集样本用来检验模型的预测能力;
[0010] 2)对训练集样本进行波长点boosting重采样,建立多个基于波长空间子模型;
[0011] ①将训练集光谱矩阵Xm×n中所有波长点赋予相等的取样权重wi,1,[0012] wi,1=1/n(i=1,...,n) (1)
[0013] 其中m和n分别为训练集中样本数目和波长点的数目。
[0014] ②根据波长点的取样权重wi从原始训练集样本中通过概率取样的方式挑选出一定数目的波长点作为一个训练子集。
[0015] ③用训练子集的样本建立一个偏最小二乘回归(PLS)子模型,得到PLS子模型的得分和载荷,利用得分和载荷的乘积得到训练集的预测光谱矩阵Dm×n。
[0016] ④计算训练子集中光谱与预测光谱的误差的绝对值Em×n=|Xm×n-Dm×n|,并取每个波长点下的平均值ei=mean(Em×n),(i=1,...,n)
[0017] ⑤根据ei,采用计算损失函数Li。
[0018] Li=1-exp[- ei/max(ei)](i=1,...,n) (2)
[0019] ⑥计算平均损失
[0020]
[0021] ⑦计算模型的自信率β
[0022]
[0023] ⑧根据平均损失 及模型的自信率β更新样本的取样权重
[0024] wi,new=wi,oldβ-L (5)
[0025] 归一化新的取样权重,保证所有波长点的取样权重加和等于1。
[0026] 重复步骤②-⑧达到T次,建立T个子模型。
[0027] 3)对于未知样品,通过T个子模型的预测结果加权平均,得到最终预测结果[0028]
[0029] 子模型个数T的确定方法:给定一个足够大的子模型数目值,计算训练集采用多模型建模交叉验证均方根误差(RMSECV)随着子模型个数的变化,RMSECV值不变或者几乎不变(趋于稳定)时为应建立的模型个数T。
[0030] 一定数目的波长点的选取方法是:固定子模型个数T,按总波长点数的5%~100%,每间隔5%,改变被选取的波长点的数目(非整数时去尾法取整),计算RMSECV值,RMSECV最小值对应的波长点数为每次循环选取的波长点数。
[0031] 本发明的优点是:该建模方法结合了boosting和基于波长空间重采样的优势,提高了定量分析模型的预测精度,为近红外光谱多元校正分析提供了一种新的建模方法,具有较高的实用价值。附图说明
[0032] 图1为RMSECV值随着训练子集波长点数目占训练集波长点总数百分比的变化情况。
[0033] 图2为预测集的RMSEP随着子模型个数的变化图。

具体实施方式

[0034] 为更好理解本发明,下面结合实施例对本发明做进一步地详细说明,但是本发明要求保护的范围并不局限于实施例表示的范围。
[0035] 实施例:
[0036] 本实施例是应用于近红外光谱定量分析,对烟草样本中的尼古丁成分含量值进行测定。具体的步骤如下:
[0037] 1)通过测定50个烟草的近红外光谱建立定量分析模型,光谱采用Bruker Vector22/N近红外光谱仪(德国Bruker光学仪器公司)测定,波数范围为-14000-9000cm (2500-833nm),采样间隔约为4个波数,共1296个波长点,在建模前把烟草样本随机分成两部分,包括训练集和预测集,其中训练集样本数为30,预测集样本数均为20,样本中尼古丁的含量采用AutoAnalyzer III连续流动分析仪(德国Bran Luebbe公司)按照标准方法测定;
[0038] 2)对训练集样本进行波长点boosting重采样,建立多个波长空间子模型。
[0039] ①将训练集光谱矩阵X30×1296中所有波长点赋予相等的取样权重wi,1,[0040] wi,1=1/1296(i=1,...,1296) (1)
[0041] 其中30和1296分别为训练集中样本数目和波长点的数目。
[0042] ②根据波长点的取样权重wi从原始训练集样本中通过概率取样的方式挑选出一定数目的波长点作为一个训练子集。取样概率越大的样本越容易取到。
[0043] ③用训练子集的样本建立一个偏最小二乘回归(PLS)子模型,偏最小二乘子模型的因子数为10,得到PLS子模型的得分和载荷,利用得分和载荷的乘积得到训练集的预测光谱矩阵D30×1296。
[0044] ④计算训练子集中已知光谱与预测光谱的误差的绝对值E30×1296=|X30×1296-D30×1296|,并取每个波长点下的平均值ei=mean(E30×1296),(i=1,...,1296)[0045] ⑤根据ei,采用计算损失函数Li。
[0046] Li=1-exp[-ei/max(ei)](i=1,...,1296) (2)
[0047] ⑥计算平均损失
[0048]
[0049] ⑦计算模型的自信率β
[0050]
[0051] ⑧根据平均损失 及模型的自信率β更新样本的取样权重
[0052] wi,new=wi,oldβ-L (5)
[0053] 归一化新的取样权重,保证所有波长点的取样权重加和等于1。
[0054] 重复步骤②-⑧达到T次,建立T个子模型。
[0055] 3)对于20个预测集样本,通过T个子模型的预测结果加权平均,得最终预测结果[0056]
[0057] 子模型个数T的确定方法:给定子模型数目值为2000,计算训练集采用多模型建模交叉验证均方根误差(RMSECV)随着子模型个数的变化,RMSECV值不变或者几乎不变(趋于稳定)时为应建立的模型个数T=500。
[0058] 一定数目的波长点的选取方法是:固定子模型个数T=500,按1296个总波长点数的5%~100%,每间隔5%,改变被选取的波长点的数目(非整数时去尾法取整),计算RMSECV值,RMSECV最小值对应的波长点数为每次循环选取的波长点数。图1为该实施例的RMSECV值随着训练子集波长点数目占训练集波长点总数百分比的变化情况。从图中可以看出,RMSECV随着波长点数目的增加呈先下降后上升的趋势,在25%的时候达到最低值。这个百分数是模型的预测精度和多样性之间的一个折中值。因此,本实施例选取总波长点数的25%,即324个波长点作为每次循环选取的波长点数。
[0059] 图2为预测集的RMSEP随着子模型个数的变化图。从图中可以看出,RMSEP值随着子模型个数的增加而下降,这表明采用该方法确实能提高单一模型的预测精度。结果显示:利用传统PLS建模,对烟草中尼古丁成分含量进行预测分析,其预测均方根误差RMSEP=0.1868,相关系数R=0.9770;通过该方法对烟草中尼古丁成分含量进行测定,其预测均方根误差RMSEP=0.1598,相关系数R=0.9839。通过比较可以得出,该方法可以使模型预测精度提高。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈