首页 / 专利库 / 烟草制品及加工 / 烟草制品 / 有烟烟草 / 卷烟 / 用于晒红烟化学成分分析的多元校正方法及系统

用于晒红烟化学成分分析的多元校正方法及系统

阅读:528发布:2020-05-08

专利汇可以提供用于晒红烟化学成分分析的多元校正方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提供一种用于晒红烟化学成分分析的多元校正方法及系统,包括根据 光谱 变量权重,使用选取的样品建立偏最小二乘回归模型;根据偏最小二乘回归模型计算所有建模样品的预测误差;计算偏最小二乘回归模型的模型权重;计算所有建模样品的样品权重;确定保留光谱变量个数,选取ni个光谱变量;进行T次 迭代 ,得到T个偏最小二乘回归模型及对应的模型权重;利用T个偏最小二乘回归模型得到T个晒红烟样品的化学成分的预测值;根据T个晒红烟样品的化学成分的预测值和对应偏最小二乘回归模型的归一化权重得到未知样品的化学成分的最终预测结果。本发明的用于晒红烟化学成分分析的多元校正方法及系统降低利用 近红外 光谱 分析晒红烟化学成分的预测误差。,下面是用于晒红烟化学成分分析的多元校正方法及系统专利的具体信息内容。

1.一种用于晒红烟化学成分分析的多元校正方法,其特征在于:包括以下步骤:
设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
根据推进取样量,按照轮盘赌方式选取部分样品;
根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
根据公式 计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=
ek,i/yk,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
根据公式 计算迭代次数为i+1时所有建模样品的样品权重;
根据公式 确定保留光谱变量个数ni,其中j为光谱变
量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
根据公式 归一化偏最小二乘回归模型权重;
利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
2.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
3.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:还包括:在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
4.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:对偏最小二乘回归模型使用5折交叉验证。
5.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
6.一种用于晒红烟化学成分分析的多元校正系统,其特征在于:包括设定模、选取模块、模型建立模块、预测误差计算模块、模型权重计算模块、样品权重计算模块、变量修正模块、迭代模块、归一化模块和预测模块;
所述设定模块用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
所述选取模块用于根据推进取样量,按照轮盘赌方式选取部分样品;
所述模型建立模块用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
所述预测误差计算模块用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差 其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值, 为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
所述模型权重计算模块用于根据公式 计算偏最小二乘回归模型
Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
所述样品权重计算模块用于根据公式 计算迭代次数为i+1时所
有建模样品的样品权重;
所述变量修正模块用于根据公式 确定保留光谱变量
个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
所述迭代模块用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
所述归一化模块用于根据公式 归一化偏最小二乘回归模型权重;
所述预测模块用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
7.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述设定模块设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
8.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:还包括中心化模块,所述中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
9.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述变量修正模块对偏最小二乘回归模型使用5折交叉验证。
10.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。

说明书全文

用于晒红烟化学成分分析的多元校正方法及系统

技术领域

[0001] 本发明涉及烟草化学分析领域,特别是涉及一种用于晒红烟化学成分分析的多元校正方法及系统。

背景技术

[0002] 近红外光谱是介于可见光和中红外光之间的电磁波谱,波数约为:10000~4000cm-1。近红外光谱法是利用含有氢基团(X-H,X为:C,O,N,S等)化学键(X-H)伸缩振动倍频和合频,在近红外区的吸收光谱,通过选择适当的化学计量学多元校正方法,把校正样品的近红外吸收光谱与其成分浓度或性质数据进行关联,建立校正样品吸收光谱与其成分浓度或性质之间的关系-校正模型。在进行未知样品预测时,应用已建好的校正模型和未知样品的吸收光谱,就可定量预测其成分浓度或性质。另外,通过选择合适的化学计量学模式识别方法,也可分离提取样本的近红外吸收光谱特征信息,并建立相应的类模型。在进行未知样品的分类时,应用已建立的类模型和未知样品的吸收光谱,便可定性判别未知样品的归属。
[0003] 近红外光谱分析技术由于具有在线、无损、准确等特点而受到了广泛的关注,已经成功地应用于烟叶原料的化学分析、在线监测等多方面领域。开发并应用准确、快速的烟叶原料分析方法对原料的品质控制、研制工艺等有重要意义。
[0004] 晒红烟是茄烟和混合型卷烟的工业原料,其化学成分对产品的品质具有重要影响。使用近红外漫反射光谱法对晒红烟的总糖、总植物、总氮、蛋白质等化学成分进行快速分析便于烟草产品的品质控制、快速研发,具有重要的实际意义。由于近红外光谱包含上千个波长变量,其中有些变量为冗余变量、干扰变量,参与建模会增加样品的预测误差。故需要和多元校正方法结合建立模型,才可以用于样品的定量分析。为了提高分析结果的准确度,必须研究适合晒红烟化学成分分析的近红外多元校正方法。

发明内容

[0005] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用于晒红烟化学成分分析的多元校正方法及系统,通过推进(boosting)选样方式,建立一种变量修正推进偏最小二乘模型用于晒红烟化学成分分析,从而减少模型过拟合,降低利用近红外光谱分析晒红烟化学成分的预测误差。
[0006] 为实现上述目的及其他相关目的,本发明提供一种用于晒红烟化学成分分析的多元校正方法,包括以下步骤:设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;根据推进取样量,按照轮盘堵方式选取部分样品;根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差 其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值, 为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;根据公式 计算偏最小二乘回归模型Mi的模型权重,
其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;根据公式计算迭代次数为i+1时所有建模样品的样品权重;根据公式
确定保留光谱变量个数ni,其中j为光谱变量变化迭代
次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;根据公式 归一化偏最小二乘回归模型权重;利用T个偏最小二乘回归模型预测
未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
[0007] 于本发明一实施例中,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
[0008] 于本发明一实施例中,还包括:在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
[0009] 于本发明一实施例中,对偏最小二乘回归模型使用5折交叉验证。
[0010] 于本发明一实施例中,所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
[0011] 同时,本发明还提供一种用于晒红烟化学成分分析的多元校正系统,包括设定模、选取模块、模型建立模块、预测误差计算模块、模型权重计算模块、样品权重计算模块、变量修正模块、迭代模块、归一化模块和预测模块;
[0012] 所述设定模块用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
[0013] 所述选取模块用于根据推进取样量,按照轮盘堵方式选取部分样品;
[0014] 所述模型建立模块用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
[0015] 所述预测误差计算模块用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差 其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值, 为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
[0016] 所述模型权重计算模块用于根据公式 计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
[0017] 所述样品权重计算模块用于根据公式 计算迭代次数为i+1时所有建模样品的样品权重;
[0018] 所述变量修正模块用于根据公式 确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为
0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
[0019] 所述迭代模块用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
[0020] 所述归一化模块用于根据公式 归一化偏最小二乘回归模型权重;
[0021] 所述预测模块用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
[0022] 于本发明一实施例中,所述设定模块设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
[0023] 于本发明一实施例中,还包括中心化模块,所述中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
[0024] 于本发明一实施例中,所述变量修正模块对偏最小二乘回归模型使用5折交叉验证。
[0025] 于本发明一实施例中,所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
[0026] 如上所述,本发明的用于晒红烟化学成分分析的多元校正方法及系统,具有以下有益效果:
[0027] (1)在推进偏最小二乘法子模型建立过程中引入变量修正的步骤,提高了子模型的预测能,保证了整体模型较好的预测能力;
[0028] (2)降低了晒红烟化学成分近红外光谱分析的预测误差。附图说明
[0029] 图1显示为本发明的用于晒红烟化学成分分析的多元校正方法的流程图
[0030] 图2显示为本发明的实施例中晒红烟样品的光谱图;
[0031] 图3显示为保留变量的偏最小二乘回归模型、偏最小二乘回归子模型、变量修正推进偏最小二乘回归模型的预测均方根误差示意图;
[0032] 图4显示为本发明的用于晒红烟化学成分分析的多元校正方法中建模光谱变量个数随迭代次数的变化的示意图;
[0033] 图5显示为本发明的用于晒红烟化学成分分析的多元校正系统的结构示意图。
[0034] 元件标号说明
[0035] 1  设定模块
[0036] 2  选取模块
[0037] 3  模型建立模块
[0038] 4  预测误差计算模块
[0039] 5  模型权重计算模块
[0040] 6  样品权重计算模块
[0041] 7  变量修正模块
[0042] 8  迭代模块
[0043] 9  归一化模块
[0044] 10 预测模块

具体实施方式

[0045] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0046] 需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0047] 推进是一种集成学习方法,通过建立多个子模型,能够得到比单一模型更准确的结果。该方法在选取建模样品时,对预测误差较大的样品赋较大的权重,使下次建模时该样品得到更多的进入子模型的机会。
[0048] 由于近红外光谱中有冗余变量,会降低模型的精度。本发明在推进取样步骤引入了变量修正步骤。具体做法为:第i次计算偏最小二乘回归模型时,以回归系数绝对值作为指标,保留数值较大的ni个变量;第i+1次计算偏最小二乘回归模型时,使用第i步保留的ni个变量建模,然后保留回归系数较大的ni+1个变量作为下次计算时的变量。通过这种方式可以在推进取样步骤中逐步地修正建模变量,提高模型的预测能力。
[0049] 参照图1,本发明的用于晒红烟化学成分分析的多元校正方法包括以下步骤:
[0050] 步骤S1、设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值。
[0051] 其中,样品权重是指被选择参与建模的晒红烟样品的权重。变量权重是指被选择参与建模的光谱变量的权重。
[0052] 优选地,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
[0053] 步骤S2、根据推进取样量,按照轮盘堵方式选取部分样品。
[0054] 其中,按照轮盘堵方式选取部分样品时,样品权重较大的样品有较大概率被选中。反之,若样品的样品权重较小,则该样品被选中的概率较小。
[0055] 具体地,选取的样品数量为晒红烟的样品数m1乘以推进取样量。
[0056] 步骤S3、根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数。
[0057] 优选地,在建立偏最小二乘回归模型之前,还需对样品的光谱变量进行中心化。中心化就是将原始数据减去平均值。在本发明中即为将每个光谱变量的值减去所有光谱变量的平均值。
[0058] 步骤S4、根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差 其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值。
[0059] 其中,yk,i为按照烟草行业标准对晒红烟样品进行测试所获取的。
[0060] 步骤S5、根据公式 计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重。
[0061] 其中,Lk,i=ek,i/yk,i为损失函数。
[0062] 步骤S6、根据公式 计算迭代次数为i+1时所有建模样品的样品权重。
[0063] 步骤S7、根据公式 确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正。
[0064] 优选地,对偏最小二乘回归模型Mi使用5折交叉验证。
[0065] 其中, 为光谱变量修正速率。j的初始值为1,随光谱变量个数变化而累计加1。
[0066] 需要说明的是,每次进行光谱变量个数变化时,所保留的光谱变量个数将减少。故设定光谱变量变化迭代次数阈值,以保证在进行光谱变量个数变化后,仍然有足够数量的光谱变量用于建立偏最小二乘回归模型。
[0067] 步骤S8、根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重。
[0068] 具体地,迭代执行步骤S2-S7,直至完成T次迭代,从而得到T个偏最小二乘回归模型。
[0069] 步骤S9、根据公式 归一化偏最小二乘回归模型权重。
[0070] 步骤S10、利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
[0071] 下面结合具体实施例来进一步阐述本发明的用于晒红烟化学成分分析的多元校正方法。
[0072] 在该实施例中,使用的设备包括MPA近红外光谱仪(Bruker)、AA3型流动分析仪(Bran+Luebbe)、联想ThinkCenter台式机(CPU:Intel(R)Core(TM)2Quald CPU Q9500;RAM:2GB)。
[0073] 样品为中国国内不同地区晒红烟样品138个。光谱采集采用漫反射模式,波数范围为3498cm-1到11995cm-1,间隔大约为4cm-1,共2204个变量点。扫描次数为64次,其光谱图如图2所示。
[0074] 按照烟草行业标准,分别测定晒红烟样品的总植物碱、总糖、总氮、蛋白质、、氯等化学成分,从而获得晒红烟样品的总植物碱、总糖、总氮、蛋白质、钾、氯等化学成分的测试值。
[0075] 下面以总植物碱为例来说明本发明的用于晒红烟化学成分分析的多元校正方法。首先,进行总植物碱的推进偏最小二乘回归分析步骤。在计算前,按浓度大小均匀分布原则将晒红烟样品分为建模集、验证集,其比例为2:1。
[0076] 随着迭代次数的增加,逐渐修正建模变量。图3中实心方框线显示了不同迭代步骤时,使用保留变量的偏最小二乘回归模型5折交叉验证均方根误差(RMSECV)。可以看出,RMSECV随着迭代次数的增加不断减小,对应着建模变量的不断修正过程。图3中实心圆圈线显示了随着迭代次数增加偏最小二乘回归子模型的预测均方根误差的变化;实心三形线显示了变量修正推进偏最小二乘模型(VCBoostingPLS)随着迭代次数结果的变化。可以看出,随着迭代次数的增加,偏最小二乘回归子模型的预测误差在波动中逐渐减小的,同时,整体模型的预测误差也随着迭代次数逐渐减小。图4显示了计算过程中建模变量个数随迭代次数的变化。
[0077] 由于总糖等其它化学成分的多元校正过程与总植物碱很相似,故在此不再赘述其计算过程参数变化。所有指标的结果如表1所示。由表1可知,变量修正推进偏最小二乘回归比推进偏最小二乘回归、偏最小二乘回归的预测均方根误差低,从而有助于提高晒红烟样品的近红外分析的准确性。
[0078] 表1、偏最小二乘回归、推进偏最小二乘回归及变量修正偏最小二乘回归结果对比[0079]
[0080] 其中,r表示验证集晒红烟样品的预测值与实测值之间的相关系数;RMSEP为验证集晒红烟样品的预测值与实测值的均方根误差。
[0081] 参照图4,本发明的用于晒红烟化学成分分析的多元校正系统包括设定模块1、选取模块2、模型建立模块3、预测误差计算模块4、模型权重计算模块5、样品权重计算模块6、变量修正模块7、迭代模块8、归一化模块9和预测模块10。
[0082] 设定模块1用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值。
[0083] 其中,样品权重是指被选择参与建模的晒红烟样品的权重。变量权重是指被选择参与建模的光谱变量的权重。
[0084] 优选地,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
[0085] 选取模块2用于根据推进取样量,按照轮盘堵方式选取部分样品。
[0086] 其中,按照轮盘堵方式选取部分样品时,样品权重较大的样品有较大概率被选中。反之,若样品的样品权重较小,则该样品被选中的概率较小。
[0087] 具体地,选取的样品数量为晒红烟的样品数m1乘以推进取样量。
[0088] 模型建立模块3用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数。
[0089] 优选地,还包括中心化模块,该中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。中心化就是将原始数据减去平均值。在本发明中即为将每个光谱变量的值减去所有光谱变量的平均值。
[0090] 预测误差计算模块4用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差 其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值, 为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值。
[0091] 其中,yk,i为按照烟草行业标准对晒红烟样品进行测试所获取的。
[0092] 模型权重计算模块5用于根据公式 计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重。
[0093] 其中,Lk,i=ek,i/yk,i为损失函数。
[0094] 样品权重计算模块6用于根据公式 计算迭代次数为i+1时所有建模样品的样品权重。
[0095] 变量修正模块7用于根据公式 确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;
若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正。
[0096] 优选地,对偏最小二乘回归模型Mi使用5折交叉验证。
[0097] 其中, 为光谱变量修正速率。j的初始值为1,随光谱变量个数变化而累计加1。
[0098] 需要说明的是,每次进行光谱变量个数变化时,所保留的光谱变量个数将减少。故设定光谱变量变化迭代次数阈值,以保证在进行光谱变量个数变化后,仍然有足够数量的光谱变量用于建立偏最小二乘回归模型。
[0099] 迭代模块8用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重。
[0100] 具体地,迭代运行选取模块2、模型建立模块3、预测误差计算模块4、模型权重计算模块5、样品权重计算模块6和变量修正模块7,直至完成T次迭代,从而得到T个偏最小二乘回归模型。
[0101] 归一化模块9用于根据公式 归一化偏最小二乘回归模型权重。
[0102] 预测模块10用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
[0103] 综上所述,本发明的用于晒红烟化学成分分析的多元校正方法及系统在推进偏最小二乘法子模型建立过程中引入变量修正的步骤,提高了子模型的预测能力,保证了整体模型较好的预测能力;降低了晒红烟化学成分近红外光谱分析的预测误差。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0104] 上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈