首页 / 专利库 / 视听技术与设备 / 均值漂移过程 / 物质成分含量的近红外光谱无损检测方法及装置

物质成分含量的近红外光谱无损检测方法及装置

阅读:215发布:2020-10-31

专利汇可以提供物质成分含量的近红外光谱无损检测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开一种物质成分含量的 近红外 光谱 无损检测 方法及装置,利用其装置,通过采用光谱仪采集校正集样本、对光谱进行预处理、通过样本优选选择最优的校正样本集、和利用最优的校正样本集建立非线性校正模型等步骤,然后利用光谱仪采集未知成分含量的光谱样本,经与校正集样本相同的光谱预处理,通过已建非线性校正模型检测该未知样本的成分含量。采用本发明提供的方法和装置,能够有效解决现有物质成分含量的近红外无损检测方法中校正模型复杂、训练速度慢、不易于 硬件 实现的问题,并能显著提高物质成分含量无损检测结果的 精度 及 稳定性 。,下面是物质成分含量的近红外光谱无损检测方法及装置专利的具体信息内容。

1.一种物质成分含量的近红外光谱无损检测方法,其特征在于,该检测方法包括:
A、利用近红外光谱仪采集大量被测样品的近红外光谱数据,构成校正样本集;
B、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值;
C、对所述近红外光谱数据进行预处理,以去除噪声、基线或其他干扰待测物质成分信息的无用信号
D、对上述经预处理后的校正集样本的光谱数据进行基于自模型混合物分析的校正集样本优选,具体为:
D1、将光谱矩阵Xnew进行转置得到X′new,则X′new矩阵每一列各元素代表一个样本在各个波长下的吸光度值;
D2、计算光谱矩阵X′new中各列向量即样本i的纯度值pi,1,其计算公式为:pi,1=σi/(μi+α)
其中,μi为均值、σi为标准差、α为补偿因子;
D3、根据步骤D2求得的各列向量i的pi,1值,判断pi,1值的大小,将具有最大pi,1值的第i个列向量作为选出的第一个样本;
D4、选择第k(k≥2)个样本,具体为:根据下列公式计算矩阵X′new中列向量i的长度li,
其中,di,j为光谱矩阵X′new中第i行第j列元素,由 得
T
到关系矩阵C=D(l)D(l)/n,根据下列公式计算关系权函数ρi,k;
其中,k表示待确定的第k个样本,pk-1表示目前已经选定了的第(k-1)个样本在C矩阵中所在列向量的标号,p1表示通过步骤D3已选择的第一个样本在C矩阵中所在列向量的标号;则纯度值pi,k为:
pi,k=ρi,k(σi/(μi+α));将具有最大pi,k值的第i个列向量作为选出的第k个样本;
D5、重复上述步骤D4,并通过依次迭代选择的样本建立多元校正模型,交互验证评价模型的性能,将具有最小预测均方根误差RMSEP时选取的样本个数作为最优的样本个数,所述RMSEP计算公式为:
其中, 为预测值,y为参考值,n为样本个数;
D6、用优选出的一定个数的样本组成新的最优的校正样本集;
E、用优选出的校正样本集建立基于核函数变换的非线性偏最小二乘校正模型;具体为:
E1、确定初始参数,包括核函数及其参数、主成分个数;
E2、对校正集的自变量进行核函数变换,然后进行中心化处理;其中,核函数变换公式为: n表示校正集样本的个数,k(·,·)
表示两个向量的内积;xi(i=1,...,n)表示校正集样本的光谱;核函数变换过程即是非线性处理过程,核函数变换之后的矩阵包含了非线性信息;中心化的公式为 I表示单位矩阵,1n表示各元素都为1的n维向量;
E3、对经核函数变换后得到的矩阵 建立偏最小二乘校正模型,并根据交互验证方法确定最优的核函数、核参数以及主成分个数;所述最终建立的基于核函数变换的非线性偏最小二乘校正模型为 其中,b为 矩阵原始变量的偏最小二乘回归系数向量,f为残差向量;
F、用所构造的基于核函数变换的非线性偏最小二乘校正模型,检测未知样本的物质成分含量。
2.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步骤C所述对所述近红外光谱数据进行预处理,进一步包括小波变换过程,包括:
C1、选择小波基和小波分解层数,将光谱矩阵X的每条信号进行小波分解;其中光谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;
C2、对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用较高频段小波系数阈值处理来实现噪声去除;
C3、用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构,重构的各条光谱信号组成新的光谱矩阵Xnew。
3.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步骤C所述对所述近红外光谱数据进行预处理,进一步包括微分处理过程,具体为:选择微分窗口宽度g及微分阶次;并对所述光谱数据进行一阶微分去除与波长无关的漂移,或进一步进行二阶微分处理去除与波长相关的漂移。
4.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,所述核函数主要有协方差核、多项式核和高斯核;所述协方差核 多项式核
2 2
高斯核k(xi,xj)=exp(-||xi-xj||/(2×σ));
其中,i、j分别表示第i、j个样本的光谱向量;p、q、σ分别为需根据实际情况确定的核参数。
5.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步骤F所述检测未知样本的物质成分含量的过程,包括:
F1、用光谱仪采集未知样本的光谱;
F2、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱处理,去除噪声、基线以及其他干扰物质成分信息的无用信息;
F3、对于经预处理后的未知样本的光谱进行核函数变换,然后进行中心化处理;未知样本的核函数变换公式为:
其中,xti(i=1,...,n)表示未知的样本的光谱;xi(i=1,...,n)表示校正集样本的光谱;中心化的公式为
F4、通过已建好的模型获得未知样本的物质成分含量的预测值;计算公式为 为最终通过上述近红外光谱无损检测方法获得的检测结果的值。
6.一种实现权利要求1所述的物质成分含量的近红外光谱无损检测方法的物质成分含量的近红外光谱无损检测装置,其特征在于,该装置主要包括校正集样本优选单元(100)、模型建立单元(200)和预测值获取单元(300):其中,
校正集样本优选单元(100),用于获取用于建立基于核函数变换的非线性偏最小二乘校正模型的最优的校正集样本;该校正集样本优选单元(100)进一步包括:校正集样本数据获取子单元(110),用于获取大量已知样本的近红外连续光谱数据,以及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值,构成校正集样本;校正集样本数据预处理子单元(120),用于对所述校正集样本数据获取子单元(110)获取的所述校正集样本光谱数据进行预处理;最优校正集样本获取子单元(130),用于根据所述校正集样本数据预处理子单元(120)获取的预处理后的校正集样本光谱数据和所述校正集样本数据获取子单元(110)中获取的相应的真值,确定最优的一定数量的用于建立校正模型的样本并提供给所述模型建立单元(200)和预测值获取单元(300);
模型建立单元(200),用于建立基于核函数变换的非线性偏最小二乘校正模型;所述模型建立单元(200)包括:校正集样本核函数变换子单元(210),用于对所述最优校正集样本获取子单元(130)得到的一定数量的最优校正集样本进行核函数变换,构成校正集样本的核函数变换后的矩阵;基于核函数变换 的非线性偏最小二乘校正模型获取子单元(220),用于对所述校正集样本核函数变换子单元(210)中得到的核函数变换后的矩阵建立非线性偏最小二乘校正模型,并将获得的回归系数提供给预测值获取单元(300);以及预测值获取单元(300),用于得到所述的物质成分含量近红外光谱无损检测的结果。
7.根据权利要求6所述的物质成分含量的近红外光谱无损检测装置,其特征在于,所述预测值获取单元(300)包括:
未知样本光谱数据获取子单元(310),用于获取待测的未知成分含量的样本的近红外波段的连续光谱;
未知样本光谱数据预处理子单元(320),用于对所述未知样本光谱数据获取子单元(310)获取的未知样本数据进行预处理,所采用的预处理方法及其参数与所述校正集样本数据预处理子单元(120)所采用的相同;
未知样本核函数变换子单元(330),利用所述最优校正集样本获取子单元(130)获得的最优的校正集样本,用于对所述未知样本光谱数据预处理子单元(320)获取的预处理后的未知样本光谱数据进行核函数变换,所采用的核函数及其参数与所述校正集样本核函数变换子单元(210)所采用的相同,构成未知样本的核函数变换后的矩阵;
预测值计算子单元(340),用于根据所述基于核函数变换的非线性偏最小二乘校正模型获取子单元(220)得到的回归系数和所述未知样本核函数变换子单元(330)得到的未知样本的核变换后的矩阵,通过计算得到所述未知样本的被测物质成分含量的检测值。

说明书全文

物质成分含量的近红外光谱无损检测方法及装置

技术领域

[0001] 本发明涉及近红外光谱分析技术,尤其涉及一种物质成分含量的近红外光谱无损检测方法及装置。

背景技术

[0002] 近红外光谱检测技术具有无损伤、无污染、实时快速测定物质成分浓度(或者性质参数)的特点,因此被广泛应用于农业、生物医学、化工等领域。虽然近红外光谱能携带丰富的物质分子结构信息,且容易获取和被处理,可用来分析绝大多数种类的化合物及其混合物的成份浓度(或者性质参数),但是,近红外光谱信息强度比中红外谱区低、谱峰宽,样品近红外光谱的有效信息率低。对复杂样品进行近红外光谱分析即是要从复杂、重叠、变动的光谱中提取微弱信息。而随着高性能光谱仪器及基础测试技术的不断完善,基于化学计量学的近红外光谱微弱信息提取方法研究,则成为了近红外光谱无损检测物质成分浓度(或者性质参数)的关键点之一,它决定着近红外光谱检测技术的最终应用与前景。
[0003] 多元校正是一种重要的化学计量学方法,多元校正是近红外光谱检测技术中的一个关键步骤,用于建立在已知物质成分浓度(或性质参数)与光谱之间的关联关系,利用该关系,可用于后续预测未知样品的物质成分浓度(或性质参数),高精度多元校正模型的建立可使得物质成分含量的近红外光谱无损检测的结果更精确。
[0004] 多元校正方法可分为线性和非线性两大类。线性校正方法如多元线性回归、主成分回归、偏最小二乘回归等,其理论性质易于讨论,常常能比较好的解决问题。然而,随着人们对事物认识能的提高,对于复杂样品,多组分混合物分析体系中各组分的相互作用、仪器的基线漂移等,致使吸收光谱偏离朗伯-比定律,呈现非线性的特质,为了建立预测准确性好和稳健性强的近红外光谱分析多元校正模型,非线性建模方法的研究越来越引起人们的关注。目前常见的非线性校正方法有非线性偏最小二乘法、人工神经网络等。基于样条变换、多项式拟合等的非线性偏最小二乘法,选择恰当的参数能很好的拟合非线性关系,但是仍然不能解决模型的复杂性问题;人工神经网络是一种智能的非线性多元校正方法,具有很强的非线性建模能力,但也存在一些局限性,如模型和参数选择复杂、训练速度慢、容易陷入极小点、过拟合等等。
[0005] 另外,校正集样本是建立多元校正模型的基础,多元校正即是根据已知的一定数量的校正集样本的光谱和标准方法测得的该校正集样本的物质成分浓度(或性质参数)建立关联关系。由于样本化学组成复杂,且样本信息包含在相似性很强的高维光谱中,校正集样本的合理筛选对提高模型预测精度至关重要。通常要求校正集样本应具有范围宽、分布均匀、精度高、典型性的特点,选择特征信息丰富、尽量少干扰的足够数量的校正集样本是模型准确的前提,决定了模型的适应性和可靠性。
[0006] 目前常用的校正集样本优选方法有:随机法;基于同类就近选择样本的光谱欧氏距离算法;根据样本光谱之间距离差异进行样本挑选的算法,如Kennard-Stone法等。随机法选取样本完全是随意的,没有任何规律,或者仅遵循简单的规则,通过该方法每次组成校正集的样本可能差异很大,不能保证所选样本代表性及模型的外推能力。同类就近选择样本的建模方法只能降低非线性的校正误差,无法发现除去光谱特征异常样本干扰,往往不够可靠和精确。Kennard-Stone法的优点是能保证训练库中样本按照空间距离分布均匀,但是需要进行数据转换和计算样本两两空间距离,计算量大。
[0007] 综上所述,利用常用的非线性多元校正方法和校正集样本优选方法的近红外光谱检测技术,均存在模型复杂、计算量大的问题,以及还存在物质成分含量近红外光谱无损检测中校正模型的训练速度慢、不易于硬件实现等缺陷;且采用现有非线性校正模型不适用于小样本建模、容易产生过拟合,影响了物质成分含量近红外光谱无损检测结果的精度。另外,因离线训练的校正模型复杂,通常的物质成分含量的近红外光谱无损检测装置硬件中写入的校正模型固定,这对于成分特别复杂的被测对象的物质成分含量的检测的适用性不佳。

发明内容

[0008] 有鉴于此,本发明的主要目的在于提供一种简单、快速、高效的物质成分含量的近红外光谱无损检测方法及装置,本发明提供的方法简洁,便于近红外光谱无损检测技术中的硬件实现,根据被测对象情况调节模型及其参数,能提高物质成分含量检测结果的精度和适用性。
[0009] 本发明的另一个目的在于提供一种校正集样本优选方法,通过基于自模型混合物分析的技术,消除含重复信息或无用信息的样本,从而解决样本间共线性的技术问题,从而选出少数的具有代表性样本,用于建立多元校正模型,可达到简化训练过程、提高建模速度、降低模型复杂性以便于近红外光谱无损检测过程中的硬件实现和提高物质成分含量近红外无损检测结果的精度的技术效果。
[0010] 为达到上述目的,本发明的技术方案是这样实现的:
[0011] 一种物质成分含量的近红外光谱无损检测方法,该检测方法包括:
[0012] A、利用近红外光谱仪采集大量被测样品的近红外光谱数据,构成校正样本集;
[0013] B、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值;
[0014] C、对所述近红外光谱数据进行预处理,以去除噪声、基线或其他干扰待测物质成分信息的无用信号
[0015] D、对上述经预处理后的校正集样本的光谱数据进行基于自模型混合物分析的校正集样本优选;
[0016] E、用优选出的校正样本集建立基于核函数变换的非线性偏最小二乘校正模型;
[0017] F、用所构造的基于核函数变换的非线性偏最小二乘校正模型,检测未知样本的物质成分含量。
[0018] 其中,步骤C所述对所述近红外光谱数据进行预处理,进一步包括小波变换过程,包括:
[0019] C1、选择小波基和小波分解层数,将光谱矩阵X的每条信号进行小波分解;其中光谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;
[0020] C2、对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用较高频段小波系数阈值处理来实现噪声去除;
[0021] C3、用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构,重构的各条光谱信号组成新的光谱矩阵Xnew。
[0022] 类似地,步骤C所述对所述近红外光谱数据进行预处理,进一步包括微分处理过程,具体为:选择微分窗口宽度g及微分阶次;并对所述光谱数据进行一阶微分去除与波长无关的漂移,或进一步进行二阶微分处理去除与波长相关的漂移。
[0023] 其中,步骤D所述的基于自模型混合物分析的校正集样本优选方法,包括:
[0024] D1、将光谱矩阵Xnew进行转置得到X′new,则X′new矩阵每一列各元素代表一个样本在各个波长下的吸光度值;
[0025] D2、计算光谱矩阵X′new中各列向量即样本i的纯度值pi,1,其计算公式为:
[0026] pi,1=σi/(μi+α)
[0027] 其中,μi为均值、σi为标准差、α为补偿因子;
[0028] D3、根据步骤D2求得的各列向量i的pi,1值,判断pi,1值的大小,将具有最大pi,1值的第i个列向量作为选出的第一个样本;
[0029] D4、选择第k(k≥2)个样本,具体为:根据下列公式计算矩阵X′new中列向量i的长度li,
[0030] 其中,di,j为光谱矩阵X′new中第i行第j列元素,由T
得到关系矩阵C=D(l)D(l)/n,根据下列公式计算关系权函数ρi,k;
[0031]
[0032] 其中,k表示待确定的第k个样本,pk-1表示目前已经选定了的第(k-1)个样本在C矩阵中所在列向量的标号,p1表示通过步骤D3已选择的第一个样本在C矩阵中所在列向量的标号;则纯度值pi,k为:
[0033] pi,k=ρi,k(σi/(μi+α));将具有最大pi,k值的第i个列向量作为选出的第k个样本;
[0034] D5、重复上述步骤D4,并通过依次迭代选择的样本建立多元校正模型,交互验证评价模型的性能,将具有最小预测均方根误差(RMSEP,Root Mean Square Error of Prediction)时选取的样本个数作为最优的样本个数,所述RMSEP计算公式为:
[0035] 其中,为预测值,y为参考值,n为样本个数;
[0036] D6、用优选出的一定个数的样本组成新的最优的校正样本集。
[0037] 步骤E所述建立基于核函数变换的非线性偏最小二乘校正模型,包括:
[0038] E1、确定初始参数,包括核函数及其参数、主成分个数;
[0039] E2、对校正集的自变量进行核函数变换,然后进行中心化处理;其中,核函数变换公式为: n表示校正集样本的个数,
[0040] k(·,·)表示两个向量的内积;xi(i=1,...,n)表示校正集样本的光谱;核函数变换过程即是非线性处理过程,核函数变换之后的矩阵包含了非线性信息;中心化的公式为 I表示单位矩阵,1n表示各元素都为1的n维向量。
[0041] E3、对经核函数变换后得到的矩阵 建立偏最小二乘校正模型,并根据交互验证方法确定最优的核函数、核参数以及主成分个数;所述最终建立的基于核函数变换的非线性偏最小二乘校正模型为 其中,b为 矩阵原始变量的偏最小二乘回归系数向量,f为残差向量。
[0042] 其中,所述核函数主要有协方差核、多项式核和高斯核;所述协方差核2
多 项 式 核 高 斯 核k(xi,xj) =exp(-||xi-xj||/
2
(2×σ));
[0043] 其中,i、j分别表示第i、j个样本的光谱向量;p、q、σ分别为需根据实际情况确定的核参数。
[0044] 步骤F所述检测未知样本的物质成分含量的过程,包括:
[0045] F1、用光谱仪采集未知样本的光谱;
[0046] F2、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱处理,去除噪声、基线以及其他干扰物质成分信息的无用信息;
[0047] F3、对于经预处理后的未知样本的光谱进行核函数变换,然后进行中心化处理;未知样本的核函数变换公式为:
[0048]
[0049] 其中,xti(i=1,...,n)表示未知的样本的光谱;xi(i=1,...,n)表示校正集样本的光谱;中心化的公式为
[0050] F4、通过已建好的模型获得未知样本的物质成分含量的预测值。计算公式为为最终通过上述近红外光谱无损检测方法获得的检测结果的值。
[0051] 一种实现权利要求1所述的物质成分含量的近红外光谱无损检测方法的物质成分含量的近红外光谱无损检测装置,该装置主要包括校正集样本优选单元100、模型建立单元200和预测值获取单元300:其中,
[0052] 校正集样本优选单元100,用于获取用于建立基于核函数变换的非线性偏最小二乘校正模型的最优的校正集样本;
[0053] 模型建立单元200,用于建立基于核函数变换的非线性偏最小二乘校正模型;以及
[0054] 预测值获取单元300,用于得到所述的物质成分含量近红外光谱无损检测的结果。
[0055] 其中,所述校正集样本优选单元100进一步包括:
[0056] 校正集样本数据获取子单元110,用于获取大量已知样本的近红外连续光谱数据,以及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值,构成校正集样本;
[0057] 校正集样本数据预处理子单元120,用于对所述校正集样本数据获取子单元110获取的所述校正集样本光谱数据进行预处理;以及
[0058] 最优校正集样本获取子单元130,用于根据所述校正集样本数据预处理子单元120获取的预处理后的校正集样本光谱数据和所述校正集样本数据获取子单元110中获取的相应的真值,确定最优的一定数量的用于建立校正模型的样本并提供给所述模型建立单元200和预测值获取单元300。
[0059] 其中,所述模型建立单元200和预测值获取单元300进一步包括:
[0060] 校正集样本核函数变换子单元210,用于对所述最优校正集样本获取子单元130得到的一定数量的最优校正集样本进行核函数变换,构成校正集样本的核函数变换后的矩阵;
[0061] 基于核函数变换的非线性偏最小二乘校正模型获取子单元220,用于对所述校正集样本核函数变换子单元210中得到的核函数变换后的矩阵建立非线性偏最小二乘校正模型,并将获得的回归系数提供给预测值获取单元300;以及
[0062] 所述预测值获取单元300进一步包括:
[0063] 未知样本光谱数据获取子单元310,用于获取待测的未知成分含量的样本的近红外波段的连续光谱;
[0064] 未知样本光谱数据预处理子单元320,用于对所述未知样本光谱数据获取子单元310获取的未知样本数据进行预处理,所采用的预处理方法及其参数与所述校正集样本数据预处理子单元120所采用的相同;
[0065] 未知样本核函数变换子单元330,利用所述最优校正集样本获取子单元130获得的最优的校正集样本,用于对所述未知样本光谱数据预处理子单元320获取的预处理后的未知样本光谱数据进行核函数变换,所采用的核函数及其参数与所述校正集样本核函数变换子单元210所采用的相同,构成未知样本的核函数变换后的矩阵;
[0066] 预测值计算子单元340,用于根据所述基于核函数变换的非线性偏最小二乘校正模型获取子单元220得到的回归系数和所述未知样本核函数变换子单元330得到的未知样本的核变换后的矩阵,通过计算得到所述未知样本的被测物质成分含量的检测值。
[0067] 本发明所提供的物质成分含量的近红外光谱无损检测方法及装置,具有以下优点:
[0068] 本发明通过利用基于自模型混合物分析技术的校正集样本优选方法,仅选出少量的样本用于建立多元校正模型,可快速建立校正模型,达到提高近红外光谱无损检测技术中多元校正模型的建模效率的效果,同时由于样本优选使得模型的复杂性降低,从而还可达到便于近红外光谱无损检测过程中的硬件实现的技术效果;另外,若对于采集到的大量的校正集样本,由于本发明提出的样本优选方法可消除样本间的共线性问题,从而能选出少而精的、具有代表性的样本用于建立校正模型,能够用于提高物质成分含量近红外光谱无损检测结果的精度和可靠性。本发明方法采用基于核函数变换的方式建立的非线性校正模型,仅通过向量的内积完成非线性映射过程,其变换过程简单易实现,从而进一步简化了多元校正模型,降低了物质成分含量近红外光谱无损检测过程硬件实现的困难;仅通过核函数及其参数的选择,可应用于不同的待测量对象,因而本发明提供的方法具有广泛的适应性;另外,本发明所述的非线性校正模型具有适应于小样本、具有较好的泛化能力的特点,尤其适用于经校正集样本优选后的少量样本建模情况,能达到显著提高物质成分含量近红外光谱无损检测结果的精度的效果。附图说明
[0069] 图1为本发明物质成分含量的近红外光谱无损检测方法流程图
[0070] 图2为采用本发明方法获取的原始近红外光谱示意图;
[0071] 图3为经微分预处理后得到的近红外光谱示意图;
[0072] 图4为基于自模型混合物分析的校正集样本优选方法通过最大纯度值选择第一个样本的示意图;
[0073] 图5为基于自模型混合物分析的校正集样本优选方法通过交互验证得到的预测均方根误差(RMSEP)确定最佳的校正集样本个数图;
[0074] 图6为本发明校正集样本经核函数变换后的曲线图;
[0075] 图7为本发明采用优选出的校正集样本建立基于核函数变换的非线性偏最小二乘校正模型的回归系数曲线图;
[0076] 图8为本发明所述的未知样本经核函数变换后的曲线图;
[0077] 图9为采用本发明物质成分含量的近红外光谱无损检测方法用于预测未知样本得到的预测结果与参考值的相关性图;
[0078] 图10为本发明物质成分含量的近红外光谱无损检测装置组成结构示意图。

具体实施方式

[0079] 下面结合附图及本发明的实施例对本发明的方法及装置作进一步详细的说明。
[0080] 本发明的核心思想是:利用近红外光谱仪采集大量样品的光谱样本,构成校正样本集,通过预处理方法对校正样本集光谱进行预处理,以去除噪声和基线等无用信息,以改善光谱质量,提高光谱与被测物质成分含量之间的相关性;通过自模型混合物分析技术,从校正样本集中选取有代表性的少量样本的子集,构成最优的校正样本集,用于后续的非线性多元校正模型的建立,以提高建模效率、降低模型复杂性以及便于物质成分含量近红外光谱无损检测装置的硬件实现;采用优选出的校正样本集,建立基于核函数变换的非线性偏最小二乘校正模型,利用采集到的大量的校正集样本,通过选择最优的校正集样本,并根据实际被测对象情况选择预处理和校正模型及其参数,从而达到提高物质成分含量近红外无损检测结果的精度和适用性的目的。
[0081] 图1为本发明物质成分含量的近红外光谱无损检测方法流程图,如图1所示,该方法包括:
[0082] 步骤101、利用近红外光谱仪采集大量的被测样品的近红外光谱数据,构成校正样本集。
[0083] 这里,本发明以谷物蛋白质含量的近红外光谱无损检测过程为例,对被测谷物进行近红外光谱采集,所述光谱采集范围为1100~2498nm,波长变量个数为700个,光谱矩阵中每一行各元素代表一个样本在各个波长下的吸光度值。校正集样本总个数为60个,其原始光谱的光谱矩阵X的图形如图2所示。
[0084] 步骤102、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值。
[0085] 这里,采用标准分析方法测定上述60个校正集样本的蛋白质含量真值范围为7.6540~9.7110%,呈随机分布,其浓度标准差为0.4986%。
[0086] 步骤103、对所述近红外光谱数据进行预处理,去除噪声、基线或其他干扰待测物质成分信息等的无用信息。
[0087] 这里,所述预处理,主要是用来去除上述样本光谱测量数据中由于仪器噪声、基线漂移和物质中的能导致干扰的物质成分等的无用信息,从而提高光谱质量。所述预处理方式包括小波变换、微分等所有能够去除噪声、基线和其他干扰待测物质成分信息的无用信号的方式,但并不限于小波变换、微分等处理过程;其中,
[0088] 所述小波变换过程,包括如下步骤:
[0089] 步骤1031:选择小波基和小波分解层数,将所述光谱矩阵X的每条信号进行小波分解;其中光谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;
[0090] 步骤1032:对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用较高频段小波系数阈值处理来实现噪声去除;
[0091] 步骤1033:用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构,重构的各条光谱信号组成新的光谱矩阵Xnew。
[0092] 所述的光谱微分处理过程,包括如下步骤:
[0093] 步骤1031′:选择微分窗口宽度g及微分阶次;
[0094] 步骤1032′:光谱的一阶微分算法如公式(1)所示,一阶微分可去除与波长无关的漂移;
[0095] Xnew(i,j)=[x(i,j+g)-x(i,j)]/g (1)
[0096] 光谱的二阶微分算法如公式(2)所示,二阶微分可去除与波长相关的漂移。
[0097] Xnew(i,j)=[x(i,j+g)-2x(i,j)+x(i,j-g)]/g2 (2)
[0098] 本发明实施例采用微分预处理方式对原始近红外光谱进行处理时,选择微分窗口宽度g=17,微分阶次为2阶,经微分预处理后得到的新的光谱Xnew如图3所示,预处理后得到的光谱Xnew的波长变量个数为666个,即Xnew的矩阵维数为60×666。
[0099] 需要指出的是,本发明中,对近红外光谱进行预处理的方式并不限于上述方法,其他任何去噪和基线校正等无用信息消除的预处理手段,也均适用。
[0100] 步骤104、对经预处理后的校正集样本的光谱数据进行基于自模型混合物分析技术的校正集样本优选。
[0101] 这里,所述基于自模型混合物分析技术的校正集样本优选方法,是指对经过预处理后的校正集样本的光谱Xnew进行样本优选。
[0102] 进一步地,所述基于自模型混合物分析技术的样本优选方法,包括以下步骤:
[0103] 步骤1041、将光谱矩阵Xnew进行转置得到X′new,则X′new矩阵每一列各元素代表一个样本在各个波长下的吸光度值。这样,能够为样本优选自动实现的计算机程序设计带来方便。
[0104] 步骤1042、计算光谱矩阵X′new中各列向量i的纯度值pi,1。
[0105] 如图4所示,是在选第1个样本时,求得的各样本的纯度值。这里,光谱矩阵X′new中各列向量i即样本i的纯度值pi,1的计算如公式(3)所示,纯度值用以表征各样本含被测物质成分含量信息量的大小,也就是说对校正模型的贡献。
[0106] pi,1=σi/(μi+α) (3)
[0107] 其中,μi为均值、σi为标准差、α为补偿因子(一般取均值的1~5%)。
[0108] 步骤1043、选择第一个样本。
[0109] 根据所述步骤1042求得的各列向量i即样本i的pi,1值,判断pi,1值的大小,具有最大pi,1值的第i个样本即为选出的第一个样本。从图4可知,具有最大纯度值(p5,1=797.12)的校正集中的第5个样本作为优选出的第1个样本,用于后续的校正模型的建立。
[0110] 步骤1044、选择第k(k≥2)个样本。
[0111] 计算矩阵X′new中列向量i的长度li如公式(4)所示
[0112]
[0113] 其中,di,j为光谱矩阵X′new中第i行第j列元素,有T
得到关系矩阵C=D(l)D(l)/n,计算关系权函数ρi,k如公式(5)所示。
[0114]
[0115] 其中,k表示待确定的第k个样本,pk-1表示目前已经选定了的第(k-1)个样本在C矩阵中所在列向量的标号,p1表示已选择的第一个样本在C矩阵中所在列向量的标号,则纯度值pi,k为:
[0116] pi,k=ρi,k(σi/(μi+α))(6)
[0117] 具有最大pi,k值的第i个样本为选出的第k个样本。
[0118] 根据公式(4)、公式(5)、公式(6)可求得与已优选出的前k-1个样本具有最小共线性的样本,作为选出的第i个样本,本实施例中,预先选出30个样本,为后面确定样本个数,以确定最优的校正样本集做准备。
[0119] 步骤1045、最优样本个数判定。重复上述步骤1044,并通过依次迭代选择的样本建立多元校正模型,交互验证评价模型的预测性能,具有最小预测均方根误差(RMSEP)时选取的样本个数即为最优的样本个数。所述RMSEP计算公式为:
[0120]
[0121] 其中,为预测值,y为标准方法测得的参考值,n为样本个数。
[0122] 本实施例中,通过依次迭代选择的30个样本建立偏最小二乘多元校正模型,采用交互验证评价模型的性能,实验显示,当选取前26个样本建立多元校正模型时,其交互验证得到的RMSEP(RMSEP=0.12%)为最小,如图5所示,判定最优样本个数为26。
[0123] 步骤1046、组成最优的校正样本集。用优选出的一定个数的样本组成新的最优的校正样本集,其光谱矩阵为Xopt,为了符合一般的习惯,仍然将光谱矩阵Xopt每一行元素表示为一个样本在各个波长下的吸光度值。
[0124] 本实施例中,将选取的前26个样本组合为最优的校正样本集用于建立最终的多元校正模型,此时得到的光谱矩阵Xopt的维数变为了26×666。
[0125] 步骤105、用优选出的校正样本集样本的光谱数据和与之对应的标准值,建立基于核函数变换的非线性偏最小二乘校正模型。
[0126] 这里,所述的基于核函数变换的非线性偏最小二乘校正模型的建立,是指将经过光谱预处理和样本优选后得到的优化的校正样本集的光谱矩阵Xopt,与步骤102中采用的标准分析方法测定的校正样本集中样本待测组分的化学含量的真值建立关联关系,以用于预测未知样本的待测成分含量。
[0127] 所述的基于核函数变换的非线性偏最小二乘校正模型的建立,包括以下步骤:
[0128] 步骤1051、确定初始参数,包括核函数及其参数、主成分个数。常用的核函数有协方差核、多项式核和高斯核等,其表达式分别如公式(8)、公式(9)、公式(10)所示:
[0129]
[0130]2 2
[0131] k(xi,xj)=exp(-||xi-xj||/(2×σ))(10)
[0132] 以上三式中的i、j分别表示第i、j个光谱向量;p、q、σ分别为需根据实际情况确定的核参数。
[0133] 本实施例中,确定初始参数,选用高斯核,核函数σ=1、最大主成分个数为20。
[0134] 步骤1052、对校正集的自变量进行核函数变换,其变换矩阵如公式(11)所示,然后进行中心化处理,其表达式如公式(12)所示。
[0135]
[0136]
[0137] 以上二式中的n表示校正集样本的个数。k(·,·)表示两个向量的内积;xi(i=1,...,n)表示校正集样本的光谱;I表示单位矩阵,1n表示各元素都为1的n维向量。
[0138] 在实施例中,经核函数变换处理后的矩阵如图6所示,经核函数变换后得到的最终用来建立校正模型的光谱矩阵的维数降为了26×26,与最初的原始光谱X的维数60×700相比,明显有简化光谱模型,降低模型复杂性,有助于提高模型训练速度和降低谷物中蛋白质含量近红外光谱无损检测的硬件实现难度。同时由于采用了高斯核变换,该模型也包含了非线性信息。
[0139] 步骤1053、对经核函数变换后得到的矩阵 建立偏最小二乘校正模型,并根据交互验证方法确定最优的核函数、核参数以及主成分个数。如公式(13)所示为最终建立的基于核函数变换的非线性偏最小二乘校正模型,
[0140]
[0141] 其中,b为 矩阵原始变量的偏最小二乘回归系数向量,f为残差向量。在本实施例中,对经核函数变换后得到的矩阵 建立偏最小二乘校正模型,并根据交互验证方法选定最优的核函数为高斯核、核参数σ=1以及主成分个数为19。采用优选出的校正集样本建立的基于核函数变换的非线性偏最小二乘校正模型的回归系数曲线如图7所示。
[0142] 步骤106、用所构造的基于核函数变换的非线性偏最小二乘校正模型,来检测未知样本的物质成分含量。
[0143] 这里,所述的检测未知样本的物质成分含量,是指采用光谱仪采集未知样本的光谱,将该光谱进行和校正集样本相同的预处理,通过已建立的校正模型,得到该未知样本的待测成分含量的预测值。
[0144] 进一步地,所述未知样本的物质成分含量的预测,包括如下步骤:
[0145] 步骤1061、用光谱仪采集未知样本的光谱。
[0146] 本实施例中,采集20个未知的样本光谱。
[0147] 步骤1062、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱处理,去除无用信息。
[0148] 本实施例中,采用微分预处理方法对未知样本的原始近红外光谱进行处理,选择微分窗口宽度g=17,微分阶次为2阶。
[0149] 步骤1063、对于经预处理后的未知样本的光谱进行核函数变换,核函数及其参数的选择与步骤105中所选的一致,其变换矩阵如公式(14)所示,然后进行中心化处理,其表达式如公式(15)所示。
[0150]
[0151]
[0152] 其中,xti(i=1,...,n)表示未知的样本的光谱;xi(i=1,...,n)表示校正集样本的光谱。
[0153] 本实施例中,对于经预处理后的未知样本的光谱进行核函数变换,核函数及其参数的选择与步骤1053中确定的一致,即选择核函数为高斯核、核参数σ=1,则其核变换后的矩阵如图8所示。
[0154] 步骤1064、获得未知样本的物质成分含量的检测值,其计算的表达式如公式(16)所示:
[0155]
[0156] 本实施例中,获得未知样本的物质成分含量的检测值,按公式(16)求得该20个未知样本的蛋白质含量,采用本发明的物质成分含量近红外光谱无损检测方法,得到的检测值与采用标准方法测得的参考值的相关性如图9所示。
[0157] 另外,为与一般的近红外光谱无损检测方法进行比较,表一给出了不同方法建立的模型对未知样本进行预测的参数,结果表明,本发明提出的物质成分含量近红外光谱无损检测方法的检测精度明显优于一般方法,且本发明提出的物质成分含量近红外光谱无损检测方法简单、快速,校正集样本优选和核函数变换过程均能降低模型的复杂性,便于硬件的实现,且通过选择适当的预处理方法及其参数、核函数及其参数,该物质成分含量的近红外光谱无损检测方法还可适用于人体生化参数如血糖、植物生化参数如叶片分、苹果糖度等的以及其他生物物质成分含量的无损检测,并可显著提高检测结果的精度。
[0158] 表一:选用不同光谱分析方法的预测参数
[0159]
[0160] 本发明还提供了所述的物质成分含量的近红外无损检测装置,如图10所示。因现有近红外光谱无损检测装置采用的预测模型通常是离线训练的校正模型,模型复杂,且通过硬件中写入的校正模型通常是固定不可调的,这对于成分特别复杂的被测对象的物质成分含量的检测的适用性不佳。而采用本发明提供的装置,可自动的实现校正样本优选和非线性校正模型的训练过程,参数设置不复杂、模型简单,具有较高的无损检测速度和准确度。且本发明提供的装置还可根据实际被测对象情况调整预处理方法及其参数、以及调节校正模型及其参数,能提高物质成分含量检测结果的精度和适用性。
[0161] 该装置主要包括光源、近红外光谱仪、微处理器和检测结果显示屏四个模,由光源发出的近红外光照射在被测物体上,由近红外光谱仪获取光源经被测物体后反射或者透射后的吸光度数据,通过微处理器处理获取的该光谱吸光度数据、建立并保存校正模型、计算未知样本的被测物质成分含量的检测值,并由检测结果显示屏显示该检测值。其中微处理器模块包括:校正集样本优选单元100、模型建立单元200和预测值获取单元300。其中,[0162] 校正集样本优选单元100,用于获取一定数量的用于建立基于核函数变换的非线性偏最小二乘校正模型的最优的校正集样本。所述校正集样本优选单元100进一步包括:校正集样本数据获取子单元110、校正集样本数据预处理子单元120和最优校正集样本获取子单元130。
[0163] 所述校正集样本数据获取子单元110,用于获取大量样本的近红外连续光谱数据,以及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值,构成校正集样本并提供给校正集样本数据预处理子单元120;校正集样本数据预处理子单元120,连接校正集样本数据获取子单元110,用于对校正集样本数据获取子单元110获取的校正集样本数据进行预处理,包括预处理方法及其参数的选择,将预处理后得到的光谱数据提供给最优校正集样本获取子单元130,同时还将选择的预处理方法及其参数提供给未知样本光谱数据预处理子单元320;最优校正集样本获取子单元130,连接校正集样本数据预处理子单元120,用于根据校正集样本数据预处理子单元120获取的预处理后的校正集样本数据和校正集样本数据获取子单元110中获取的相应的真值,确定一定数量的最优校正集样本并提供给模型建立单元200和预测值单元300。
[0164] 模型建立单元200,连接校正集样本优选单元100,用于利用校正集样本优选单元100获得的最优的校正集样本建立基于核函数变换的非线性偏最小二乘校正模型,并将该模型提供给预测值获取单元300。所述模型建立单元200进一步包括:校正集样本核函数变换子单元210和基于核函数变换的非线性偏最小二乘校正模型获取子单元220。其中,[0165] 所述校正集样本核函数变换子单元210,用于对最优校正集样本获取子单元130获得的最优校正集样本进行核函数变换,包括核函数及其参数的选择,将获得的校正集样本的核函数变换后的矩阵提供给基于核函数变换的非线性偏最小二乘校正模型获取子单元220,同时将选择的核函数及其参数提供给未知样本核函数变换子单元330。
[0166] 所述基于核函数变换的非线性偏最小二乘校正模型获取子单元220,连接校正集样本核函数变换子单元210,用于根据校正集样本核函数变换子单元210获取的核函数变换后得到的矩阵,建立非线性偏最小二乘校正模型,并将获得的回归系数提供给预测值获取单元300。
[0167] 预测值获取单元300,连接校正集样本优选单元100和模型建立单元200,利用校正集样本优选单元100得到的最优的校正集样本和模型建立单元200得到的模型参数,获取未知样本的物质成分含量近红外光谱无损检测的结果。所述预测值获取单元300进一步包括:未知样本光谱数据获取子单元310、未知样本光谱数据预处理子单元320、未知样本核函数变换子单元330和预测值计算子单元340。其中,
[0168] 所述未知样本光谱数据获取子单元310,用于获取待测的未知成分含量的样本的近红外波段范围的连续光谱,并将该光谱数据提供给未知样本光谱数据预处理子单元320。
[0169] 所述未知样本光谱数据预处理子单元320,连接校正集样本数据预处理子单元120和未知样本光谱数据获取子单元310,用于根据校正集样本数据预处理子单元120提供的所选择的预处理方法及其参数,对未知样本光谱数据获取子单元310获取的未知样本光谱数据进行预处理。
[0170] 所述未知样本核函数变换子单元330,连接校正集样本核函数变换子单元210、最优校正集样本获取子单元130和未知样本光谱数据预处理子单元320,用于根据校正集样本核函数变换子单元210提供的所选的核函数及其参数,并利用最优校正集样本获取子单元130提供的最优校正集样本,对未知样本光谱数据预处理子单元320提供的预处理后的未知样本光谱数据进行核函数变换,将获得的核函数变换后的矩阵提供给预测值计算子单元340。
[0171] 所述预测值计算子单元340,连接未知样本核函数变换子单元330和基于核函数变换的非线性偏最小二乘校正模型获取子单元220,用于利用基于核函数变换的非线性偏最小二乘校正模型获取子单元220获得的回归系数和未知样本核函数变换子单元330获得的待测的未知样本核函数变换后的矩阵,计算得到未知样本的待测成分含量的检测值。
[0172] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈