首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 一种定性定量相结合的近红外定量模型构建方法

一种定性定量相结合的近红外定量模型构建方法

阅读:1042发布:2020-07-21

专利汇可以提供一种定性定量相结合的近红外定量模型构建方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种定性定量相结合的 近红外 定量模型构建方法,包括以下步骤:获取建模校正集实际的样本,检测其 基础 化学成分;扫描校正样本所对应的 光谱 ,剔除异常样本;对可用光谱定性投影;对投影数据分类;每类的 近红外光谱 与化学值作为验证集,用建模集对验证集进行预测,求其预测误差;随机选择近红外的 波长 点;求解每一次生成波长点所对应的总体校正集误差;根据最小的总体校正集误差确定近红外的波长选择点以及近红外光谱的特征信息;对校正集光谱与化学值重新建立回归模型;检测验证样本的化学值并获取对应光谱,对回归模型进行定量评价。本发明由于对校正集光谱进行了定性投影分析,对于光谱的变化具有适应性,能够保持模型的预测稳定。,下面是一种定性定量相结合的近红外定量模型构建方法专利的具体信息内容。

1.一种定性定量相结合的近红外定量模型构建方法,其特征在于,包括以下步骤:
步骤一、获取建模校正集实际的样本,检测其基础化学成分;
步骤二、扫描校正样本所对应的光谱,剔除异常的样本;
步骤三、对剔除异常样本后的可用的光谱进行定性投影;
步骤四、对投影的数据进行分类,将投影值从小到大排序,将排序后的投影值划分为k类,
步骤五,运用每类的近红外光谱与化学值作为验证集,对剩余的所有其它类的光谱及其化学值作为建模集,并运用建模集对验证集进行预测,求其预测误差,以k类样本中所有不包含j类的样本为光谱校正集,与其所对应的原始样本的化学值进行回归建模,回归建模的方式可以采用偏最小二乘、多元线性回归、主成分回归、或者偏最小二乘人工神经网络,1≤j≤k;验证集kj的近红外模型的误差的评价方式为:
其中, 为标准误差, 为验证集模型预测化学值, 为验证集原始化学值,依据不同样本的投影值划分k类的总体的校正集误差记为CSE;其中CSE的计算方式如下:
步骤六:随机选择近红外的波长点;
步骤七,求解每一次生成波长点所对应的步骤五的总体的校正集误差;
步骤八,根据步骤七中最小的总体校正集误差来确定近红外的波长选择点以及近红外光谱的特征信息,进而根据近红外光谱的特征信息来建立关联关系;
步骤九、在上述选择的波长点下,对校正集光谱与化学值重新建立回归模型;
步骤十、检测验证样本的化学值并获取对应光谱,对步骤九中的回归模型进行定量评价。
2.如权利要求1所述的定性定量相结合的近红外定量模型构建方法,其特征在于:
其中,步骤一中,分别获取对应的近红外光谱x与化学值尼古丁y。
3.如权利要求1所述的定性定量相结合的近红外定量模型构建方法,其特征在于:
步骤二中,根据半重数采样法来判别校正集样本的光谱中的异常光谱。
4.如权利要求1所述的定性定量相结合的近红外定量模型构建方法,其特征在于:
步骤三中,运用遗传算法求解投影方向向量。
5.如权利要求1所述的定性定量相结合的近红外定量模型构建方法,其特征在于:步骤十中,对验证样本的对应光谱,运用如下方式求解其预测值
pxtest=fxtest(MC(j))*Beta
CSE最小的值所在的j,波长点为MC(j),Beta是校正系数,
fxtest为预测集。

说明书全文

一种定性定量相结合的近红外定量模型构建方法

技术领域

[0001] 本发明涉及一种定性定量相结合的近红外定量模型构建方法,属于近红外检测分析领域。

背景技术

[0002] 近红外光谱是属于850-2500nm波段的电磁波,不同类型光谱反映了不同样本层次的分子信息,由于近红外光谱包含大量的物质信息,快速检测等优势,使得近红外在在线生产质量监控上取得了广泛的应用;传统的近红外定量模型的构建方法为:获取样本的近红外光谱信息,运用流动分析仪检测基础的化学值信息,把光谱随机分为校正级与验证集,剔除异常样本,采用波段选择或者波长点选择对光谱的波长进行选取建模区间,然后把筛选波长区间之后的光谱与化学值运用pls(偏最小二乘)建立关联关系并对验证样本进行验证;上述的方法存在如下的缺点,(1)由于近红外光谱的影响因素比较多,易受外界环境,温度,以及样本类型的影响;在实际的使用过程中,当外界的光谱发生变化与校正样本不一致时容易导致模型的外部预测误差偏大;(2)对于复杂样本类型的近红外模型的构建,在传统的建模方式中会产生重校正轻验证,使得对于在实际的质量监控过程中,当实际取样样本的化学值及相对应的光谱发生微弱的变化,传统的建模方式会出现不具备实际样本变化趋势的一致性。
[0003] 如何在实际的近红外定量模型的构建过程中,提取近红外光谱有效的信息,构建定量模型的表达形式,建立稳定的,适应于外界光谱变化的近红外定量模型实已成为近红外领域亟需解决的技术问题。

发明内容

[0004] 本发明的目的在于提供一种定性定量相结合的近红外定量模型构建方法,以解决上述问题。
[0005] 本发明采用了如下技术方案:
[0006] 一种定性定量相结合的近红外定量模型构建方法,其特征在于,包括以下步骤:
[0007] 步骤一、获取建模校正集实际的样本,检测其基础化学成分;
[0008] 步骤二、扫描校正样本所对应的光谱,剔除异常的样本;
[0009] 步骤三、对剔除异常样本后的可用的光谱进行定性投影;
[0010] 步骤四、对投影的数据进行分类;
[0011] 步骤五,运用每类的近红外光谱与化学值作为验证集,对剩余的所有其它类的光谱及其化学值作为建模集,并运用建模集对验证集进行预测,求其预测误差;
[0012] 步骤六:随机选择近红外的波长点;
[0013] 步骤七,求解每一次生成波长点所对应的步骤五的总体校正集误差;
[0014] 步骤八,根据步骤七中最小的总体校正集误差来确定近红外的波长选择点以及近红外光谱的特征信息,进而根据近红外光谱的特征信息来建立关联关系;
[0015] 步骤九、在上述选择的波长点下,对校正集光谱与化学值重新建立回归模型;
[0016] 步骤十、检测验证样本的化学值并获取对应光谱,对步骤九中的回归模型进行定量评价。
[0017] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:其中,步骤一中,分别获取对应的近红外光谱x与化学值尼古丁y。
[0018] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:步骤二中,根据半重数采样法来判别校正集样本的光谱中的异常光谱。
[0019] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:步骤三中,运用遗传算法求解投影方向向量。
[0020] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:步骤四中,将投影值从小到大排序,将排序后的投影值划分为k类。
[0021] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:步骤五中,以k类样本中所有不包含j1类的样本为光谱校正集,与其所对应的原始样本的化学值进行回归建模,回归建模的方式可以采用偏最小二乘,多元线性回归、主成分回归、或者偏最小二乘人工神经网络,1≤j1≤k;验证集kj的近红外模型的误差的评价方式为:
[0022] 进一步,本发明的定性定量相结合的近红外定量模型构建方法,还可以具有这样的特征:步骤十中,对验证样本的对应光谱,运用如下方式求解其预测值pxtest:pxtext=fxtest(MC(j2))。
[0023] 发明的有益效果
[0024] 本发明的定性定量相结合的近红外定量模型构建方法由于在校正集构建定量模型的过程中,对校正集光谱进行了定性投影分析,每次校正集的验证样本均是与校正集内的其它光谱差异很大的光谱,然后通过近红外波长点的随机生成,依据类别的预测误差,不断的优化波长点的选择,整个过程在校正模型建立的时候就已经考虑到光谱的较大变化,对近红外定量模型的使用过程中对于到光谱的变化具有适应性,能够保持模型的预测稳定。
[0025] 本发明在化学计量学的研究过程中从传统的”重校正轻验证”,“验证相似适应,变化失效”的情况转变成“重差异,提信息”,增强了近红外定量模型构建的适应能,在本发明专利中首次把近红外定性的方法与定量的方法融合在一用于近红外信息的提取与定量模型的构建,为近红外与化学计量学领域提供了一种新的思考方式。附图说明
[0026] 图1是校正样本的原始光谱图;
[0027] 图2是校正样本的化学值尼古丁分布图;
[0028] 图3是未来验证样本的原始光谱图;
[0029] 图4是未来验证样本的化学值尼古丁分布图;
[0030] 图5是校正集异常样本判别图;
[0031] 图6是投影目标函数迭代优化图;
[0032] 图7是校正集投影方向向量图;
[0033] 图8是校正集样本的投影特征值图;
[0034] 图9是校正集样本的投影值分类图;
[0035] 图10是不同信息选择下的投影特征值分类预测平均绝对误差分布图;
[0036] 图11是校正集特征信息的选择图;
[0037] 图12是本发明的定性定量相结合的近红外定量模型构建方法流程图

具体实施方式

[0038] 以下结合附图来说明本发明的具体实施方式。
[0039] 如图12所示,本发明的定性定量相结合的近红外定量模型构建方法包括以下步骤:
[0040] 步骤101:获取样本;步骤102:获取建模校正集实际的样本;步骤103:检测校正集样本的基础化学成分;步骤104:扫描样本所对应的光谱;步骤105,判定异常样本,剔除异常的样本;步骤106,对可用的光谱进行定性投影;步骤107,对校正集投影后的光谱投影值进行分类;步骤108,运用每类的近红外光谱与化学值作为验证集,对剩余的所有其它类的光谱及其化学值作为建模集,并运用建模集对验证集进行预测,求其预测误差;步骤109随机选择近红外的波长点,步骤110,求解每一次生成波长点所对应的步骤108的CSE;步骤111,根据步骤110中最小的CSE误差来确定近红外的波长选择点以及近红外光谱的特征信息,进而根据近红外光谱的特征信息来建立关联关系。步骤112,在上述选择的波长点下,校正集光谱与化学值重新建立回归模型。步骤113,获取独立验证样本;步骤114:检测验证样本的化学值;步骤115:获取验证样本的光谱;步骤116:定量模型评价。具体步骤如下:
[0041] 一、获取样本
[0042] 在复烤厂在线取样样本300个原烟样本作为检测样本,并在接下的两个月中每周在生产线上取15个烟叶样本,共获取100个烟叶样本,作为独立验证样本;对上述两种样本进行去梗,切丝磨粉过40目筛;分别获取对应的近红外光谱x,见图1;化学值尼古丁y,见图2;未来光谱fxtest,见图3;以及化学值尼古丁fytest,见图4。
[0043] 二、根据RHM(半重数采样法)来判别光谱x中的异常光谱,
[0044] 半重数采样法的计算方法如下:基于对原始光谱的随机半数重采样统计出现奇异长度的样本。从原始光谱矩阵中随机选择50%样本作为采样子集,计算每个采样子集矩阵的均值和方差,再根据均值和方差计算采样子集中每个样本的向量长度。对光谱数据进行多次随机采样,并记录每次采样后计算的向量长度。对样本的向量长度进行排序,距离最大的预定概率(如5%或10%)的样本得分为1,其余为0。最后对各样本的总得分进行统计,得分最高的部分样本就为奇异样本。
[0045] 采用半重数采样法对校正集x1进行光谱异常性判断,随机次数采用5000次;异常样本的结果见图5。
[0046] 三、运用遗传算法求解投影方向向量,选择遗传算法的个体数目为30,变量的维数为226,变量的二进制位数为8,种群数目为100。见图6。
[0047] 求得X1的投影方向向量a的结果,见图7
[0048] 校正集的投影特征值ff的结果,见图8。
[0049] 求解投影方向向量的方法具体如下:
[0050] 标记剩余的正常光谱记作x1,x1为n行m列的光谱矩阵;其所对应的化学值为y1;
[0051] 对x1进行光谱投影,光谱投影的计算方法如下:
[0052] 1)光谱x1进行归一化;
[0053]
[0054] 其中i为光谱矩阵x1的第i个样本,j为光谱矩阵x1的第j列;
[0055] 2)确定投影目标函数Q(a)。
[0056] Q(a)=s(a)*d(a)  (2)
[0057] 其中,a为所述初始投影向量,Q(a)为所述目标函数,s(a)为所述初始投影向量的类内距离,d(a)为所述初始投影向量的类内密度
[0058]
[0059] 其中,zi为第i个烟叶样本序列的投影特征值, 为序列zi的均值。
[0060] zi=x1*a  (4)
[0061]
[0062] rik为任意两个近红外样本的烟投影特征值间的距离,计算公式如下:
[0063] rik=|zi-zk|,(i,k=1:n);  (6)
[0064] n为近红外样本光谱x1的行数;
[0065]
[0066] R为估计局部散点密度的窗宽参数,按宽度内至少包括一个散点的原则选定,其取值与样本数据结构有关,可基本确定它的合理取值范围为rmax<R≤2n,其中,rmax=max(rik),(i,k=1,2…n)。
[0067] 3)求解线性投影的方向可转化为下列优化问题:
[0068]
[0069] 对上述公式(8)的求解可以采用二次规划,遗传算法,PC(主成分分解),SVD(奇异值分解);求得投影方向向量为a,求得投影值记为ff;
[0070] 四、把特征值排序后,进行分类。
[0071] 分类过程如下,分类结果见图9。
[0072] 按照投影值从小到大对ff进行排序,并标记排序后ff所对应的原始近红外样本的序号;
[0073] 把排序后的投影值均分为k类,k为大于1的自然数;并标记其相对应的原始样本的序号;按照此投影值的分法,每类的投影值互不交叉。
[0074] 选取波长筛选系数xi=0.7;重复次数MC=1000;近红外光谱分类数k=6;
[0075] 以k类样本中所有不包含j类的样本为光谱校正集与其所对应的原始样本的化学值进行回归建模,光谱预处理的方式为一阶导数,波长采用全谱;(回归建模的方式可以采用PLS(偏最小二乘),MLR(多元线性回归),PCR(主成分回归),PLS-BP(偏最小二乘人工神经网络)),1≤j≤k;验证集kj的近红外模型的误差的评价方式为:
[0076]
[0077] 在该波长点依据不同样本的投影值划分k类的总体的校正集误差记为CSE;其中CSE的计算方式如下:
[0078]
[0079] 生成[1:1:m]的一维向量矩阵;随机从[1:1:m]的一维向量矩阵中筛选出xi*m取整的数组;此过程重复MC次;把x1按照上述步骤依据投影值划分为k类,在MC(i)组的波长点的基础下,求解CSE(i);求解的CSE如图10所示:其中,最小CSE为0.25;最大CSE为0.2848。
[0080] 五、找出CSE最小的值所在的j,选取该组的波长点为MC(j)
[0081] 最小CSE对应的坐标为1999;MC(1999)所筛选出的近红外波长点如图11:
[0082] 六、对校正集分别在全谱以及上述筛选出的波长点下进行光谱的导数预处理,PLS(偏最小二乘),PPLS(校正偏最小二乘),PCR(主成分回归),CCAR(典型相关回归),MLR逐步加权回归等分别建立近红外光谱的定量分析模型;并对预测集fxtest进行预测,以平均绝对误差以及相对误差对未来预测样本的预测结果进行评价:
[0083] 具体而言:在上述MC(j)的基础上,选取x1中MC(j)的波长点矩阵记作xcal;ycal=y1;
[0084] 对xcal进行一阶导数处理,建立xcal与ycal的校正模型;求得校正系数Beta;校正模型求解的方式可以采用PLS(偏最小二乘),MLR(多元线性回归),PCR(主成分回归),PLS-BP(偏最小二乘人工神经网络);
[0085] 对未来光谱fxtest,运用如下方式求解其预测值pxtest;
[0086] pxtest=fxtest(MC(j))*Beta  (11)
[0087] 对未来光谱预测结果的评价采用,平均绝对误差ASE,平均相对误差ARD,平均均方根误差MSE,相关系数进行评价ACO,相关系数为通常意义上两组数据的相关系数;
[0088] 其中平均绝对误差的计算方式为:
[0089]
[0090]
[0091]
[0092] 如表1所示,本发明方法在同等参数条件下与传统的不同原理的方法对比,普遍预测误差小于传统的模型预测误差,平均绝对误差与平均相对误差普遍小于传统的方法的外部验证误差,平均绝对误差下降9.42%,平均相对误差下降10.3%,最大平均绝对误差下降15.89%,最大平均相对误差下降18.39%。
[0093] 表1本发明的方法与传统定量模型方法对比表
[0094]
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈