首页 / 专利库 / 光学 / 近红外光谱 / 一种近红外光谱的分类方法

一种近红外光谱的分类方法

阅读:66发布:2020-05-12

专利汇可以提供一种近红外光谱的分类方法专利检索,专利查询,专利分析的服务。并且本 发明 适用于 光谱 分析领域,提供了一种 近红外 光谱 的分类方法,所述方法包括:获取待分类近红外光谱样本,并根据所述待分类近红外光谱样本获取验证集样本;通过稀疏 降维 方法利用校正集样本获取最优分类分割面,并使所述校正集和验证集光谱向最优分类分割面投影,完成光谱的压缩变换;根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类。本发明 实施例 ,省去了根据校正样本集训练学习字典的繁琐过程,提高了近红外光谱的分类效率。,下面是一种近红外光谱的分类方法专利的具体信息内容。

1.一种近红外光谱的分类方法,其特征在于,所述方法包括以下步骤:
获取待分类近红外光谱样本,并根据所述待分类近红外光谱样本获取验证集样本;
通过稀疏降维方法利用校正集样本获取最优分类分割面,并使所述校正集和验证集光谱向最优分类分割面投影,完成光谱的压缩变换;
根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类;
其中,所述通过稀疏降维方法利用校正集样本获取最优分类分割面,并使所述校正集和验证集光谱向最优分类分割面投影,完成光谱的压缩变换,具体包括以下步骤;
若近红外光谱矩阵为X(n×p),其中X为校正集样本,n为样本数量,p为光谱数据维度,现有将n个样本分为K类的问题,定义nk为第k类样本的个数,可知 投影面搜在寻过程中定义样本总类内散度矩阵Swithin和类间离散度矩阵Sbetween,
其中,xkj为第k个样本类中的第j个样本, 为第k类样本的均值,为所有样本的均值;
寻找最优投影方向的过程可以等同为式下述公式所示的优化问题:
在获得最优投影方向后,可进一步对近红外光谱进行降维,由于Sbetween的秩q所述根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类的步骤,具体为:
将所述验证集样本与预设的校正集样本进行距离比较,选择距离最近的校正集样本作为目标校正集样本;
获取所述验证集样本在所述目标校正集样本下的稀疏表示系数;
根据所述稀疏表示系数计算所述验证集样本在所述目标校正集样本下的重构误差;
根据所述重构误差确定所述验证样本集的类别。
2.如权利要求1所述的方法,其特征在于,所述距离为:欧氏距离或氏距离。
3.如权利要求2所述的方法,其特征在于,通过公式 计算所述欧氏
距离,通过公式 计算所述马氏距离,
其中xik为第i个光谱样本的第k个元素,V为校正集光谱的协方差矩阵,为校正集样本光谱的平均值。
4.如权利要求1所述的方法,在所述获取所述验证集样本的目标校正集样本的步骤之后,所述方法还包括以下步骤:
获取所述验证集样本在所述目标校正集样本下的稀疏表示系数;
根据所述稀疏表示系数确定目标原子,所述目标原子为根据所述稀疏表示系数的和计算的属性最强的原子;
确定目标类别,并将所述验证集样本确定为所述目标类别,所述目标类别为目标原子最多的类别。
5.如权利要求1~4任一项所述的方法,其特征在于,所述待分类近红外光谱通过光获取装置获取。

说明书全文

一种近红外光谱的分类方法

技术领域

[0001] 本发明属于光谱分析领域,尤其涉及一种近红外光谱的分类方法。

背景技术

[0002] 利用近红外光谱进行物质判别分类是光谱分析的一个重要应用方向,目前已有多种方法实现光谱数据的分类,最终达到判定物质类别属性的目的。据参考文献的报道,聚类分析、神经网络、判别分析、贝叶斯决策、支持向量机等方法已经成功应用于农业、医药、食品等产品的光谱快速分析领域。而在工程实际应用中,由于训练建模样本不足、样本分布不均、噪声严重等情况,上述分类器或分类方法的性能就会下降。而目标特征物浓度过低,存在外部干扰,检测基质过于混杂导致图谱混叠情况,可能导致分类失败,研究复杂环境下更为有效的光谱分类特征信息提取方法并实现准确分类具有现实意义。
[0003] 随着稀疏理论的推广,利用信号稀疏特性的提取类别特征在图像处理领域已取得了初步的研究成果,该成果用于人脸、遥感信息的分类识别有了初步成效,但现有基于稀疏表达的分类(Sparse Representation-based Classifier,简称SRC)非常繁琐。

发明内容

[0004] 鉴于此,本发明提供一种近红外光谱的分类方法,以解决现有技术计算方法繁琐的技术问题。
[0005] 本发明实施例是这样实现的,一种近红外光谱的分类方法,所述方法包括以下步骤:
[0006] 获取待分类近红外光谱样本,并根据所述待分类近红外光谱样本获取验证集样本;
[0007] 通过稀疏降维方法利用校正集样本获取最优分类分割面,并使所述校正集和验证集光谱向最优分类分割面投影,完成光谱的压缩变换;
[0008] 根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类。
[0009] 进一步的,所述根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类的步骤,具体为:
[0010] 根据验证集样本与校正集样本的距离确定目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类。
[0011] 进一步的,所述根据验证集样本与校正集样本的距离确定目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类的步骤,具体为:
[0012] 将所述验证集样本与预设的校正集样本进行距离比较,选择距离最近的校正集样本作为目标校正集样本;
[0013] 获取所述验证集样本在所述目标校正集样本下的稀疏表示系数;
[0014] 根据所述稀疏表示系数计算所述验证集样本在所述目标校正集样本下的重构误差;
[0015] 根据所述重构误差确定所述验证样本集的类别。
[0016] 进一步的,所述距离为:欧氏距离或氏距离。
[0017] 进一步的,通过公式 计算所述欧氏距离,通过公式计算所述马氏距离,其中xik为第i个
光谱样本的第k个元素,V为校正集光谱的协方差矩阵,为校正集样本光谱的平均值。
[0018] 进一步的,在所述获取所述验证集样本的目标校正集样本的步骤之后,所述方法还包括以下步骤:
[0019] 获取所述验证集样本在所述目标校正集样本下的稀疏表示系数;
[0020] 根据所述稀疏表示系数确定目标原子,所述目标原子为根据所述稀疏表示系数的和计算的属性最强的原子;
[0021] 确定目标类别,并将所述验证集样本确定为所述目标类别,所述目标类别为目标原子最多的类别。
[0022] 进一步的,所述待分类近红外光谱通过光获取装置获取。
[0023] 本发明实施例,获取待分类近红外光谱样本,获取验证样本集的目标校正样本集,将目标校正样本集作为验证样本集的学习字典,对验证样本集进行分类,提供了一种简单方便的近红外光谱分类方法,省去了根据校正样本集训练学习字典的繁琐过程,提高了近红外光谱的分类效率。附图说明
[0024] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025] 图1是本发明实施例提供的近红外光谱分类方法的流程图
[0026] 图2是本发明实施例提供的实验用药片的光谱图。

具体实施方式

[0027] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0028] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0029] 实施例一
[0030] 如图1所示为本发明实施例提供的近红外光谱分类方法的流程图,所述方法包括以下步骤:
[0031] 步骤S101,获取待分类近红外光谱样本,并根据所述待分类近红外光谱样本获取验证集样本。
[0032] 在本发明实施例中,首先通过仪器获取待分类近红外光谱样本,并根据该待分类近红外光谱样本获取验证集样本,通过仪器获取待分类近红外光谱样本的方法使用现有技术,在此不做赘述。
[0033] 步骤S102,通过稀疏降维方法利用校正集样本获取最优分类分割面,并使所述校正集光谱向最优分类分割面投影,完成光谱的压缩变换。
[0034] 在本发明实施例中,假设近红外光谱矩阵为X(n×p),其中X为校正集样本,n为样本数量,p为光谱数据维度。现有将n个样本分为K类的问题,定义nk为第k类样本的个数,可知 投影面搜在寻过程中定义样本总类内散度矩阵Swithin和类间离散度矩阵Sbetween,如式5-6和式5-7所示。
[0035]
[0036]
[0037] xkj为第k个样本类中的第j个样本,为第k类样本的均值,为所有样本的均值。本发明认为寻找最优投影方向的过程可以等同为式5-10所示的优化问题:
[0038] Subject to
[0039] 在获得最优投影方向后,可进一步对近红外光谱进行降维,由于Sbetween的秩q
[0040] 进一步定义类属性矩阵为Y(n×K),n为样本数量,每一行对应一个光谱样本,样本所在k类的位置为1,其他为0。式5-10所示的优化问题可以等价为式5-11的优化得分问题:
[0041] Subject to
[0042] 式5-11中θk为K维得分向量,wk为p维投影向量矩阵,设想对矩阵X完成了中心化处理后,则存在一个n维的全1向量,与矩阵X中的列正交,而矩阵X的最大秩为K,则式5-11最多存在K-1个解。定义对称矩阵D=1/nYTY,则式5-11可转换成式5-12,该式与5-10具有等价性,其目的在于寻找一组最优的分割投影方向W。
[0043] Subject to
[0044] 在近红外光谱分析建模时,观测的样本数量通常小于样本的波长点数,即近红外光谱矩阵为X(n×p)中n算法的执行。本发明提出了正则化估计法则,对Swithin矩阵进行改造,将原有的Swithin矩阵加上一个正定矩阵Ω求解:
[0045] Subject to
[0046] 增加正定矩阵的目的使得式5-13在n
[0047] Subject to
[0048] 从最优化理论的度看,式5-14并不是一个凸优化问题,优化求解存在一定的障碍。如果进一步运用式5-12的优化得分求解方案,将式5-14的寻优过程转换成优化得分的形式:
[0049] Subject to
[0050] γ和λ为两个非负参数,增大λ将增强L1惩罚约束,使得投影向量wk的稀疏度加强。同样式5-15也不是一个凸优化问题,寻找局部极小点有很大的难度,用迭代的思路可以分两步解决这个问题。首先保持θk固定,通过优化方法求解:
[0051]
[0052] 当Ω=I时,求解式5-16用Elastic Net方法。其次保持wk固定,通过式5-12寻找最优的θk,通过反复迭代,最终确定最佳投影分割面并完成光谱矩阵的降维变换X'=(Xw1,Xw2...Xwq)。新的X'就是下面用到的降维后的光谱,等效下面的大写X。
[0053] 上述Elastic Net方法描述如下:
[0054] 设有求解应变量y=(y1,y2...yn)和自变量矩阵X=(x1|x2|...|xn)的多元线性回归问题,定义β为回归系数,如果引入稀疏约束,即β是稀疏的,则能有效起到变量的筛选作用。在完成自变量矩阵X的中心化和标准化变换后,引入非负参数λ1和λ2,并引入初始弹性网眼( elastic net)准则函数:
[0055] L(λ1,λ2,β)={||y-Xβ||2+λ2||β||2+λ1||β1||}  (5-17)
[0056] 此时求解线性回归问题就转变成为寻求准则函数最小值的优化问题,式5-17的求解目标与式5-16的形式是完全一致。
[0057]
[0058] 这个方法就是带有惩罚项的最小二乘法,定义α=λ2/(λ1+λ2),式5-18可以进一步等价为:
[0059]
[0060] Subject to(1-α)||β||1+α||β||2≤t  (5-19)
[0061] (1-α)||β||1+α||β||2被称为弹性网眼惩罚项,对于α∈(0,1)区间内,弹性网眼准则函数式严格满足凸优化的要求,可用优化方法求解。
[0062] 文献给出了式5-19的解:
[0063]
[0064] 其中 和Z+代表去取正数的操作,即大于零的分量保持原值,其他分量为零。式5-20的解其实包含了两个部分的操作,先进行Lasso估计,再进行岭(ridge)估计。Lasso估计和ridge估计的解分别为:
[0065]
[0066]
[0067] Lasso估计可以认为是变量的选择过程,而ridge估计过程是对变量的压缩过程,两种估计都是有偏估计,将增大回归的方差,为解决这个问题,对数据进行适当的增补,重新定义数据集(y*,X*)为:
[0068]
[0069] 令 和 那么elastic net求解就等价于:
[0070]
[0071]
[0072] X*数据进行参数增加后,维度增加,且秩为p,就可以完成p个变量的选择问题,同时惩罚因子的引入,降低了变量间的相关性,最终减少了回归的方差。上面给出的是X'X正交的情况,对于一般情况,其通解形式为:
[0073]
[0074] 再令γ'=λ2/(1+λ2)和 则可除去共线性的影响和降低相关性,最终提高预测精度
[0075] 步骤S103,根据所述投影通过变换压缩获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类。
[0076] 在本发明实施例中,获取验证集样本的目标校正集样本,并将目标校正集样本作为学习字典计算验证集样本的重构误差。所述获取所述验证集样本的目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类的步骤,具体为:
[0077] 根据验证集样本与校正集样本的距离确定目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类。
[0078] 在本发明实施例中,通过验证集样本与校正集样本的欧氏距离或马氏距离确定目标校正集样本,并计算上述的重构误差。所述根据验证集样本与校正集样本的距离确定目标校正集样本,将所述目标校正集样本作为所述验证集样本的学习字典,并根据所述学习字典对所述验证样本集进行分类的步骤,具体为:
[0079] 1、将所述验证集样本与预设的校正集样本进行距离比较,选择距离最近的校正集样本作为目标校正集样本。
[0080] 在本发明实施例中,将验证集样本与预设的所有校正集样本进行欧氏距离或马式距离的比较,将距离最近的校正集样本作为目标校正集样本。所述将所述验证集样本与预设的校正集样本进行距离的比较,具体为:通过公式 计算欧氏距离,通过公式 计算马氏距离,其中xik为第i
个光谱样本的第k个元素,V为校正集光谱的协方差矩阵,为校正集样本光谱的平均值。
[0081] 2、获取所述验证集样本在所述目标校正集样本下的稀疏表示系数。
[0082] 在本发明实施例中,逐一计算验证集样本在目标校正集样本(即学习字典)下的稀疏表示系数 即可求得 i=1,2,...k。
[0083] 其中,所述稀疏用OMP算法描述如下:
[0084] 近红外光谱y∈Rn可由一组单位正交稀疏基D=[d1d2...dk]线性表示y=Dx,dk∈Rk。在已知y和D的情况下,直接求解x是病态的。将上述问题转换为式3-26和式3-27所示的优化问题。
[0085]
[0086] mxin(||y-Dx||2) s.t.||x||0
[0087] 其中||x||0表示x的l0范数,即x中非零元素的个数。可用正交匹配追踪算法(OMP)[134]对此优化问题求解。该算法首先初始化残差r0=y、清空索引集 和重组字典接下来重复步骤一和步骤二直到满足迭代停止条件。
[0088] 在一些可选实施例中,所述T0=6。
[0089] 步骤一:找出残差ri与字典中的某个原子dj(字典中的列称字典的原子)内积最大值所对应的标号 并更新索引集Λi=Λi-1∪{λi}和重组字典Di'=[Di'-1,dλI]
[0090] 步骤二:由最小二乘法得到当前光谱的最优逼近xi'=argmin2||y-D'ix'||2并更新残差ri=y-Di′xi′。
[0091] OMP法改进了匹配追踪(MP)算法选取信号在原子张成子空间不是正交投影的缺点。
[0092] 4、根据所述稀疏表示系数计算所述验证集样本在所述目标校正集样本下的重构误差。
[0093] 在本发明实施例中,根据公式ek=||y-Xkαk||计算验证集样本在目标校正集样本下的重构误差,其中,重构误差越小,验证集样本属于该类的可能越大。
[0094] 5、根据所述重构误差确定所述验证样本集的类别。
[0095] 在本发明实施例中,通过多类决策函数 根据重构误差确定验证样本集的类别,其中,多类决策函数 为现有技术,在
此不做赘述。
[0096] 本发明实施例,获取待分类近红外光谱样本,获取验证样本集的目标校正样本集,将目标校正样本集作为验证样本集的学习字典,对验证样本集进行分类,提供了一种简单方便的近红外光谱分类方法,省去了根据校正样本集训练学习字典的繁琐过程,提高了近红外光谱的分类效率。
[0097] 作为本发明的一个可选实施例,在所述获取所述验证集样本的目标校正集样本的步骤之后,所述方法还包括以下步骤:
[0098] 获取所述验证集样本在所述目标校正集样本下的稀疏表示系数;
[0099] 根据所述稀疏表示系数确定目标原子,所述目标原子为根据所述稀疏表示系数的和计算的属性最强的原子;
[0100] 确定目标类别,并将所述验证集样本确定为所述目标类别,所述目标类别为目标原子最多的类别。
[0101] 在本发明实施例中,首先计算验证集样本在目标校正集样本下的稀疏表示系数,根据稀疏表示系数的和确定属性最强的一类原子,然后获取该类原子最多的类别,最后将验证集样本确定为该类别。上述步骤,具体为:
[0102] (1)首先对光谱校正集样本矩阵X=(x1,x2,...xn)进行列归一化,每列代表一个光谱样本;取校正集光谱样本,直接认为其为一字典D=X;
[0103] (2)对于某一验证集光谱矩阵y,初始化:迭代次数t=1,迭代残差r0=y,选取的字典D=φ;
[0104] (3)选取与残差相关性最大的原子,并更新字典:
[0105]
[0106] (4)求解最小二乘问题,获得已选向量的最优投影,即最优稀疏估计值:
[0107]
[0108] (5)更新残差:r0=y-Dtαy;
[0109] (6)t=t+1如果t
[0110] (7)对稀疏表示系数按字典原子所在的类区分 使用多类决策函数 确定验证集样本y所属的类别。
[0111] 举例说明:
[0112] 如图2所示为本发明实施例提供的实验用药片的光谱图,实验用药片为西酞普兰(citalopram)90片,根据内部活性物质含量的不同,将药片分为A、B、C、D四类。A、B、C、D四类样本的西酞普兰有效成分分别为5mg±15%、10mg±15%、15mg±15%和20mg±15%,其中A类、B类、C类和D类药品各60片。通过测量获取药片的近红外光谱,扫描波数范围为7400-10507cm-1,每个光谱含407个波长点。
[0113] 现有4类每类60片总计240个近红外光谱样本,在每类样本中随机选取40片作为校正集,20片作为验证集,那么校正集样本总数为160个,验证集样本总数为80个。实施例一(SRC-1)不采用训练字典,而是使用不同类的校正集样本直接作为各类的字典。实施例二(SRC-2)除沿用方法一的“直接字典”思路外,不进行信号重构,而是对不同类原子对应的表示系数进行求和,取系数和最大值所在字典对应的类标签为待测样本的预测类别。表1给出了稀疏分类算法对验证集样本的分类结果。
[0114] 表1稀疏分类算法预测结果
[0115]Method SRC-1 SRC-2
accuracy 100% 86.25%
Sensitivity A 100% 100%
Sepcifictiy A 100% 100%
Sensitivity B 100% 100%
Sepcifictiy B 100% 98.33%
Sensitivity C 100% 90%
Sepcifictiy C 100% 85%
Sensitivity D 100% 55%
Sepcifictiy D 100% 98.33%
[0116] 对比上表可以看出方法一的分类准确性为100%。
[0117] 本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
[0118] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈