基于半监督领域自适应的气体检测方法专利检索-半监督学习机器学习人工智能人工智能专利检索查询-专利查询网

基于半监督领域自适应的气体检测方法

阅读：320发布：2020-10-08

专利汇可以提供基于半监督领域自适应的气体检测方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于半监督领域自适应的气体检测方法，包括步骤：对气体传感器采集的气体数据信号进行预处理；利用预处理后的信号构造特征子空间；根据构造特征子空间建立组合核函数；选择目标域中无标记样本；根选择的目标域中无标记样本训练分类器，根据得到的训练分类器进行气体识别。本发明根据气体传感器数据的时间序列特点，通过对领域自适应的核函数进行构造，提出了目标域的无标记样本的选择策略，能有效处理气体传感器数据及传感器漂移，新的核函数既考虑了靠近源域和目标域的子空间应该有更大的权重，又考虑了源域和目标域之间的中间数据，利用格拉斯曼流型几何来描述气体传感器的漂移，有效解决漂移对气体检测和识别的影响。，下面是基于半监督领域自适应的气体检测方法专利的具体信息内容。

权利要求

1.一种基于半监督领域自适应的气体检测方法，具体包括如下步骤：
S1.对气体传感器采集的气体数据信号进行预处理；
S2.利用步骤S1预处理后的信号构造特征子空间；
S3.根据步骤S2构造特征子空间建立组合核函数；
S4.选择目标域中无标记样本；
S5.根据步骤S4选择的目标域中无标记样本训练分类器，根据得到的训练分类器进行气体识别。
2.根据权利要求1所述的气体检测方法，其特征在于，步骤S1的具体过程如下：采集一持续时间段的数据，对数据进行小波变换，每个样本经过预处理后表示为一个N维实数向量，即X=(x1,x2,…，xN)。
3.根据权利要求2所述的气体检测方法，其特征在于，所述预处理具体为滤波处理。
4.根据权利要求2所述的气体检测方法，其特征在于，步骤S2的具体过程如下： S21.将多个样本数据按照时间的先后组成数据集D1，D2，…，Di，…,DT，其中，T表示时间段，D1={X1,X2，…，Xn}，共有n个样本，每个样本被人工标记，其中，Xi的类标记为Yi∈{-1,1}，1表示正样本，即待检测的气体，-1表示负样本，为其它气体；D1是唯一的标记样本集，D2，……,DT是无标签样本集，数据集Di可以表示为矩阵形式，用Di表示这个样本矩阵；
S22.对样本数据Di进行特征中心化、进行主成分分析，得到每个d维度的特征子空间，其中，d是预先设计的一个整数，且d特征中心化：Di=Di-ones(size(Di,1),1)×mean(Di)，其中，size(Di,1)表示矩阵Di行数dim，ones(size(Di,1),1)表示构建一个dim维且元素都为1的列向量，mean(Di)表示一个维数等于矩阵Di列数的行向量，每一元素表示矩阵Di对应列向量的均值；
对特征中心化后的每个Di，进行主成分分析，得到特征子空间，其具体步骤如下：计算样本矩阵Di的协方差矩阵Hi；
计算协方差矩阵Hi的特征向量的特征值，并把特征值按从大到小排序；
提取最大的d个特征值，其对应的特征向量为特征子空间的基底，构成一个矩阵Si，Si为Di特征子空间，其维度为N×d；
通过上述处理，每个Di可以通过Si变为低维度d的数据，Si是对应子空间，且S1，N N
S2,.....,ST都是R 的d维子空间，记R 的所有d维子空间为GN×d，称为格拉斯曼流型，所述Si∈GN×d。
5.根据权利要求2或4所述的气体检测方法，其特征在于，步骤S3的具体过程如下： S31.构建权重核函数，
S311.选定S1、ST分别为源域D1，目标域DT的特征子空间，则S1和ST为格拉斯曼流型GN×d上的点，在GN×d上构建一条从S1到ST的曲线，设曲线的参数化函数Φ(t)：
[0,1]→GN×d,具体如下：
其中，R1是S1的垂直补子空间，U1和U2分别是d×d和(N-d)×d的对角矩阵，具体通过矩阵SVD分解计算得到：
S1'ST=U1ΓV'，R1'ST=-U2ΣV'；
其中，S1'表示S1的转置矩阵，Γ和Σ是d×d的对角矩阵，其对角线上的元素分别为cos(θi)和sin(θi)，其中，i∈{1,2,……,d}，同样，Γ(t)和Σ(t)的对角元素分别为cos(tθi)和sin(tθi)；
通过以上计算，可以得到U1和U2，Γ(t)和Σ(t)，从而得到Φ(t)；
S312.设w(t)：[0,1]→R为权重函数，w(t)=|1-2t|，用w(t)乘以Φ(t)，得到
g(t)=w(t)Φ(t)；
S313.g(t)在每个点上代表一个子空间的带权重的基底，对g(t)表示的无限维的希尔伯特空间的内积求和，即内积表示g(t)'g(t)在[0,1]区间进行积分，其积分为矩阵G：
由带入上式可得：
则：
由于Γ(t)和Σ(t)为对角矩阵，且其对角元素分别为cos(tθi)和sin(tθi)，则设 Ω=[S1U1,-R1U2],
则可设G有下面的形式：
其中，Λ1，Λ2，Λ3是d×d的对角矩阵，设其对角元素分别为λ1i,λ2i,λ3i，其中i∈{1,2,……,d}：
S314.定义核函数：K(Xi,Xj)=Xi'G Xj，其中，Xi，Xj是源域D1和目标域DT中任意样本向量；
S32.计算组合核函数，
S321.根据步骤S22可知，D1，D2，……,DT其对应格拉斯曼流型的子空间为S1，S2,.....,ST，设Φi-j(t)：[0,1]→GN×d是格拉斯曼流型上从Si到Sj的一条曲线，定义如下：则w(t)Φi-j(t)表示从Si到Sj的一条权重曲线；
S322.对任意的j∈{2,3，……，T-1}，定义如下从S1到ST的权重曲线：
w(t)Φ1-j-T(t)表示从S1到ST的经过Sj的一条权重曲线；则内积2
Φ1-j-T(t)>表示w(t)Φ1-j-T(t)'Φ1-j-T(t)从0到2积分，可得：
其中，Gi-j表示根据公式（a）计算的Si到Sj的权重核函数；
G1-j-T定义了一个源域D1和目标域DT中的核函数如下：
K(Xi,Xj)=Xi′G1-j-TXj
S323.根据步骤S322，得到源域D1和目标域DT中T-1个核函数集合，其对应的核矩阵集合为{G1-T，G1-2-T，……,G1-(T-1)-T}，其中，G1-T表示根据公式（a）计算的S1到ST的权重核函数，利用这些核函数构造组合核函数的核矩阵如下：
Gc=w1G1-T+w2G1-2-T+......+wT-1G1-(T-1)-T
其中，w1,w2,……，wT-1是预先设定的权重值，则对应的核函数为：
K(Xi,Xj)=Xi'GcXj （b）
其中，Xi，Xj是源域D1和目标域DT中任意样本向量，式（b）定义的函数即为组合核函数。
6.根据权利要求2或4所述的气体检测方法，其特征在于，步骤S4的具体过程如下： S41.设源域D1={X1，X2，……，Xn}共n个标记样本，目标域DT={Xn+1，Xn+2，……,Xn+q}共q个无标记样本；从目标域DT中选择一个子集来进行无监督学习，使得选择的子集能给分类器提供增量知识去自适应目标领域；
首先描述DT 中子集与D1的相似性：DT的任意子集可以用一个0,1的q维向量表示：
μ=(μ1，μ2，……,μq)，其中，μi=1表示Xn+i在这个子集中，否则，μi=0表示Xn+i不在这个子集中；用最小化均值来表示这个子集的样本与源域D1中样本的相似性：
其中，表示样本的高维特征函数，m=μ1+μ2+……+μq，即m表示子集的样本个数，|| ||表示希尔伯特空间的范数，从DT中选中最相似D1的子集，即最优化上面等式: 表示使得{}中取得最小值的参数μ，式（c）是个NP问题，为解决上述优化问
题，定义向量α：
则0≤αi≤1，且α1+α2+……+αq=1，带入公式（c）可得
S42.由于表示将样本的高维特征函数，而公式（c）中的核函数已经实现了高维空间映射，为此，设范数对应的核函数为公式（c）中组合核函数，则
设矩阵A=(K(Xn+i,Xn+j))q×q是目标域DT的样本核矩阵，B=(K(Xi,Xn+j))n×q是源域到目标域的样本核矩阵，则公式（d）可化简为：
其中，T=(1,1,……,1)是一个q维向量，上式是一个二次优化问题，其约束条件为
0≤αi，且α1+α2+……+αq=1，解出最优的α；
S43.得到α后，设集合Z={Xn+j|αj≥τ，Xn+j∈DT},其中，参数τ是预先设定的阈值参数，DT=DT–Z，即在目标域中将Z中元素去掉，DT被用来作为半监督学习中的无标记样本。
7.根据权利要求6所述的气体检测方法，其特征在于，步骤S5的具体过程如下： S51.采用基于流形规则化半监督学习方法，其中，核函数为步骤S323中公式（b）中的组合核函数，训练样本集为源域D1和通过步骤S43计算后选择的DT；
设经过步骤S43后DT={Xn+1,Xn+2,……,Xn+p}共p个无标记样本，D1={X1，X2，……，Xn}共n个标记样本，Xi的标签为yi，对D1和DT进行归一化处理；
S52.设分类函数为f(X)，为输入向量X到实数的函数，则流形规则化在再生希尔伯特空间搜索一个最优分类器，其优化的目标函数为：
其中，V(Xi,yi,f)为代价函数，取Hinge函数，即V(Xi,yi,f)=max(0,1-yif(Xi)),F=(f(X1),f(X2),……,f(Xn+p))，是组合核函数K诱导的再生希尔伯特空间的范数，L是D1和DT中数据邻接矩阵的拉普拉斯变换，γA,γI是预先定义的参数；
S53.D1和DT中数据的邻接图按照KNN方法来构造，其中，样本间的距离按照下式定义： d(Xi,Xj)=K(Xi,Xi)+K(Xj,Xj)-2K(Xi,Xj)
数据的邻接矩阵按照上面的公式有K-NN方法构造得到邻接矩阵W，即对D1和DT的每个样本X，按照上面公式计算距离X最近的K个样本点，X与这K个样本点用无向边分别连接，且边对应的权重值为两点的距离；最终得到一个无向图，所述无向图的邻接矩阵即为W；将矩阵W中每行元素相加作为矩阵D的对角元素，D的非对角线元素为0，则L=D-W； *
S54.利用步骤S53得到的矩阵L，优化公式（e），最终得到分类器f ；
S55.输入一个新的气体样本，采用步骤S1对样本进行预处理得到处理后的样本
*
Z=(z1,z2,...,zN)，利用步骤S22中的mean(D1)将Z中心化：即Z=Z-mean(D1)，计算f(Z)，*
如果f(Z)>0则新样本Z为待检测的气体，否则为其它气体。

说明书全文

基于半监督领域自适应的气体检测方法

技术领域

[0001] 本发明属于气体检测技术领域，具体涉及一种气体检测方法。

背景技术

[0002] 使用人工嗅觉系统（电子鼻）进行气体的检测与识别是人工嗅觉领域国内外研究热点之一，在大气污染检测，化工厂检测与监控，战场毒气检测及医疗食品检测等方面有广泛的应用用途。

[0003] 电子鼻主要由两个部分组成：气体传感器阵列和模式识别系统。多个气体传感器组成阵列，通过对充入气体的分子吸附，在传感器薄膜上产生化学和物理反应，并将反应转换为电信号得到响应信号。响应信号通过数据处理和分析后被作为模式识别系统的输入，模式识别采用识别算法对被检查的气体进行识别和分析。

[0004] 但是随着电子鼻的长期使用，气体传感器采集的响应信号会发生严重的漂移，即同浓度同类型的气体在相同环境下不同时间段得到的响应信号数据则不同，这增加了检测和识别气体的困难，也是当前人工嗅觉需要解决的难点问题之一。漂移导致测试数据与训练数据在分布不一致，从而导致已经学习到的识别算法识别率低。现有的漂移校正方法大多采用某种线性变换和标定参照气体消除传感器的漂移，但实际中的漂移不是线性的，且标定参照气体增加了系统的维护费用。

发明内容

[0005] 本发明的目的是为了解决现有技术存在的上述问题，提出了一种基于半监督领域自适应的气体检测方法。

[0006] 本发明的技术方案为：一种基于半监督领域自适应的气体检测方法，具体包括如下步骤：

[0007] S1.对气体传感器采集的气体数据信号进行预处理；

[0008] S2.利用步骤S1预处理后的信号构造特征子空间；

[0009] S3.根据步骤S2构造特征子空间建立组合核函数；

[0010] S4.选择目标域中无标记样本；

[0011] S5.根据步骤S4选择的目标域中无标记样本训练分类器，根据得到的训练分类器进行气体识别。

[0012] 进一步的，步骤S1的具体过程如下：采集一持续时间段的数据，对数据进行小波变换，每个样本经过预处理后表示为一个N维实数向量，即X=(x1,x2,…，xN)。

[0013] 更进一步的，所述预处理具体为滤波处理。

[0014] 进一步的，步骤S2的具体过程如下：

[0015] S21.将多个样本数据按照时间的先后组成数据集D1，D2，…，Di，…,DT，其中，T表示时间段，D1={X1,X2,…，Xn}，共有n个样本，每个样本被人工标记，其中，Xi的类标记为Yi∈{-1,1}，1表示正样本，即待检测的气体，-1表示负样本，为其它气体；D1是唯一的标记样本集，D2，……,DT是无标签样本集，数据集Di可以表示为矩阵形式，用Di表示这个样本矩阵；

[0016] S22.对样本数据Di进行特征中心化、进行主成分分析，得到每个d维度的特征子空间，其中，d是预先设计的一个整数，且d

[0017] 特征中心化：Di=Di-ones(size(Di,1),1)×mean(Di)，其中，size(Di,1)表示矩阵Di行数dim，ones(size(Di,1),1)表示构建一个dim维且元素都为1的列向量，mean(Di)表示一个维数等于矩阵Di列数的行向量，每一元素表示矩阵Di对应列向量的均值；

[0018] 对特征中心化后的每个Di，进行主成分分析，得到特征子空间，其具体步骤如下：

[0019] 计算样本矩阵Di的协方差矩阵Hi；

[0020] 计算协方差矩阵Hi的特征向量的特征值，并把特征值按从大到小排序；

[0021] 提取最大的d个特征值，其对应的特征向量为特征子空间的基底，构成一个矩阵Si，Si为Di特征子空间，其维度为N×d；

[0022] 通过上述处理，每个Di可以通过Si变为低维度d的数据，Si是对应子空间，且S1，N NS2,.....,ST都是R 的d维子空间，记R 的所有d维子空间为GN×d，称为格拉斯曼流型，所述Si∈GN×d。

[0023] 进一步的，步骤S3的具体过程如下：

[0024] S31.构建权重核函数，

[0025] S311.选定S1、ST分别为源域D1，目标域DT的特征子空间，则S1和ST为格拉斯曼流型GN×d上的点，在GN×d上构建一条从S1到ST的曲线，设曲线的参数化函数Φ(t)：[0,1]→GN×d,具体如下：

[0026]

[0027] 其中，R1是S1的垂直补子空间，U1和U2分别是d×d和(N-d)×d的对角矩阵，具体通过矩阵SVD分解计算得到：

[0028] S1'ST=U1ΓV'，R1'ST=-U2ΣV'；

[0029] 其中，S1'表示S1的转置矩阵，Γ和Σ是d×d的对角矩阵，其对角线上的元素分别为cos(θi)和sin(θi)，其中，i∈{1,2,……,d}，同样，Γ(t)和Σ(t)的对角元素分别为cos(tθi)和sin(tθi)；

[0030] 通过以上计算，可以得到U1和U2，Γ(t)和Σ(t)，从而得到Φ(t)；

[0031] S312.设w(t)：[0,1]→R为权重函数，w(t)=|1-2t|，用w(t)乘以Φ(t)，得到g(t)=w(t)Φ(t)；

[0032] S313.g(t)在每个点上代表一个子空间的带权重的基底，对g(t)表示的无限维的希尔伯特空间的内积求和，即内积表示g(t)'g(t)在[0,1]区间进行积分，其积分为矩阵G：

[0033]

[0034] 由带入上式可得：

[0035]

[0036] 则：

[0037]

[0038] 由于Γ(t)和Σ(t)为对角矩阵，且其对角元素分别为cos(tθi)和sin(tθi)，则设

[0039] Ω=[S1U1,-R1U2],

[0040] 则可设G有下面的形式：

[0041]

[0042] 其中，Λ1，Λ2，Λ3是d×d的对角矩阵，设其对角元素分别为λ1i,λ2i,λ3i，其中i∈{1,2,……,d}：

[0043]

[0044]

[0045]

[0046] S314.定义核函数：K(Xi,Xj)=Xi'GXj，其中，Xi，Xj是源域D1和目标域DT中任意样本向量；

[0047] S32.计算组合核函数，

[0048] S321.根据步骤S22可知，D1，D2，……,DT其对应格拉斯曼流型的子空间为S1，S2,.....,ST，设Φi-j(t)：[0,1]→GN×d是格拉斯曼流型上从Si到Sj的一条曲线，定义如下：

[0049]

[0050] 则w(t)Φi-j(t)表示从Si到Sj的一条权重曲线；

[0051] S322.对任意的j∈{2,3，……，T-1}，定义如下从S1到ST的权重曲线：

[0052]

[0053] w(t)Φ1-j-T(t)表示从S1到ST的经过Sj的一条权重曲线；则内积表示w(t)2Φ1-j-T(t)'Φ1-j-T(t)从0到2积分，可得：

[0054]

[0055]

[0056]

[0057] 其中，Gi-j表示根据公式（a）计算的Si到Sj的权重核函数；

[0058] G1-j-T定义了一个源域D1和目标域DT中的核函数如下：

[0059] K(Xi,Xj)=Xi′G1-j-TXj

[0060] S323.根据步骤S322，得到源域D1和目标域DT中T-1个核函数集合，其对应的核矩阵集合为{G1-T，G1-2-T，……,G1-(T-1)-T}，其中，G1-T表示根据公式（a）计算的S1到ST的权重核函数，利用这些核函数构造组合核函数的核矩阵如下：

[0061] Gc=w1G1-T+w2G1-2-T+......+wT-1G1-(T-1)-T

[0062] 其中，w1,w2,……，wT-1是预先设定的权重值，则对应的核函数为：

[0063] K(Xi,Xj)=Xi'GcXj （b）

[0064] 其中，Xi，Xj是源域D1和目标域DT中任意样本向量，式（b）定义的函数即为组合核函数。

[0065] 进一步的，步骤S4的具体过程如下：

[0066] S41.设源域D1={X1，X2，……，Xn}共n个标记样本，目标域DT={Xn+1，Xn+2，……,Xn+q}共q个无标记样本；从目标域DT中选择一个子集来进行无监督学习，使得选择的子集能给分类器提供增量知识去自适应目标领域；

[0067] 首先描述DT 中子集与D1的相似性：DT的任意子集可以用一个0,1的q维向量表示：μ=(μ1，μ2，……,μq)，其中，μi=1表示Xn+i在这个子集中，否则，μi=0表示Xn+i不在这个子集中；用最小化均值来表示这个子集的样本与源域D1中样本的相似性：

[0068]

[0069] 其中，表示样本的高维特征函数，m=μ1+μ2+……+μq，即m表示子集的样本个数，|| ||表示希尔伯特空间的范数，从DT中选中最相似D1的子集，即最优化上面等式:

[0070]

[0071] 表示使得{}中取得最小值的参数μ，式（c）是个NP问题，为解决上述优化问题，定义向量α：

[0072]

[0073] 则0≤αi≤1，且α1+α2+……+αq=1，带入公式（c）可得

[0074]

[0075] S42.由于表示将样本的高维特征函数，而公式（c）中的核函数已经实现了高维空间映射，为此，设范数对应的核函数为公式（c）中组合核函数，则

[0076] 设矩阵A=(K(Xn+i,Xn+j))q×q是目标域DT的样本核矩阵，B=(K(Xi,Xn+j))n×q是源域到目标域的样本核矩阵，则公式（d）可化简为：

[0077]

[0078] 其中，T=(1,1,……,1)是一个q维向量，上式是一个二次优化问题，其约束条件为0≤αi，且α1+α2+……+αq=1，解出最优的α；

[0079] S43.得到α后，设集合Z={Xn+j|αj≥τ，Xn+j∈DT},其中，参数τ是预先设定的阈值参数，DT=DT–Z，即在目标域中将Z中元素去掉，DT被用来作为半监督学习中的无标记样本；

[0080] 进一步的，步骤S5的具体过程如下：

[0081] S51.采用基于流形规则化半监督学习方法，其中，核函数为步骤S323中公式（b）中的组合核函数，训练样本集为源域D1和通过步骤S43计算后选择的DT；

[0082] 设经过步骤S43后DT={Xn+1,Xn+2,……,Xn+p}共p个无标记样本，D1={X1，X2，……，Xn}共n个标记样本，Xi的标签为yi，对D1和DT进行归一化处理；

[0083] S52.设分类函数为f(X)，为输入向量X到实数的函数，则流形规则化在再生希尔伯特空间搜索一个最优分类器，其优化的目标函数为：

[0084]

[0085] 其中，V(Xi,yi,f)为代价函数，取Hinge函数，即V(Xi,yi,f)=max(0,1-yif(Xi)),F=(f(X1),f(X2),……,f(Xn+p))，是组合核函数K诱导的再生希尔伯特空间的范数，L是D1和DT中数据邻接矩阵的拉普拉斯变换，γA,γI是预先定义的参数；

[0086] S53.D1和DT中数据的邻接图按照KNN方法来构造，其中，样本间的距离按照下式定义：

[0087] d(Xi,Xj)=K(Xi,Xi)+K(Xj,Xj)-2K(Xi,Xj)

[0088] 数据的邻接矩阵按照上面的公式有K-NN方法构造得到邻接矩阵W，即对D1和DT的每个样本X，按照上面公式计算距离X最近的K个样本点，X与这K个样本点用无向边分别连接，且边对应的权重值为两点的距离；最终得到一个无向图，所述无向图的邻接矩阵即为W；将矩阵W中每行元素相加作为矩阵D的对角元素，D的非对角线为0，则L=D-W；

[0089] S54.利用步骤S53得到的矩阵L，优化公式（e），最终得到分类器f*；

[0090] S55.输入一个新的气体样本，采用步骤S1对样本进行预处理得到处理后的样本*Z=(z1,z2,...,zN)，利用步骤S22中的mean(D1)将Z中心化：即Z=Z-mean(D1)，计算f(Z)，*
如果f(Z)>0则新样本Z为待检测的气体，否则为其它气体。

[0091] 本发明的有益效果：本发明根据气体传感器数据的时间序列特点，提出了一种基于半监督领域自适应的气体检测方法，通过对领域自适应的核函数进行了构造，提出了一种目标域的无标记样本的选择策略，使得构造核函数及半监督学习方法能有效处理气体传感器数据及传感器漂移，新的核函数既考虑了靠近源域和目标域的子空间应该有更大的权重，又考虑了源域和目标域之间的中间数据，利用格拉斯曼流型几何来描述气体传感器的漂移，有效解决漂移对气体检测和识别的影响，此外，半监督方法不需要参照气体。本发明方法能简单有效的解决传感器漂移，提升气体检测和识别的精度。附图说明

[0092] 图1是本发明实施例中基于半监督领域自适应的气体检测方法流程示意图。

具体实施方式

[0093] 下面结合附图对本发明的实施例做进一步的说明。

[0094] 气体检测与识别是指通过对气体传感器采集的气体数据进行预处理，特征提取，特征降维并最终建立模式识别算法。数据预处理主要是对采集的原始信号进行处理，去除噪声，测量误差等物理和人为因素，使处理后的数据稳定，如典型的包含差分处理，基线操作，各种滤波技术等。

[0095] 气体数据经过预处理后是高维度的时间数据，必须通过特征提取和特征降维形成分类器的输入数据。特征提取和特征降维的目的是从气体数据中提取能反应待检测气体的特征，去掉不相关和冗余的特征，从而有利于模式识别算法。模式识别算法以特征提取和降维后的数据为输入，通过机器学习方法建立分类器，对待检测气体进行识别。

[0096] 本方案发明的目的在于：利用气体数据是典型的时间序列数据，通过采集的无标记样本，提出了一种半监督自适应领域的气体检测方法，以消除气体传感器漂移对分类器的影响，从而提高准确率。首先，将气体数据按照时间顺序分为不同的数据段，在多个数据集上建立基于格拉斯曼流型上的组合核函数，该核函数能有效解决测试数据与训练数据分布不一致的问题，从而消除气体传感器数据漂移的影响；其次提出了一种目标域无标记样本的选择策略，使得被选择的无标记样本能给分类器提供增量的知识；最后，通过源域中的标记数据和目标域中的标记数据，采用半监督算法，构建一个分类器。

[0097] 组合核函数考虑既气体数据的时间序列的特点，又考虑了格拉斯曼流型中子空间的不同权重，特别适合对气体数据的处理。本发明的重点是提出组合核函数及目标域无标记样本的选择策略，并利用者两点构建气体分类器，从而能有效消除气体传感器的漂移的影响，提高识别精度。

[0098] 本发明的基于半监督领域自适应的气体检测方法的流程示意图如图1所示，具体包括如下步骤：

[0099] 步骤1.对气体传感器采集的气体数据信号进行预处理；

[0100] 步骤2.利用预处理后的信号构造特征子空间；

[0101] 步骤3.根据构造特征子空间建立组合核函数；

[0102] 步骤4.选择目标域中无标记样本；

[0103] 步骤5.根据选择的目标域中无标记样本训练分类器，根据得到的训练分类器进行气体识别。

[0104] 步骤1的具体过程如下：采集一个持续时间段的数据，对数据进行小波变换，每个N样本经过预处理后表示为一个N维实数向量，即X=（x1，x2，……,xN）∈R。这里的预处理具体为滤波处理。

[0105] 利用预处理后的信号构造特征子空间的具体过程如下：

[0106] 步骤21.将多个样本数据按照时间组成数据集D1，D2，……,DT，其中，T表示时间段，D1={X1，X2，……，Xn}有n个样本，每个样本被人工标记，其中，Xi的类标记为Yi∈{-1,1}，1表示正样本，即待检测的气体，-1表示负样本，为其它气体。D1是唯一的标记样本集，其他的Di都是无标签样本集。每个数据集Di可以表示为矩阵形式，我们同样用Di表示这个样本矩阵。

[0107] 步骤22.对样本数据Di进行特征中心化、进行主成分分析（Principal Component Analysis，PCA），得到每个d维度的特征子空间，其中d是预先设计的一个整数，且d

[0108] 特征中心化：Di=Di-ones(size(Di,1),1)×mean(Di)，其中，size(Di,1)表示矩阵Di行数的大小dim，ones(size(X,1),1)表示构建一个dim维且元素都为1的列向量，mean(Di)表示一个维数等于和矩阵Di列数的行向量，每一元素表示矩阵Di对应列向量的均值。

[0109] 对每个Di，进行PCA主成分分析，得到特征子空间，其具体步骤如下：

[0110] 计算样本矩阵Di的协方差矩阵Hi；

[0111] 计算协方差矩阵Hi的特征向量的特征值，并把特征值按从大到小排序；

[0112] 提取最大的d个特征值，其对应的特征向量为特征子空间的基底，构成一个矩阵Si，Si为Di特征子空间，其维度为N×d；

[0113] 通过上面的处理，每个Di可以通过Si变为低维度d的数据，Si是对应子空间，且N NS1，S2,.....,ST都是R 的d维子空间，记R 的所有d维子空间为GN×d，称为格拉斯曼流型（Grassmann manifold），显然，Si∈GN×d。

[0114] 根据构造特征子空间建立组合核函数的具体过程如下：

[0115] 首先我们认为靠近源域和目标域的子空间有更好的可靠性，由此构造权重核函数；然后利用源域和目标域之间的中间数据来构造组合核函数，最终组合核函数被用来设计检测和识别算法。

[0116] 步骤31.构建权重核函数

[0117] 步骤311.选定S1，ST分别为源域D1，目标域DT的特征子空间，则S1和ST为格拉斯曼流型GN×d上的点，在GN×d上构建一条从S1到ST的曲线，设曲线的参数化函数Φ(t)：[0,1]→GN×d,具体如下：

[0118]

[0119] 其中，R1是S1的垂直补子空间，U1和U2分别是d×d和(N-d)×d的对角矩阵，通过下面的矩阵SVD分解计算得到：

[0120] S1'ST=U1ΓV',R1′ST=-U2ΣV' （2）

[0121] 其中，S1‘表示S1的转置矩阵，Γ和Σ都是d×d的对角矩阵，其对角线上的元素分别为cos(θi)和sin(θi)，其中，i∈{1,2,……,d}。

[0122] cos(θi)和sin(θi)是矩阵对角线上元素，这样知道cos(θi)和sin(θi)，就容易计算出θi，θi在几何上表示S1和ST中基向量几何角度。

[0123] 同样，Γ(t)和Σ(t)的对角元素分别为cos(tθi)和sin(tθi)。通过以上计算，可以得到U1和U2，Γ(t)和Σ(t)，从而Φ(t)可计算。

[0124] 步骤312.设w(t)：[0,1]→R为权重函数，w(t)=|1-2t|。显然w(t)在t靠近0或者1时获得最大值。在曲线Φ(t)上，当t靠近0或者1时，其对应点表示的子空间越可靠，所以应赋予更高的权重。基于此用w(t)乘以Φ(t)，得到：

[0125] g(t)=w(t)Φ(t)

[0126] 步骤313.g(t)在每个点上代表一个子空间的基底，对g(t)表示的无限维的希尔伯特空间的内积求和，即内积就是g(t)'g(t)在[0,1]区间进行积分，其积分为矩阵G：

[0127]

[0128] 将（1）可得，

[0129]

[0130] 带入（3）中的积分式可得，

[0131]

[0132] 则

[0133]

[0134] 由于Γ(t)和Σ(t)为对角矩阵，且其对角元素分别为cos(tθi)和sin(tθi)，则设

[0135] Ω=[S1U1,-R1U2],

[0136] 则可设G有下面的形式：

[0137]

[0138] 其中，Λ1，Λ2，Λ3是d×d的对角矩阵，设其对角元素分别为λ1i,λ2i,λ3i，其中i∈{1,2,……,d}：

[0139]

[0140]

[0141]

[0142] 由于w(t)2=(1-2t)2是一个二次多项式，因此，上面的积分利用分部积分很容易计算。

[0143] 步骤314.显然G是一个半正定矩阵，因为是一个核矩阵，其上可以定义核函数如下

[0144] K(Xi,Xj)=Xi'GXj，（5）

[0145] 其中，Xi，Xj是源域D1和目标域DT中任意样本向量。

[0146] 步骤32.计算组合核函数

[0147] 尽管权重核函数K(Xi,Xj)让曲线Φ(t)上靠近源域和目标域的子空间被赋予更高的权重，但这个核函数只是使用了源域D1和目标域DT中的数据，可以描述气体样本数据如何从源域漂移到目标域的情形。但在源域D1和目标域DT之间的中间数据集D2，D3，……,DT-1被忽略。事实上，源域D1和目标域DT之间的中间数据更反映了气体数据是如何从源域漂移到目标域的，为此，定义和计算下面的组合核函数。

[0148] 步骤321.根据步骤22可知，D1，D2，……,DT其对应格拉斯曼流型的子空间为S1，S2,.....,ST，设Φi-j(t)：[0,1]→GN×d是格拉斯曼流型上从Si到Sj的一条曲线，类似与公式（1），定义如下：

[0149]

[0150] 上面公式中各变量类似与公式（1）和公式（2）中计算，这里不再叙述。权重函数w(t)=|1-2x|。则w(t)Φi-j(t)表示从Si到Sj的一条权重曲线。

[0151] 步骤322.我们的目标是定义S1到ST的组合核函数，为此，对任意的j∈{2,3，……，T-1}，定义如下从S1到ST的权重曲线：

[0152]

[0153] 显然，w(t)Φ1-j-T(t)表示从S1到ST的经过Sj的一条权重曲线，则内积Φ1-j-T(t),w(t)Φ1-j-T(t)>就是w(t)Φ1-j-T(t)Φ1-j-T(t)从0到2积分，可得[0154]

[0155]

[0156]

[0157] 其中，Gi-j表示根据公式（4）计算的Si到Sj的权重核函数。类似公式（5），G1-j-T定义了一个源域D1和目标域DT中的核函数如下：

[0158] K(Xi,Xj)=Xi′G1-j-TXj

[0159] 步骤323.重复步骤322，可以得到源域D1和目标域DT中T-1个核函数集合，其对应的核矩阵为{G1–T，G1–2-T，……,G1–T-1-T}，利用这些核函数构造组合核函数的核矩阵如下：

[0160] Gc=w1G1-T+w2G1-2-T+......+wT-1G1-(T-1)-T

[0161] 其中，w1,w2,……，wT-1是用户预先设定的权重，则对应的函数为：

[0162] K(Xi,Xj)=Xi'GcXj (6)

[0163] 其中，Xi，Xj是源域D1和目标域DT中任意样本向量，即为组合核函数。

[0164] 我们的目标是通过领域自适应的组合核函数和半监督学习来构造分类器，使得分类器能有效处理气体传感器的漂移，得到鲁棒的气体分类算法。半监督学习通过无标记样本自动调整分类器去适应目标域的气体分类，因此，选择哪些无监督样本来进行分类器调整很重要，否则会导致分类器向不希望方向调整，导致识别率下降，为此给出无标记样本选择的策略，选择目标域中无标记样本的具体过程如下：

[0165] 步骤41.为叙述方便，以下设源域D1={X1，X2，……，Xn}共n个标记样本，目标域DT={Xn+1，Xn+2，……,Xn+q}共q个无标记样本。我们的目标是从DT中选择一个子集来进行无监督学习，使得选择的子集能给分类器提供增量知识去自适应目标领域，显然与源域D1中的样本不相似的样本更能提供增量知识。

[0166] 为此首先描述DT中子集与D1的相似性：DT的任意子集可以用一个0,1的q维向量表示：μ=(μ1，μ2，……,μq)，其中μi=1表示Xn+i在这个子集中，否则μi=0表示Xn+i不在这个子集中，用最小化均值来表示这个子集的样本与源域D1中样本的相似性如下：

[0167]

[0168] 其中，表示将样本的高维特征函数，m=μ1+μ2+……+μq，即m表示子集的样本个数，|| ||表示希尔伯特空间的范数，从DT中选中最相似D1的子集，即最优化上面等式:

[0169]

[0170] 需要说明的是：是一个隐函数，没有具体表达式，后面的计算也不需要它的表达式。

[0171] 公式(7)是个NP问题，为此定义向量α：

[0172]

[0173] 则0≤αi≤1，且α1+α2+……+αq=1，带入公式（7）可得

[0174]

[0175] 步骤42.由于表示将样本的高维特征函数，而公式（6）中的核函数已经实现了高维空间映射，为此，设范数对应的核函数为公式（6）中组合核函数，则[0176] 设矩阵A=(K(Xn+i,Xn+j))q×q是目标域DT的样本核矩阵，B=(K(Xi,Xn+j))n×q是源域到目标域的样本核矩阵，则公式（8）可化简为：

[0177]

[0178] 其中，T=(1,1,……,1)是一个q维向量，上式是一个二次优化问题，其约束条件为0≤αi，且α1+α2+……+αq=1，因此可用二次优化解出最优的α。

[0179] 步骤43.得到α后，设集合Z={Xn+j|αj≥τ，Xn+j∈DT},其中，参数τ是用户设定的参数，DT=DT–Z，即在目标域中将Z中元素去掉，得到集合最终集合还是用DT表示，这个集合被用来作为半监督学习中的无标记样本。

[0180] 根据选择的目标域中无标记样本训练分类器，根据得到的训练分类器进行气体识别的具体过程如下：

[0181] 采用流形规则化（manifold regularization）半监督学习方法，其中核函数为步骤2.2.3中公式（6）中的组合核函数，训练样本集为源域D1和通过步骤3.4计算后选择的DT。

[0182] 步骤51.为叙述方便，设经过步骤43后DT={Xn+1,Xn+2,……,Xn+p}共p个无标记样本，D1={X1，X2，……，Xn}共n个标记样本，Xi的标签为yi。归一化处理数据，对D1和DT进行归一化处理。

[0183] 步骤52.设分类函数为f(X)，为输入向量X到实数的函数，则流行规则化在再生希尔伯特空间搜索一个最优分类器，其优化的目标函数为：

[0184]

[0185] 其中，V(Xi,yi,f)为代价函数(cost function)，取Hinge函数，即V(Xi,yi,f)=max(0,1-yif(Xi)),F=(f(X1),f(X2),……,f(Xn+p))，是组合核函数K诱导的再生希尔伯特空间的范数。L是D1和DT中数据邻接矩阵的拉普拉斯变换，γA,γI是用户定义的参数。

[0186] 步骤53.D1和DT中数据的邻接图按照KNN方法来构造，其中，样本间的距离按照如下定义：

[0187] d(Xi,Xj)=K(Xi,Xi)+K(Xj,Xj)-2K(Xi,Xj)

[0188] 其中，K是公式（6）的组合核函数，则数据的邻接矩阵按照上面的公式有KNN方法构造得到邻接矩阵W，将矩阵W中每行元素相加作为矩阵D的对角元素，D的其他元素为0，则L=D-W。*

[0189] 步骤54.利用步骤53得到的矩阵L，优化公式（9），最终得到分类器f，即式（9）是*利用多个样本进行学习优化得到最优的分类函数f，f 是通过公式（e）优化训练得到的函数，其最后的结果给优化及样本相关，

[0190] 步骤55.输入一个新的气体样本，采用与步骤1相同的处理过程对样本进行预处理得到处理后的样本Z=(z1,z2,...,zN)，利用步骤22中的mean(D1)将Z中心化：即* *Z=Z-mean(D1)，计算f(Z)，如果f(Z)>0则新样本Z为待检测的气体，否则为其它气体，即利*
用f(Z)去分类Z。

[0191] 本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

标题	发布/更新时间	阅读量
基于半监督学习算法的移动设备实体识别方法及装置	2020-05-12	843
一种基于层次注意力机制的半监督网络表示学习模型	2020-05-13	599
基于半监督学习的DPI数据中host的自动化挖掘方法及系统	2020-05-18	540
一种特征权重自学习的睡眠质量检测关键脑区判定方法	2020-05-08	88
基于对抗训练的跨领域虚假评论识别方法	2020-05-13	239
基于半监督学习的检测模型训练方法、装置、设备及介质	2020-05-12	875
一种获取临床数据预测模型的方法、装置、可读介质及电子设备	2020-05-15	546
一种面向半结构化数据流的实时主题分类方法	2020-05-16	842
一种基于半监督学习的多标签语料库文本分类方法	2020-05-13	481
一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法	2020-05-13	482

基于半监督领域自适应的气体检测方法

基于半监督领域自适应的气体检测方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：