首页 / 专利库 / 作物管理 / 环境胁迫 / 非生物胁迫 / 基于随机化贪心特征选择的集成分类方法

基于随机化贪心特征选择的集成分类方法

阅读:457发布:2020-05-13

专利汇可以提供基于随机化贪心特征选择的集成分类方法专利检索,专利查询,专利分析的服务。并且一种基于随机化贪心特征选择的集成分类方法,属于 生物 信息学和 数据挖掘 领域,对 植物 胁迫响应相关的基因表达数据进行分类。包括如下步骤:(1)在传统的贪心 算法 中引入随机性进行特征选择;(2)使用在复杂网络中作为社区发现评价指标的加权本地模 块 化函数作为随机化贪心算法的启发信息;(3)在每个特征子集上使用 支持向量机 算法训练基分类器;(4)对基分类器采用近邻传播 聚类算法 进行聚簇划分;(5)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型。本 发明 能够根据基因表达数据识别植物样本是否受到胁迫,极大的提高了对微阵列数据的分类精确度,而且算法的泛化能 力 强,具有非常好的 稳定性 。,下面是基于随机化贪心特征选择的集成分类方法专利的具体信息内容。

1.一种基于随机化贪心特征选择的集成分类方法,其特征在于,步骤如下:
(1)在传统的贪心算法中引入随机性进行特征选择
随机选取第一个特征,来扩大对特征的搜索空间;
(2)将在复杂网络中作为社区发现评价指标的加权本地模化函数,作为随机化贪心算法的启发信息
复杂网络的特性有小世界、无标度和社区结构,本集成分类方法将数据挖掘技术与复杂网络相结合,使用复杂网络中社区发现的评价指标作为启发信息进行特征选择;
加权本地模块化函数计算过程如下:
1)构建加权无向图G(V,A),其中,基因微阵列数据集中的样本作为图中的顶点,对于任意两个顶点u1和u2,如果u1∈k-NN(u2)或u2∈k-NN(u1),则两个顶点之间存在权重为WE=exp(-d(u1,u2))的边;k-NN(u1)包含顶点u1的k近邻,d(u1,u2)为两个顶点之间的距离;
2)依据样本的类别自然地对样本进行社区的划分
3)对于每个特征子集,计算其基于加权本地模块化函数的重要度,表达式如下:
其中:c为待分类基因微阵列数据集的类别数量;wi是在第i个社区中内部边权重的总和;Wi是社区i中内部边加上邻接边权重的总和;vi是社区i中所有顶点的度的总和,顶点的度代表与其邻接的边的权重总和;
引入随机性的基于加权本地模块化函数的特征选择过程如下:
1)设置当前的特征子集F={};
2)随机选取一个特征加入到F中;
3)对于每个不包含在F中的特征g,依据属性集合F+{g},计算其重要程度;
4)找到使得步骤3)中的重要程度最大的特征g’,令F=F+{g’},重复该步骤直到特征子集F中的特征数量达到最大阈值
(3)在每个特征子集上使用支持向量机算法训练基分类器
1)对于两类问题,如果将某一超平面两侧的样本点分为正类和负类,则用符号函数的方式推断样本x所对应类别的决策函数如下:
f(x)=wTx+b   (1-2)
其中,w为超平面的法向量,决定超平面的方向;b为位移项,决定超平面与原点之间的距离;x为代表样本的向量;
2)满足如下公式(1-3)的条件下,找到分类间隔最大的超平面:
s.t.yj[(wTxj)+b]-1≥0,j=1,2,...,n
其中,yj为样本xj的类别标签;
3)将最大间隔法求解最优分类面的最优化问题转化为其对偶问题,通过求解相对简单的对偶问题来求解原分类问题,其公式如下:
αp≥0,p=1,2,...,n
其中,αp和αq为使用拉格朗日乘子法得到对偶问题的每个样本的拉格朗日乘子系数;
4)通过引入松弛变量和惩罚因子来解决非线性分类问题,其优化目标为:
s.t.yj[(wTxj+b)]≥1-ζj(j=1,2,...,n)
其中,ζj为松弛变量,C是松弛变量的权重;
5)SVM通过用内积函数定义的非线性变换,将输入空间变换到高维空间,然后再在高维空间中求最优分类面的分类方法,使得在低维空间中线性不可分的问题变换为在高维空间中线性可分的问题;令 表示将x映射后的特征向量,在特征空间中划分超平面对应的模型和相应的优化模型表示如下:
f(x)=wTφ(x)+b   (1-6)
s.t.yj[(wTφ(xj))+b]-1≥0(j=1,2,...n)
6)引入核函数,将复杂的最优化问题的求解,简化为对原有样本数据的内积运算;
κ(xp,xq)=φ(xp)Tφ(xq)   (1-8)
αp≥0,p=1,2,...,n
通过不断执行步骤(2)中的特征选择过程,产生多个特征子集;对应每个特征子集形成一个训练集用于训练SVM基分类器;
(4)对基分类器采用近邻传播聚类算法进行聚簇划分
1)构建相似性矩阵S,将其作为近邻传播聚类算法的输入,以每个基分类器在验证集上的分类结果作为数据点,矩阵中元素s(e,m)表示数据点e和m之间的相似性,数值越大则表明两个数据点之间的相似性越大;
在基因选择阶段,N个基因子集被选出,命名为 每个基因子集用于形成一个训练集,其中只包含样本在该基因子集上的表达值;因此,经过训练得到N个基分类器每个基分类器在验证集上的分类结果作为一个数据点,相似性矩阵中元素s(e,m)表示基分类器He和Hm之间的相似性,其中,e=1,2,...,N,m=1,2,...,N;在计算相似性的过程中,首先要考虑的是分类器的分类性能,另外基分类器选用的不同的特征数量也是相似性计算过程中的重要因素;基分类器He和Hm之间的相似性定义为:
s(e,m)=(Ntt+Nff)/(Ntt+Ntf+Nft+Nff)-DN(e,m)   (1-10)
其中,Ntt表示为同时被两个基分类器正确分类的验证集中样本数量;Nff表示为同时被两个基分类器错误分类的验证集中样本数量;在验证集中被基分类器He分类正确但是被Hm错误分类的样本数量表示为Ntf,Nft与Ntf相反;两个基分类器分类结果相同的样本数量与验证集中总体样本的数量之比就是它们之间分类性能的相似性;DN(e,m)是两个基分类器使用的基因子集中不同基因的数量在总体基因数量中所占的比率;
2)设置相似性矩阵对线上的值s(h,h),该值称作数据点即基分类器在验证集上的分类结果h的参考度,该值越大说明该数据点更加适合作为聚簇中心,因此生成的聚簇个数也就越多;为了保证每个数据点具有相同的机会成为聚簇代表点,将所有数据点的参考度设置为相同的数值;
3)在AP聚类算法中,每一个数据点都被视为潜在的聚簇中心,数据点之间不断地进行信息传递直到算法收敛或迭代结束;AP聚类算法在迭代的过程中传递两种信息,r(e,m)表示数据点m作为数据点e的聚簇中心的适应程度;a(e,m)表示数据点e选择数据点m作为其聚簇中心的倾向程度;r(e,m)和a(e,m)的计算公式如下:
r(e,m)=s(e,m)-max{a(e,l)+s(e,l)(l∈{1,2,...,N,l≠m})   (1-11)
为了提高AP聚类算法的稳定性,引入阻尼系数λ,r(e,m)和a(e,m)受到上一次迭代的计算值的约束,改进后的计算公式如下:
rt=(1-λ)rt+λrt-1   (1-13)
at=(1-λ)at+λat-1   (1-14)
其中,rt和at代表第t次迭代的结果,rt-1和at-1代表第t-1次的迭代结果;
4)AP聚类自动确定聚簇代表点,在迭代的过程中如果r(h,h)+a(h,h)>0,则选择数据点h作为聚簇中心;迭代结束之后将剩余的数据点分配给距其最近的聚簇中心;
(5)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型。

说明书全文

基于随机化贪心特征选择的集成分类方法

技术领域

[0001] 本发明属于生物信息学和数据挖掘领域,特别是涉及对基因表达数据的重要基因的选择和选择性集成分类模型的构建。

背景技术

[0002] 高通量测序技术的发展,为研究者提供了海量的基因表达数据,从中提取出有价值的信息已经成为生物信息学的研究热点。植物在生长过程中经常会受到病虫害和环境因素的影响,如何预测并做好防治工作,对林业、农牧业、环境保护等多方面的发展将起到非常重要的作用。由于基因表达数据具有“高维度”、“小样本”和“高冗余”的特点,采用传统的单分类算法会出现分类稳定性差和准确率偏低等问题,因而对此类数据的分析需要处理能较强的分类模型。
[0003] 由于基因表达数据的高维属性,需要选择出重要的特征用于分类。特征选择方法可以划分为三类:过滤式,包裹式和嵌入式。在对基因表达数据的分析中简单、高效的过滤式特征选择方法被广泛使用。过滤式特征选择算法分为特征排序和特征子集选择两种。目前大多数的排序方法忽略了特征之间的相互依赖关系,只是选择具有较强分类能力的个体特征。特征子集选择方法能够选择出具有较强分类能力的特征子集,并且考虑到特征集合整体的分类性能。因为找到最优特征子集是一类NP困难问题,所以通常采用贪心算法来进行近似最优的特征子集的选取。探索的过程依据能够评价特征子集分类性能的启发信息来进行。然而,传统的贪心算法只是对特征空间中很小的区域进行探索,因此,只是产生局部最优解。为了解决上述问题,随机性被引入到了贪心算法中。
[0004] 论文名:Introducing  randomness  into greedy ensemble pruning algorithms,期刊:Applied Intelligence,年份:2015年。Dai等人对传统的基于贪心算法的集成剪枝方法进行了改进,通过引入随机性来扩大贪心算法的搜索空间。并通过多次执行该基分类器选择算法产生多组不同的基分类器集合,最后选取一组分类性能最优的基分类器产生最后的集成分类模型。
[0005] 传统的特征评价指标有互信息、皮尔逊相关性和秩和检测等。论文名:Feature Subset Selection for Cancer Classification Using Weight Local Modularity,期刊:Scientific Reports,年份:2016年。Zhao等人提出了一种基于复杂网络中社区发现评价指标的特征选择算法应用于对癌症数据的分类中。这种特征子集选择方法利用了加权本地模化指标来评价特征子集整体的对于类别的区分能力而不是像目前大多数评价指标只是对单个特征的分类能力进行评价。
[0006] 在基分类器数量较多的情况下,会存在一些冗余的分类器,导致整体的差异性较差。为了提高集成分类的性能,对基分类器进行选择是十分必要的。选择性集成方法可以大致分为四类:迭代优化法、排名法、分簇法和模式挖掘法。
[0007] 论文名:LibD3C:ensemble classifiers with a clustering and dynamic selection strategy,期刊:Neurocomputing,年份:2014。在基于分簇的基分类器选择中,Lin等人首先对基分类器子集采用K-means聚类算法进行聚类,之后在产生的分类器聚簇的基础之上采用循环序列的动态基分类器选择策略对分类器进行选择。论文名:A spectral clustering based ensemble pruning approach,期刊:Neurocomputing,年份:2014。Zhang等人采用谱聚类算法对基分类器进行聚簇划分,将分类器分成两组,采用分类效果较好的一组基分类器用于最后的集成分类。本发明提出基于近邻传播聚类的基分类器选择方法,因为该聚类算法不需要提前设定聚簇数量和起始点并且可以更快速、精确地进行聚类。

发明内容

[0008] 基于以上所述现有技术的缺点,本发明的目的在于提供基于随机化贪心特征选择的集成分类方法,能够选取出重要的基因并且对植物是否受到胁迫进行分类。
[0009] 基于随机化贪心特征选择的集成分类方法,步骤如下:
[0010] (1)在传统的贪心算法中引入随机性进行特征选择
[0011] 最优特征子集的选择是一类NP困难问题,所以通常采用贪心算法来选取一个近似最优的特征子集。贪心算法是指,在对问题求解时总是做出在当前看来是最好的选择,不从整体最优上加以考虑,所做出的仅是在某种意义上的局部最优解或者是整体最优解的近似解。
[0012] 贪心算法分为前向搜索和后向搜索两种,第一种是从空的特征子集开始,通过逐步添加的方式来寻找最优特征集合;第二种是从全体特征集合开始,通过逐步删除的方式对特征空间进行探索。由于使用传统的贪心算法进行特征选择时,通常只是在很小的一个问题空间内进行搜索。但是对于基因微阵列数据来说,其特征即基因微阵列数据中的基因数量通常是上万维的,所以采用传统的贪心算法来选择重要基因时只是得到了一个局部最优解。因此引入随机性,通过随机的方式而不是依据固定的启发信息来选取第一个特征,来扩大对特征的搜索空间。
[0013] (2)用在复杂网络中作为社区发现评价指标的加权本地模块化函数作为随机化贪心算法的启发信息
[0014] 为了从规模急速增长的数据集中提取出有价值的信息,数据挖掘和复杂网络理论在不同时间应运而生。许多系统例如互联网、社会网络、人类疾病遗传网络和科学家合作网络,可以被表达为复杂网络的形式。复杂网络中共有的特性有小世界、无标度和社区结构特性。本发明将数据挖掘技术与复杂网络相结合,使用复杂网络中社区发现的评价指标作为启发信息进行特征选择。对事物进行分类与分组是人类解决问题的基本方法,同样对于分类规则的学习也是机器学习、数据挖掘和复杂网络领域中的重要研究问题。现实世界中大多数复杂网络都是由分组构成的,每一个分组命名为一个社区。决定网络功能的基本单元是由在每个社区中的顶点和边构成。社区是顶点的子集,在相同社区中的顶点连接紧密,不同社区中的顶点连接稀疏。社区发现为的是探测和揭示不同类型复杂网络中固有的社区结构,可以帮助人们理解复杂网络的功能、发现复杂网络中隐含的规则和预测复杂网络的行为。
[0015] 传统的模块化Q函数存在分辨率的限制和极端退化的现象,因此本发明使用改进的基于加权本地模块化的函数来作为评价基因子集分类性能的指标。加权本地模块化函数计算过程如下:
[0016] 1)构建加权无向图G(V,A),其中基因微阵列数据集中的样本作为图中的顶点,对于任意两个顶点v1和v2,如果 或 ,则两个顶点之间存在权重为WE=exp(-d(v1,v2))的边;k-NN(v1)包含顶点v1的k近邻,d(v1,v2)为两个顶点之间的距离;
[0017] 2)依据样本的类别自然地对样本进行社区的划分
[0018] 3)对于每个特征子集,计算其基于加权本地模块化函数的重要度,表达式如下:
[0019]
[0020] 其中:c为待分类基因微阵列数据集的类别数量;wi是在第i个社区中内部边权重的总和;Wi是社区i中内部边加上邻接边权重的总和;vi是社区i中所有顶点的度的总和,顶点的度代表与其邻接的边的权重总和;
[0021] 引入随机性的基于加权本地模块化函数的特征选择过程如下:
[0022] 1)设置当前的特征子集F={};
[0023] 2)随机选取一个特征加入到F中;
[0024] 3)对于每个不包含在F中的特征g,依据属性集合F+{g},计算其重要程度;
[0025] 4)找到使得步骤3)中的重要程度最大的g’,令F=F+{g’},重复该步骤直到特征子集F中的特征数量达到最大阈值
[0026] (3)在每个特征子集上使用支持向量机算法训练基分类器
[0027] 支持向量机是是一种有监督学习方法,即已知样本点的类别,求样本点和类别之间的对应关系,以便将训练集中的样本按照类别分开,或者是预测新的样本点所对应的类别。对于训练集中的所有样本来说,有线性可分、近似线性可分和线性不可分三种情况,这就是分类问题的三种类型。
[0028] 1)对于两类问题,如果将某一超平面两侧的样本点分为正类和负类,则用符号函数的方式推断样本x所对应类别的决策函数如下:
[0029] f(x)=wTx+b  (1-2)
[0030] 其中,w为超平面的法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离;x为代表样本的向量。
[0031] 2)分类模型需要做的就是要求出w和b使得预测函数f(x)对原有样本的分类错误率最小。损失函数是专用来评价预测准确程度的一种度量。SVM方法是从线性可分情况下的最优分类面度提出的,所谓最优分类面就是要求分类面不但能将两类样本无错误地分开,而且要使两类样本的分类间隔最大。前者是保证经验险最小,而使分类间隔最大实际上就是使置信风险最小。欲找到分类间隔最大的超平面,需满足如下公式:
[0032]
[0033] s.t.yj[(wTxj)+b]-1≥0(j=1,2,...,n)
[0034] 其中,yj为样本xj的类别标签。
[0035] 3)将最大间隔法求解最优分类面的最优化问题转化为其对偶问题,从而通过求解相对简单的对偶问题来求解原分类问题。其公式如下:
[0036]
[0037]
[0038] αp≥0,p=1,2,...,n
[0039] 其中,αp和αq为使用拉格朗日乘子法得到对偶问题的每个样本的拉格朗日乘子系数。
[0040] 4)通过引入松弛变量和惩罚因子来解决非线性分类问题,并且允许一定的分类错误,其优化目标为:
[0041]
[0042] s.t.yj[(wTxj+b)]≥1-ζj(j=1,2,...,n)
[0043] 其中,ζj为松弛变量,C是松弛变量的权重。
[0044] 5)SVM通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,然后再在这个空间中求最优分类面的分类方法。使得在低维空间中线性不可分的问题变换为在高维空间中线性可分的问题。令φ(x)表示将x映射后的特征向量,在特征空间中划分超平面对应的模型和相应的优化模型表示如下:
[0045] f(x)=wTφ(x)+b  (1-6)
[0046]
[0047] s.t.yj[(wTφ(xj))+b]-1≥0(j=1,2,...n)
[0048] 6)由于特征空间维数可能很高甚至是无穷维,直接计算φ(xp)Tφ(xq)通常是很困难的,因此引入核函数,其中的巧妙之处就在于把一个复杂的最优化问题的求解简化为对原有样本数据的内积运算。
[0049] κ(xp,xq)=φ(xp)Tφ(xq)  (1-8)
[0050]
[0051]
[0052] αp≥0,p=1,2,...,n
[0053] 通过不断执行(2)中的特征选择过程,产生多个特征子集。对应每个特征子集形成一个训练集用于训练SVM基分类器。
[0054] (4)对基分类器采用近邻传播聚类算法进行聚簇划分
[0055] 1)构建相似性矩阵S,将其作为近邻传播聚类算法的输入,以每个基分类器在验证集上的分类结果作为数据点,矩阵中元素s(e,m)表示数据点e和m之间的相似性,数值越大则表明两个数据点之间的相似性越大。
[0056] 在基因选择阶段,N个基因子集被选出,命名为 每个基因子集用于形成一个训练集,其中只包含样本在该基因子集上的表达值。因此,经过训练可得到N个基分类器 每个基分类器在验证集上的分类结果作为一个数据点,相似性矩阵中元素s(e,m)(e=1,2,...,N,m=1,2,...,N)表示基分类器He和Hm之间的相似性。在计算相似性的过程中,首先要考虑的是分类器的分类性能,另外基分类器选用的不同的特征数量也是相似性计算过程中的重要因素。基分类器He和Hm之间的相似性定义为:
[0057] s(e,m)=(Ntt+Nff)/(Ntt+Ntf+Nft+Nff)-DN(e,m)  (1-10)
[0058] 其中,Ntt表示为同时被两个基分类器正确分类的验证集中样本数量;Nff表示为同时被两个基分类器错误分类的验证集中样本数量。在验证集中被基分类器He分类正确但是被Hm错误分类的样本数量表示为Ntf,Nft与Ntf相反。两个基分类器分类结果相同的样本数量与验证集中总体样本的数量之比就是它们之间分类性能的相似性。DN(e,m)是两个基分类器使用的基因子集中不同基因的数量在总体基因数量中所占的比率。
[0059] 2)设置相似性矩阵对角线上的值s(h,h),该值称作数据点即基分类器在验证集上的分类结果h的参考度,该值越大说明该数据点更加适合作为聚簇中心,因此生成的聚簇个数也就越多。为了保证每个数据点具有相同的机会成为聚簇代表点,将所有数据点的参考度设置为相同的数值。
[0060] 3)在AP聚类算法中,每一个数据点都被视为潜在的聚簇中心,数据点之间不断地进行信息传递直到算法收敛或迭代结束。AP聚类算法在迭代的过程中传递两种信息,r(e,m)表示数据点m作为数据点e的聚簇中心的适应程度;a(e,m)表示数据点e选择数据点m作为其聚簇中心的倾向程度。r(e,m)和a(e,m)的计算公式如下:
[0061] r(e,m)=s(e,m)-max{a(e,l)+s(e,l)(l∈{1,2,...,N,l≠m})  (1-11)[0062]
[0063] 为了提高AP聚类算法的稳定性,引入阻尼系数λ,这样一来r(e,m)和a(e,m)就受到上一次迭代的计算值的约束。改进后的计算公式如下:
[0064] rt=(1-λ)rt+λrt-1  (1-13)
[0065] at=(1-λ)at+λat-1  (1-14)
[0066] 其中,rt和at代表第t次迭代的结果,rt-1和at-1代表第t-1次的迭代结果。
[0067] 4)AP聚类自动确定聚簇代表点,在迭代的过程中如果r(h,h)+a(h,h)>0,则选择数据点h作为聚簇中心。迭代结束之后将剩余的数据点分配给距其最近的聚簇中心。
[0068] (5)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型
[0069] 在形成的基分类器聚簇中,在同一个聚簇中的基分类器之间具有较大相似性,属于不同聚簇的基分类器之间具有较大差异性。因此,选择具有代表性的作为聚簇中心的基分类器进行集成,保证了用于集成的基分类器之间的差异性。最后,采用简单多数投票法对被选择的基分类器的分类结果进行融合形成集成分类模型。
[0070] 本发明的有益效果:
[0071] (1)通过在传统的贪心特征选择方法中引入随机性,扩大对特征空间的搜索范围。
[0072] (2)采用基于加权本地模块化的启发信息来衡量特征子集整体的分类能力。
[0073] (3)通过选择性集成进一步提高整个系统的效率,并且提高集成分类模型的分类能力。
[0074] (4)针对基因表达数据的特点,对传统的特征选择方法和分类方法进行了改进,极大地提高了对基因微阵列数据的分类性能,而且算法的复杂度低、运行速度快,能够很好地应用于基因表达数据的分析。附图说明
[0075] 图1为本发明基于随机化贪心特征选择的集成分类方法的总体流程图
[0076] 图2为本发明基于随机化贪心特征选择的集成分类方法的组成示意图。

具体实施方式

[0077] 如图1所示,本发明的总体设计思路为:因为基因表达数据具有高维度、小样本和高冗余的特点,所以在对其进行分类之前需要进行重要基因的选择。首先,采用随机化的贪心算法以加权本地模块化函数作为启发信息进行基因子集的选择。通过多次的随机化的特征选择产生多个特征子集,为集成分类模型形成多个不同的训练集。随机化特征选择方法不仅为分类模型筛选出了重要的基因,还扩大了分类模型在特征空间上的搜索范围。为了进一步提高集成分类模型的分类性能和提高分类的效率,采用基于近邻传播聚类的方法对基分类进行选择,挑选出差异性较大的并且具有较好分类性能的基分类器进行最后的集成。
[0078] 图2为本发明集成分类模型的组成示意图,包括以下步骤:
[0079] (1)使用随机化贪心算法进行特征选择
[0080] 1)对于基因微阵列数据来说,其特征数量通常是上万维,所以在采用传统的贪心算法来选择重要特征时只是得到了一个局部最优解。通过随机的方式而不是依据固定的启发信息来选取第一个特征,来扩大对特征的搜索空间。
[0081] 2)使用在复杂网络中作为社区发现评价指标的加权本地模块化函数作为随机化贪心算法的启发信息
[0082] 采用前向添加的方式进行重要基因子集的选择,其过程如下:
[0083] (a)设置当前的特征子集F={}
[0084] (b)随机选取一个特征加入到F中
[0085] (c)对于每个不包含在F中的特征g,依据属性集合F+{g},构建加权无向图G(V,A)。其中数据集中的样本作为图中的顶点,任意两个对于顶点v1和v2如果 或者
两个样本之间存在权重为WE=exp(-d(v1,v2))的边。k-NN(v1)包含顶点v1的
k近邻,采用欧几里得距离来计算样本之间的距离。在实验的过程中将k值设置为从1到25,以间距为2逐步递增,并找到分类性能最好的k值。
[0086] (d)对于每个不包含在F中的特征,计算其基于加权本地模块化函数的重要度,表达式如下:
[0087]
[0088] (e)找到使得步骤(d)中的重要程度最大的g’,令F=F+{g’},重复该步骤直到特征子集F中的特征数量达到50,实验证明在基因数量为10-20之间具有最好的分类性能。
[0089] (2)在每个特征子集上使用支持向量机算法训练基分类器
[0090] 通过不断执行(1)中的特征选择过程,产生N个特征子集。选取60%的样本作为训练集,对应每个特征子集形成一个训练集用于训练支持向量,从而产生N个SVM分类器。本文设定SVM分类器的核函数为对数据集适应能力较强的RBF核函数,K(x,y)=exp(-γ||x-y||2)此种核函数能够适用于大样本、小样本、高维及低维等多种特点的数据集。
[0091] (3)对基分类器采用近邻传播聚类算法进行聚簇划分
[0092] 1)构建相似性矩阵S作为近邻传播聚类算法的输入。
[0093] 选取20%的样本作为验证集,采用在验证集上的分类结果对基分类器进行聚簇的划分。基分类器He和Hm之间的相似性定义为:
[0094] s(e,m)=(Ntt+Nff)/(Ntt+Ntf+Nft+Nff)-DN(e,m)
[0095] 2)设置矩阵对角线上的值s(h,h),为了保证每个数据点具有相同的机会成为聚簇代表点将所有数据点的参考度设置为相同的数值,其值为0.1。
[0096] 3)在AP聚类算法中,每一个数据点都被视为潜在的聚簇中心,数据点之间不断地传递两种信息直到算法收敛或迭代结束。r(e,m)表示数据点m作为数据点e的聚簇中心的适应程度;a(e,m)表示数据点e选择数据点m作为其聚簇中心的倾向程度。r(e,m)和a(e,m)的计算公式如下:
[0097] r(e,m)=s(e,m)-max{a(e,l)+s(e,l)(l∈{1,2,...,N,l≠m})
[0098]
[0099] 4)AP聚类自动确定聚簇个数,在迭代的过程中如果r(h,h)+a(h,h)>0,则选择数据点h作为聚簇中心。迭代结束之后将剩余的数据点分配给距其最近的聚簇中心。
[0100] (4)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型
[0101] 在形成的基分类器的聚簇中,同一个聚簇中的基分类器之间具有较大相似性,属于不同聚簇的基分类器之间具有较大差异性。因此,选择具有代表性的作为聚簇中心的基分类器进行集成,保证了用于集成的基分类器之间的差异性。最后,采用简单多数投票法对被选择的基分类器在测试集上的分类结果进行融合形成集成分类模型。简单多数投票法是指被分类样本最终的分类结果判定为数量最多的基分类器一致判定的类别。
[0102] 将本发明所述方法应用于表1,2和3中拟南芥数据集,并将本文方法与现有的集成分类方法进行比较。本发明的准确率和G-mean明显高于现有集成方法。
[0103] 表1 Arabidopsis-Drought数据集的实验结果对比表
[0104]
[0105] 表2 Arabidopsis-Nitrogen数据集的实验结果对比表
[0106]
[0107] 表3 Arabidopsis-TEV数据集的实验结果对比表
[0108]
[0109] 总的来说,本发明设计了一种基于随机化贪心特征选择的集成分类方法,本发明能够有效提高集成分类模型的分类性能。因此,本发明能够应用于对基因微阵列数据的分析,为及时有效的植物胁迫诊断提供强有力的工具。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈