首页 / 专利库 / 数学与统计 / 超平面 / 基于特征对的线性关系的数据分析方法

基于特征对的线性关系的数据分析方法

阅读:619发布:2020-05-08

专利汇可以提供基于特征对的线性关系的数据分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于特征对的线性关系的数据分析方法,属于 生物 数据分析技术领域,一种从生物 大数据 中挖掘特征对之间有效的线性组合关系,并利用区分能 力 强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的 超平面 ,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找 疾病 诊断的潜在生物标志物。,下面是基于特征对的线性关系的数据分析方法专利的具体信息内容。

1.一种基于特征对的线性关系的数据分析方法,其特征在于,步骤如下:
令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示生物样本集合,C={c1,c2}表示生物样本类标集合,Y={y1,…,yn}是n个生物样本的类标向量,其中,yt∈C,t∈{1,…,n};
对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfi+βijfj+γij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
Δij=|Pij(c1)-Pij(c2)|  (1)
Γij=|uij(c1)-uij(c2)|  (3)
其中:fit表示特征fi在生物样本xt上的取值;Pij(cl)表示类标为cl的生物样本中,特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的频率;Δij表示两类生物样本的αijfi+βijfj+γij>0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类生物样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中, 为生物样本xt到直线αijfi+βijfj+γij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
对于所选特征对fi和fj,其对应的线性组合关系为αijfi+βijfj+γij,则基于特征对fi和fj的分类规则如下:
若c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率大于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij>0时,则将待预测样本预测为c1类,否则预测为c2类;同理,在c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率小于或等于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij>0时,则将待预测样本预测为c2类,否则预测为c1类;
LC-k-TSP方法流程如下:
输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
开始:
(1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
(2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfi+βijfj+γij;
(3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
(4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
(5)重复(4),直至集合S中包含k对特征;
(6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
2.根据权利要求1所述的基于特征对的线性关系的数据分析方法,其特征在于,LC-k-TSP方法中参数k采用交叉验证的方法确定。
3.根据权利要求1或2所述的基于特征对的线性关系的数据分析方法,其特征在于,对于多类问题,LC-k-TSP方法采用“一对一”、“一对多”或层次分类的方法。

说明书全文

基于特征对的线性关系的数据分析方法

技术领域

[0001] 本发明属于生物数据分析技术领域,通过分析、评价特征之间的线性关系,确定潜在的标志物,从而预测样本的类标。

背景技术

[0002] 基因、蛋白、代谢等组学数据通常维数极高,如何从组学大数据中挖掘出重要的信息,对疾病诊断、药物研发、个性化治疗等具有重要的意义。
[0003] 在复杂的生命活动中,分子之间相互关联、相互作用,共同反映生命活动的变化。因此,研究特征之间的相互关系,发现隐藏在生物数据中的富含信息的特征已经日益引起人们的关注。Top scoring pair(TSP)算法平关系度成对分析、评价特征,选择区分能最高的特征对构建分类模型;k-TSP算法选择区分能力最高的k≥1对特征,采用简单多数投票机制构建融合的分类模型。TSP和k-TSP采用少数特征对,利用特征对的水平关系预测未知样本,简单且易于获得生物学的解释。Relative Simplicity(RS)方法从水平、垂直等多角度评价特征的相互关系,确定富含信息的特征。
[0004] 本发明对特征对的线性关系进行研究,给出基于特征对的线性关系的数据分析方法LC-k-TSP。该方法利用SVM构造特征对的最佳线性组合方式,并根据SVM的分类原理,给出评价特征对的线性组合关系的两个准则:第一准则和第二准则;根据该二准则对特征对的线性组合关系的评价结果,选择区分能力最强的k≥1对特征,构建融合分类器。本发明利用特征对的线性组合关系对样本进行分类,在生物学领域中有着广泛的实际应用价值。

发明内容

[0005] 本发明为了挖掘生物数据中富含信息的标志特征,从而对未知样本进行准确分类,本发明提出一种基于特征对的线性关系的数据分析方法。对于二分类问题,令F={f1,…,fp}表示特征集合,该方法成对考察特征,对于每一对特征fi,fj∈F,1≤i≠j≤p,建立SVM分类模型,得到基于特征fi,fj的SVM超平面,从而得到该特征对的线性组合。统计分析两类样本在特征对fi,fj的线性组合关系上的差异,计算特征对fi,fj的第一指标值Δij和第二指标值Γij,根据Δij和Γij评价特征对的线性组合关系的区分能力。Δij的取值范围为[0,1],该值越大说明特征fi和fj对应的线性组合关系区分两类样本的能力越大。本发明首先根据每一对特征的Δ值,对所有特征对进行降序排序。如果两对特征的Δ值相同,则采用第二指标对特征的线性组合关系的区分能力进一步的比较。LC-k-TSP方法根据特征对排序结果,选择得分最高的k≥1对特征,利用简单多数投票方式构建融合分类器。
[0006] 本发明的技术方案:
[0007] 基于特征对的线性关系的数据分析方法,步骤如下:
[0008] 令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示样本集合,C={c1,c2}表示样本类标集合,Y={y1,…,yn}是n个样本的类标向量,其中,yt∈C,t∈{1,…,n};对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfi+βijfj+γij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能力;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
[0009] Δij=|Pij(c1)-Pij(c2)|.  (1)
[0010]
[0011] Γij=|uij(c1)-uij(c2)|  (3)
[0012]
[0013] 其中:fit表示特征fi在样本xt上的取值;Pij(cl)表示类标为cl的样本中,特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的频率;Δij表示两类样本的αijfi+βijfj+γij>0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中, 为样本xt到直线αijfi+βijfj+γij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
[0014] 对于所选特征对fi和fj,其对应的线性组合关系为αijfi+βijfj+γij,则基于特征对fi和fj的分类规则如下:
[0015]
[0016] 其中,z为输入样本;
[0017] LC-k-TSP方法流程如下:
[0018] 输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
[0019] 输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
[0020] 开始:
[0021] (1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
[0022] (2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfi+βijfj+γij;
[0023] (3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
[0024] (4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
[0025] (5)重复(4),直至集合S中包含k对特征;
[0026] (6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
[0027] LC-k-TSP方法中参数k可以采用交叉验证的方法确定。
[0028] 对于多类问题,LC-k-TSP方法可以采用“一对一”,“一对多”和层次分类的方法。
[0029] 本发明的有益效果:本发明应用于生物组学数据分析,通过特征之间的组合关系的分析、评价挖掘隐藏于生物大数据中的有意义的生物特征,确定生物标志物对。本发明研究生物特征之间的线性组合,利用少数几对特征的组合关系对样本的类别进行判定,简单且易于获得生物学解释。附图说明
[0030] 图1是在fi和fj平面上样本的分布图。

具体实施方式

[0031] 以下结合技术方案和附图,进一步说明本发明的具体实施方式。
[0032] 以2类问题(C={c1,c2})中一对特征特征fi和fj,1≤i≠j≤p为例,说明第一指标Δ和第二指标Γ的计算方法。
[0033] LC-k-TSP方法分析特征对fi和fj,首先使用线性核函数在该特征对上构建SVM分类超平面αijfi+βijfj+γij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ计算每对特征的线性组合关系的区分能力。
[0034] 图1给出在fi和fj平面上2类样本的分布情况,图中的直线为SVM分类超平面αijfi+βijfj+γij=0。LC-k-TSP方法统计两类样本在fi和fj平面上位于直线上方的频率差(即:两类样本的αijfi+βijfj+γij>0的频率差值)作为评价特征对的第一指标Δ。
[0035] 以图1为例,特征fi和fj建立的SVM模型构造超平面为fi-fj-1=0(αij=1,βij=-1,γij=-1)。根据公式(1)(2)计算第一指标得分Δij:统计类标为c1的样本中fi-fj-1>0的频率 统计类标为c2的样本中fi-fj-1>0的频率 则特征对fi和fj的第一指标Δij=|Pij(c1)-Pij(c2)|=1。根据特征对fi和fj构建的分类器的分类规则如下:如果输入样本满足fi-fj-1>0,则被预测为c1类;否则,预测为c2类。
[0036] 通过图1可以发现判别直线fi-fj-1=0将两类样本完全分开,这是一种理想的情况。LC-k-TSP选择区分能力最高的k对特征对,并利用每对特征对的线性组合关系构造的基分类器得到的预测结果进行多数投票分类预测。
[0037] 本发明在8个UCI公共数据集对LC-k-TSP和k-TSP算法的分类性能进行了对比实验,实验采用留一法。实验结果如表1所示,结果表明本发明提出的LC-k-TSP优于k-TSP算法。
[0038] 表1 LC-k-TSP和k-TSP之间的比较
[0039]
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈