专利汇可以提供基于特征对的线性关系的数据分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于特征对的线性关系的数据分析方法,属于 生物 数据分析技术领域,一种从生物 大数据 中挖掘特征对之间有效的线性组合关系,并利用区分能 力 强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的 超平面 ,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找 疾病 诊断的潜在生物标志物。,下面是基于特征对的线性关系的数据分析方法专利的具体信息内容。
1.一种基于特征对的线性关系的数据分析方法,其特征在于,步骤如下:
令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示生物样本集合,C={c1,c2}表示生物样本类标集合,Y={y1,…,yn}是n个生物样本的类标向量,其中,yt∈C,t∈{1,…,n};
对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfi+βijfj+γij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能力;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
Δij=|Pij(c1)-Pij(c2)| (1)
Γij=|uij(c1)-uij(c2)| (3)
其中:fit表示特征fi在生物样本xt上的取值;Pij(cl)表示类标为cl的生物样本中,特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的频率;Δij表示两类生物样本的αijfi+βijfj+γij>0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类生物样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中, 为生物样本xt到直线αijfi+βijfj+γij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
对于所选特征对fi和fj,其对应的线性组合关系为αijfi+βijfj+γij,则基于特征对fi和fj的分类规则如下:
若c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率大于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij>0时,则将待预测样本预测为c1类,否则预测为c2类;同理,在c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率小于或等于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij>0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij>0时,则将待预测样本预测为c2类,否则预测为c1类;
LC-k-TSP方法流程如下:
输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
开始:
(1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
(2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfi+βijfj+γij;
(3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
(4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
(5)重复(4),直至集合S中包含k对特征;
(6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
2.根据权利要求1所述的基于特征对的线性关系的数据分析方法,其特征在于,LC-k-TSP方法中参数k采用交叉验证的方法确定。
3.根据权利要求1或2所述的基于特征对的线性关系的数据分析方法,其特征在于,对于多类问题,LC-k-TSP方法采用“一对一”、“一对多”或层次分类的方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
网络攻击预警方法和装置 | 2020-05-08 | 737 |
一种混合傅里叶核函数支持向量机文本分类方法 | 2020-05-12 | 357 |
一种具有强鲁棒性的燃煤机组汽包锅炉水位控制方法 | 2020-05-13 | 522 |
一种基于支持向量机和V-I曲线特征的负荷识别方法 | 2020-05-11 | 562 |
一种基于异构信息的评分推荐方法 | 2020-05-12 | 492 |
一种基于多特征最优融合的图像显著性检测方法 | 2020-05-12 | 340 |
多时段联络线功率可行域的快速刻画与精度评估方法 | 2020-05-13 | 271 |
双阶段语义词向量生成方法 | 2020-05-08 | 784 |
基于迁移学习的最小二乘多分类方法、装置和存储介质 | 2020-05-14 | 487 |
一种基于批次图像化的卷积自编码故障监测方法 | 2020-05-14 | 156 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。