首页 / 专利库 / 人工智能 / 群体智能 / 一种大数据样本的智能化模糊特征选择方法

一种大数据样本的智能化模糊特征选择方法

阅读:327发布:2020-05-16

专利汇可以提供一种大数据样本的智能化模糊特征选择方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种 大数据 样本的智能化模糊特征选择方法,涉及大数据样本预处理中的特征工程领域,具体方案为:包括以下步骤:S1:特征选择步骤转换为计算模糊特征选择向量W(W1,W2,W3…,Wi,…,Wn),其中每一个Wi取值在[0,1]区间,取0时表示第i项特征舍去,取1时表示第i项特征选择;S2:针对每一个样本的特征Xi,换算公式添加取舍度向量Y(Y1,Y2,Y3,…,Yi,…,Yn),每个分量Yi∈[0,1];S3:Wi与Yi对比,分为两个区间,在两个区间范围内分别选取Wi为0或为1;S4:得到每个特征计算结果,进行每个特征的提取或舍去。本发明采用 粒子群优化 算法 学习特征权重向量,为大数据样本特征提供一种智能化模糊特征选择方法。,下面是一种大数据样本的智能化模糊特征选择方法专利的具体信息内容。

1.一种大数据样本的智能化模糊特征选择方法,其特征在于,包括以下步骤:
S1:特征选择步骤转换为计算模糊特征选择向量W(W1,W2,W3…,Wi,…,Wn),其中每一个Wi取值在[0,1]区间,取0时表示第i项特征舍去,取1时表示第i项特征选择;
S2:针对每一个样本的特征Xi,换算公式添加取舍度向量Y(Y1,Y2,Y3,…,Yi,…,Yn),每个分量Yi∈[0,1];
S3:Wi与Yi对比,分为两个区间,在两个区间范围内分别选取Wi为0或为1;
S4:得到每个特征计算结果,进行每个特征的提取或舍去。
2.根据权利要求1所述的大数据样本的智能化模糊特征选择方法,其特征在于,所述S1过程中,还包括以下步骤:
D1:若干个向量W进行初始化;
D2:假定每个向量为粒子的位置属性;
D3:假定每个粒子均含有一个速度属性V(V1,V2,V3,…,Vi,…,Vn);
D4:根据粒子的位置属性和速度属性构建一个粒子群模型;
D5:粒子群模型中通过适度函数f(W)进行迭代位置和速度的过程;
D6:得到最佳粒子gbest。
3.根据权利要求2所述的大数据样本的智能化模糊特征选择方法,其特征在于,所述S2过程中Yi的计算方式包括以下步骤:
M1:加权欧式距离计算:
M2:粒子速度迭代公式:
M3:粒子位置迭代公式:
其中:d(xa,xb)表示数据xa和xb的加权欧式距离,xa和xb分别表示两条不同的样本,xa有n维特征属性,xai表示xa样本的第i个属性,xbi表示xb样本的第i个属性;λ为惯性因子,c1为对自身经验的偏好度,c2为对群体经验的偏好度,r1和r2是取值在(0,1)之间的随机数, 为第t代某个离子速度的第i维分量,pbest为第t代粒子群中最好适应度粒子位置的第i维分量,gbest为全局最好适应度粒子位置的第i维分量。
4.根据权利要求1所述的大数据样本的智能化模糊特征选择方法,其特征在于,所述S3过程中,当Wi≤Yi,Wi取值0;当Wi>Yi,Wi取值1。

说明书全文

一种大数据样本的智能化模糊特征选择方法

技术领域

[0001] 本发明涉及大数据样本预处理中的特征工程领域,更具体地说,它涉及一种大数据样本的智能化模糊特征选择方法。

背景技术

[0002] 机器学习是当前处理大数据的重要技术,是目前实现人工智能的最好途径。数据的预处理是大数据机器学习前期的重要工作,预处理的质量效果直接影响着机器学习系统的性能。特征选择是数据预处理中的最常用的方法,它通过一些优化规则确定某个特征是否选择。所以特征选择可以看成是学习一个n维向量W(W1,W2,W3,…,Wi,…,Wn),其中每一个Wi取值为0或1,取0时表示第i项特征舍去,取1则表示选择。我们称这种特征选择称为逻辑型特征选择方法。
[0003] 常见的特征选择方法主要有三类:过滤式、包裹式和嵌入式。过滤式特征选择先对数据集进行特征选择,其后再训练学习器,特征选择过程与后续的学习器无关;Relief是过滤式特征选择的典型方法,该方法设计采用相关统计量来度量特征的重要性,相关统计量通过采样计算,是一种运行效率很高的特征选择方法。包裹式特征选择把最终将要使用的学习器性能作为特征子集的评价准则,在特征选择过程中需要多次训练学习器,计算开销远比过滤式大;LVM(Las Vegas Yrapper)是包裹式特征选择的典型方法。嵌入式特征选择是将特征选择过程与学习器训练过程融合在同一个优化过程中完成;LARS(Least Angle Regression)是一种嵌入式特征选择方法,采用线性回归平方误差最小化方法,每次选择一个与残差相关性最大的特征,该方法能显著降低过拟合的险。
[0004] 逻辑型特征选择方法能简单明了地表明大数据样本特征的重要与否,可以显著降低特征维度,提高计算效率。但是对于选中的特征,每一个的重要程度是不一样的;对于舍去的特征,是否存在某些组合构成复合式特征,这样的特征有一定的价值。

发明内容

[0005] 为解决上述技术问题,本发明的目的一种大数据样本的智能化模糊特征选择方法,使用智能计算方法处理大数据样本的特征工程,该方法把特征选择看成是学习一个n维向量W(W1,W2,W3…,Wi,…,Wn),其中每一个Wi取值在区间[0,1],利用取舍度,选择性对每一个Wi进行判定,取0时表示第i项特征舍去,取1则表示选择,这种方法可以看作为特征选择的拓展形式。特征选择的有效性已经通过若干研究得到论证,所以基于特征选择扩展的模糊特征选择方法可行性已经得到证明。
[0006] 本发明的上述技术目的是通过以下技术方案得以实现的:
[0007] 一种大数据样本的智能化模糊特征选择方法,包括以下步骤:
[0008] S1:特征选择步骤转换为计算模糊特征选择向量W(W1,W2,W3…,Wi,…,Wn),其中每一个Wi取值在[0,1]区间,取0时表示第i项特征舍去,取1时表示第i项特征选择;
[0009] S2:针对每一个样本的特征Xi,换算公式添加取舍度向量Y(Y1,Y2,Y3,…,Yi,…,Yn),每个分量Yi∈[0,1];
[0010] S3:Wi与Yi对比,分为两个区间,在两个区间范围内分别选取Wi为0或为1;
[0011] S4:得到每个特征计算结果,进行每个特征的提取或舍去。
[0012] 作为一种优选方案,S1过程中,还包括以下步骤:
[0013] D1:若干个向量W进行初始化;
[0014] D2:假定每个向量为粒子的位置属性;
[0015] D3:假定每个粒子均含有一个速度属性V(V1,V2,V3,…,Vi,…,Vn);
[0016] D4:根据粒子的位置属性和速度属性构建一个粒子群模型;
[0017] D5:粒子群模型中通过适度函数f(W)进行迭代位置和速度的过程;
[0018] D6:得到最佳粒子gbest。
[0019] 作为一种优选方案,S2过程中Yi的计算方式包括以下步骤:
[0020] M1:加权欧式距离计算:
[0021]
[0022] M2:粒子速度迭代公式:
[0023]
[0024] M3:粒子位置迭代公式:
[0025]
[0026] 其中:d(xa,xb)表示数据xa和xb的加权欧式距离,xa和xb分别表示两条不同的样本,xa有n维特征属性,xai表示xa样本的第i个属性,xbi表示xb样本的第i个属性;λ为惯性因子,c1为对自身经验的偏好度,c2为对群体经验的偏好度,r1和r2是取值在(0,1)之间的随机数,为第t代某个离子速度的第i维分量,pbest为第t代粒子群中最好适应度粒子位置的第i维分量,gbest为全局最好适应度粒子位置的第i维分量。
[0027] 作为一种优选方案,S3过程中,当Wi≤Yi,Wi取值0;当Wi>Yi,Wi取值1。
[0028] 综上所述,本发明具有以下有益效果:
[0029] (1)模糊特征选择拓展了特征选择的定义,为机器学习的特征工程问题提出了新的思路。逻辑特征选择的所有备选特征子集有2n-1种可能,而模糊特征选择已经是一种不可数的,计算复杂度更高。为此,本工作采用粒子群优化算法学习特征权重向量,为大数据样本特征提供一种智能化模糊特征选择方法,扩展机器学习的性能。
[0030] (2)通过粒子群优化算法求得的模糊型特征权重向量,作用在欧式距离(即加权欧式距离)计算相似度中,KNN学习器的分类准确率得到提高,表明了该方法的有效型;同时,对大数据样本的原始特征通过与模糊型特征权重向量点乘得到新的特征,然后再进行归一化处理,经过这样处理的数据集在决策树、SVM、BP神经网络等学习器中的分类错误率比未处理前降低,进一步表明了该方法的有效性。
[0031] (3)基于加权欧式距离进行K近邻(K-Nearest Neighbor,KNN)机器学习,以K近邻机器学习对数据集的分类准确率为适应度,从而设计粒子群算法进行迭代计算,寻找最优的特征权重向量W(W1,W2,W3…,Wi,…,Wn)。

具体实施方式

[0032] 以下对本发明作进一步详细说明。
[0033] 一种大数据样本的智能化模糊特征选择方法,包括以下步骤:
[0034] S1:特征选择步骤转换为计算模糊特征选择向量W(W1,W2,W3…,Wi,…,Wn),其中每一个Wi取值在[0,1]区间,取0时表示第i项特征舍去,取1时表示第i项特征选择;
[0035] S2:针对每一个样本的特征Xi,换算公式添加取舍度向量Y(Y1,Y2,Y3,…,Yi,…,Yn),每个分量Yi∈[0,1];
[0036] S3:Wi与Yi对比,分为两个区间,在两个区间范围内分别选取Wi为0或为1;
[0037] S4:得到每个特征计算结果,进行每个特征的提取或舍去。
[0038] 在上述实施例中,将特征选择步骤转换为计算模糊特征选择向量W,目标是求得适度函数f(W)最优。
[0039] 作为一种优选实施例,S1过程中,还包括以下步骤:
[0040] D1:若干个向量W进行初始化;
[0041] D2:假定每个向量为粒子的位置属性;
[0042] D3:假定每个粒子均含有一个速度属性V(V1、V2、V3…,Vi,…、Vn);
[0043] D4:根据粒子的位置属性和速度属性构建一个粒子群模型;
[0044] D5:粒子群模型中通过适度函数f(W)进行迭代位置和速度的过程;
[0045] D6:得到最佳粒子gbest。
[0046] 在上述实施例中,粒子群模型中,适度函数f(W)表示的是以采用W为特征选择权重向量情形下分类器的准确率;粒子群朝着适度函数f(W)更好的趋势进化,在粒子群模型中粒子群进化终止后,得到的全局最佳粒子gbest即为智能化模糊特征选择向量。
[0047] 作为一种优选实施例,S2过程中Yi的计算方式包括以下步骤:
[0048] M1:加权欧式距离计算:
[0049]
[0050] M2:粒子速度迭代公式:
[0051]
[0052] M3:粒子位置迭代公式:
[0053]
[0054] 其中:d(xa,xb)表示数据xa和xb的加权欧式距离,xa和xb分别表示两条不同的样本,xa有n维特征属性,xai表示xa样本的第i个属性,xbi表示xb样本的第i个属性;λ为惯性因子,c1为对自身经验的偏好度,c2为对群体经验的偏好度,r1和r2是取值在(0,1)之间的随机数,为第t代某个离子速度的第i维分量,pbest为第t代粒子群中最好适应度粒子位置的第i维分量,gbest为全局最好适应度粒子位置的第i维分量。
[0055] 作为一种优选实施例,S3过程中,当Wi≤Yi,Wi取值0;当Wi>Yi,Wi取值1。
[0056] 工作原理:本工作中,把W(W1,W2,W3…,Wi,…,Wn)看作一个n维粒子,首先产生一个粒子群,通过不断迭代和演化,如公式(2-3),计算使分类准确率最好的粒子。
[0057] 经典欧式距离计算:
[0058] 适度函数由分类器通过对训练集和测试集测试而得,计算量较大,本工作通过JavaRMI的分布式对象构造并行KNN学习器提高计算效率。
[0059] 本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈