一种基于人工神经网络的特征选择方法专利检索-误差反向传播算法人工智能专利检索查询-专利查询网

一种基于 人工神经网络的特征选择方法

阅读：56发布：2021-03-15

专利汇可以提供一种基于人工神经网络的特征选择方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于人工神经网络的特征选择方法，包括：①用户给定需要进行特征选择的所有特征，给出对人工神经网络进行训练用的样本；② 选定模糊隶属度函数的个数，设置人工神经网络各层的节点数以及各层之间的连接权值和模糊隶属度函数参数的初始值；③利用反向传播算法，以批处理的学习方式，对网络进行训练，调整网络连接权值和模糊隶属度函数的参数；④计算所有特征的重要性度量，并对特征排序。本发明较好地避免了数据归一化的难题；计算简单，网络只需训练一次；容易和各种搜索算法结合起来组成一个完整的特征选择系统。本发明已成功应用于多种具有多维特征的模式识别和目标分类，也可应用于各类涉及数据型特征的模式识别领域。，下面是一种基于人工神经网络的特征选择方法专利的具体信息内容。

权利要求

1.一种基于人工神经网络的特征选择方法，包括以下步骤：
(1)用户指定需要进行特征选择的特征fi，i＝1，…，N，给出对人工神经网络进行训练用的训练样本集：

训练样本有相同的维数R，R＝N，分为K个类别：ω1，…，ωK，第q个训练样本xq 的第i维xqi即指定的第i个特征fi的第q次观测值；
(2)根据训练样本，构造依次由输入层、模糊映射层、隐含层和输出层组成的人工神经网络；神经网络数据由输入层输入神经网络，通过连接权w2传递到模糊映射层，经过模糊映射层作用之后再通过连接权w3传递到隐含层，经过隐含层作用之后再通过连接权w4传递到输出层获得输出；
(3)使用用户给出的训练样本集训练初始化之后的人工神经网络，其处理过程为：
(3.1)选用均方误差的估计量e作为学习过程中的性能指数：
e = 1 Q Σ q = 1 Q Σ i = 1 G ( t i m ( q ) - a i m ( q ) ) 2
其中，ti m(q)是神经网络第m层的节点i在输入第q个样本时的输出的目标值， ai m(q)是第m层的节点i在输入第q个样本时的实际输出，m＝2，3，4，G为该层的节点数；
(3.2)采用反向传播算法对人工神经网络各层之间的连接权矩阵wm进行训练，其中m＝3，4；
(3.3)对模糊映射层节点的作用函数中的参数ξ，σ，τ进行更新；其中，ξ为对应节点的类条件概率密度的期望，σ为对应节点的类条件概率密度的标准差，τ为对应节点的一个初始值；
(3.4)当e满足收敛条件时，进入步骤(4)，否则重复步骤(3.2)-(3.3)；
(4)使用已训练好的人工神经网络对特征进行模糊剪枝，计算每个特征的重要性度量，并按重要性的度量值对特征排序。
2.根据权利要求1所述的方法，其特征在于：上述步骤(2)包括以下处理过程：
(2.1)输入层A
输入层A的节点数S1等于训练样本的维数R，每个节点输入训练样本的某一维，当神经网络输入第q个样本时，输入层的节点Ai的输入为：
n i 1 ( q ) = x qi ,
输出为：
a i 1 ( q ) = x qi
(2.2)模糊映射层B
模糊映射层B的节点数 S 2 = Σ i = 1 S 1 h i hi为特征fi对应的模糊隶属度函数的个数，hi值的选取需要满足如下条件：
Q min Σ i = 1 S 1 h i > 3
其中，Qmin＝min{Ql}，Ql表示用户给出的训练样本中属于类ωl的样本数；
输入层的节点Ai与模糊映射层的节点Bi1，…，Bihi用连接权相连接，而且模糊映射层的节点Bi1，…，Bihi不与除Ai之外的输入层其他节点连接；特征层A节点Ai和模糊映射层 B节点Bij之间的连接权值恒为1；当神经网络输入第q个样本时，模糊映射层的节点Bij 的输入为：
n ij 2 ( q ) = x qi × 1 = x qi
模糊映射层的节点Bij的作用函数为模糊隶属度函数μij，给定第i维特征fi的一个模糊隶属度函数，是指给定了一个映射μi:fi→[0，1]；
节点Bij的模糊隶属度函数形式如下：
a ij 2 ( q ) = 1 1 + ( n ij 2 ( q ) - ξ ij σ ij ) 2 τ , σ ij ≠ 0 , τ ij ≥ 0
nij 2(q)为输入第q个样本时模糊映射层的节点Bij的输入，aij 2(q)为相应的实际输出， ξij为节点Bij的类条件概率密度的期望，σij为节点Bij的类条件概率密度的标准差，τij为节点Bij的一个初始值；
(2.3)隐含层C
隐含层C的节点个数S3大于等于样本的类别数K；模糊映射层B与隐含层C之间为全连接，模糊映射层B与隐含层C之间的连接权
w 3 = w 11 3 · · · w 1 u 3 · · · w 1 S 3 3 · · · · · · · · · w p 1 3 · · · w pu 3 · · · w p S 3 3 · · · · · · · · · w S 2 1 3 · · · w S 2 u 3 · · · w S 2 S 3 3 S 2 × S 3
其中，p＝1，…，S2，u＝1，…，S3的初始化采取随机的方法，连接权值的取值范围为 [0，1]；
当神经网络输入第q个样本时，隐含层的节点Cu的输入为：
n u 3 ( q ) = Σ p = 1 S 2 a p 2 ( q ) × w pu 3
其中，u＝1，…，S3，ap 2(q)是模糊映射层的节点Bp在神经网络输入第q个样本时的输出，p＝1，…，S2，wpu 3是模糊映射层的节点Bp与隐含层节点Cu之间的连接权；
隐含层节点的作用函数选择为Sigmoid函数或双曲线正切函数：
a u 3 ( q ) = 1 1 + exp ( - n u 3 ( q ) )
其中，u＝1，…，S3，nu 3(q)为神经网络输入第q个样本时隐含层的节点Cu的输入， au 3(q)为相应的输出；
a u 3 ( q ) = 1 - exp ( - n u 3 ( q ) ) 1 + exp ( - n u 3 ( q ) )
其中，u＝1，…，S3，nu 3(q)为神经网络输入第q个样本时隐含层的节点Cu的输入， au 3(q)为相应的输出；
(2.4)输出层D
输出层D的节点数S4等于训练样本的类别数K；隐含层C与输出层D之间为全连接；隐含层C与输出层D之间的连接权值：
w 4 = w 11 4 · · · w 1 l 4 · · · w 1 S 4 4 · · · · · · · · · w u 1 4 · · · w ul 4 · · · w u S 4 4 · · · · · · · · · w S 3 1 4 · · · w S 3 l 4 · · · w S 3 S 4 4 S 3 × S 4
其中u＝1，…，S3，l＝1，…，S4的初始化采取随机的方法，权值的取值范围为[0，1]；
输出层节点Dl的输入和输出相等，l＝1，…，S4，Dl的输出值nl 4(q)就是神经网络输入的第q个样本属于类ωl的概率：
n l 4 ( q ) = a l 4 ( q ) = Σ u = 1 S 3 n u 3 ( q ) × w ul 4
其中，wul 4是隐含层的节点Cu与输出层节点Dl之间的连接权。
3.根据权利要求1所述的方法，其特征在于：上述步骤(3.2)和(3.3)的处理过程为：
(3.2)训练模糊映射层B与隐含层C之间的连接权wm：
均方误差的估计量e对于第m层输入的敏感性定义为
g m = ∂ e ∂ n m = ∂ e ∂ n 1 m ( 1 ) · · · ∂ e ∂ n 1 m ( q ) · · · ∂ e ∂ n 1 m ( Q ) · · · · · · · · · ∂ e ∂ n i m ( 1 ) · · · ∂ e ∂ n i m ( q ) · · · ∂ e ∂ n i m ( Q ) · · · · · · · · · ∂ e ∂ n S m m ( 1 ) · · · ∂ e ∂ n S m m ( q ) · · · ∂ e ∂ n S m m ( Q )
其中，Sm是人工神经网络第m层的节点数，nm是一个大小为Sm×Q的矩阵，表示人工神经网络第m层的输入；ni m(q)表示第m层的节点i在神经网络输入第q个样本时的输入，而且， ∂ e ∂ n i m ( q ) = ∂ e ∂ a i m ( q ) × ∂ a i m ( q ) ∂ n i m ( q ) ;
人工神经网络第m层和第m-1层之间的连接权矩阵wm，维数为Sm-1×Sm， m＝3，4，在第(r+1)次训练开始时更新为
wm(r+1)＝wm(r)-αgm(am-1)T
其中，α是权值学习速率，取值范围是0＜α≤1，r为训练的次数，am是一个大小为Sm×Q的矩阵，表示人工神经网络第m层的实际输出：
a m = a 1 m ( 1 ) · · · a 1 m ( q ) · · · a 1 m ( Q ) · · · · · · · · · a i m ( 1 ) · · · a i m ( q ) · · · a i m ( Q ) · · · · · · · · · a S m m ( 1 ) · · · a S m m ( q ) · · · a S m m ( Q ) S m × Q
(3.3)模糊映射层B的节点Bp的作用函数的三个参数ξp，σp，τp按以下公式更新，其中p＝1，…，S2，θ是ξp的学习速率，θ是σp的学习速率，ρ为τp的学习速率：
ξ p ( r + 1 ) = ξ p ( r ) - θ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ ξ p ( r ) ) T ,
σ p ( r + 1 ) = σ p ( r ) - θ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ σ p ( r ) ) T ,
τ p ( r + 1 ) = τ p ( r ) - ρ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ τ p ( r ) ) T
其中，pa2为对人工神经网络输入Q个样本时模糊映射层B的输出矩阵a2的第p行，而且
∂ p a 2 ∂ ξ p ( r ) = [ · · · , 2 τ p ( r ) ( a i 1 ( q ) - ξ p ( r ) ) ( σ p ( r ) ) 2 ( a p 2 ( q ) ) 2 ( 1 a p 2 ( q ) ) 1 - 1 τ p ( r ) , · · · ] 1 × Q
∂ p a 2 ∂ σ p ( r ) = · · · 2 τ p ( r ) σ p ( r ) a p 2 ( q ) ( 1 - a p 2 ( q ) ) · · · 1 × Q

∂ e ∂ p a 2 = 1 1 × S 3 × ∂ e ∂ n 1 3 ( 1 ) ∂ n 1 3 ( 1 ) ∂ a p 2 ( 1 ) · · · ∂ e ∂ n 1 3 ( q ) ∂ n 1 3 ( q ) ∂ a p 2 ( q ) · · · ∂ e ∂ n 1 3 ( Q ) ∂ n 1 3 ( Q ) ∂ a p 2 ( Q ) · · · · · · · · · ∂ e ∂ n u 3 ( 1 ) ∂ n u 3 ( 1 ) ∂ a p 2 ( 1 ) · · · ∂ e ∂ n u 3 ( q ) ∂ n u 3 ( q ) ∂ a p 2 ( q ) · · · ∂ e ∂ n u 3 ( Q ) ∂ n u 3 ( Q ) ∂ a p 2 ( Q ) · · · · · · · · · ∂ e ∂ n S 3 3 ( 1 ) ∂ n S 3 3 ( 1 ) ∂ a p 2 ( 1 ) · · · ∂ e ∂ n S 3 3 ( q ) ∂ n S 3 3 ( q ) ∂ a p 2 ( q ) · · · ∂ e ∂ n S 3 3 ( Q ) ∂ n S 3 3 ( Q ) ∂ a p 2 ( Q ) S 3 × Q
其中，ai 1(q)为与节点Bp相连的输入层节点Ai在神经网络输入第q个样本时的输出，即为xqi。
4.根据权利要求1或2所述的方法，其特征在于：上述步骤(4)的处理过程为：
(4.1)对特征fi进行模糊剪枝，使得模糊映射层的输出为

获得这种条件下人工神经网络对于输入样本xq时输出层给出的输出向量a4(xq，i)；
(4.2)计算特征的重要性度量FQJ(i)
特征度量函数FQJ(i)表示第i维特征fi对于分类的重要性，FQJ(i)的定义如下：
FQJ ( i ) = 1 Q Σ q = 1 Q | | a 4 ( x q , i ) - a 4 ( x q ) | | 2
其中，a4(xq)表示人工神经网络对于输入样本xq时输入层给出的输出向量，a4(xq，i) 表示对特征fi进行模糊剪枝后的人工神经网络对于输入样本xq给出的输出向量，使用在步骤(3)中已训练好的人工神经网络对在步骤(1.1)中用户给出的所有特征fi，按照上述公式计算其相应的FQJ(i)，特征fi的FQJ(i)值就是其重要性的度量；
(4.3)对所有特征fi，按照其重要性度量FQJ(i)排序。
5.根据权利要求3所述的方法，其特征在于：上述步骤(4)的处理过程为：
(4.1)对特征fi进行模糊剪枝，使得模糊映射层的输出为

获得这种条件下人工神经网络对于输入样本xq时输出层给出的输出向量a4(xq，i)；
(4.2)计算特征的重要性度量FQJ(i)
特征度量函数FQJ(i)表示第i维特征fi对于分类的重要性，FQJ(i)的定义如下：
FQJ ( j ) = 1 Q Σ q = 1 Q | | a 4 ( x q , i ) - a 4 ( x q ) | | 2
其中，a4(xq)表示人工神经网络对于输入样本xq时输入层给出的输出向量，a4(xq，i) 表示对特征fi进行模糊剪枝后的人工神经网络对于输入样本xq给出的输出向量，使用在步骤(3)中已训练好的人工神经网络对在步骤(1.1)中用户给出的所有特征fi，按照上述公式计算其相应的FQJ(i)，特征fi的FQJ(i)值就是其重要性的度量；
(4.3)对所有特征fi，按照其重要性度量FQJ(i)排序。

说明书全文

技术领域

本发明属于模式识别领域，涉及一种特征选择方法，具体为一种基于人工神经网络的特征选择方法。

背景技术

特征选择(feature selection)技术是模式识别领域中的一个重要方面，因为模式识别算法的复杂度往往随着数据维数的增长而以指数的形式增长，如果不设法降低数据的维数，分类器的规模将变得异常庞大，进行分类所需要的运算开销也会大得无法承受。因此对数据特征进行选择，选出其中的重要特征，降低数据特征的维数是不可缺少的环节。而且，目前多数模式识别算法所用的特征大多是由机器自动提取的，这就不可避免地存在冗余、噪声等特征，利用特征选择可以有效地消除这一问题。
特征选择是在不降低或较少降低分类器识别率的条件下，从所有特征构成的集合中选出一个子集的过程。特征选择技术的关键点是选用什么准则来度量特征的重要性。传统的度量准则，如基于距离的度量、基于信息(或不确定性)的度量、基于依赖性的度量等等，侧重于分析数据的特性，这类方法在实践中效果并不十分理想。随着人工智能领域的不断进步，一些利用人工神经网络(artificial neuron networks)和模糊数学(fuzzy math)等技术的特征度量方法被提了出来。这一类方法都是基于分类错误率的，即根据特征对分类错误率的贡献来度量其重要性大小，因此比前一类方法更加有效。在具体操作上，这类方法大多数利用人工神经网络技术来进行特征选择。
基于人工神经网络的特征选择可以看作是剪枝算法(prune algorithm)的一个特例，即剪除输入层的节点而不是隐含层的节点或权值，如文献1的Reed R. Pruning Algorithms-A Survey.IEEE Transactions on Neural Networks，1993， 4(5)：740~746介绍的。常见的思路是利用剪枝前后人工神经网络的输出值的变化作为特征的敏感性度量，如文献2的Verikas A，Baeauskiene M.Feature selection with neural networks.Pattern Recognition Letters，2002，23 (11)：1323~1335。这种思路的基本假设是：一个学习良好的神经网络，对于越重要的特征的变化，其相应的输出值变化也越大，即越敏感，反之亦然。基于敏感性度量Λj的特征选择方法最直接而准确地反映了这一假设，如文献3的 Ruck D W，Rogers S K and Kabrisky M.Feature selection using a multilayer perceptron，Journal of Neural Network Computing，1990，9(1)：40~48所述。
具体考察某个特征的重要性时，通过计算该特征删除前后人工神经网络的输出的变化作为特征度量。所谓删除特征，就是令样本中该特征的观察值恒为零，如文献4的De R.K，Basak J and Pal S K.Neuro-Fuzzy Feature Evaluation With Theoretical Analysis.Neural Networks，1999，12(10)：1429~1455。这种方法要求首先对数据进行归一化，这可能会破坏数据。为了避开归一化的问题，可以在人工神经网络中增加一个模糊映射(fuzzy mapping)层，该层将每一个特征按一对多映射，映射后的新特征，即模糊特征，其定义域限定为[0，1]，因此就避开了归一化的问题，如文献5的Jia P and Sang N.Feature selection using a radial basis function networks and fuzzy set theoretic measures. In：Proceedings of SPIE 5281(1)-the Third International Symposium on Multispectral Image Processing and Pattern Recognition，Beijing，China： The International Society of Optical Engineering Press，2003.109~114。在这种方法里，模糊隶属度函数(fuzzy membership function)是在人工神经网络进行学习之前就已经获得的，它依赖的仍然是数据的一、二阶矩，这与文献 4的归一化其实有同样的问题。事实上，完全可以把文献5提出的模糊映射层从网络中独立出来，作为一种归一化方法进行数据的预处理。

发明内容

本发明的目的在于提供一种基于人工神经网络的特征选择方法，该方法避免了数据归一化的难题，鲁棒性高，对噪声特征和冗余特征具有好的效果。
本发明提供的一种基于人工神经网络的特征选择方法，包括以下步骤：
(1)用户指定需要进行特征选择的特征fi，i＝1，…，N，给出对人工神经网络进行训练用的训练样本集：

训练样本有相同的维数R，R＝N，分为K个类别：ωl，…，ωK，第q个训练样本xq的第i维xpi即指定的第i个特征fi的第q次观测值；
(2)根据训练样本，构造依次由输入层、模糊映射层、隐含层和输出层组成的人工神经网络；神经网络数据由输入层输入神经网络，通过连接权w2传递到模糊映射层，经过模糊映射层作用之后再通过连接权w3传递到隐含层，经过隐含层作用之后再通过连接权w4传递到输出层获得输出；
(3)使用用户给出的训练样本集训练初始化之后的人工神经网络，其处理过程为：
(3.1)选用均方误差的估计量e作为学习过程中的性能指数：
e = 1 Q Σ q = 1 Q Σ i = 1 G ( t i m ( q ) - a i m ( q ) ) 2
其中，ti m(q)是神经网络第m层的节点i在输入第q个样本时的输出的目标值，ai m(q)是第m层的节点i在输入第q个样本时的实际输出，m＝2，3，4，G为该层的节点数；
(3.2)采用反向传播算法对人工神经网络各层之间的连接权矩阵wm进行训练，其中m＝3，4；
(3.3)对模糊映射层节点的作用函数中的参数ξ，σ，τ进行更新；其中，ξ为对应节点的类条件概率密度的期望，σ为对应节点的类条件概率密度的标准差， τ为对应节点的一个初始值；
(3.4)当e满足收敛条件时，进入步骤(4)，否则重复步骤(3.2)-(3.3)；
(4)使用已训练好的人工神经网络对特征进行模糊剪枝，计算每个特征的重要性度量，并按重要性的度量值对特征排序。
本发明只需要用户给出原始特征集和训练用的样本，能够从中获得原始特征集中的所有特征对分类的重要性的排序。本发明的特征选择方法与现有的特征选择方法相比的优点在于：较好地避免了数据归一化的难题；计算简单，神经网络只需训练一次；容易和各种搜索算法结合起来组成一个完整的特征选择系统。本发明已成功应用于多种具有多维特征的模式识别和目标分类，也可应用于各类涉及数据型特征的模式识别领域。
附图说明
图1为基于带自适应模糊映射层的人工神经网络的特征选择方法的流程图；
图2为带有自适应模糊映射层的人工神经网络的结构示意图；
图3为实例中建立的带有自适应模糊映射层的人工神经网络的结构示意图
图4为特征seqal length的模糊隶属度函数图(初始值)。

具体实施方式

本发明的特征选择方法在用户给出训练用的数据集和需要进行选择的特征集的前提下，开始特征选择过程，下面详细介绍特征选择流程。
进行特征选择，就是要获得对特征的重要性的度量。本发明提出的特征选择方法中，使用用户提供的数据集训练带有模糊映射层的人工神经网络，再借助训练好的网络计算出各个特征的重要性度量值，达到特征选择的目的。如图1所示，本发明方法包括以下步骤：
(1)用户指定需要进行特征选择的特征fi(i＝1，…，N)，给出对人工神经网络进行训练用的训练样本。
(1.1)特征的指定
指定的特征必须是数据型的特征，直接反映对象的实际物理意义或者几何意义，如重量、速度、长度等。特征的个数N为自然数，也就是说特征的个数为一个或者多个。
(1.2)训练样本的限定
对人工神经网络进行训练用的训练样本也为数据型，所有样本有着相同的维数R(R＝N)，分为K个类别：ωl，…，ωK。维数R等于步骤(1.1)中指定的特征个数。第q个训练样本xq的第i维xqi就是指定的第i个特征fi的第q次观测值。
训练样本集的具体数学描述为：

其中，Q是训练样本的个数，且Q≥K，每一个类ωl(l＝1，…，K)至少有一个样本，表示实数集，R是样本xq的维数，等于训练样本集X的特征数N。
(2)根据训练样本，构造由特征层A、模糊映射层B、隐含层C和输出层D 组成的人工神经网络，并初始化。
如图2所示，人工神经网络结构包括输入层A(即特征层)、模糊映射层B、隐含层C和输出层D，层与层之间用连接权wm(m＝2，3，4)相连接。数据由输入层输入神经网络，然后通过连接权传递到模糊映射层，经过模糊映射层作用之后再通过连接权传递到隐含层，经过隐含层作用之后再通过连接权传递到输出层从而获得输出。构造带有模糊映射层的人工神经网络需要设置输入层(特征层)、隐含层和输出层的节点数；确定每个特征fi对应的模糊隶属度函数的个数mi，并定义这些模糊隶属度函数。初始化工作则需要确定人工神经网络各层之间的连接权值的初始值和模糊映射层中每个节点内的模糊隶属度函数的参数的初始值。具体过程如下：
(2.1)输入层A
(2.1.1)输入层节点个数的选取
输入层A的节点数S1等于训练样本的维数R。
(2.1.2)输入层节点的输入和输出
每个节点输入训练样本的某一维。当神经网络输入第q个样本时，输入层的节点Ai的输入为：
n i 1 ( q ) = x qi ,
输出为：
a i 1 ( q ) = x qi ·
(2.2)模糊映射层B
(2.2.1)各特征对应的模糊隶属度函数的个数的选取
对于特征fi，可以根据其具体的物理意义来定义fi对应的hi个模糊隶属度函数，每一个模糊隶属度函数构成一个模糊映射层节点。也就是说，模糊映射层B 的节点数 S 2 = Σ i = 1 S 1 h i , hi值的选取需要满足如下条件：
Q min Σ i = 1 S 1 h i > 3
其中，Qmin＝min{Ql}，Ql表示用户给出的训练样本中属于类ωl的样本数。
(2.2.2)输入层与模糊映射层之间的连接权
输入层的节点Ai与模糊映射层的节点Bi1，…，Bihi用连接权相连接，而且模糊映射层的节点Bil…，Bihi不与除Ai之外的输入层其他节点连接，即所谓的1对多的连接方式。特征层A节点Ai和模糊映射层B节点Bij之间的连接权值恒为1，即特征层A和模糊映射层B之间的连接权矩阵w2不参加人工神经网络的训练。
(2.2.3)模糊映射层的节点Bij的输入
当神经网络输入第q个样本时，模糊映射层的节点Bij的输入为：
n ij 2 ( q ) = x qi × 1 = x qi ·
(2.2.4)模糊映射层的节点Bij的作用函数
模糊映射层的节点Bij的作用函数为模糊隶属度函数μij，即特征fi的第j个隶属度函数。在本发明中，所谓给定第i维特征fi的一个模糊隶属度函数，是指给定了一个映射μi:fi→[0，1]。
节点Bij的模糊隶属度函数形式如下：
a ij 2 ( q ) = 1 1 + ( n ij 2 ( q ) - ξ ij σ ij ) 2 τ , σ ij ≠ 0 , τ ij ≥ 0 .
在这里，nij 2(q)为输入第q个样本时模糊映射层的节点Bij的输入，aij 2(q)为相应的实际输出。ξij为节点Bij的类条件概率密度的期望，σij为节点Bij的类条件概率密度的标准差，τij为节点Bij的一个参数。τ的作用表现在：即使两个隶属度函数的ξ和σ是相等的，仍然可以通过对τ的调整避免两个隶属度函数完全相同。
对于σij和τij的初始化没有特别的限制，ξij一般采取在对应的特征fi的值域上随机选取的方法。
(2.3)隐含层C
(2.3.1)隐含层节点个数的选取
隐含层C的节点个数S3的选取没有特别的要求，一般只要不小于训练样本的类别数K即可。
(2.3.2)模糊映射层与隐含层之间的连接权
模糊映射层B与隐含层C之间为全连接，也就是说模糊映射层B的每一个节点都与隐含层C的所有节点相连接，隐含层C的每一个节点也与模糊映射层B 的所有节点相连接。模糊映射层B与隐含层C之间的连接权
w 3 = w 1 l 3 . . . w 1 u 3 . . . w 1 s 3 3 . . . . . . . . . w pl 3 . . . w pu 3 . . . w p s 3 3 . . . . . . . . . w s 2 l 3 . . . w s 2 u 3 . . . w s 2 s 3 3 S 2 × S 3 ( p = 1 , . . . , S 2 , u = 1 , . . . , S 3 ) 的初始化采取随机的方法，连接权值的取值范围为[0，1]。
(2.3.3)隐含层节点的输入
当神经网络输入第q个样本时，隐含层的节点Cu(u＝1，…，S3)的输入为：
n u 3 ( q ) = Σ p = 1 s 2 a p 2 ( q ) × w pu 3 .
其中，ap 2(q)是模糊映射层的节点Bp(p＝1，…，S2)在神经网络输入第q个样本时的输出，wpu 3是模糊映射层的节点Bp与隐含层节点Cu之间的连接权。
(2.3.4)隐含层节点的作用函数
隐含层节点的作用函数选择为Sigmoid函数：
a u 3 ( q ) = 1 1 + exp ( - n u 3 ( q ) ) , ( u = 1 , . . . , S 3 ) .
其中，nu 3(q)为神经网络输入第q个样本时隐含层的节点Cu的输入，au 3(q)为相应的输出。
也可以选择为双曲线正切函数：
a u 3 ( q ) = 1 - exp ( - n u 3 ( q ) ) 1 + exp ( - n u 3 ( q ) ) , ( u = 1 , . . . , S 3 ) .
其中，nu 3(q)为神经网络输入第q个样本时隐含层的节点Cu的输入，au 3(q)为相应的输出。
(2.4)输出层D
(2.4.1)输出层节点个数的选择
输出层D的节点数S4等于训练样本的类别数K。
(2.4.2)隐含层与输出层之间的连接权
隐含层C与输出层D之间为全连接，也就是说隐含层C的每一个节点都与输出层D的所有节点相连接，输出层D的每一个节点也与隐含层C的所有节点相连接。隐含层C与输出层D之间的连接权值 w 4 = w 11 4 . . . w 1 l 4 . . . w 1 s 4 4 . . . . . . . . . w u 1 4 . . . w ul 4 . . . w u s 4 4 . . . . . . . . . w s 3 1 4 . . . w s 3 l 4 . . . w s 3 s 4 4 S 3 × S 4
(u＝1，…，S3，l＝1，…，S4)的初始化采取随机的方法，权值的取值范围为[0， 1]。
(2.4.3)输出层节点的输入和输出
输出层节点Dl(l＝1，…，S4)的输入和输出相等，Dl的输出值nl 4(q)就是神经网络输入的第q个样本属于类ωl的概率。
n l 4 ( q ) a l 4 ( q ) = Σ u = 1 S 3 n u 3 ( q ) × w ul 4 .
其中，wul 4是隐含层的节点Cu与输出层节点Dl之间的连接权。
(3)使用用户给出的训练样本集训练初始化之后的人工神经网络。
利用反向传播算法，以批处理的学习方式，依据用户给出的训练样本集对人工神经网络进行训练，在每一次训练中更新神经网络各层之间的连接权值和模糊隶属度函数的参数，直至人工神经网络满足用户设定的收敛条件。
具体的训练方法如下。
(3.1)收敛条件的选取
首先，选用均方误差的估计量e作为学习过程中的性能指数：
e = 1 Q Σ q = 1 Q Σ i = 1 G ( t i m ( q ) - a i m ( q ) ) 2 .
其中，ti m(q)是第m层的节点i在输入第q个样本时的输出的目标值，ai m(q) 是第m层的节点i在输入第q个样本时的实际输出，G为该层的节点数。
用户可以根据对运算精度的要求，设定e小于某个很小的正数为收敛条件。比如，设定e＜0.001为收敛条件，则人工神经网络在某次训练中完成步骤(3.2) 和(3.3)之后，计算e的值，如果小于0.001，就停止训练；否则进行下一次训练。
(3.2)各层之间连接权值的更新
输入层A与模糊映射层B之间的连接权值恒为1，不参加训练。模糊映射层 B与隐含层C之间的连接权w3，隐含层C与输出层D之间的连接权w4都需要参加训练，而且w3和w4在训练中的更新方法相同。
反向传播算法中的均方误差的估计量e对于第m层输入的敏感性定义为
g m = ∂ e ∂ n m = ∂ e ∂ n 1 m ( 1 ) . . . ∂ e ∂ n 1 m ( q ) . . . ∂ e ∂ n 1 m ( Q ) . . . . . . . . . ∂ e ∂ n i m ( 1 ) . . . ∂ e ∂ n i m ( q ) . . . ∂ e ∂ n i m ( Q ) . . . . . . . . . ∂ e ∂ n S m m ( 1 ) . . . ∂ e ∂ n S m m ( q ) . . . ∂ e ∂ n S m m ( Q )
其中，Sm是人工神经网络第m层的节点数，nm是一个大小为Sm×Q的矩阵，表示人工神经网络第m层的输入；ni m(q)表示第m层的节点i在神经网络输入第 q个样本时的输入。而且， ∂ e ∂ n i m ( q ) = ∂ e ∂ a i m ( q ) × ∂ a i m ( q ) ∂ n i m ( q ) .
按最速下降法对连接权值时行更新，在此处也可采用共轭梯度法等最小模估计算法。人工神经网络第m层和第m-1层(m＝3，4)之间的连接权矩阵wm(维数是Sm-1×Sm)，在第(r+1)次训练开始时更新为
wm(r+1)＝wm(r)-αgm(am-1)T.
其中，α是权值学习速率，取值范围是0＜α≤1，一般选择为0.05。r是训练的次数。am是一个大小为Sm×Q的矩阵，表示人工神经网络第m层的实际输出：
a m = a 1 m ( 1 ) . . . a 1 m ( q ) . . . a 1 m ( Q ) . . . . . . . . . a i m ( 1 ) . . . a i m ( q ) . . . a i m ( Q ) . . . . . . . . . a S m m ( 1 ) . . . a S m m ( q ) . . . a S m m ( Q ) S m × Q .
(3.3)模糊映射层节点的作用函数的参数ξ，σ，τ的更新
模糊映射层B的节点Bp(p＝1，…，S2)的作用函数的三个参数ξp，σp，τp按以下式子更新，其中θ是ξp的学习速率，θ是σp的学习速率，ρ是τp的学习速率，采用试错法等参数选取方法。
ξ p ( r + 1 ) = ξ p ( r ) - θ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ ξ p ( r ) ) T ,
σ p ( r + 1 ) = σ p ( r ) - θ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ σ p ( r ) ) T ,
τ p ( r + 1 ) = τ p ( r ) = ρ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ τ p ( r ) ) T .
其中，pa2是对人工神经网络输入Q个样本时模糊映射层B的输出矩阵a2的第p行。而且
∂ p a 2 ∂ ξ p ( r ) = [ . . . , 2 τ p ( r ) ( a i 1 ( q ) - ξ p ( r ) ) ( σ p ( r ) ) 2 ( a p 2 ( q ) ) 2 ( 1 a p 2 ( q ) ) 1 - 1 τ p ( r ) , . . . ] 1 × Q ,
∂ p a 2 ∂ σ p ( r ) = [ . . . 2 τ p ( r ) σ p ( r ) a p 2 ( q ) ( 1 - a p 2 ( q ) ) . . . ] 1 × Q ,

∂ e ∂ p a 2 = 1 1 × S 3 × ∂ e ∂ n 1 3 ( 1 ) ∂ n 1 3 ( 1 ) ∂ a p 2 ( 1 ) . . . ∂ e ∂ n 1 3 ( q ) ∂ a 1 3 ( q ) ∂ a p 2 ( q ) . . . ∂ e ∂ n 1 3 ( Q ) ∂ n 1 3 ( Q ) ∂ a p 2 ( Q ) . . . . . . . . . ∂ e ∂ n u 3 ( 1 ) ∂ n u 3 ( 1 ) ∂ a p 2 ( 1 ) . . . ∂ e ∂ n u 3 ( q ) ∂ n u 3 ( q ) ∂ a p 2 ( q ) . . . ∂ e ∂ n u 3 ( Q ) ∂ n u 3 ( Q ) ∂ a p 2 ( Q ) . . . . . . . . . ∂ e ∂ n S 3 3 ( 1 ) ∂ n S 3 3 ( 1 ) ∂ a p 2 ( 1 ) . . . ∂ e ∂ n S 3 3 ( q ) ∂ n S 3 3 ( q ) ∂ a p 2 ( q ) . . . ∂ e ∂ n S 3 3 ( Q ) ∂ n S 3 3 ( Q ) ∂ a p 2 ( Q ) S 3 × Q .
其中，ai 1(q)是与节点Bp相连的输入层节点Ai在神经网络输入第q个样本时的输出，也就是xqi。
(3.4)训练的终止
人工神经网络在每一次训练中都进行步骤(3.2)和(3.3)的操作。每一次训练完成之后，计算e的值，如果满足在步骤(3.1)中设置的收敛条件，就停止训练；否则进行下一次训练。
(4)使用已训练好的人工神经网络对特征进行模糊剪枝，计算每个特征的重要性度量，并排序。
(4.1)对特征fi进行模糊剪枝
所谓对特征fi的模糊剪枝(fuzzy prune algorithm)，就是将特征fi对应的所有模糊隶属度函数的输出值置为0.5，也就是使得模糊映射层的输出为

然后，获得这种条件下人工神经网络对于输入样本xq时输出层给出的输出向量a4(xq，i)。
(4.2)计算特征的重要性度量FQJ(i)
本发明提出的特征度量函数FQJ(i)表示第i维特征fi对于分类的重要性，特征fi的FQJ(i)值越大则表明该特征对分类而言越重要。FQJ(i)的定义如下：
FQJ ( i ) = 1 Q Σ q = 1 Q | | a 4 ( x q , i ) - a 4 ( x q ) | | 2
其中，a4(xq)表示人工神经网络对于输入样本xq时输入层给出的输出向量， a4(xq，i)表示对特征fi进行模糊剪枝后的人工神经网络对于输入样本xq给出的输出向量。使用在步骤(3)中已训练好的人工神经网络对在步骤(1.1)中用户给出的所有特征fi，按照公式上述公式计算其相应的FQJ(i)，特征fi的FQJ(i)值就是其重要性的度量。
(4.3)对所有特征fi，按照其重要性度量FQJ(i)排序
对所有特征fi，按照对应的FQJ(i)值的大小降序排列，就得到了所有特征对于分类的重要性的排序。用户可以根据实际需要或者客观条件的约束，选取排名靠前的一个或者多个特征用于识别，从而达到了特征选择的目的。
实例：
用户希望考察以下四个特征：Sepal length、Sepal width、Petal length 和Petal width对分类人物的重要性，并给出了训练样本：数据集IRIS。IRIS 数据集被很多研究者用于模式识别方面的研究，已经成为一种基准数据。该数据集包含3类，每类有50个样本，每个样本有4个特征，依次是Sepal length、 Sepal width、Petal length和Petal width。
进行特征选择的具体步骤如下：
(1)用户指定需要进行特征选择的特征fi(i＝1，…，N)，给出对人工神经网络进行训练用的训练样本。
(1.1)特征的指定
用户指定的4个特征：Sepal length、Sepal width、Petal length和Petal width都是数据性特征。则N＝4。
(1.2)给出训练样本
用户给出的训练样本分为3个类：Iris Setosa，Iris Versicolor和Iris Virginica，即K＝3。每一个类有50个样本，一共150个样本，也即Q＝150。每个样本有4维特征：Sepal length、Sepal width、Petal length和Petal width。样本的维数R＝N＝4。
(2)根据训练样本，构造由特征层A、模糊映射层B、隐含层C和输出层D组成的人工神经网络，并初始化。
(2.1)构造输入层A
(2.1.1)输入层节点个数的选取
输入层A的节点数S1等于训练样本的维数R，即S1＝4。
(2.2)构造模糊映射层B
(2.2.1)各特征对应的模糊隶属度函数的个数的选取
给每个特征定义3个模糊隶属度函数，即h1＝h2＝h3＝h4＝3，这样模糊映射层的节点个数是 S 2 = Σ i = 1 S 1 h i = 3 + 3 + 3 + 3 = 12 , 有 Q min Σ i = 1 S 1 h i = 50 12 > 3 , 满足约束。
(2.2.2)输入层与模糊映射层之间的连接权
输入层的节点A1只与模糊映射层的节点B11，B12，B13用连接权相连，输入层的节点A2只与模糊映射层的节点B21，B22，B23用连接权相连，输入层的节点A3只与模糊映射层的节点B31，B32，B33用连接权相连，输入层的节点A4只与模糊映射层的节点B41，B42，B43用连接权相连。
(2.2.3)选择模糊映射层节点的作用函数
选择节点Bij的模糊隶属度函数：
a ij 2 ( q ) = 1 1 + ( n ij 2 ( q ) - ξ ij σ ij ) 2 τ , σ ij ≠ 0 , τ ij ≥ 0 .
隶属度函数的参数ξij的初始值一般在特征fi的值域上随机选取。以特征 Sepal length为例，该特征的取值范围为[4.3，7.9]，则f1对应的3个模糊隶属度函数中，选取的ξ的初始值可能是：ξ11＝5.2，ξ12＝6.1，ξ13＝7.0。σ可以设置为σ11＝σ12＝σ13＝0.45，τ可以设置为τ11＝τ12＝τl3＝2，得到的隶属度函数如下图4所示。
(2.3)隐含层C
(2.3.1)隐含层节点个数的选取
根据经验，选择S3＝6。
(2.3.2)模糊映射层与隐含层之间的连接权
模糊映射层B与隐含层C之间的连接权 w 3 = w 1 l 3 . . . w 1 u 3 . . . w 1,6 3 . . . . . . . . . w pl 3 . . . w pu 3 . . . w p , 6 3 . . . . . . . . . w 12 , l 3 . . . w 12 , u 3 . . . w 12,6 3 12 × 6 (p＝1，…，12，u＝1，…，6)的初始化采取随机的方法，连接权值的取值范围为[0， 1]。可以令wpu＝0.5。
(2.3.3)选择隐含层节点的作用函数
隐含层节点的作用函数选择为Sigmoid函数：
a u 3 ( q ) = 1 1 + exp ( - n u 3 ( q ) ) , ( u = 1 , . . . , 6 ) .
其中，nu 3(q)为神经网络输入第q个样本时隐含层的节点Cu的输入，au 3(q)为相应的输出。
(2.4)输出层D
(2.4.1)输出层节点个数的选择
输出层D的节点数S4等于训练样本的类别数K，即S4＝K＝3。
(2.4.2)隐含层与输出层之间的连接权
隐含层C与输出层D之间的连接权值 w 4 = w 11 4 w 12 4 w 13 4 . . . . . . . . . w ul 4 w u 2 4 w u 3 4 . . . . . . . . . w 61 4 w 62 4 w 63 4 6 × 3 (u＝1，…，6)的初始化采取随机的方法，权值的取值范围为[0，1]。可以令 wul＝0.5(l＝1，2，3)。
至此，带有模糊映射层的人工神经网络构造完毕，其结构图如图3所示。
(3)使用用户给出的训练样本集训练初始化之后的人工神经网络。
(3.1)收敛条件的选取
设定e＜0.001为收敛条件。
(3.2)各层之间连接权值的更新
根据经验选择权值学习速率α＝0.05。
按最速下降法，人工神经网络第m层和第m-1层(m＝3，4)之间的连接权矩阵wm(维数是Sm-1×Sm)，在第(r+1)次训练开始时更新为
wm(r+1)＝wm(r)-0.05gm(am-1)T.
其中
g m = ∂ e ∂ n m = ∂ e ∂ n 1 m ( 1 ) . . . ∂ e ∂ n 1 m ( q ) . . . ∂ e ∂ n 1 m ( Q ) . . . . . . . . . ∂ e ∂ n i m ( 1 ) . . . ∂ e ∂ n i m ( q ) . . . ∂ e ∂ n i m ( Q ) . . . . . . . . . ∂ e ∂ n S m m ( 1 ) . . . ∂ e ∂ n S m m ( q ) . . . ∂ e ∂ n S m m ( Q ) .
a m = a 1 m ( 1 ) . . . a 1 m ( q ) . . . a 1 m ( Q ) . . . . . . . . . a i m ( 1 ) . . . a i m ( q ) . . . a i m ( Q ) . . . . . . . . . a S m m ( 1 ) . . . a S m m ( q ) . . . a S m m ( Q ) S m × Q
(3.3)模糊映射层节点的作用函数的参数ξ，σ，τ的更新
选择各参数的学习速率为θ＝0.1，θ＝0.1，ρ＝0.1。
使用如下公式更新模糊映射层B的节点Bp(p＝1，…，S2)的作用函数的三个参数ξp，σp，τp。
ξ p ( r + 1 ) = ξ p ( r ) - θ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ ξ p ( r ) ) T ,
σ p ( r + 1 ) = σ p ( r ) - θ ∂ e ξ p a 2 ( ∂ p a 2 ∂ σ p ( r ) ) T ,
τ p ( r + 1 ) = τ p ( r ) - ρ ∂ e ∂ p a 2 ( ∂ p a 2 ∂ τ p ( r ) ) T .
其中，pa2是对人工神经网络输入Q个样本时模糊映射层B的输出矩阵a2的第p行。
(3.4)训练的终止
在第1037次训练结束之后，计算发现e＝0.000999，满足收敛条件，终止训练。
(4)使用已训练好的人工神经网络对特征进行模糊剪枝，计算每个特征的重要性度量，并排序。
(4.1)对特征fi进行模糊剪枝
以特征Sepal length为例，对f1进行剪枝，也就是使得模糊映射层的节点 B11，B12，B13的输出值置为0。比如，特征Sepal length的观察值是5.1，剪枝前模糊映射层节点B11，B12，B13的输出是[0.117，0.005，0.009]，特征Sepal width 的观察值是3.5，剪枝前模糊映射层节点B21，B22，B23的输出是 [0.100，0.500，0.500]，特征Petal length的观察值是1.4，剪枝前模糊映射层节点B31，B32，B33的输出是[0.141，0.974，0.028]，特征Petal width的观察值是0.2，剪枝前模糊映射层节点B41，B42，B43的输出是[0.265，0.069，0.030]，因此样本 [5.1，3.5，1.4，0.2]在剪枝前模糊映射层的输出是
[0.117，0.005，0.009，0.100，0.500，0.500，0.141，0.974，0.028，0.265，0.069，0.030]。
而要进行剪枝，就是要把这个输出修改为
[0.500，0.500，0.500，0.100，0.500，0.500，0.141，0.974，0.028，0.265，0.069，0.030]。
然后，计算进行这种修改后人工神经网络对于输入样本xq时输出层给出的输出向量a4(xq，1)。对其他特征的剪枝以此类推。
(4.2)计算特征的重要性度量FQJ(i)
仍然以特征Sepal length为例，对f1计算FQJ(1)：
FQJ ( 1 ) = 1 150 Σ q = 1 150 | | a 4 ( x q , 1 ) - a 4 ( x q ) | | 2 = 0.081071 .
类似的，计算得到FQJ(2)＝0.095858，FQJ(3)＝0.491984， FQJ(4)＝0.511002。
对所有特征fi，按照对应的FQJ(i)值的大小降序排列，得到特征对于分类任务的重要性排序为：Petal width，Petal length，Sepal width，Sepal length。

标题	发布/更新时间	阅读量
一种基于BP神经网络的过渡电阻预测方法	2020-05-11	880
基于双神经网络的睡眠呼吸声检测方法及系统	2020-05-12	9
一种计及需求响应资源的新能源储能系统调度优化方法	2020-05-18	755
基于多卷积核残差网络的行为识别系统、方法、介质及设备	2020-05-11	705
基于深度学习的无源人体运动识别方法	2020-05-13	755
基于非均匀投影的三维模型检索	2020-05-15	174
一种基于深度学习的仿冒域名检测方法及装置	2020-05-15	289
一种基于神经网络的卫星外辐射源目标被动探测方法	2020-05-15	957
人工智能CNN、LSTM神经网络步态识别系统	2020-05-16	366
一种基于深度学习的嵌入式人脸识别方法及装置	2020-05-14	911

一种基于人工神经网络的特征选择方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：