首页 / 专利库 / 电脑编程 / K最近邻算法 / 一种图像数据加权分类方法和系统

一种图像数据加权分类方法和系统

阅读:436发布:2020-05-11

专利汇可以提供一种图像数据加权分类方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种图像数据加权分类方法和系统,首先从 数据库 中获取数据集,并将数据集分为测试集和训练集;设置近邻参数K值;根据LDA(Linear Discriminant Analysis) 算法 求出投影向量w;由训练集构造近邻图G(V,E);对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻,对K个近邻的贡献加权,将较大权值赋值给较近的近邻;返回对数据样本xtext的估计值 并进行样本类别的判定。本发明具有如下优点:(1)本发明对包含噪声的数据具有很好的抗噪性,能够解决传统KNN对于噪声产生错误分类的敏感问题。(2)本发明采用加权改进的Euclid距离替代传统KNN采用的Euclid距离度量,能找到相似度高贡献大的样本,更能区分样本,提高分类的准确率。,下面是一种图像数据加权分类方法和系统专利的具体信息内容。

1.一种图像数据加权分类方法,其特征在于,包括以下步骤:
Step1、从数据库中获取数据集,将数据集分为测试集和训练集;
Step2、设置近邻参数K值;
Step3、根据Linear Discriminant Analysis算法求出训练集投影向量w;
Step4、根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为训练集中的各个训练样本,E表示连接各个训练样本之间的边;
Step5、对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
Step6、返回对数据样本xtext的估计值 其中,
f(xi)表示分类的问题函数,xi表示第i个训
练样本, 表示第i个训练样本的第l个特征向量, 表示数据样本xtext的第l个特征向量,t表示任意常数,m为特征向量的个数,w表示投影向量,v表示训练样本对应的类别,V表示数据类别的集合, 即为数据样本xtex的最终类别,
2.如权利要求1所述的一种图像数据加权分类方法,其特征在于:所述步骤Step2设置K取1,3,5,7,9,11,13,15。
3.如权利要求1所述的一种图像数据加权分类方法,其特征在于:步骤Step3中投影向量w的计算方式如下,
以二分类为例,定量分析求解最佳的投影向量w:
给定特征为d维的N个训练样本 首先寻找每类训练样本的均值,即中心
点,此时i=1,2, 具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
训练样本x到w上的投影用y=wTx计算,训练样本x到w投影后的样本点均值表示为:
由此可知,投影后的均值也就是样本中心点的投影;
能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:
对投影后的类求散列值,具体: 最终通过
度量公式 度量投影向量w;
根据上述公式,寻找使J(w)最大的w即可,求解过程如下:
将散列值公式展开: 其
中令 即散列矩阵;
接着,令Sw=S1+S2,Sw称为类内离散程度矩阵,SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵;
J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一化处
理;然后令||wTSWW||=1,加入拉格朗日乘子后,求导: 由此
可见w是矩阵 的特征向量;
具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简
单起见约去两边的未知常数λ,λw,得到 故只需要求出原始训练样本的均值和方程即求出最佳的w。
4.如权利要求1所述的一种图像数据加权分类方法,其特征在于:所述Step4中,近邻图中边的大小具体由公式: 确定,其中,xl表示训练样本
x的第l个特征向量,xi,xj分别表示第i个训练样本和第j个训练样本,m为特征向量的个数,t表示任意常数,w表示步骤2求得的投影向量。
5.如权利要求4所述的一种图像数据加权分类方法,其特征在于:m的取值为5,分别包括图像的笔画、轮廓、交叉点、端点、灰度特征向量。
6.一种图像数据加权分类系统,其特征在于,包括以下模
数据集获取模块,用于从数据库中获取数据集,将数据集分为测试集和训练集;
参数设置模块,用于设置近邻参数K值;
投影向量w求解模块,用于根据Linear Discriminant Analysis算法求出训练集投影向量w;
近邻图构造模块,用于根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为训练集中的各个训练样本,E表示连接各个训练样本之间的边;
K个近邻搜索模块,对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
样本类别判定模块,用于返回对数据样本xtext的估计值 其中,
f(xi)表
示分类的问题函数,xi表示第i个训练样本, 表示第i个训练样本的第l个特征向量, 表示数据样本xtext的第l个特征向量,t表示任意常数,m为特征向量的个数,w表示投影向量,v表示训练样本对应的类别,V表示数据类别的集合, 即为数据样本xtext的最终类别,
7.如权利要求6所述的一种图像数据加权分类系统,其特征在于:所述参数设置模块中设置K取1,3,5,7,9,11,13,15。
8.如权利要求1所述的一种图像数据加权分类系统,其特征在于:投影向量w求解模块中投影向量w的计算方式如下,
以二分类为例,定量分析求解最佳的投影向量w:
给定特征为d维的N个训练样本 首先寻找每类训练样本的均值,即中心
点,此时i=1,2, 具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
训练样本x到w上的投影用y=wTx计算,训练样本x到w投影后的样本点均值表示为:
由此可知,投影后的均值也就是样本中心点的投影;
能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:
对投影后的类求散列值,具体: 最终通过
度量公式 度量投影向量w;
根据上述公式,寻找使J(w)最大的w即可,求解过程如下:
将散列值公式展开: 其中
令 即散列矩阵;
接着,令Sw=S1+S2,Sw称为内离散程度矩阵,SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵;
J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一化处
理;然后令||wTSWW||=1,加入拉格朗日乘子后,求导: 由此
可见w是矩阵 的特征向量;
具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简
单起见约去两边的未知常数λ,λw,得到 故只需要求出原始训练样本的均值和方程即求出最佳的w。
9.如权利要求1所述的一种图像数据加权分类系统,其特征在于:所述近邻图构造模块中,近邻图中边的大小具体由公式: 确定,其中,xl表
示训练样本x的第l个特征向量,xi,xj分别表示第i个训练样本和第j个训练样本,m为特征向量的个数,t表示任意常数,w表示步骤2求得的投影向量。
10.如权利要求9所述的一种图像数据加权分类系统,其特征在于:m的取值为5,分别包括图像的笔画、轮廓、交叉点、端点、灰度特征向量。

说明书全文

一种图像数据加权分类方法和系统

技术领域

[0001] 本发明涉及数据分类技术领域,尤其是涉及一种图像数据加权分类方法和系统。

背景技术

[0002] 随着互联网的高速发展,各类数据呈指数倍增长。产生了各种各样的数据,数据的规模大、类型多、范围广,需要对数据进行处理和分类,以便为后续研究和学习提供数据支撑和服务。KNN算法是常用的对数据进行分类处理的方法之一,KNN算法的核心思想是:对于任意给定的待分类样本的最近的K个近邻,然后根据这K个近邻的分类属性投票确定其类别。KNN算法的距离度量方法,主要的距离采用计算待测样本与训练样本的Euclid距离(欧n氏距离)。KNN算法假定所有样本对应于n维空间R中的点,一个样本的最近邻是根据标准的Euclid距离定义的。KNN算法在类别判定时,只与极少量的相邻样本有关,其主要依赖周围有限的邻近的样本,而不是靠判别类域的方法来确定所述类别的,因此,对于类域的重叠或交叉较多的待测样本集,对于包含噪声的待测样本集,KNN算法较其他分类方法实现更为简单。
[0003] 由于KNN算法是惰性学习方法,存在分类速度慢、样本库容量依赖性较强,传统KNN算法中特征的作用不明显,由于KNN算法采用Euclid度量,这种计算距离的度量标准对噪声特征比较敏感,样本数据量大时,特别是样本含有噪声的情况下,容易造成分类错误、数据处理准确率降低等问题。

发明内容

[0004] 本发明提供了一种图像数据加权分类方法,用以解决上述背景技术中Euclid距离计算的度量对包含噪声特征样本敏感、分类准确率降低等问题。
[0005] 为了实现上述目标,本发明一种图像数据加权分类方法的具体步骤如下:
[0006] Step1、从数据库中获取数据集,将数据集分为测试集和训练集;
[0007] Step2、设置近邻参数K值;
[0008] Step3、根据Linear Discriminant Analysis算法求出训练集投影向量w;
[0009] Step4、根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为训练集中的各个训练样本,E表示连接各个训练样本之间的边;
[0010] Step5、对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
[0011] Step6、返回对数据样本xtext的估计值 其中,f(xi)表示分类的问题函数,xi表示第i个训练
样本, 表示第i个训练样本的第l个特征向量, 表示数据样本xtext的第l个特征向量,t表示任意常数,m为特征向量的个数,w表示投影向量,v表示训练样本对应的类别,V={v1,v2,···,vs},V表示数据类别的集合, 即为数据样本xtext的最终类别,
[0012] 进一步的,所述步骤Step2设置K取1,3,5,7,9,11,13,15。
[0013] 进一步的,步骤Step3中投影向量w的计算方式如下,
[0014] 以二分类为例,定量分析求解最佳的投影向量w:
[0015] 给定特征为d维的N个训练样本 首先寻找每类训练样本的均值,即中心点,此时i=1,2, 具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
[0016] 训练样本x到w上的投影用y=wTx计算,训练样本x到w投影后的样本点均值表示为: 由此可知,投影后的均值也就是样本中心点的投影;
[0017] 能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:对投影后的类求散列值,具体: 最终通过度
量公式 度量投影向量w;
[0018] 根据上述公式,寻找使J(w)最大的w即可,求解过程如下:
[0019] 将散列值公式展开:
[0020] 其中令即散列矩阵;
[0021] 接着,令Sw=S1+S2,Sw称为类内离散程度矩阵,SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵;
[0022] J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一化处理;然后令||wTSWW||=1,加入拉格朗日乘子后,求导:
由此可见w是矩阵 的特征向量;
[0023] 具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简单起见约去两边的未知常数λ,λw,得到 故只需要求出原始训练样本的均值
和方程即求出最佳的w。
[0024] 进一步的,所述Step4中,近邻图中边的大小具体由公式:确定,其中,xl表示训练样本x的第l个特征向量,xi,xj
分别表示第i个训练样本和第j个训练样本,m为特征向量的个数,t表示任意常数,w表示步骤2求得的投影向量。
[0025] 进一步的,m的取值为5,分别包括图像的笔画、轮廓、交叉点、端点、灰度特征向量。
[0026] 本发明还提供一种图像数据加权分类系统,包括以下模
[0027] 数据集获取模块,用于从数据库中获取数据集,将数据集分为测试集和训练集;
[0028] 参数设置模块,用于设置近邻参数K值;
[0029] 投影向量w求解模块,用于根据Linear Discriminant Analysis算法求出训练集投影向量w;
[0030] 近邻图构造模块,用于根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为训练集中的各个训练样本,E表示连接各个训练样本之间的边;
[0031] K个近邻搜索模块,对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
[0032] 样本类别判定模块,用于返回对数据样本xtext的估计值 其中,表示分类
的问题函数,xi表示第i个训练样本, 表示第i个训练样本的第l个特征向量, 表示数据样本xtext的第l个特征向量,t表示任意常数,m为特征向量的个数,w表示投影向量,v表示训练样本对应的类别,V={v1,v2,···,vs},V表示数据类别的集合, 即为数据样本xtext的最终类别,
[0033] 进一步的,所述步骤Step2设置K取1,3,5,7,9,11,13,15。
[0034] 进一步的,步骤Step3中投影向量w的计算方式如下,
[0035] 以二分类为例,定量分析求解最佳的投影向量w:
[0036] 给定特征为d维的N个训练样本 首先寻找每类训练样本的均值,即中心点,此时i=1,2, 具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
[0037] 训练样本x到w上的投影用y=wTx计算,训练样本x到w投影后的样本点均值表示为: 由此可知,投影后的均值也就是样本中心点的投影;
[0038] 能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:对投影后的类求散列值,具体: 最终通过度
量公式 度量投影向量w;
[0039] 根据上述公式,寻找使J(w)最大的w即可,求解过程如下:
[0040] 将散列值公式展开:其中令 即散列矩阵;
[0041] 接着,令Sw=S1+S2,Sw称为类内离散程度矩阵,SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵;
[0042] J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一化处理;然后令||wTSWW||=1,加入拉格朗日乘子后,求导:
由此可见w是矩阵 的特征向量;
[0043] 具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简单起见约去两边的未知常数λ,λw,得到 故只需要求出原始训练样本的均值
和方程即求出最佳的w。
[0044] 进一步的,所述Step4中,近邻图中边的大小具体由公式:确定,其中,xl表示训练样本x的第l个特征向量,xi,xj
分别表示第i个训练样本和第j个训练样本,m为特征向量的个数,t表示任意常数,w表示步骤2求得的投影向量。
[0045] 进一步的,m的取值为5,分别包括图像的笔画、轮廓、交叉点、端点、灰度特征向量。
[0046] 本发明与现有技术相比,具有的有益效果是:本发明提供的图像数据加权分类方法,通过预先设置近邻参数K,根据LDA(Linear Discriminant Analysis)算法求出投影向量w,将训练数据集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为各个数据样本,E表示连接各个数据样本之间的边,边的大小具体由公式:其中,任意的样本x表示特征向量x=(x1,x2,···,xm),xl表示样本x的第l个特征的值,xi,xj分别表示第i个样本和第j个样本,t表示任意常数,w表示上述投影向量,对于测试集中的每一个数据样本xtext,找到在训练集中的K个近邻,此时,对K个近邻的贡献加权,将较大权值赋给较近的近邻,即样本距离越近,相似度越高,贡献度就越大。然后,KNN算法的返回值就是对f(xtext)的估计,即距离样本xtext最近的K个训练样本中最普遍的f值进行类别判定。由于传统的KNN算法采用Euclid度量,这种计算距离的度量标准对噪声特征较敏感,所以本发明方法将加权改进的Euclid距离替代传统的Euclid距离,对KNN算法进行改进。本发明具有很好的抗噪性,能够区分包含有噪声的数据,并且LDA算法的投影向量具有鲁棒性,能区分多维数据,该方法既区分贡献度大的数据,快速找到相似度高的数据,保持较高的分辨率又具有很好的计算性能,可以为今后类似分类研究提供参考。
附图说明
[0047] 为了更清楚地说明本发明实施例的技术方案,下面结合附图和实施例对本发明进一步说明。
[0048] 图1为本发明方法流程简图;
[0049] 图2为本发明样本投影到直线上的示意图;
[0050] 图3为本发明样本中心投影的示意图;
[0051] 图4为本发明使用LDA求解最佳投影向量w的示意图;
[0052] 图5为本发明在红酒数据集的分类性能示意图;
[0053] 图6为本发明在CIFAR-10数据集的分类性能示意图。

具体实施方式

[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明的实施例的详细描述并非旨在限制要求包含的本发明的范围,而是仅仅表示本发明的选定实施例。
[0055] 应注意到:相似的符号在下面附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0056] 请参照图1,图1为本发明所提供的一种图像数据加权分类方法流程简图。本实施例尤其适用于数据的分类,且本发明实施例在李群机器学习的开发环境中执行。
[0057] Step1,本实施案例通过在网络下载红酒数据集,该数据集包含3个类别,一共包含178张图片。通过在网络下载CIFAR-10数据集,该数据集包含10个类别,一共包含60000张图片。进一步的,本发明将在这两个数据集下进行分类测试,使用matlab语言进行编程分别将两个数据集分成训练数据集和测试数据集。
[0058] 需要说明的是,本实施例中的图片数据具有以下优点:(1)数据量大、类别多,这对于李群机器学习而言是十分必要的。(2)样本图像的多样性,本实施例中采用的为标准数据集,涵盖各种数据特征,样本图像具有多样性,数据集中图像对于不同的度和清晰度都做了严格的筛选,从而使得每个类别图像的观测角度等有较大的差异。
[0059] Step2、设置近邻参数K值,本发明中K取1,3,5,7,9,11,13,15;
[0060] Step3、根据LDA(Linear Discriminant Analysis)算法求出训练集的投影向量w;
[0061] 给定特征为d维的N个训练样本 其中有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2;
[0062] 将d维特征降维,并且保证降维后不损失数据特征信息,即降维后仍然可以能确定每个样例的类别,将最佳的向量称为w(d维),训练样本x(d维)到w上的投影可以用y=wTx计算。
[0063] 为了简单易懂,在本发明中,我们首先看看训练样本x是二维的情况,从直观上来看,如图2,圆圈和三角形分表表示两类不同的训练样本,训练样本x是二维的,包含两个特征值,x1表示一个特征值,x2表示另一个特征值,所求的直线是能使两类训练样本分离的直线,图2中的直线y=wTx可以很好地将不同类别的训练样本分离。这实际上就是LDA的思想:最大化类间方差与最小化类内方差,即减少分类内部之间的差异,而扩大不同分类之间的差异。
[0064] 下面说明定量分析求解最佳的w的具体过程。
[0065] 首先寻找每类训练样本的均值(中心点),此时i只有两个(i=1,2):具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
[0066] x到w投影后的样本点均值由: 各符号含义与上述描述一致,由此可知,投影后的均值也就是训练样本中心点的投影。
[0067] 能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:J(w)越大越好。
[0068] 在实际应用中,J(w)并不是越大越好,如图3所示,样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(w),但是由于有重叠,x轴上不能分离样本点。投影到纵轴x2上,虽然J(w)较小,但是能够分离样本点。因此,我们还必须考虑样本点之间的方差,方差越大,样本点越难以分离。
[0069] 使用另外一个度量值,称作散列值(scatter),对投影后的类求散列值,具体:散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。
[0070] 在本发明中,需要将不同的样本点越分开越好,同类的越聚集越好,即均值差越大越好,散列值越小越好。使用J(w)和S来度量,度量公式:
[0071] 根据上述公式,需要寻找使J(w)最大的w即可。
[0072] 将散列值公式展开:其中令 即散列矩阵。
[0073] 接着,令Sw=S1+S2,Sw称为类内离散程度矩阵(Within-class scatter matrix)。SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵(Between-class scatter matrix)。
[0074] J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一化处理,如果不做归一化处理,w扩大任意倍数,公式都成立,则无法确定w。因此,在本发明T
中,令||wSWW||=1,加入拉格朗日乘子后,求导: 由此可见
w是矩阵 的特征向量。
[0075] 具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简单起见可以约去两边的未知常数λ,λw,得到 故我们只需要求出原始样本的
均值和方程就可以求出最佳的w,如图4所示。
[0076] 上述结论虽然来自2维,但对于多维也是成立的。大特征值所对应的特征向量分割性能最好。
[0077] Step4、根据训练集构造近邻图G(V,E);
[0078] 根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为各个数据样本,E表示连接各个数据样本之间的边,边的大小具体由公式:其中,xl表示训练样本x的第l个特征向量,m是指特征向量的个数,m的取值与数据集的选取有关,本发明中特征向量主要取图像的笔画、轮廓、交叉点、端点、灰度,共计5个,m=5,上述特征向量的求解均为现有技术,本发明不予撰述;xi,xj分别表示第i个样本和第j个样本,t表示任意常数,w表示上述投影向量。
[0079] Step5、对于测试集中的的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
[0080] Step6、返回对数据样本xtext的估计值 并进行样本类别的判定。
[0081] 本发明讨论目标函数为离散值(分类问题)的情况,即分类问题可以描述为:f:Rn→V,其中V={v1,v2,···,vs},对应s个分类。KNN算法的返回值 就是对数据样本xtext类别的估计,即距离样本xtext最近的K个训练样本中最普遍的f值:其中, 其中, 即为数据样本xtext的最
终类别,f(xi)表示分类的问题函数,xi表示第i个训练样本,v表示训练样本对应的类别,[0082] 表1是对该发明方法与传统KNN分类方法在红酒数据集上进行分类性能对比。从表中可以看到,本发明的分类准确率明显高于传统KNN分类方法。
[0083] 表1本发明方法与其他方法在红酒数据集上进行分类性能对比
[0084]
[0085] 表2是对该发明方法与传统KNN分类方法在CIFAR-10数据集上进行分类性能对比。从表中可以看到,本发明的分类准确率明显高于传统KNN分类方法。
[0086] 表2本发明方法与其他方法在CIFAR-10数据集上进行分类性能对比
[0087]
[0088] 结合图5~图6,图5为本发明实施例在红酒数据集的分类性能图,图6为本发明实施例在CIFAR-10数据集的分类性能图。图5应用于红酒数据集,其平均分类准确度达到95%,而传统KNN平均分类准确度为75%,本发明提出的方法高出20%;图6应用于CIFAR-10数据集,其平均分类准确度达到83%,而传统KNN平均分类准确度为81%,本发明提出的方法高出2%。从统计结果可以看出,本发明的方法明显优于传统KNN方法,具有很强的实用性。
[0089] 本发明还提供一种图像数据加权分类系统,包括如下模块:
[0090] 数据集获取模块,用于从数据库中获取数据集,将数据集分为测试集和训练集;
[0091] 参数设置模块,用于设置近邻参数K值;
[0092] 投影向量w求解模块,用于根据Linear Discriminant Analysis算法求出训练集投影向量w;
[0093] 近邻图构造模块,用于根据训练集构造近邻图G(V,E),其中G表示近邻图,V表示节点,即为训练集中的各个训练样本,E表示连接各个训练样本之间的边;
[0094] K个近邻搜索模块,对于测试集中的每一个数据样本xtext,根据近邻图找到数据样本xtext在训练集中的K个近邻;
[0095] 样本类别判定模块,用于返回对数据样本xtext的估计值 其中,f(xi)表
示分类的问题函数,xi表示第i个训练样本, 表示第i个训练样本的第l个特征向量, 表示数据样本xtext的第l个特征向量,t表示任意常数,m为特征向量的个数,w表示投影向量,v表示训练样本对应的类别,V={v1,v2,···,vs},V表示数据类别的集合, 即为数据样本xtext的最终类别,
[0096] 其中,参数设置模块中设置K取1,3,5,7,9,11,13,15。
[0097] 其中,投影向量w求解模块中投影向量w的计算方式如下,
[0098] 以二分类为例,定量分析求解最佳的投影向量w:
[0099] 给定特征为d维的N个训练样本 首先寻找每类训练样本的均值,即中心点,此时i=1,2, 具体的,有N1个训练样本属于类别w1,有N2个训练样本属于类别w2,N=N1+N2,μi表示第i类训练样本的均值;
[0100] 训练样本x到w上的投影用y=wTx计算,训练样本x到w投影后的样本点均值表示为: 由此可知,投影后的均值也就是样本中心点的投影;
[0101] 能够使投影后的两类样本中心点尽量分离的直线是最好的直线,定量表示为:对投影后的类求散列值,具体: 最终通过度
量公式 度量投影向量w;
[0102] 根据上述公式,寻找使J(w)最大的w即可,求解过程如下:
[0103] 将散列值公式展开:其中令 即散列矩阵;
[0104] 接着,令Sw=S1+S2,Sw称为类内离散程度矩阵,SB=(μ1-μ2)(μ1-μ2)T,SB称为类间离散程度矩阵;
[0105] J(w)最终表示为: 对其进行求导,在求导之前,先对分母进行归一T
化处理;然后令||w SWW||=1,加入拉格朗日乘子后,求导:
由此可见w是矩阵 的特征向量;
[0106] 具体的,因为SBw=(μ1-μ2)(μ1-μ2)Tw,其中,后面两项的积是一个常数,记为λw,则由于对w扩大或缩小任何倍数都不影响其结果,因此为了简单起见约去两边的未知常数λ,λw,得到 故只需要求出原始训练样本的均值
和方程即求出最佳的w。
[0107] 其中,近邻图构造模块中,近邻图中边的大小具体由公式:确定,其中,xl表示训练样本x的第l个特征向量,xi,xj
分别表示第i个训练样本和第j个训练样本,m为特征向量的个数,t表示任意常数,w表示步骤2求得的投影向量。
[0108] 其中,m的取值为5,分别包括图像的笔画、轮廓、交叉点、端点、灰度特征向量。
[0109] 各模块的具体实现和各步骤相应,本发明不予撰述。
[0110] 以上所述仅为本发明的部分实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种改变。凡在本发明的精神和原则之内,所做的任何改变、等价替换或改进等,均应包含在本发明的包含范围之内。注意,相似的标号和字母在下面的附图中表示类似项。因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进一步定义和解释。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈