首页 / 专利库 / 人工智能 / 机器学习 / 半监督学习 / 模式识别装置和方法

模式识别装置和方法

阅读:490发布:2020-10-20

专利汇可以提供模式识别装置和方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种 模式识别 装置和方法。该模式识别装置采用半 监督学习 机制,分析模式对象样本的结构特性,并在核空间内对模式对象样本进行线性嵌入分析,从而实现分类和排序的目的。特别的是,该模式识别装置采用 局部线性嵌入 机制来估计模式对象样本的流型结构,即:对任何一个模式对象样本,都用它的近邻对象样本的线性组合来进行重构,即线性嵌入。而所有对象样本的重构系数组合在一起就能较好地表达整个输入对象样本的流型结构。本发明在核空间中对模式对象样本进行重构、嵌入,从而,更好地反映了数据集的结构特征。,下面是模式识别装置和方法专利的具体信息内容。

1.一种模式识别装置,该模式识别装置利用半监督学习机制来对输入的模式对象样本进行识别,其中所述模式对象样本包括标注样本和未标注样本,并以数字化特征表示,所述标注样本包括模式对象的数字化特征以及相应的目标值,
所述模式识别装置包括:
非欧空间内核构建部,其根据所有输入的模式对象样本的k近邻矩阵来构建非欧空间内核矩阵,该非欧空间适于构造模式对象的流型结构;
核空间内局部线性嵌入部,其根据所述非欧空间内核构建部构建出的非欧空间内核矩阵,对模式对象样本进行局部线性嵌入,以生成模式对象样本的重构系数矩阵;其中,在所述非欧空间内核矩阵中计算所有输入的模式对象样本两两之间的距离;根据计算获得的距离,对每一个输入的模式对象样本,找出与该输入的模式对象样本距离最近的M个对象样本;利用每一个输入的模式对象样本的近邻对象来线性近似该输入的模式对象样本,以获得每一个输入对象样本的重构系数;对获得重构系数进行归一化,以生成模式对象样本的重构系数矩阵;以及
正则化部,其根据所述核空间内局部线性嵌入部生成的重构系数矩阵和所述标注样本的目标值,来为所有输入的模式对象样本生成评测值。
2.如权利要求1所述的模式识别装置,其特征在于,所述核空间内局部线性嵌入部生成的模式对象样本的重构系数矩阵表示模式对象样本的内在几何结构。
3.如权利要求1所述的模式识别装置,其特征在于,所述非欧空间是拉普拉斯空间或再生核希尔伯特空间。
4.如权利要求1-3中的任一项所述的模式识别装置,该模式识别装置用来识别图像或音频,其中,模式对象是图像或音频的可用于进行模式识别的特征量。
5.一种模式识别方法,该模式识别方法利用半监督学习机制来对输入的模式对象样本进行识别,其中所述模式对象样本包括标注样本和未标注样本,并以数字化特征表示,所述标注样本包括模式对象的数字化特征以及相应的目标值,
所述模式识别方法包括以下步骤:
根据所有输入的模式对象样本的k近邻矩阵来构建非欧空间内核矩阵,该非欧空间适于构造模式对象的流型结构;
根据构建出的非欧空间内核矩阵,对模式对象样本进行局部线性嵌入,以生成模式对象样本的重构系数矩阵;其中包括:在所述非欧空间内核矩阵中计算所有输入的模式对象样本两两之间的距离;根据计算获得的距离,对每一个输入的模式对象样本,找出与该输入的模式对象样本距离最近的M个对象样本;利用每一个输入的模式对象样本的近邻对象来线性近似该输入的模式对象样本,以获得每一个输入对象样本的重构系数;对获得重构系数进行归一化,以生成模式对象样本的重构系数矩阵;以及
根据生成的重构系数矩阵和所述标注样本的目标值,来为所有输入的模式对象样本生成评测值。
6.如权利要求5所述的模式识别方法,其特征在于,所述模式对象样本的重构系数矩阵表示模式对象样本的内在几何结构。
7.如权利要求5所述的模式识别方法,其特征在于,所述非欧空间是拉普拉斯空间或再生核希尔伯特空间。
8.如权利要求5-7中的任一项所述的模式识别方法,该模式识别方法用来识别图像或音频,其中,模式对象是图像或音频的可用于进行模式识别的特征量。

说明书全文

模式识别装置和方法

技术领域

[0001] 本发明涉及模式识别装置和方法,更具体地说,本发明涉及采用半监督学习机制在核空间内对模式对象进行线性嵌入描述从而实现模式识别的装置和方法。

背景技术

[0002] 为了实现模式识别、排序和检索等目的,传统的方法往往依靠一些已标注的对象样本来进行训练、学习以获得一个目标函数,从而实现上述的功能。举例来说,在手写体数字识别中,需要预先收集一些手写数字的图像,然后对这些图像样本进行处理和学习,从而得到一个分类函数。例如:首先对图像进行二值化处理,然后提取笔划方向和结构信息特征,最后根据这些特征判断数字的类别,即生成分类函数进行识别分类。在这一学习过程中,需要告知各个图像中的数字的真实值,即需要对这些图像样本进行标注。分类函数的输入为手写数字图像(或者是对应的特征),输出为该图像中的数字的值。这样,当需要识别一个新的手写数字图像时,直接将该手写数字图像输入上述分类函数,即可得到其中的数字的值。
[0003] 然而,在实际应用中,获取标注样本往往需要花费很多的时间和精,而且只有专业的人员才能完成获取标注样本的任务。例如,在生物和计算科学领域中,为了对蛋白质进行分类,需要获取蛋白质的形状样本进行预学习,然而,即使是专业的结晶体分析人员,也需要花费几个月的时间才能获取一个蛋白质样本。与此相反,未标注样本往往大量存在,而且很容易获取。因此,如何将未标注样本同标注样本结合起来,并从中提取有用的信息,就成为机器学习领域的一个重要任务。
[0004] 标注样本和未标注样本的区别在于是否提供了与其对应的目标值。所谓的未标注样本,仅是一个被处理对象,而标注样本则不仅包含被处理对象,还包含该被处理对象的目标值。例如,在手写体数字识别中,未标注样本就是一个手写体数字图像,而标注样本除了包含该图像以外,还包含该图像中的数字的真实值。
[0005] 依靠标注样本进行模式分类的方法可以分为两类,即:监督学习和半监督学习。监督学习是指仅仅依靠标注样本进行学习、训练,并从中得到分类函数;半监督学习是指同时从标注样本和未标注样本中进行学习的机制和方法。半监督学习的基本思路为:未标注样本中虽然不包含对象的目标值,因而不能像标注样本那样直接进行学习和训练,然而,这些未标注样本中包含了一些关于对象样本空间分布的有用信息。如果能够将这些有用信息提取出来,并同标注样本结合在一起,就能帮助提高分类、识别的性能。给定一个模式识别问题,如果能提供足够多的标注样本进行学习、训练,那么监督学习方法也能达到较好的性能;然而,如果标注样本较少,例如上述的蛋白质分类问题,监督学习方法往往失败。与此相反,由于半监督学习方法能从未标注样本中提取有用的信息,因此,能大大提高识别的性能。
[0006] 在半监督学习机制中,给定一个由标注样本和未标注样本组成的样本集合(称为部分标注样本集,一般来说,该集合包含少量的标注样本和大量的未标注样本)后,首先分析这些样本的内在结构,得到其空间分布特征;然后,基于样本的空间分布和标注样本进行学习;最后,对未标注样本进行分类、排序。
[0007] 在实际应用中,输入的模式对象样本往往包含很多变量,即这些样本位于一个高维空间中。例如在手写体数字识别中,输入的对象样本均为图像,因此,对象样本原始空间的维数就可以看作为图像中的像素数。然而,这些图像样本的内在空间的维数远低于其原始空间的维数。以数字O为例,如果用椭圆来近似这个数字的话,其内在空间的维数为4,即中心坐标和长短轴的半径。考虑到手写数字的变形以及椭圆近似的畸变等因素,与数字O对应的图像样本的内在维数要高于4,然而,这个值还是要远远小于图像中的像素数。基于这种现象,半监督学习机制一般都假设:(1)高维空间中的这些数据样本具有内在的低维空间结构,而且,在这个低维空间中服从流型结构分布,所谓流型结构分布,是指这些样本的分布是平滑的;(2)在该流型结构上,近邻的样本点一般具有相同的类别或标号。
[0008] 近年来,已经提出了很多半监督学习方法,以达到从未标注样本中提取信息从而提高性能的目的。拉普拉斯本征图(Laplacian Eigenmap)是一种比较有代表性的半监督学习方法,参见[非专利文献1]。在该方法中,首先利用样本点(所有的样本,包括标注样本和未标注样本)间的欧氏距离和k近邻方法构建一个邻接图,由此得到其拉普拉斯矩阵。所谓邻接图就是用图的方式来表达样本点间的关系,图的节点对应于样本点,图的边由k近邻方法确定。所谓k近邻方法,就是对每一个样本,找出与其欧式距离最近的前k个样本,在邻接图中,为这个样本和它的前k个近邻样本添加边,边的属性值为样本间的欧式距离。在建立邻接图之后,可以很容易地得到其拉普拉斯矩阵,之后对该矩阵进行特征值分解。最后,根据特征值较小的特征向量以及标注的样本,对数据集中的未标注样本进行分类。从本质上看,该方法有三个重要的特性:(1)该方法假设输入的数据集是以流型结构嵌入在高维的原始空间中,即这些数据的内在空间的维数比较低;(2)采用所有的数据(即包括标注样本和未标注样本)来估计其流型结构;(3)利用Laplacian Beltrami算子实现高维空间到低维空间的映射,并完成分类的目的。
[0009] 局部邻域拉普拉斯本征图方法(参见[专利文献1])事实上是对[非专利文献1]中的拉普拉斯本征图方法的延伸。在[非专利文献1]的方法中,根据样本集中的所有样本点构建拉普拉斯矩阵,并进行特征值分解,因此,当样本点较多时,该方法比较费时。为了解决这个问题,[专利文献1]中只对待分类样本点所在的一个子矩阵进行特征值分解,因而,能较大地提高速度。与此同时,[专利文献1]中的方法还解决了新样本点的分类问题。
[0010] 流型排序是另一种常见的半监督学习方法,参见[非专利文献2]。该方法的主要思想是根据样本点的内在结构对样本点进行排序。与[非专利文献1]类似,该方法首先根据样本点间的欧氏距离构建k近邻图,之后,将标注样本的目标值沿这个近邻图进行重复传播,最后所有的样本点都将得到一个评价值,而这些评价值就是最终的排序依据。该方法的原理可以用一个电路网络来解释:正如前面所述,样本点的关系可以用邻接图来表示,邻接图的节点对应于样本点,图的边由k近邻方法确定;下面,将这个邻接图看作为一个电路网络,图中与标注样本对应的节点分别和电极相连,正样本连接正的电极,负样本连接负的电极,图的边看作为电阻器,边的属性值(样本间的欧式距离)对应于电阻器的电阻值,就是说,样本间的欧式距离越小,对应节点间的电阻就越小,反之亦然;开通电源后,电路网络达到平衡状态,那么,在每一个未标注样本对应的节点上,都可以测量到一个电压值,电压值越高,说明该样本越接近于正样本,电压值越低,说明该样本越接近于负样本。在具体实施中,[非专利文献2]采用了图正则化技术实现上述过程。
[0011] [非专利文献3]中提出了利用高斯场调和函数(Gaussian Fields andHarmonic Functions)进行半监督学习的方法,该方法事实上同[非专利文献2]中的方法属于同一个范畴,只是图正则化的实现手段不同而已,在该方法中,采用了内推正则化(Interpolated regularization)。[非专利文献4]对这两种不同的方法进行了分析,并从理论上得出了其误差上限。在图正则化的框架之下,[非专利文献5]对优化的目标函数进行修正,并引入松弛因子,从而将图正则化转化成标准支持向量机的形式。
[0012] 同上述方法类似,现有的半监督学习方法大都根据样本点的欧氏距离建立近邻图(近邻矩阵),并假设该近邻图能完全描述这些样本点的内在流型结构,即将原始空间中样本点的欧氏距离等同于流型结构上的“测量距离”。然而,这种假设在很多情况下是有偏差的,或者说是不够精确的。[非专利文献6]和[专利文献5]都对这个问题进行了阐述。图1(a)和图1(b)用具体的示例对这个问题进行了展示。图1(a)为三维空间中的类似于“S”的形状的一个流型结构,图1(b)为该流型结构的对应采样点,即样本集合。在该图中,用灰度来表示样点的目标值,即数据样点的灰度值越相近,表示它们越相似(“S”形状的两个端点处除外)。该空间中的两个数据点A、B,其欧氏距离如图1(b)中的实线所示,而这两个点在流型结构上的测量距离如1(b)中的虚线所示。由图可见,用欧氏距离来表达数据点的内在流型结构是不准确的。因此,基于欧式距离构建的近邻图能完全描述样本点的内在流型结构这一假设是不准确的,因而,构建于这一假设之上的现有的技术方法都是有缺陷的,其性能也是受限的。
[0013] [专利文献1]US专利申请公报US 2006/0235812A1
[0014] [专利文献2]US专利申请公报US 2006/0045353A1
[0015] [非专利文献1]Mikhail Belkin,Partha Niyogi,Semi-SupervisedLearning on Rimanian Manifolds,Machine Learning,Vol.56,pp.209-239,2004
[0016] [非专利文献2]Dengyong Zhou,Olivier Bousquet,Thomas Navi Lal,Jason Weston,and Bernhard Scholkopf,Learning with Local andGlobal Consistency,Advances in Neural Information ProcessingSystems,Vol.16,pp.321-328,2003[0017] [ 非 专 利 文 献 3]Xiaojin Zhu,Zoubin Ghahramani,John Lafferty,Semi-Supervised Learning Using Gaussian Fields and HarmonicFunctions,in Proceedings of the twentieth internationalconference on machine
learning(ICML2003),pp.912-919,2003
[0018] [ 非 专 利 文 献 4]Mikhail Belkin,Irina Matveeva,Partha Niyogi,Regularization and Semi Supervised Learning on Large Graphs,inProceedings of annual conference on learning theory(COLT),2004
[0019] [非专利文献5]Zhili Wu,Chun-hung Li,Ji Zhu,Jian Huang,ASemi-Supervised SVM for Manifold Learning,in Proceedings of the18th international conference on pattern recognition(ICPR’06),Vol.2,pp.490-493
[0020] [非专利文献6]Joshua B.Tenenbaum,Vin de Silva,John C.Langford,A global geometric framework for nonlineardimensionality reduction,Science,Vol.290,pp.2319-2323,2000
[0021] [非专利文献7]Sam T.Roweis,Lawrence K.Saul,Nonlineardimensionality reduction by locally linear embedding,Science,Vol.290,pp.2323-2326,2000发明内容
[0022] 鉴于现有技术中的上述问题而提出了本发明。本发明的目的至少在于提供一种基于半监督学习机制来对模式进行分类识别的装置和方法,其能够克服基于欧式距离构建的近邻图不能完全表示样本点的内在流型结构的问题。
[0023] 根据本发明,输入模式对象同时包含标注和未标注样本,基于这些样本,所述装置分析样本的空间分布特征并完成对未标注样本识别(分类和排序)。该装置的一个特征是在核空间中采用局部线性嵌入来估计输入对象的流型结构,并以此为基础,利用图正则化实现识别的功能。
[0024] 首先,计算输入对象样本两两之间的距离,即计算任意两个输入对象样本之间的距离。距离计算与输入对象样本的形式和种类相关,在模式识别问题中,一般需要首先对输入对象样本进行处理,提取其主要特征,例如:在手写体数字识别中,特征可以为输入对象样本本身,即图像像素的值,也可以为笔划方向直方图;而在说话人身份识别中,特征可以为利用语音信号得到的倒谱系数、基音频率等。如果输入对象样本的特征被表示为向量的形式,则可以用欧氏距离或其他距离测度计算对象样本间的距离;如果输入对象样本被表示为结构化的特征,则需要利用与该特征对应的距离计算方式。
[0025] 之后,根据上述得到的输入对象样本两两之间的距离,利用k近邻方式建立k近邻图,就是说,用图的方式表示输入对象样本之间的关系。
[0026] 接下来,根据上述近邻图构建再生核希尔伯特空间(ReproducingKernel Hilbert Space),例如:拉普拉斯核空间(Laplacian KernelSpace),并在该空间内进行局部线性嵌入。进一步讲,就是对每一个样本,都利用其在核空间中的近邻样本进行线性重构,而所有样本的重构系数就能很好的表达样本的内在空间分布特征。
[0027] 最后,利用上述重构系数和标注样本的目标值,采用图正则化技术,赋予未标注样本一个评价值。而这些评价值就是对未标注样本进行识别的依据。
[0028] 根据本发明的一个方面,提供了一种模式识别装置,该模式识别装置利用半监督学习机制来对输入的模式对象样本进行识别,其中所述模式对象样本包括标注样本和未标注样本,并以数字化特征表示,所述标注样本包括模式对象的数字化特征以及相应的目标值,所述模式识别装置包括:非欧空间内核构建部,其基于输入的模式对象样本来构建非欧空间内核矩阵,该非欧空间适于构造模式对象的流型结构;核空间内局部线性嵌入部,其根据所述非欧空间内核构建部构建出的非欧空间内核矩阵,对模式对象样本进行局部线性嵌入,以生成模式对象样本的重构系数矩阵;以及正则化部,其根据所述核空间内局部线性嵌入部生成的重构系数矩阵和所述标注样本的目标值,来为所有输入的模式对象样本生成评测值。
[0029] 根据本发明的另一个方面,提供了一种模式识别方法,该模式识别方法利用半监督学习机制来对输入的模式对象样本进行识别,其中所述模式对象样本包括标注样本和未标注样本,并以数字化特征表示,所述标注样本包括模式对象的数字化特征以及相应的目标值,所述模式识别方法包括以下步骤:基于输入的模式对象样本来构建非欧空间内核矩阵,该非欧空间适于构造模式对象的流型结构;根据构建出的非欧空间内核矩阵,对模式对象样本进行局部线性嵌入,以生成模式对象样本的重构系数矩阵;以及根据生成的重构系数矩阵和所述标注样本的目标值,来为所有输入的模式对象样本生成评测值。
[0030] 本发明的上述模式识别装置和模式识别方法,由于采用了适于构建模式对象样本的内在流型结构的非欧空间内核矩阵(例如,再生核希尔伯特空间内核矩阵,更具体而言,是拉普拉斯空间内核矩阵)来对模式对象样本进行局部线性嵌入,从而能够准确地表达模式对象样本的内在流型结构,并最终实现准确的模式识别。附图说明
[0031] 图1(a)例示了流型结构的一个示例。
[0032] 图1(b)例示了对应于图1(a)中的流型结构的采样点,以及欧氏距离与流型结构上测量距离的示例。
[0033] 图2为根据本发明实施方式的模式识别装置的示意框图
[0034] 图3为拉普拉斯内核构建模流程图
[0035] 图4为根据本发明的实施例中的输入对象的示意图。
[0036] 图5为根据本发明的实施例中的输入对象的评测值示意图。
[0037] 图6为根据本发明的实施例中的手写体数字识别的部分输入对象。

具体实施方式

[0038] 图2为根据本发明实施方式的模式识别装置的示意框图。
[0039] 如图所示,该模式识别装置包括:拉普拉斯内核构建模块,其根据输入对象样本(包括标注样本和未标注样本)来构建拉普拉斯内核空间矩阵;核空间内局部线性嵌入模块,其根据拉普拉斯内核构建模块构建出的拉普拉斯内核空间矩阵,对输入对象样本进行局部线性嵌入,以生成对象样本的重构系数矩阵;以及正则化模块,其根据核空间内局部线性嵌入模块生成的重构系数矩阵和标注样本的目标值,为所有的输入对象样本生成评测值。
[0040] 除了上述拉普拉斯内核空间,该模式识别装置还可以采用其他的再生核希尔伯特空间。构建该空间的目的在于较好的描述输入对象的流型结构。
[0041] 输入对象即被处理对象集合,例如图像识别中的图像、语音识别中的语音信号等。输入对象一般以数字特征的方式来表示,该数字特征由多个变量组成,用以描述该对象的特性,例如在图像识别中,该特征可以为图像中各像素的颜色值、图像的纹理特征向量、图像的颜色直方图等;在说话人识别中,该特征可以为根据语音信号得到的倒谱系数、基音频率等。输入对象同时包含有标注样本和未标注样本。所谓标注样本,即除了与该样本对应的特征外,还输入一个与该样本对应的目标值,例如在两类别图像识别中,对于第一类的图像,其目标值可以设置为1,而对于第二类的图像,其目标值可以设置为-1;在说话人识别中,目标值可以为说话人的编号等。而对于非标注样本,则只输入与该样本对应的特征。
[0042] 拉普拉斯内核构建模块用来从输入对象样本中构建拉普拉斯内核空间。首先,计算输入对象样本两两之间的距离。之后,根据k近邻方法构建近邻图,计算拉普拉斯空间矩阵。最后,得到拉普拉斯内核空间矩阵。
[0043] 核空间内局部线性嵌入模块实现在拉普拉斯内核空间内描述输入对象的内在几何结构。进一步讲,在具有流型结构的数据集上,任意一个无限小的区域都是线性的,因此,对于每一个输入对象样本,都可以利用其相邻样本的线性组合来重构(或近似),而这些重构系数则反映了输入对象集的几何结构特征。
[0044] 正则化模块用来计算未标注对象样本的评测值。根据上述核空间内局部线性嵌入模块得到的重构系数,每一个对象样本都可以由它的近邻样本的线性组合来近似,因此,对象样本的评测值也能够根据这些重构系数来近似。基于这一原则,在图正则化的框架之下进行优化计算,得到未标注样本的评测值。
[0045] 从上述正则化模块得到的评测值反映了未标注样本和标注样本之间的相似程度。例如,在两类模式识别中,将第一类模式的标注样本的目标值设置为1,而将第二类模式的标注样本的目标值设置为-1,那么,未标注样本的评测值越接近于1,表示该样本属于第一类模式的概率越大,相反,越接近于-1,表示该样本属于第二类模式的概率越大。
[0046] 下面具体描述模式识别装置的各构成模块。
[0047] 1、拉普拉斯内核构建模块
[0048] 令输入对象为X={XL,XU}。其中,XL={(x1,y1),…,(xl,yl)}为标注样本集合,X1,…,Xl分别表示标注样本的数字特征,l为标注样本的数目,y1,…,yl为这些样本的目标值;XU={xl+1,…,xn}为未标注样本集合,Xl+1,…,Xn分别表示未标注样本的数字特征,共有n-1个对象样本,n为输入样本的总数。在说明书的其余部分,均以这种方式记录输入对象样本集合。
[0049] 图3为拉普拉斯内核构建模块的构成的示意框图,其由三个模块构成:近邻矩阵计算模块、拉普拉斯矩阵计算模块,以及拉普拉斯内核计算模块。
[0050] 近邻矩阵计算模块根据输入对象样本两两之间的距离生成近邻矩阵。近邻矩阵的大小为n×n(n为自然数),用来描述任意两个对象样本之间的相似度。
[0051] 首先,对于任意两个输入对象样本,计算它们之间的距离。距离的计算方式与输入对象样本的表达方式相关,例如:如果输入对象样本以向量方式表示,就可以采用欧氏距离测度来计算;如果对象样本以结构化特征表示,就需要根据该特征的具体格式设计距离计算的方式。任意给定两个对象样本Xi、Xj,它们之间的距离记为d(i,j)。
[0052] 接下来,对每一个输入对象样本,找出与之距离最近的k个对象样本。k为实现本发明的模式识别装置的一个参数,取值为正整数,可以根据经验进行设定。
[0053] 设近邻矩阵为A=[aij],i,j=1,2,…,n。近邻矩阵A中的元素aij的值按如下方式计算:任意给出两个对象样本Xi、Xj,如果Xj属于与Xi距离最近的k个样本之一,或2 2
者如果Xi属于与Xj距离最近的k个样本之一,则aij=aji=exp(-d(i,j)/2σ),否则,aij=0;此外,如果i和j的值相同,aij=0。σ为实现本发明的模式识别装置的另一个参数,它反应了输入对象样本的距离的范畴,可以设定为所有对象样本之间的距离的平均值,或者根据经验进行设置。
[0054] 得到近邻矩阵之后,拉普拉斯矩阵计算模块根据近邻矩阵生成拉普拉斯矩阵。令D为n×n的对矩阵,对角线上各元素的值为:
[0055] 那么,拉普拉斯矩阵L可由下式计算:L=D-A。归一化后的拉普拉斯矩阵为:其中,I为单位对角矩阵。
[0056] 正则化拉普拉斯矩阵为: 其中,I为单位对角矩阵,ε为实现本发明的模式识别装置的一个参数,一般取值非常小,例如取10-5。
[0057] 拉普拉斯内核计算模块对上述得到的正则化拉普拉斯矩阵求逆,即得到拉普拉斯内核K。如果正则化拉普拉斯矩阵P不可逆,则求其伪逆矩阵。
[0058] 除了拉普拉斯内核外,本发明的模式识别装置还可以采用其他的再生核希尔伯特空间,例如:扩散内核,反转余弦核等。
[0059] 扩散内核的构建过程如下:
[0060] (1)同上述拉普拉斯内核构建过程相同,利用近邻矩阵计算模块生成近邻矩阵A;
[0061] (2)同上述拉普拉斯内核构建过程相同,利用拉普拉斯矩阵计算模块根据近邻矩阵生成归一化的拉普拉斯矩阵
[0062] (3)根据上述的归一化的拉普拉斯矩阵 得到扩散内核KD,计算过程为:τ为实现本发明的模式识别装置的一个参数。反转余弦核的构建过
程如下:
[0063] (1)同上述拉普拉斯内核构建过程相同,利用近邻矩阵计算模块生成近邻矩阵A;
[0064] (2)同上述拉普拉斯内核构建过程相同,利用拉普拉斯矩阵计算模块根据近邻矩阵生成归一化的拉普拉斯矩阵
[0065] (3)根据上述的归一化的拉普拉斯矩阵 得到反转余弦内核KC,
[0066] 计算过程为:
[0067] 给定正则化拉普拉斯矩阵P,可以定义内积为H=,那么H就是一个再生性希尔伯特内核空间,而其内核就是k(i,j)=[P-1]ij。
[0068] 为了证明其再生性,需要满足如下的条件:
[0069] f(i)=H
[0070] 就是说,对所有的f∈H,应该有:
[0071] f(i)=H=fTPKi,·,或者说,fT=fTPK
[0072] 很显然,如果K=P-1,则上述条件就能满足。因此,上述正则化拉普拉斯矩阵的逆矩阵就是拉普拉斯内核。
[0073] 2、核空间内局部线性嵌入模块
[0074] 局部线性嵌入(Locally linear embedding,缩写为LLE)最早是由Sam T.Roweis等人提出的,参见[非专利文献7]。其基本思想为:对每一个对象样本,利用其近邻点构建一个局部线性模型。在流型结构的数据集上,任意一个无限小的区域都是线性的,因此,任何一个数据点都可以用它的邻点的线性组合来重构,即线性嵌入,而所有样本点的重构系数组合在一起,就可以描述这个数据集的流型结构。LLE最早应用于特征降维之中。Sam T.Roweis等人注意到,在诸如旋转、平移、缩放等保留近邻关系的变换中,从LLE得到的重构系数具有不变性,因此,样本点在低维的流型结构空间中的近邻关系同其原始空间中的近邻关系是一致的,换句话说,从原始空间中得到的重构系数在流型结构空间中同样适用。基于这个发现,LLE可以很好的用来完成特征降维的目的。
[0075] 本发明的模式识别装置的局部线性嵌入是在内核空间中进行的,具体来说,是在上述拉普拉斯内核空间中进行的。
[0076] 给定数据样本集X={x1,…,xn}(该样本集包含标注样本和未标注样本)和拉普拉斯内核函数K,内核函数K事实上在样本集X上定义了一个映射函数φ,通过该函数,数据样本被投影到一个高维的空间F中,即:φ:xi→φ(xi),该映射满足如下的内积关系:k(x,x′)=<φ(x),φ(x′)>。
[0077] 任意给出F空间中的两个样本φ(xm)和φ(xn),它们的欧氏距离为:
[0078] ‖φ(xm)-φ(xn)‖2=k(m,m)+k(n,n)-2k(m,n)
[0079] 在高维空间F中,对于每一个样本,都用它的近邻样本的线性组合来近似,即重构。这种重构的总误差为:
[0080] ε(W)=∑i‖φ(xi)-∑jwijφ(xj)‖2,φ(xj)∈N(φ(xi))
[0081] 在上式中,N(φ(xi))表示样本Xi在空间F中的近邻样本,Wij表示样本Xi的重构系数。
[0082] 以样本Xi为例,假设在高维空间F中样本Xi的M个近邻样本为{xi1,…,xiM},由T这M个近邻样本对Xi进行重构时的系数为Wi=[wi1,…,wiM],那么重构误差为:
[0083]
[0084] 其中,Ci被称为φ(xi)的Gram矩阵,其大小为M×M,矩阵中各元素的值为:
[0085]
[0086]
[0087] 很显然,使重构误差最小的重构系数为:
[0088]
[0089] 核空间内局部线性嵌入模块的输入和输出以及所执行的主要步骤如下所示:
[0090] 输入:数据样本集X,拉普拉斯内核K。
[0091] 输出:各数据样本的重建系数矩阵W。
[0092] 对每个数据样本xi,都执行如下的操作:
[0093] (1)计算高维空间F中该样本同其它样本之间的欧氏距离,即:
[0094] ‖φ(xi)-φ(xj)‖2=k(i,i)+k(j,j)-2k(i,j),j=1,…,n
[0095] (2)根据上述距离,找出与xi距离最近的M个样本,{xi1,…,xiM}。M是实现本发明的模式识别装置的另一个参数,取值为正整数,可以与上述拉普拉斯内核构建模块中的参数k取同一个值。
[0096] (3)计算大小为M×M的Gram矩阵Ci。
[0097] (4)根据Gram矩阵Ci计算重构系数Wi=[wi1,…,wiM]T。
[0098] (5)对重构系数进行归一化,即:使Wi的模为1。
[0099] (6)生成重构系数矩阵W。该矩阵的大小为n×n,矩阵的每一行对应于一个样本的重构系数,对于距离最近的前M个样本,值为Wi中的相应值,否则,值为0。
[0100] 3、正则化模块
[0101] 给定输入对象样本X={x1,…,xl,xl+1,…,xn},以及与标注样本对应的目标值{y1,…,yl},正则化模块用来为这些样本生成评测值。换句话说,从正则化模块得到一个映射函数f:X→R,该函数将输入对象样本映射为一个实数的评测值,该函数可以表示为向量的形式,即:
[0102] f={f1,…fn}
[0103] 上述核空间内局部线性嵌入模块为输入对象样本生成了一系列重构系数,根据这些系数,每一个样本都可以由它的近邻样本的线性组合来近似,此外,这些系数还反映了对象样本的内在几何结构,而且这些系数在保留近邻关系的变换中具有不变性。因此,这些系数可以用来重构对象样本的评测值,换句话说,基于这些系数,每一个对象样本的评测值都可以由它的近邻样本的评测值的线性组合来近似。
[0104] 对样本的评测值进行重构的误差为:ζ(f)=∑i‖fi-∑jwijfj‖2,
[0105] 其中,Wij表示从上述核空间内局部线性嵌入模块得到的与对象样本Xi相关的重构系数。
[0106] 此外,对于标注样本,从正则化模块得到的评测值应该与它们的目标值相差不大。T
令y=[y1,…,yn],其中,{y1,…,yl}为标注样本的目标值,{yl+1,…,yn}的值为0,则该
2
约束条件可以表示为:τ(f)=∑i(fi-yi)。
[0107] 将上述约束条件和重构误差的约束线性组合在一起,就得到:
[0108] ε(f)=ζ(f)+μ*τ(f)
[0109] =∑i‖fi-∑jwijfj‖2+μ∑i(fi-yi)2
[0110] =fTMf+μ(f-y)T(f-y)
[0111] 其中,W表示从上述核空间内局部线性嵌入模块得到的重构系数矩阵,μ为实-3现本发明的模式识别装置的另一个参数,一般取非常小的实数,例如取为10 ,M=(I-W)T
(I-W),I为单位矩阵。
[0112] 映射函数f的值就是使上述ε(f)的值最小的值,即:
[0113]
[0114] 对ε(f)进行求导,最后得到f的值为:
[0115] f=μ(M+μI)-1y
[0116] 正则化模块执行的主要步骤如下所示:
[0117] 输入:上述核空间内局部线性嵌入模块输出的样本的重构系数矩阵W,标注样本的目标值{y1,…,yl}。
[0118] 输出:样本的评测值向量f。
[0119] (1)生成向量y=[y1,…,yn]T,其中,{y1,…,yl}为标注样本的目标值,{yl+1,…,yn}的值为0。
[0120] (2)计算矩阵M=(I-W)T(I-W)。
[0121] (3)计算评测值向量f=μ(M+μI)-1y。
[0122] 下面通过具体的实施例来对本发明进行进一步的说明。
[0123] 实施例一:
[0124] 假设共有12个输入的对象样本,这些样本都被表达成2维向量的形式,如下所示:
[0125]
[0126] 即:第一个样本的数字化表达方式为[0 10],第二个样本的数字化表达方式为[3.1 9.5],以此类推。
[0127] 其中,第一个和最后一个对象样本为标注样本,其标号分别为1和-1,其余的对象样本为未标注样本,即:
[0128] Y=[1 0 0 0 0 0 0 0 0 0 0 -1]
[0129] 图4为这些样本的示意图,其中,每个点对应于一个输入对象样本,其坐标为这些对象样本的向量的值。在该图中,用实心的正方形和三角形分别表示两个标注样本。
[0130] 本发明的目的是要预测所有未标注样本的标号,以实现识别或者排序检索的目的。
[0131] 步骤一:拉普拉斯内核构建模块对输入的对象样本进行处理,以构建拉普拉斯内核。
[0132] 首先,计算任意两个输入对象样本之间的距离。在该实施例中,输入的12个对象样本都被表示为2维向量的形式,因此,用欧氏距离计算它们之间的距离。例如:第一和第二个对象样本之间的欧氏距离为:2 2 0.5
[0133] d(1,2)={(3.1-0)+(10-9.5)} =3.1。
[0134] 按上述方式得到的对象样本两两之间的距离可以用一个矩阵表示为:
[0135] X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12[0136] X1 0.0 3.1 6.2 9.1 11.8 14.1 8.1 11.2 14.2 16.9 19.2 21.1[0137] X2 3.1 0.0 3.1 6.2 9.1 11.8 7.8 10.7 13.4 15.7 17.7 19.2[0138] X3 6.2 3.1 0.0 3.1 6.2 9.1 7.8 10.2 12.3 14.2 15.7 16.9[0139] X4 9.1 6.2 3.1 0.0 3.1 6.2 8.1 9.6 11.0 12.3 13.4 14.2[0140] X5 11.8 9.1 6.2 3.1 0.0 3.1 8.6 9.0 9.6 10.2 10.7 11.2[0141] X6 14.1 11.8 9.1 6.2 3.1 0.0 9.2 8.6 8.1 7.8 7.8 8.1[0142] X7 8.1 7.8 7.8 8.1 8.6 9.2 0.0 3.1 6.2 9.1 11.8 14.1[0143] X8 11.2 10.7 10.2 9.6 9.0 8.6 3.1 0.0 3.1 6.2 9.1 11.8[0144] X9 14.2 13.4 12.3 11.0 9.6 8.1 6.2 3.1 0.0 3.1 6.2 9.1[0145] X10 16.9 15.7 14.2 12.3 10.2 7.8 9.1 6.2 3.1 0.0 3.1 6.2[0146] X11 19.2 17.7 15.7 13.4 10.7 7.81 1.8 9.1 6.2 3.1 0.0 3.1[0147] X12 21.1 19.2 16.9 14.2 11.2 8.11 4.1 11.8 9.1 6.2 3.1 0.0[0148] 根据这些距离值,针对每一个输入对象样本,找出与之距离最近的k个对象样本。在该实施例中,将k的值设为3。以对象样本X1为例进行说明,这些输入对象样本到X1的距离分别为:0、3.1、6.2、9.1、11.8、14.1、8.1、11.2、14.2、16.9、19.2、21.1,因此,与之距离最近的3个对象样本为:X2、X3、X7。
[0149] 之后,按如下原则计算近邻矩阵:对于两个对象样本Xi、Xj,如果一个对象样本属于与另一个对象样本距离最近的k个对象样本之一,则近邻矩阵中的对应值为aij=aji=2 2
exp(-d(i,j)/2σ),否则,aij=0;此外,近邻矩阵中对角线上的元素的值设为0。在本实施例中,将σ设定为所有对象样本之间的距离的平均值,根据上述得到的对象样本两两之间的距离,它的值为8.89。仍然以第一和第二个对象样本为例进行说明,从前面的计算可以看出,第二个对象样本属于与第一个对象样本距离最近的3个对象之一,因此,近邻矩阵中
2 2
的对应值为:a12=exp(-3.1/(2*8.89))=0.94。
[0150] 按照上述方式,计算近邻矩阵中所有元素的值,得到的近邻矩阵如下:
[0151] A= 0 0.94 0.79 0 0 0 0.66 0 0 0 0 0[0152] 0.94 0 0.94 0.79 0 0 0.68 0 0 0 0 0[0153] 0.79 0.94 0 0.94 0.79 0.00 0 0 0 0 0 0[0154] 0 0.79 0.94 0 0.94 0.79 0 0 0 0 0 0
[0155] 0 0 0.79 0.94 0 0.94 0 0 0 0 0 0
[0156] 0 0 0 0.79 0.94 0 0 0 0 0 0.68 0.66
[0157] 0.66 0.68 0 0 0 0 0 0.94 0.79 0 0 0
[0158] 0 0 0 0 0 0 0.94 0 0.94 0.79 0 0
[0159] 0 0 0 0 0 0 0.79 0.94 0 0.94 0.79 0
[0160] 0 0 0 0 0 0 0 0.79 0.94 0 0.94 0.79
[0161] 0 0 0 0 0 0.68 0 0 0.79 0.94 0 0.94
[0162] 0 0 0 0 0 0.66 0 0 0 0.79 0.94 0
[0163] 得到近邻矩阵之后,拉普拉斯矩阵计算模块根据近邻矩阵生成拉普拉斯矩阵L以及归一化的拉普拉斯矩阵
[0164] 为生成拉普拉斯矩阵L,首先需要生成一个对角矩阵D,该矩阵对角线上的元素为近邻矩阵中对应行的元素的和,例如,对角线上第一个元素的值为近邻矩阵A中第一行的元素的和,即:D(1)=0.94+0.79+0.66=2.39。
[0165] 根据对角矩阵D和近邻矩阵A,可以容易地得到拉普拉斯矩阵L,归一化的拉普拉斯矩阵 以及正则化拉普拉斯矩阵P。
[0166] 最后,对正则化拉普拉斯矩阵求逆,得到拉普拉斯内核。在本实施例中,正则化拉普拉斯矩阵中参数ε的值设为0.01,得到的拉普拉斯内核为:
[0167] K= 7.75 8.19 8.22 7.89 6.84 7.10 7.54 6.62 7.46 7.33 7.21 6.08[0168] 8.19 10.40 9.74 9.55 8.19 8.49 8.80 7.77 8.77 8.64 8.53 7.21[0169] 8.22 9.74 10.78 9.89 8.65 8.77 8.65 7.73 8.76 8.70 8.64 7.33[0170] 7.89 9.55 9.89 10.71 8.77 9.06 8.53 7.71 8.77 8.76 8.77 7.46[0171] 6.84 8.19 8.65 8.77 8.55 8.11 7.42 6.76 7.71 7.73 7.77 6.62[0172] 7.10 8.49 8.77 9.06 8.11 9.48 7.96 7.42 8.53 8.65 8.80 7.54[0173] 7.54 8.80 8.65 8.53 7.42 7.96 9.48 8.11 9.06 8.77 8.49 7.10[0174] 6.62 7.77 7.73 7.71 6.76 7.42 8.11 8.55 8.77 8.65 8.19 6.84[0175] 7.46 8.77 8.76 8.77 7.71 8.53 9.06 8.77 10.71 9.89 9.55 7.89[0176] 7.33 8.64 8.70 8.76 7.73 8.65 8.77 8.65 9.89 10.78 9.74 8.22[0177] 7.21 8.53 8.64 8.77 7.77 8.80 8.49 8.19 9.55 9.74 10.40 8.19[0178] 6.08 7.21 7.33 7.46 6.62 7.54 7.10 6.84 7.89 8.22 8.19 7.75[0179] 步骤二:在拉普拉斯内核空间内对输入对象样本进行线性嵌入
[0180] 在拉普拉斯内核空间内计算所有对象样本两两之间的距离
[0181] 对于输入对象样本Xi、Xj,在拉普拉斯内核空间中对应的距离为k(i,i)+k(j,j)-2*k(i,j)。以第一个和第二个对象样本为例,它们在拉普拉斯内核空间内的距离为:
[0182] k(1,1)+k(2,2)-2*k(1,2)=7.75+10.40-2*8.19=1.76。
[0183] 按上述方式得到的任意两个输入对象样本在拉普拉斯内核空间内的距离为:
[0184] 0 1.76 2.08 2.68 2.63 3.04 2.16 3.06 3.54 3.87 3.74 3.35
[0185] 1.76 0 1.70 2.01 2.57 2.91 2.29 3.41 3.57 3.89 3.74 3.74
[0186] 2.08 1.70 0 1.71 2.03 2.72 2.96 3.86 3.95 4.16 3.89 3.87
[0187] 2.68 2.01 1.71 0 1.72 2.06 3.14 3.83 3.86 3.95 3.57 3.54
[0188] 2.63 2.57 2.03 1.72 0 1.80 3.18 3.57 3.83 3.86 3.41 3.06
[0189] 3.04 2.91 2.72 2.06 1.80 0 3.05 3.18 3.14 2.96 2.29 2.16
[0190] 2.16 2.29 2.96 3.14 3.18 3.05 0 1.80 2.06 2.72 2.91 3.04
[0191] 3.06 3.41 3.86 3.83 3.57 3.18 1.80 0 1.72 2.03 2.57 2.63
[0192] 3.54 3.57 3.95 3.86 3.83 3.14 2.06 1.72 0 1.71 2.01 2.68
[0193] 3.87 3.89 4.16 3.95 3.86 2.96 2.72 2.03 1.71 0 1.70 2.08
[0194] 3.74 3.74 3.89 3.57 3.41 2.29 2.91 2.57 2.01 1.70 0 1.76
[0195] 3.35 3.74 3.87 3.54 3.06 2.16 3.04 2.63 2.68 2.08 1.76 0
[0196] 核空间内线性嵌入
[0197] 与拉普拉斯内核构建模块的操作类似,根据上述得到的距离值,对每一个输入对象样本,找出与之距离最近的M个对象样本。在本实施例中,M的取值与k的值相同,即M=3。以输入对象样本X1为例进行说明,这些对象样本到X1的距离为:0、1.76、2.08、2.68、2.63、3.04、2.16、3.06、3.54、3.87、3.74、3.35,因此,与之距离最近的3个输入对象样本为:X2、X3、X7。
[0198] 接下来,核空间内局部线性嵌入模块利用每一个输入对象样本的近邻对象样本来线性近似该输入对象样本,以实现线性嵌入的目的。
[0199] 以对象样本X1为例进行说明。从前面已经得到,与该对象样本距离最近的3个对象样本为X2、X3、X7,因此,需要在核空间内利用这3个对象来近似对象样本X1。
[0200] 首先,构建Gram矩阵C,该矩阵的大小为3×3,矩阵的行和列分别对应于输入对象样本X2、X3、X7。以C(1,2)为例进行计算,它的值为:C(1,2)=k(X2,X3)-k(X1,X2)-k(X3,X1)+k(X1,X1)=9.74-8.19-8.22+7.75=1.08;以C(2,3)为例进行计算,它的值为:C(2,3)=k(X3,X7)-k(X1,X7)-k(X3,X1)+k(X1,X1)=8.65-7.54-8.22+7.75=0.64。
[0201] 按上述方式,得到与输入对象样本X1对应的Gram矩阵C,如下:
[0202]
[0203] 然后,根据上述Gram矩阵,得到输入对象样本X1的重构系数,其值为0.29、0.24、0.28,这3个系数分别对应于输入对象样本X2、X3、X7。
[0204] 生成重构系数矩阵
[0205] 对于每一个输入对象样本,都按上述操作生成重构系数,之后,对系数进行归一化,并生成重构系数矩阵W。
[0206] 在本实施例中,重构系数矩阵的大小为12×12。该矩阵的每一行对应于一个输入对象样本,其中,与该对象样本距离最近的那些输入对象样本,对应的值设置为重构系数,否则,值为0。以对象样本X1为例进行说明,该对象样本的近邻对象样本为X2、X3、X7,对应的重构系数为0.29、0.24、0.28。对重构系数进行归一化,得到0.35、0.30、0.35,因此,该矩阵的第一行的内容为:
[0207] 0 0.35 0.30 0 0 0 0.35 0 0 0 0 0
[0208] 按照如上操作,得到的重构系数矩阵W为:
[0209] 0 0.35 0.30 0 0 0 0.35 0 0 0 0 0
[0210] 0.41 0 0.32 0.27 0 0 0 0 0 0 0 0
[0211] 0 0.43 0 0.31 0.26 0 0 0 0 0 0 0
[0212] 0 0.27 0.31 0 0.42 0 0 0 0 0 0 0
[0213] 0 0 0.28 0.31 0 0.41 0 0 0 0 0 0
[0214] 0 0 0 0.29 0.33 0 0 0 0 0 0 0.38[0215] W=
[0216] 0.38 0 0 0 0. 0 0 0.33 0.29 0 0 0
[0217] 0 0 0 0 0 0 0.41 0 0.31 0.28 0 0
[0218] 0 0 0 0 0 0 0 0.42 0 0.31 0.27 0
[0219] 0 0 0 0 0 0 0 0.26 0.31 0 0.43 0
[0220] 0 0 0 0 0 0 0 0 0.27 0.32 0 0.41[0221] 0 0 0 0 0 0.35 0 0 0 0.30 0.35 0
[0222] 步骤三:正则化得到输入对象样本的评测值
[0223] 在本实施例中,假设第一个和最后一个输入对象样本为标注样本,其标号分别为+1和-1。即输入对象样本的初始评测值为:
[0224] Y=[1 0 0 0 0 0 0 0 0 0 0 -1]。
[0225] 首先,根据核空间内局部线性嵌入模块得到的重构系数矩阵W按如下方式计算矩T阵M,M=(I-W)(I-W),其中,I为单位矩阵。得到的结果如下:
[0226] M= 1.32 -0.76 -0.17 0.11 0 0 -0.73 0.13 0.11 0 0 0[0227] -0.76 1.38 -0.55 -0.41 0.23 0 0.12 0 0 0 0 0[0228] -0.17 -0.55 1.37 -0.44 -0.42 0.12 0.10 0 0 0 0 0[0229] 0.11 -0.41 -0.44 1.35 -0.56 -0.16 0 0 0 0 0 0.11[0230] 0 0.23 -0.42 -0.56 1.36 -0.74 0 0 0 0 0 0.13[0231] 0 0 0.12 -0.16 -0.74 1.29 0 0 0 0.10 0.12 -0.73[0232] -0.73 0.12 0.10 0.00 0 0 1.29 -0.74 -0.16 0.12 0 0[0233] 0.13 0 0 0.00 0 0 -0.74 1.36 -0.56 -0.42 0.23 0[0234] 0.11 0 0 0.00 0 0 -0.16 -0.56 1.35 -0.44 -0.41 0.11[0235] 0 0 0 0 0 0.104 0.12 -0.42 -0.44 1.37 -0.55 -0.17[0236] 0 0 0 0 0 0.12 0 0.23 -0.41 -0.55 1.38 -0.76[0237] 0 0 0 0.11 0.13 -0.73 0 0 0.11 -0.17 -0.76 1.32[0238] 在该实施例中,将参数μ的值设为0.01。然后,按照如下方式计算各输入对象样-1本的评测值,f=u(M+uI) Y。其中,I为单位矩阵。
[0239] 最终得到的输入对象样本的评测值如下:
[0240] f=[0.061 0.074 0.071 0.064 0.044 0.005 -0.005 -0.044 -0.064-0.071 -0.074 -0.061]
[0241] 图5为本实施例中的输入对象样本评测值的示意图。在该图中,每一个输入对象样本都用一个点来表示,此外,各点的灰度对应于各个对象样本的评测值,即数据点的灰度值越相近,表示对应的输入对象样本越相似。
[0242] 对于模式分类问题,如果以0作为评测值的分类边界,可以得到如下的分类结果:前6个输入对象样本属于第一类,后6个对象样本属于第二类。
[0243] 实施例二:
[0244] 本发明的模式识别装置可以用来识别图像,下面,以手写体数字图像识别为例进行说明。
[0245] 本发明的模式识别装置的输入为3000个手写体数字图像,所有图像均为灰度图像,像素的灰度值介于0和255之间,每个图像的大小均为16×16。输入的3000个图像隶属于数字0到9之间,每个数字包含300个图像,因此,本实施例事实上是一个10类别的分类问题,每一个类别对应于一个数字。在与每个类别的对应的300个样本中,假设前5个为标注样本,剩余的295个为未标注样本。
[0246] 图6给出了部分手写体数字的样例。在本实施例中,以输入图像中像素的灰度值直接作为输入对象样本的特征量,因此,每个输入对象样本都可以表示为一个256维的向量。
[0247] 与上述实施例一类似,本实施例的实现过程如下:
[0248] (1)由拉普拉斯内核构建模块对输入对象样本进行处理,构建拉普拉斯内核[0249] 首先,计算输入对象样本中任意两个对象样本之间的距离,得到大小为3000×3000的矩阵。因为输入对象样本可以表示为一个256维的向量,因此,直接利用向量的欧式距离进行计算。
[0250] 之后,利用k近邻原则生成近邻矩阵A,在本实施例中,k的值设为10。
[0251] 根据上述近邻矩阵A,得到拉普拉斯矩阵以及归一化的拉普拉斯矩阵,从而,生成拉普拉斯内核K,该内核矩阵的大小为3000×3000。
[0252] (2)在拉普拉斯内核空间内对输入对象样本进行线性嵌入
[0253] 这一过程同上述实施例一的过程非常类似。所不同的是,在核空间内线性嵌入操作中,参数M的取值为10。
[0254] (3)正则化
[0255] 类似于实施例一中的过程,根据上述核空间内局部线性嵌入模块得到的重构系数T矩阵W计算矩阵M=(I-W)(I-W),其中,I为单位矩阵。
[0256] 接下来,分别计算未标注样本属于各个类别的概率。
[0257] 以数字0对应的第一个类别为例进行说明。首先,生成输入对象样本的初始评测值Y。Y是一个长度为3000的向量,其中,每一个元素对应一个输入图像。在该向量中,与数字0的标注样本对应的元素的值设为1,其余的值设为0;然后,计算各个样本属于该类别-1的评测值,f0=u(M+uI) Y,其中,I为大小为3000×3000的单位矩阵,参数u的值为5e-4。
f0是一个长度为3000的向量,表示各个输入对象样本与数字0的相似度。
[0258] 以数字1对应的第二个类别为例进行说明。首先,生成输入对象样本的初始评测值Y。在该向量中,与数字1的标注样本对应的元素的值设为1,其余的值设为0;然后,计-1算各个样本属于该类别的评测值,f1=u(M+uI) Y,参数u的值保持不变,仍为5e-4。f1表示各个输入样本与数字1的相似度。
[0259] 以此类推,分别对10个类别进行处理。
[0260] 对于每个输入对象样本,都得到10个评测值,表示该对象样本与10个数字的相似性。在分类时,从10个评测值中选择最大的那个评测值所对应的类别作为该输入对象样本的类别。
[0261] 下表给出了本发明的模式识别装置和[非专利文献2]中的方法得到的识别率:
[0262]0 1 2 3 4 5 6 7 8 9 平均
[非专利文献
0.91 0.78 0.87 0.65 0.79 0.92 0.72 0.74 0.54 0.94 0.78
2]的方法
本发明 0.97 0.87 0.90 0.61 0.73 0.97 0.74 0.79 0.49 0.97 0.80[0263] 由上可见,本发明的模式识别装置的识别率比较高。
[0264] 实施例三:
[0265] 本发明的模式识别装置可以用来进行说话人身份识别,说话人身份识别同上述实施例中手写体数字图像识别基本相同。所不同的是,说话人身份识别是基于说话人的语音信号进行的,而且,每一个说话人对应一个类别。
[0266] 首先,从语音信号中提取倒谱系数、差值倒谱系数、基音频率及差值基音频率等4种特征,并以这4种特征组成的向量作为输入语音信号的数字化描述特征。
[0267] 之后,分别进行拉普拉斯内核构建、核空间内线性嵌入、正则化等过程,识别出说话人的身份。这些过程与前面针对手写体数字识别描述的过程类似,在此不再进行详细描述。
[0268] 上述本发明的模式识别装置的各个构成模块可以一体地实现在具有实现所述功能的计算机程序的计算机或单片机设备中,也可以各由分立的信息处理装置构成。
[0269] 虽然,在上面的实施例中,以手写体数字识别和说话人身份识别对本发明进行了具体说明,但本发明不限于这些,而可以广泛应用于各种模式识别场合中。
[0270] 进一步,根据本发明的实施例,本发明的目的还可以通过使计算机或单片机等执行上述操作的计算机程序来实现。
[0271] 另外,应当明白,在各个实施例中,可以通过专的电路或线路(例如,互连以执行专门功能的离散逻辑门)、通过由一个或更多个处理器执行的程序指令,或者通过两者的组合来执行所述各个动作。因此,可以通过多种不同的形式来实施上述多个方面,并且所有这些形式都被认为处于所描述内容的范围内。对于上述多个方面中的每一个,任何这种形式的实施例在此都可以指“被构造用来执行所述动作的逻辑”,或者另选地,是指“执行或者能够执行所述动作的逻辑”。
[0272] 进一步,根据本发明的实施例,本发明的目的还可以由计算机可读介质来实现,所述介质存储上述的程序。计算机可读介质可以是能够包含、存储、传达、传播或传送程序,以由执行系统、设备或装置使用的或与指令执行系统、设备或装置相结合的任何装置。该计算机可读介质例如可以是,但不限于,电子、磁、光、电磁、红外或半导体系统、设备、装置或传播介质。该计算机可读介质的更具体的示例(非穷尽列举)可以包括:具有一根或更多根导线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤,以及便携式光盘只读存储器(CDROM)。
[0273] 本发明实施例的上述说明仅用于例示和说明的目的,而非旨在穷尽本发明或将其限于所公开的具体形式。本领域技术人员应当明白,所选择并描述的实施例仅是为了最佳地解释本发明的原理及其实际应用,以适于特定的预期应用,而在不脱离由权利要求及其等同物所限定的发明范围的情况下,可以对本发明进行各种修改和变型。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈