签名识别系统和方法

阅读:433发布:2021-06-27

专利汇可以提供签名识别系统和方法专利检索,专利查询,专利分析的服务。并且一种识别签名的方法包括以下步骤:对签名抽样并且存储表示该签名的数据,把数据转换成高维向量,把高维向量馈送到无监督神经网络,在高维向量上执行高阶主分量提取 进程 以由此识别高维点的聚类,以及分析高维点的聚类,以根据事先存储的信息来判断所述签名的真实性。还有一种用于这种识别的装置包括:用于对签名抽样并且存储表示签名的数据的抽样装置,与所述抽样装置的下游连接,用于把所述数据转换成高维向量的转换装置,用于接收高维向量,并且对高维向量执行高阶主分量提取进程,由此识别高维点的聚类的无监督神经网络,以及连接到无监督神经网络,用于分析高维点的聚类以判断签名的真实性的分析装置。,下面是签名识别系统和方法专利的具体信息内容。

1.一种识别签名的方法,它包括以下步骤:对签名抽样并且存储代表所述签名的数据;把所述数据转换成高维向量;把所述高维向量馈送到无监督神经网络并且在所述高维向量上执行高阶主分量提取进程,由此识别高维点的聚类;以及分析所述高维点的聚类以根据前面存储的信息来确定所述签名的真实性。
2.权利要求1的方法,其特征在于:它还包括对所述签名数字抽样的步骤。
3.权利要求1的方法,其特征在于:所述抽样是通过鼠标、压敏衬板、数字图形输入板、指示笔和电子笔中的至少一个来实现的。
4.权利要求1的方法,其特征在于:它还包括产生时间/位置对的列表。
5.权利要求3的方法,其特征在于:它还包括对加在所述鼠标、压敏衬板、数字图形输入板、指示笔和电子笔中的所述至少一个上的压抽样。
6.权利要求1的方法,其特征在于:抽样是以至少每秒约40个样值的速率来进行的。
7.权利要求1的方法,其特征在于:所述转换步骤包括递归缩放处理。
8.权利要求7的方法,其特征在于:所述递归缩放处理包括迭代地聚焦于由更短的时间间隔确定的所述签名的越来越小的特征上。
9.权利要求8的方法,其特征在于:所述递归缩放处理包括12次迭代。
10.权利要求8的方法,其特征在于:与每次迭代相关的时段是按照以下标准:(a)在所述第一个迭代中检验的所述时段是在签名时间的50%至70%之间(2%的步长);(b)在第二至第十三个迭代中检验的所述时段是在所述前一个迭代中检验的所述时段的70%;以及(c)每个迭代中的所述时段或者在前一个迭代的所述时段的开头、或者在其结尾,但不在中间。
11.权利要求7的方法,其特征在于:所述递归处理持续不超过三秒钟。
12.权利要求1的方法,其特征在于:所述高阶主分量提取进程包括提取主椭球方向。
13.权利要求12的方法,其特征在于:所述主椭球方向提取步骤是通过累积标准正交化来完成的。
14.权利要求12的方法,其特征在于:防止神经元增长到该神经元把所有向量识别为属于单个聚类的程度。
15.权利要求1的方法,其特征在于:所述聚类是圆形或者气泡状的。
16.权利要求15的方法,其特征在于:气泡的半径对应于所述向量对于获胜神经元的距离的标准偏差。
17.权利要求1的方法,其特征在于:它还包括,通过以下步骤产生所述信息:提供多个样本签名;对于所述签名中的每个实现所述抽样、转换和馈送步骤;对于所述签名中的每个计算短暂积聚r和平均短暂积聚s;以及基于所述计算的r和s值,输出全程签名结构偏差A的测量值和局部签名结构偏差B的测量值。
18.权利要求17的方法,其特征在于:r是椭球内的向量数量与向量总数之比并且s是所述椭球内的所有向量的距离的平均值。
19.权利要求17的方法,其特征在于:所述事先存储的信息与所述签名比较,以根据预定标准判断其真实性。
20.权利要求17的方法,其特征在于:它还包括把内含的值A与B相乘并且确定所述乘积是否小于1。
21.权利要求20的方法,其特征在于:它还包括在π-神经元中执行所述相乘步骤。
22.权利要求21的方法,其特征在于:使用20至40个π-神经元。
23.权利要求1的方法,其特征在于:它还包括估计在所述神经网络中过广义化的出现。
24.权利要求23的方法,其特征在于:认为过广义化的条件出现在椭球内的向量数与向量总数之比的平方(r2)与所述椭球内所有向量的距离的平均值的平方(s2)分别除以所述r或s值的方差、所得结果中至少有一个大于预定阈值时。
25.一种电子学习签名的方法,它包括以下步骤:对签名抽样并且获得其代表性的原始数据;把所述原始数据转换成高维向量;以及经无监督神经网络提取所述高维向量的高阶主分量。
26.权利要求25的方法,其特征在于:它还包括通过产生对应于在椭球内的向量数与向量总数之比的值r和对应于所述椭球内所有向量的距离的平均值的值s,将所述高阶主分量积分。
27.权利要求26的方法,其特征在于:它还包括计算值A=(平均r-当前签名样本r)2/(r的方差)以及B=(平均s-当前签名样本s)2/(s的方差);以及把所述值A和B相乘。
28.一种将签名与事先存储的所述签名的表达相比较的方法,它包括步骤:对签名抽样并且获得其代表性的原始数据;把所述原始数据转换成高维向量;经无监督神经网络提取所述高维向量的高阶主分量;通过产生对应于在椭球内的向量数与向量总数之比的值r和对应于所述椭球内所有向量的距离的平均值的值s,将所述高阶主分量积分;通过计算值A=(平均r-当前签名样本r)2/(r的方差)以及B=(平均s-当前签名样本s)2/(s的方差)进一步积分所述高阶主分量;和把所述值A和B相乘以获得A和B的乘积;以及根据所述乘积是否小于1判断所述签名是否与事先存储的所述签名的表达相同。
29.一种用于识别签名的设备,包括用于对签名抽样并且存储表示所述签名的数据的抽样装置;与所述抽样装置的下游连接,用于把所述数据转换成高维向量的转换装置;无监督神经网络,它用于接收所述高维向量,并且对所述高维向量执行高阶主分量提取进程,由此识别高维点的聚类;以及连接到所述无监督神经网络的分析装置,它用于分析所述高维点的聚类以根据事先存储的信息来判断所述签名的真实性。
30.权利要求29的设备,其特征在于:所述抽样装置包括鼠标、压敏衬板、数字图形输入板、指示笔和电子笔中的至少一个。
31.权利要求29的设备,其特征在于:它还包括π-神经元,其中至少一个是乘法π-神经元。
32.权利要求29的设备,其特征在于:所述设备是结合在个人计算机中的。
33.权利要求32的设备,其特征在于:所述个人计算机是连接到互联网的。
34.权利要求29的设备,其特征在于:提供所述签名作为用于法律事务、经济事务和生物统计学核实中的至少一个的识别信息。

说明书全文

签名识别系统和方法

发明背景早期的防伪方案需要人将保存在文档中的原始签名与在上述文件之一上最新完成的签名作比较。当然,这种人的介入是极其耗时的,而且往往不可靠。

随着计算能的增长,已经开发了电子签名识别与验证系统。这种系统一般包括输入装置、如数字化衬板或图形输入板以捕获和数字存储签名的图像,然后以各种方式作用于存储的图像上,以将新签名与以前存储的“真实”签名比较。

例如,授予Shaw等人的美国专利5745598公开了一种方法,通过该方法执行对存储的签名图像的离散余弦变换或正交变换。产生全程参数序列,并且按照基于离散余弦变换或正交变换的属性的分段参数,把图像分成多个笔画。还产生特征尺寸的序列,然后,把全程参数、分段参数以及特征尺寸作为签名的代表存储。根据存储的代表特征做比较。但是,由Shaw等人公开的方法打算对于在例如磁卡上存储有限量的数据、以便可以在自主地点、如自动出纳机上完成签名的核实特别有用。由于表现任何签名特征的数据量减小,所以根据定义,在核实中具有较小的可靠性。

在授予Lee等人的美国专利5559895中,公开了带有图形数字化仪的写入板,它把签名的连续线转换成数字化的点。然后把数字化的点关于坐标系定位并且把平和垂直坐标分配给每个点。还赋予这些点关于时间的值。由此得出的数据代表静态与动态信息的同时累积。这些数据用来计算表征签名的一组特征中的每个特征。用于比较签字人(签名的人)的当前签名的数据库包括该组的每个特征的平均值和标准偏差。尽管这种系统是对已知的电子签名验证/核实系统的改进,但是,这种系统集中于多终端事务问题,并且它也缺乏高级签名验证与核实所必需的可靠性。

授予Platt等人的美国专利5812698公开了一种手写体识别系统,它包括使用模糊函数来描述某个笔画的各个点的预处理装置。每个字符的最终识别是由对“稀疏数据结构”起作用以识别字符的特征的神经网络来完成的。Platt等人的系统是针对整个手写体识别,而不是签名识别本身,因此缺乏识别和/或验证签名的可靠性。

在先有技术中还设计了其他用于签名识别的系统。例如,授予Gaborski等人的美国专利第5442715号公开了一种用于草写体识别的方法和装置,其中数字签名是由神经网络在时间序列中使用移动窗口和分段法处理的。授予Hutcheson等人的美国专利第5465308号公开了一种图形识别系统,它通过傅立叶变换把二维图形转换成功率谱,然后把这个功率谱的首项元素用作特征向量并且使用四层神经网络对其分析。授予Obata等人的美国专利第5553156号公开了一种复杂的签名识别装置,它利用面向笔画的预处理和模糊神经网络以识别与验证签名。授予Moussa等人的美国专利第5680470号公开了一种签名核实系统及方法,其中对签名预处理以产生测试特征,后者可与模板签名相比较、以使用常规的统计工具检验测试特征存在与否。授予Kashi等人的美国专利第5828772号公开了使用全程特征和笔画方向代码的参数签名核实的方法和装置,其中把签名分解成空间定向、时间有序的线段。授予Obata等人的美国专利第5825906号公开了一种签名识别系统,它包括提取特征向量的预处理子系统、识别图形的识别网络以及用于确定哪些特征值得考虑的遗传算法

其他相关技术包括用于核实系统的光学字符识别(OCR)系统及硬件。例如,授予Oki的美国专利第5742702号公开了用于字符识别与核实的神经网络,这将字符转换成矩阵,并且使用神经网络来识别字符。授予Marshall的美国专利第5774571号公开了带有多个传感器、含有压敏单元、用于生物统计学核实的写入装置。

但是,这些先有技术的系统无法提供可容易地在商业上实现、有效以及特别可靠的签名验证/核实系统。另外,随着因特网的使用增长,对于无数的应用和事务,特别需要在线准确可靠地验证签名。

本发明的另一个目的是,最好通过执行实现分级图标缩放以转换签名原始数据的预定义的处理部分使计算时间和计算机存储资源最小化。在可供选择的实施例中,最好用“什么/哪里”网络代替所述分级图标缩放处理。

本发明的又一个目的是实现无监督神经网络以分析分级图标缩放级的输出。本发明还有一个目的是提供分析神经网络的响应的至少一个阶段的分量积分。

本发明的另一个目的是,在第二阶段的分量积分中实现改进的π神经元,以此可进行改进的响应分析。

本发明的又一个目的是,在签名验证系统中实现用以评定过广义化并且有效地抵制其影响的方法。

按照本发明,提供签名核实系统,它进行概念的独特合并以获得所要的核实与验证分析。一个概念是递归缩放,它是获得签名数据并且将其转换成高维空间中的一组向量的处理。另一个概念是累积归一正交化处理的执行,它是一种用于计算包含高维空间中的一组点的相关椭球或球的新方法。在描述且结合许多其他概念以获得本发明的同时,上面刚刚提到的两个概念,或者单独地、或者与这里描述的其他发明特征结合,至今从未被用于签名核实或验证系统中。

如前面所讨论的,本发明用于(1)核实和/或验证用户的签名防止伪造和/或(2)用生物统计学识别和/或证实某个特定的人。本发明的方法和装置(系统)分两个阶段工作。在第一阶段、或称学习阶段,系统学习识别用户的签名。对于这个阶段,用户提供其签名的几个可重复样本。系统则分析这些样本,识别其重要特征,并且学习识别签名本身和辨别书写该签名的方式。在第二阶段、或称用户核实阶段,系统确定输入的签名是否与在第一、或学习阶段获得的样本匹配。

因此,按照本发明,显然更难以成功地伪造某个签名,因为伪造者不仅必须知道签名看上去如何,而且还要知道如何书写签名。因此,本发明的系统作为生物统计学验证装置和方法还是非常有用的。

一般来讲,本发明包括五个主要子系统:输入、递归缩放、无监督神经网络以及分量积分器。下面将简要地讨论其中的每个,并且在详细描述部分中作详细阐述。

(A)输入。输入部分使用输入装置,例如,鼠标、笔或者图形输入板来接收签名,并且产生签名的描述。签名的描述最好是时间与在输入装置的X-Y坐标中相应位置的列表。

(B)递归缩放。递归缩放特征起到多种作用。首先最好是把签名转换成标准形式。这一点是需要的,因为同一个人的几个签名几乎从不相同。例如,签名可能会小些或大些、拉长或者略有旋转。为了识别这些“相同”签名中的任何一个,需要系统忽略这类差异。通过把签名转换成不随签名大小或旋转而定的格式,系统可以忽略这些因素,因而可以更准确地比较签名。

从递归缩放得出的另一个特征是,签名转换成一种容易被下游神经网络处理的形式。因为无监督神经网络(在本发明中实现的)学习识别高维空间中的向量集,本发明最好用这种集来表示签名。也就是说,本发明的递归缩放特征把时间/位置表示转换成高维空间中的向量集。

(C)无监督神经网络。无监督神经网络是能学习识别空间中向量聚类的神经元的集合,其中每个神经元识别一个聚类。网络最好工作在至少两种模式下。在学习模式中,神经元学习识别聚类或者其部分,在响应模式中,每个神经元响应很可能属于其学习识别的聚类中的向量。在最佳实施例中,椭球神经元用于识别椭球聚类。在另一个最佳实施例中,实现气泡状神经元以识别圆形的聚类。

(D&E)分量积分器,第一和第二阶段。在学习阶段,分量积分器分析网络对样本签名的响应。在核实阶段,分量积分器把网络对签名的响应与在学习过程中收集的数据相比较。如果“强”匹配存在,则认为签名是真实的。否则,认为签名很可能是伪造的。

图2表示可用于本发明的各种类型的定位设备。

图3描述按照本发明、对样本签名所取的两个间隔。

图4表示按照本发明的递归迭代

图5说明按照本发明的专用椭球神经元。

图6表示按照本发明的主要椭球方向。

图7表示按照本发明、沿Ui,i=1、2…n的投影距离的变化。

发明的详细描述以下提供对本发明的最佳实施例的详细描述,首先从这里用到的各种术语的定义开始。

定义软计算-软计算是一种当算法不可用或者无法对其定义时、通过其解决问题的方法。

神经网络-一种软计算系统,它通过使用自适应局部分解节点来解决问题。每个这种节点具有多个输入线(在人类神经元中称为“树突”)和一条输出线(在人类神经元中称为“轴突”)。节点学习响应在输入线(“树突”)收到的输入图形。

自组织神经网络-一种神经网络,它学习识别输入图形的特征并且在没有外部干预下隐藏相关性。

内蕴几何学-一种数学理论,它处理几何对象的测量使得测量不依赖于任何坐标系统。通常由微分几何学和爱因斯坦的广义相对论(Ricci曲率=Rkjgkj)研究的值是固有标量。内蕴几何学可由张量和旋量来表示(规范理论),但是也可以由使用张量和旋量的高阶神经元来表示。在基于自组织神经网络的新广义相对论的发展中也是很有价值的。

广义化-识别不同于所学图形、但与所学图形具有共同特征的图形的能力。这是神经网络最重要的优点。它代表一种类型的数据压缩。它把神经网络转变成解决以前未遇到的问题的系统。

“什么/哪里”神经网络-一种至少有两层的神经网络。每层均为神经网络。第一层通常是由不同大小的感受野组成。这些感受野可具有不同的形状,但通常使用一种共有的形状,如盘(填充圆)。在感受野内的输入树突变成第一层的输入。这层称为“什么”层。通常“什么”层是由构成自组织竞争神经网络的高阶神经元组成的。“哪里”网络扫描经过感受野的原始或处理过的图案(或者输入掩模-预定形状的连接的像素)。它使用“什么”网络作为查用表,由此通过不同的“什么”神经元来识别图案上的不同区。为了广义化,“哪里”网络的分辨率低于图案的分解率。“哪里”网络的输出可以变成下一个“什么/哪里”层的输入。这种描述作为Infilight Soft ComputingLtd.的独特解释是典型的,因而可能与通常的定义有所不同。

双线性型的“本征值”-向量V的值,对于其双线性型的表示矩阵A是对的。

双线性型的“本征向量”-基向量,其中双线性型的双线性表示矩阵A是对角的。

对角化-一个借以使双线性型表示矩阵A变成对角的过程。

主分量-这些是相关矩阵的“本征向量”。

高阶主分量-可借以将高阶张量部分地对角化的向量。通常三阶或三阶以上的张量无法被对角化(张量Aijk无法被表示成Akkk=λ,并且对于i≠j或者i≠k或者j≠k,Aijk=0)。

相关矩阵-随机变量相关的矩阵,对于其Aij等于Exixj-Exi*Exj。

无界增长-其中神经元的内值增长太快的不希望有的现象。这个问题可能导致竞争神经网络变成单神经元网络(因为其他神经元从未获胜/学习)。这个问题也称为退化。

π神经元-其中使用乘法代替采用对输入树突求和的神经元。这个神经元通常用作统计“与”算子。

短暂积聚神经元-对输入值执行积分算子的神经元。在我们的模型中,我们仅使用一阶神经元。在生物学中,这种神经元位于丘脑(中脑内的一个区域)中,并且对于原始生物功能具有重要的作用。德国的Lautenbauscher博士已经做了关于疼痛及短暂积聚的重要研究。[Somatosensory and Motor Research(1995)第12(1)卷第59至75页,由Lautenbauscher,Roscher,Strian发表的“脉动加热引起的紧张疼痛:短暂积聚机制”]。

Oja-请参考Martin Beckerman的“自适应协作系统”第319页-8.11.5,第320页-8.11.6(1997年由John Wiley & Sons,Inc.出版,ISBN0-471-01287-4)。

Linsker-请参考Martin Beckerman的“自适应协作系统”第319页-8.11.5,第320页-8.11.6(1997年由John Wiley & Sons,Inc.出版,ISBN 0-471-01287-4)。

分量积分-神经网络通过其来检验一个完整图案的不同部分是否同时存在的过程。

随后,将详细描述本发明的系统。最佳实施例的描述本发明的签名验证/核实系统引入了把无监督神经网络用于签名验证/核实的新概念。本发明包括利用不同的无监督神经网络之间的协作的自适应协作系统。主进程分成五个阶段。每个阶段执行一个图1中所示的主要子进程。如图1的说明实例中所示,主进程分成如下的五个阶段或者五个子进程:A-签名抽样-如图1的标号100处所描述的,系统对签名抽样。签名抽样是通过把手的移动转换成位置的输入设备来完成的。最常见的设备有鼠标、类鼠标装置、压敏衬板、图形输入板、指示笔和/或电子笔。签名抽样子系统收集设备数据,并且产生时间/位置对的列表。

人们注意到,一些输入设备也可以感测压力。尽管由于在签名中同一地方不同的人用的压力不同,这个信息可被用于验证,但是由于许多输入设备不支持压力测量,为了可靠的结果,本发明不依赖于压力变量。另一方面,可以通过增加压力测量来进一步改进本发明的系统。

最好是,输入设备提供足够详细的信息来支持本发明的系统。特别是,最佳的信息率是每秒至少约40个样值。如果抽样率较低,一般信息不足以表现签名的特征。另外,签名抽样进程应该占用大约一秒或一秒以上。

B-预定义进程-系统把原始数据转换成高维向量,即图1的部分200。这些向量代表所学签名的生物统计学及几何特征。这些向量表现了独特的“什么/哪里”分析,与并行协作的“什么/哪里”神经网络分析不同。该方法倾向于抽取内在的几何相关性。

更具体地说,在预定义进程中,执行递归缩放处理,由此把签名抽样所产生的时间/位置对重组成一组高维向量。递归缩放的所有结果是相对于样本签名的。通过使用相对测量,避免了对大小和旋转的依赖关系。

通过递归地聚焦于签名的越来越小的细节,产生每个高维向量。在处理中的每一步看到更小的细节(由更短的时间间隔来定义)并且产生向量中的更多坐标。可以为放大以及坐标生成设计各种方案。但是,在本发明的最佳实施例中,预定义进程最好用13次迭代产生26维向量。如下产生向量:(a)在第一个迭代中检验的时段是在签名时间的50%至70%之间(2%的步长);(b)在第二至第十三个迭代中检验的时段是前一个迭代中检验的时段的70%;而(c)每个迭代中的时段或者在前一个迭代的时段的开头、或者在其结尾(但不在中间)。

每个迭代为向量增加两个坐标。从在检验时段起始的输入设备位置与在检验时段结尾的输入设备位置之间、沿X和Y轴的差值来计算这些坐标。为避免对签名的大小的依赖关系,用在前一迭代中检验时段的起点和终点的输入设备位置之间的距离除所述位置间的差值。另外,最好设有防止被零除的算法。应当注意,上述检验的时段的百分比和迭代次数仅是本发明的一个实施例的示例。理论上讲,可以使用更高的(检验时段的)百分比和更高迭代,这将会产生更佳的结果。但是,这种百分比与迭代的增长需要增加的计算及系统容量。因此,在目前的技术和经济状况下,考虑到经济成本,上述实施例已被证明可提供足够准确的结果。

C-无监督高阶主分量提取-在标号300处,系统学习由这样产生的高维实数空间-Rn中的向量所形成的聚类。系统在独特方法中使用主分量椭圆提取。主分量(相关矩阵的“本征向量”与“本征值”)是用累积归一正交化的几何方法计算的。这种方法免去了相关矩阵及其对角化的使用。另外,主椭球主方向的向量不需要双精度8字节变量。仅“本征值”需要双变量型。由数字条件而不是用诸如Oja方案或Linsker模型的方案解决了椭球无界增长的问题。这种数字条件消除了对“太大”神经元的惩罚规则的使用。

换言之,在图1中,无监督神经网络300中的神经元310学习识别在高维空间中的向量的聚类。类属学习方案是把向量馈送到网络中。最接近新增向量的神经元将其加至它识别的聚类中,并且修改聚类的位置和大小以反映从增加的新向量获得的信息。系统使用“标准”神经网络,但有两个变化。第一个变化是无界增长规则,它用以防止神经元增长太多、以致于把所有向量识别为属于单个聚类。本文稍后将更详细地说明此规则。

第二个变化是用于找出合成椭球的独特处理。当使用椭球神经元时,每个神经元学习识别椭球形聚类。问题是神经元不得不找出椭球的主方向和大小。

找出椭球的主方向的标准方法是计算沿每个轴的向量分布的相关矩阵。这种矩阵的本征向量是椭球的主方向。矩阵的本征值是向量沿每个主方向的方差。当取椭球的尺寸为沿每个主方向的标准偏差的两倍时,椭球覆盖了95%的向量,由此确定聚类。

这种方法的主要缺点在于,无论何时把新向量加入网络,都要更新相关矩阵并且求出本征向量。但是,对于大矩阵,这种处理是非常耗时的。

因此,按照本发明,提供一种称为累积归一正交化的方法,它是找出椭球和/或球的主方向和大小的独特方法。该方法基于这样的观察,即椭球的一个半球内的所有点的均值指向主方向。为了计及在聚类中的所有向量,累积归一正交化方法计算在一个半球内的所有向量的平均值以及在另一半球内的相反的向量的平均值。为找出椭球的另一主要方向,重复该处理,但是每一次,从向量中减去沿着至此找出的主方向的分量。再把尺寸计算为沿主方向的向量分量的标准偏差的二倍。

为避免无论何时把新向量加至网络都需要对所有向量求平均值,系统假定新点不会太多地改变平均值,因此,系统可以依靠在加入前一个向量后找出的方向和尺寸。这种假设隐含的是,所找出的椭球为真正椭球的近似。这种近似随着向量数的增加而变得更好。几百个向量产生对于所有实际目的足够的近似。

应该注意,由递归缩放子系统进行的聚类分析表明,这些聚类趋向于一个圆。就这点而论,椭球神经元并不优于圆形/气泡状神经元。实际上,已经发现气泡形神经元的优势在于它们是对称的,因而,不需要找出主方向,因此改进了学习时间,减小了实现该系统所必需的存储量。另外,球的半径是神经元对其赢的向量的距离的标准偏差。因此,可以作为替换把这种圆形/气泡状神经元用于本发明的其他实施例中。球的半径最好仅用于分量积分-第一阶段的处理中。由于通过预定义进程、即递归缩放形成的聚类的特殊性,这是可能的。但是,由于椭球神经元提供了提高的精度(尽管这种提高可能是小的),本文会更详细地讨论使用椭球神经元的实施例。关于这点,本专业的技术人员应该明白,可容易地把关于椭球神经元所讲的理论应用于圆形/气泡状神经元。实际上,可把圆形/气泡状神经元当作这里讨论的椭球神经元的特殊实施例。

D-分量积分-第一阶段-分量积分400是一种用于检验所学签名的几何与生物统计学分量是否也存在于被比较的签名中的方法。

这种方法依靠如下三种类型的独特神经元:D.1-短暂积聚神经元,410D.2-平均短暂积聚神经元,420D.3-π-神经元,430D.1)在分量积分-第一阶段,每个短暂积聚神经元410学习椭球内的向量数与向量总数之间的关系。它记住这些比值的平均值和标准偏差。

D.2)第二类型的神经元、平均短暂积聚神经元420,学习向量在椭球内的平均距离。它学习这些平均值的平均值及其标准偏差。

D.3)π-神经元430把最后两种神经元的统计距离相乘。

E-分量积分-第二阶段-这个神经元是改进的π-神经元500,其中,与把未处理的值相乘的常规π-神经元不同,它将其输入树突按照强度的降序排列,找出其相乘值小于一的最小排列下标。最大最差情况是当这个下标具有其最大值时发生的。这意味着,太多短暂积聚和平均短暂积聚神经元报告了大的标准偏差。设置非优势特征提取装置510,它通过乘标准偏差或方差的排序后的值来提取偏差最大的。

作为这种分析的结果,系统从被比较/学习的原始签名计算异常偏差。

在更广义化的说明中,分量积分器的目的是把神经网络对签名的响应与神经网络对在学习阶段中提供的样本的响应匹配。对于每个签名,并且对于每个神经元,计算神经元对签名的响应。用两个数值来表示神经元对签名的响应。第一个数值,称为“全程响应”,是神经元响应的向量的百分比。第二个数值“局部响应”,是从神经元响应的向量到该神经元中心的距离的平均值。

分量积分器通过神经元对签名的响应与对样本签名的平均响应偏差多少来测量。然后把这些数值送至改进的π-神经元500,后者的结果是在签名与学习阶段中提供的样本之间匹配的测量。改进的π-神经元是工作在两种方式下的部分。在学习方式下,他们学习其具有的有效输入的数量,而在工作方式下,他们输出有效输入的乘积。以下是对本发明这方面的更详细说明。

再次注意,上述讨论仅是本发明的一个实例。这份公开的剩余部分是针对按照本发明的实施例的以上子系统或者部分中每个的全面数学讨论以及最终整个系统作为一个整体怎样工作、包括学习与比较之间的差异。

数学及综合描述本发明的签名识别系统包括如下的五个子进程或子系统:A-签名抽样,100。

B-预定义进程-生物统计学与几何分析,200。

C-高阶主分量提取进程,300。

D-分量积分-第一阶段进程,400。

E-分量积分-第二阶段进程,500。

A-签名抽样进程本发明中的抽样最好是由带有任何附加的标准输入定位设备、如图2中所示设备21、22、23、24或任何其他类似设备的个人计算机20来完成。在个人计算机20上运行的应用程序以足够高的恒速,最好是大约每隔7毫秒,(通过使用高优先级线程)对人的签名进行实时抽样。在最佳实施例中,仅当点击事件发生时才启动签名抽样进程。对下列三维值抽样:X-x坐标。

Y-y坐标。

Δt-从恒定抽样率得出。

把这些三维向量缓存在原始数据数组中。在原始数据数组的长度上各个签名可以不相同。顺便提一下,通过计算两个不连续点之间的距离,也可以依靠点击值作为附加的特征。另外,如上面提到的,由于许多输入定位设备不能对压力抽样,在本发明的最佳方式中不需要监视压力。但是,使用适当的设备对压力值抽样,可以确定第四维。并且,通过使用这个新增的维可以获得甚至更准确的签名识别。

B-预定义进程-生物统计学与几何分析在这个进程中,目的是把三维原始数据向量转换成高维向量。在该具体应用程序中,转换进程把三维向量转换成26维向量。通过对签名的时间区间进行分级缩放,产生转换向量。例如,抽样的签名包括201个点,200个7毫秒的时间区间。对于这种签名,建立201个二维点的数组。该时间包含在从0开始直至200的数组下标中。

第一分级缩放将在从t0至tmax的时间区间上。系统使用如下几个分段率。假设分段率等于0.7,并且选择两个区间;一个区间在0毫秒至140毫秒之间,另一个在60毫秒至200毫秒之间,如图3所示。这两个时间段代表一个迭代。本发明中实行的用于分段的规则最好如下。第一区间下标为:区间I=1,a=(起始下标,起始下标+(结尾下标-起始下标)×0.7)区间I=1,b=(结尾下标-(结尾下标-起始下标)×0.7,结尾下标)分段过程是递归过程,它在每个父时间上重复13次缩放迭代。这个过程可被认为是“什么/哪里”图标转换。每个迭代计算是基于同一个分段率。在图4中表示出右边分支的递归迭代。

为了稳定性,以不同的分段率重复该处理,一次是以0.5(即两个时间区间之间无重叠),接着是以0.52,接着是以0.54等等,一直到0.7的分段率。每个迭代记录由终点减去起点而产生的二维向量。不同的向量除以父迭代向量的长度(设有防止“被零除”算法)以检测内在的签名大小的不变比例。这个过程探究比例几何与生物统计学关系。

在本发明的最佳实施例中,缩放比例被定义为2/n的13次方根,其中n为分离的(x,y)点的数量。这个实施例确保在13次迭代后,时间区间在两个连续样值之间。例如,假定签名包括200个(x,y)点,则(2/200)的1/13次方大约是0.7。这意味着,在每次迭代中时间区间被按照0.7的因数缩短。本实施例特别期望有相对长一些的签名。具体来说,在这种较长的签名中,最后的迭代在未完成本方案之前会到达太长的最后时间区间,由此系统变得对长签名曲线的局部特征不够敏感。

但是,按照本发明的最佳实施例,系统截取长的签名。这不会阻碍验证过程,因为在长签名中有足够的特征,所以补偿了(由不稳定截取引起的)签名结尾处的不稳定性。因此,在其他签名识别系统可能要实现更多神经元的情况下,本发明以有限数量的神经元、或许仅仅基于产生三至五个拉丁字母的手势获得足够的可靠性。

人们注意到,在本发明的本实施例中,所用的神经元数是32并且由神经网络分析的向量空间的维数是26。递归缩放的每次迭代产生二维向量并且执行13次迭代产生13×2=26维。但是,在可选择的实施例中,根据想要的精度和系统容量,也可以使用不同数量的神经元和不同维数的向量空间以及不同数量的迭代。因此,这里讨论的实例不应被看作对本发明的限定,而仅是一个示例。

上述过程把三维原始数据向量转换成26维的高维向量。这26维是从13个递归区间(放大)的集中产生的,每个区间的结尾-起始向量具有x与y坐标,并且最好把这些坐标记录在缓存器中。每次当递归过程到达最大深度13时,缓存器变满。每个迭代填充缓存器中两个位置。在最佳实施例中,当缓存器满、即有26个值时,把它写入顺序记录文件。整个递归过程最好仅持续几秒。

这个过程并不总产生相同的向量;但是,可以把整个组的向量表示成26维点的聚类的一致化。这些点不仅仅是分散于R26中。稍后讨论的”改进的π神经元”良好地处理了聚类并不总是重复的事实,它是神经网络的最后处理阶段。实际上,聚类的不可重复性是改进的π神经元的动机。预定义进程的输出文件变为神经网络300的输入。

在人类模拟中,预定义进程作用就象脊椎动物的视皮质中的早期视觉阶段。

C-高阶主分量提取进程在无监督神经网络300中,通过实现提取主椭球方向的几何学的方法,执行主分量提取。这种神经元称为二阶神经元。该神经元使用高维椭球学习识别高维点的聚类。每个神经元使用一个专用椭球。作为实例,在图5中表示出这种椭球。在此图中,容易看到,所描述的椭球具有两个主方向(按照点的平面二维聚类)。

在本发明的无监督神经网络中,神经元识别接近的点,后者形成聚类并且以预定速率逐渐向聚类中间(通过对聚类的点求平均值来计算聚类的中间)移动其中心点。通过竞争自组织来完成这些。用神经元所学的每个新点来逐渐更新椭球的主方向。在下面的段落中描述这种独特的技术。

通过独特的“累积归一正交化”技术来完成椭球主方向提取。

让V表示神经元的位置值(椭球的中心点)与新学习的值之间的差值向量。让P表示n维中的神经元的位置(椭球的中心点)。让U1,U2,…Un表示主椭球单位方向。并且,让λ1,λ2,…,λn表示在主椭球方向上的聚类点的投影方差。在图6中表示出这些定义的值中的每一个。

重要的是要注意, 计算的值(其中λ表示方差)影响到包括在该范围内的样值空间的大多数(95%)。

假定λ值是相关矩阵的本征值。为避免使用常规的高时间复杂性的相关矩阵及其对角化,采用以下新技术,由此简化主方向提取。

λ的数学值是沿Ui,i=1,2,...n单位方向的投影距离的方差。在图7中表示出对于i=2的实例。在以下部分以及相关示图中,m表示所学习向量(样值)的数量。

把这些Ui设置成普通基数的倍增的初始值以便避免太小的椭球。例如,U1=(100,0,0,0,...),U2=(0,10,0,0,...),U3=(0,0,100,0,...),...等。

更新过程从i=1开始直至i=n,(在26维中,n=26)。

U1将作为最高主椭球方向;U2作为第二椭球方向等。

把项:[V*<V,U1>]加在:[m*λ1*U1]上,其中m是所学习的向量的数量。(原来的m*λ1*U1实际上是平方的椭球主方向)。

让新的主平方方向为由Y来表示的向量,其中Y=V*<V,U1>+m*λ1*U1另一种定义Y的方式是:Y=V*Sign(<V,U1>)*‖V‖+m*λ1*U1,其中‖V‖是V的模方。

如果在U1上的投影、内积<V,U1>是负的,则所加的向量V*<V,U1>指向由U1指出的正半球方向。正半球是使<Z,U1>>=0的所有Z向量。

如果<V,U1>是正的,则V*<V,U1>向量也在由U1构成的正半球中。这意味着,所有求和不能互相取消,但是最好工作在累积方式下。这是累积归一正交化技术的基础

新U1向量为U1=Y/|Y|。因此,它是一个新单位向量。

把新λ1计算为:(m*λ1+<V,Y/|Y|>2)/(m+1),其中m为神经元已经学习的以前的点的数量。这意味着,把新平方和加在U1方向上投影平方的旧和上。所以m*λ1实际上是所有平方之和。

λ1=第一主方向上的投影平方之和除以所学习的向量(样值)数。新m*λ1*U1向量是新的平方主椭球方向。

然后,进程进行到U2...。

把V*<V,U2>加至m*λ2*U2。

又得到Y=V*<V,U2>+m*λ2*U2。

或者,以另一种方式,V*Sign(<V,U2>)*‖V‖+m*λ2*U2。

然后,最好保持Y垂直于已计算的U1。

于是,算出新向量Z=Y-<Y,U1>*U1。

由此,减去与U1平行的Y的分量。

然后将Z归一化并且得到新的U2=Z/|Z|。

把新λ2计算为:(m*λ2+<V,Z/|Z|>2)/(m+1)。以该方式把新U2上的投影的平方值加在m*λ2上并且除以m+1,使得λ2刚好为投影平方的和除以所学习的向量(样值)数量。

进程继续,把V*<V,U3>加至m*λ3*U3。

又得到Y=V*<V,U3>+m*λ3*U3。

或者,以另一种方式,V*Sign(<V,U3>)*‖V‖+m*λ3*U3。

然后,在以前的主方向上减去投影,所以:Z=Y-<Y,U1>*U1-<Y,U2>*U2。

新U3单位向量刚好是新U3=Z/|Z|。

又刚好把新λ3计算为:(m*λ3+<V,Z/|Z|>2)/(m+1)。

这个过程持续进行,直至更新了所有主椭球方向。在计算了最后的主方向之后,该过程到达其终点。

另外还保留变量P。P是所学习的向量的平均值,并且还是用作神经元位置的附加点。这可能听起来有些不寻常,但是显然,当把P用于椭球计算和L(神经元位置)用于竞争时,改进了网络鉴别。这个过程也使用L接近P的速率。按照本发明,L不向新学习的点移动而是向所有学习的点的均值P移动。

尽管这种二元性可能使用额外的存储器,但由此获得的好处超过了任何表面上的不足。

在最佳实施例中,在无监督神经网络300中设有防止无界限增长规则。通过这些规则,排除了一个占优势的获胜椭球(学习太多数据)的情况,或者,另一方面,变成退化的椭球。每个椭球具有一个获胜计数器。无论何时神经元获胜,计数器就递增。如果获胜的神经元胜过近处的相邻者两次以上,神经网络变得更不具有竞争性。在该阶段下,也要以满足条件的距离、为输入向量更新相邻者。

(离获胜神经元的最小距离)/(距相邻者的距离离)>=0.7。

只要一个神经元获胜“太多次数”,则网络的作用象Kohonen网络一样。该条件起到强化弱神经元的作用,因而作为构造性条件。重要的是,对于连接的聚类它是个好的条件,但并不总是适合于分散在不连接的聚类中的Rn中的数据。

总而言之,在本高阶主分量提取进程中,无监督二阶椭球神经网络学习了签名的拓扑结构。所学的签名的拓扑结构包括生物统计学和几何特征。

D-分量积分-第一阶段进程在二阶神经元(高阶主分量)学习R26中的数据向量的拓扑结构完成后,分量积分400开始。

再次把所有样本签名一个接一个地送至系统。该进程使用这些签名,并且为核实将来要比较的签名中是否保留了几何与生物统计学特征建立基础。

二阶椭球神经元保持固定,同时,对于每个签名以及对于每个二阶椭球神经元学习两个统计测量值,如下:进程学习椭球内的向量数量与向量总数之间的比例r。它学习r的平均值以及r的标准偏差。关于样值签名的数量来计算r。这个计算r的进程叫作短暂积聚。

第二进程对椭球内的所有向量的距离取平均值。距离是从椭球中心开始测量的。这里,让s表示这个值,当测试所有的样本签名时,进程学习s的平均值及其标准偏差。关于样值签名的数量来计算s。这个计算s的进程叫作平均短暂积聚。然后把这些计算的值传到常规的π神经元430。

因此,简言之,由短暂积聚和平均短暂积聚来完成的数据积累被用作从大量向量中、不必从任何最佳聚类/气泡中提取数据的方法。即使神经元错过聚类的中心,短暂积聚和平均短暂积聚也是有用的。

E-分量积分-第二阶段进程然后把所有样本签名一个接一个地送至改进的π-神经元500以便用于下一步的分量积分。参照上一部分的最后一段,对于每个签名和对于每个二阶神经元,计算两个值。

A=(平均r-当前签名样本r)2/(r的方差)B=(平均s-当前签名样本s)2/(s的方差)每个椭球的输出值为A*B的乘积,其中B-度量局部结构偏差,而A-度量全程结构偏差。

进程把这些值作为独立几率处理。这是采用乘法的原因之一。另一个更基本的思想是A*B通常比A+B或者A或B更稳定。这可以从实验中看出。

对于每个二阶神经元,结果A*B是最后的神经元、改进的π-神经元500的输入。它又是一个乘法神经元。

让我们把每个椭球的A*B的值表示成Xi,使得i=1,2,..k,其中k等于神经元的数量。Xi值以降序排序,其中X0是最大值。神经元开始将Xi相乘直至乘积小于1。如果没有达到这种条件,则放弃该签名。

记住满足X0*X1*...*Xi<1的第一个i。改进的π-神经元500学习i的最大值。在最大i上加上1或2的值,由J表示新的i+1或者i+2的值。

当系统比较新签名时,对Xi值排序并且计算直至下标J的乘积。如果相乘的值大于1,则系统识别该签名为假的。

按照本发明的改进的π-神经元背后的构思包括:(1)乘法是验证同时出现的签名特征的方法(乘法类似于“与”算子)和(2)最好避免太多小值相乘,这可能导致错误的验证。

乘法允许所检测的签名的特征有偏差,只要仍然有足够的、只有拥有该签名的人才有的特征。

改进的π-神经元的特征所需的Xi的数量,即二阶神经元的数量,取决于签名的复杂性。例如,对于鼠标实现的签名,一般20个神经元是足够的。另一方面,对于经数字化衬板发出的长签名,32至40个神经元更好。

过广义化的估计在上述五个主要部分100、200、300、400和500之外,本发明最好还实现用于评估过广义化的标准。过广义化是其中所学签名的不可重复性或过简单性可能导致系统把假签名当作真的来认可的情况。通常,如果从例如签名的7个字母中剔除1个,系统仍会可靠地识别该签名。通过改进的π-神经元中存在的补偿处理,使得这种所需的系统特性是可能的。

如果在原始签名中的太多变化仍被接受,则称系统为过广义化。由短暂积聚和短暂积聚神经元学习的标准偏差,最好应该具有与平均值相比较小的值。为确保不存在过广义化,分量积分-第一阶段400的一半的神经元满足下列条件就足够:平均值*平均值/方差>50(或其他预定义的阈值)在最佳实施例中,系统要求,(32*2=64中的)至少10个(短暂积聚和平均短暂积聚)神经元满足这样的条件。可以对于分量积分-第一阶段的64个中的至少16到32个神经元、实行更严格的要求。

重要的是要注意,本发明的系统实现了用于评估过广义化的方便的特殊工具,这种工具、即使曾经被结合到其他签名识别系统中,也是很少的。实际上,这种工具的实现是分量积分进程的结构的直接结果。

消除过广义化神经元所用的标准如上所述,本发明的签名核实系统最好使用以下条件以消除过广义化的短暂积聚和平均短暂积聚神经元:平均值*平均值/方差>预定义的阈值。即,方差最好相对低一些。表1表示用不同的签名训练了10次的神经网络的统计值。预期该网络不含有信息。

表1

另一方面,与表2的用同一个人的10个重复签名训练过的网络的值对比,可以看出,神经网络表现出有意义的统计值。这个分析表明分量积分实现的统计学基础。它还表明消除过广义化神经元所用的标准的合理性。

表2

本发明的系统具有两种方式,一种用于更新神经网络权数(学习方式),一种用于将新签名的特征与已学习的特征比较(比较方式)。

学习方式-阶段1签名抽样-系统对签名抽样。

预定义进程-系统将原始数据转换成高维向量。

无监督高阶主分量提取-系统学习由在高维实数空间-Rn中的这些向量构成的聚类。

学习方式-阶段2签名抽样-系统对签名抽样。

预定义进程-系统将原始数据转换成高维向量。

无监督高阶主分量比较-这个过程不会更新椭球的主方向,它仅向下一层馈送。

分量积分-第一阶段-学习s和r的平均值及其方差。

学习方式-阶段3签名抽样-系统对签名抽样。

预定义进程-系统将原始数据转换成高维向量。

无监督高阶主分量比较-这个过程不会更新椭球的主方向,它仅向下一层馈送。

分量积分-第一阶段-这一层计算A和B及其乘积。

分量积分-第二阶段-改进的π-神经元学习下标J。通过以上三个阶段,学习进程结束。

比较方式这种方式仅有如下一个阶段:签名抽样-系统对签名抽样。

预定义进程-系统将原始数据转换成高维向量。

无监督高阶主分量比较-这个过程不会更新椭球的主方向,它仅向下一层馈送。

分量积分-第一阶段-这一层计算A和B及其乘积。

分量积分-第二阶段-改进的π-神经元计算最多到且包括下标J的A1*B1*A2*B2*...*AJ*BJ的乘积。相乘的刚好比最差的情况最大下标高一个或两个下标数。

相乘的结果应该小于1。如果它大于1,就意味着新比较的签名与所学签名不同。1与100之间的结果指明一个灰色范围,后者通常意味着,存在一些类似,但不足以确定该签名不是伪造的。当然,所执行的实际尺度或准则取决于特定的需要。

由于所有上述内容,容易看出,本签名识别系统与先有技术的系统不同。具体来讲,早期的预处理是由算法、而不是由神经网络来执行的。之所以这样做是为了减小存储器和磁盘空间需要。另外,预处理实现分级图标缩放处理,以便转换来自签名抽样子进程的签名原始数据。在可选择的实施例中,如果生物统计学数据不可用,预处理由“什么/哪里”网络来代替。在最佳实施例中,把签名原始数据转换成26维高阶向量。

在本发明的神经网络方面还有重要的改进。具体来讲,(1)系统中数据存储最好仅仅在自组织神经网络中。(2)在二阶神经元中使用训练/学习的几何方法。不存在明确的对角化。没有明确使用相关矩阵。由此,计算变得快得多。这是非常重要的,因为自组织神经网络通常需要许多迭代,因而是耗时的。(3)二阶神经元向一阶神经元的另一层馈送。这个概念与其中高阶神经元是最后的“公共汽车站”的模型相对立。(4)π神经元用于分量积分阶段。这在神经网络中并不十分常见,迄今在采用神经网络的签名识别系统中是未知的。(5)所用的最后输出π-神经元不是普通的π-神经元。它是将输入值排序,然后计算直至“稳定性下标”的乘积的神经元。(6)最终,本发明实现了协作无监督神经网络。相反地,众所周知的先有技术的签名识别方案通常使用受监视神经网络。

注意,可以或者在个人计算机或巨型计算机、或者其任何组合上充分地实施本发明。另外,这类计算机最好以常规方式连接到互联网以方便在线事务。

尽管已经参照最佳实施例描述本发明,但是本专业的技术人员应该明白,只要不背离本发明的范围,可以做各种变化并且可以用等效物来替代其各部分。例如,如前面提到的,可使用圆形/泡状神经元来代替椭圆形神经元。另外,在不背离本发明的基本范围的情况下,可以做出许多修改使特定的情况或材料适应于本发明的原理。而且,可以使用与上面讨论的实施例不同维数的向量和不同的迭代,以增加准确性或者如系统要求所需要的那样。因此,发明人的意图在于,本发明不限于作为实现本发明的预期最佳方式而公开的特定实施例,而是本发明包括在所附的权利要求书范围内的所有实施例。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈