首页 / 专利库 / 人工智能 / 置信度 / 邮政编码数字串识别方法

邮政编码数字串识别方法

阅读:749发布:2024-02-14

专利汇可以提供邮政编码数字串识别方法专利检索,专利查询,专利分析的服务。并且一种邮政编码数字串识别方法,包括如下步骤:将N个邮政编码字符序列的图象X=(x1…xn…xN)分别输入到K个独立的单字识别分类器ek,每个所述单字识别分类器ek将输入的字符图象xn识别为邮政编码{c1…cm…cM}中的一个,或者拒识,计算当识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’);根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X);其中D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码;根据概率p(D|X)决定输入模式的识别结果。本 发明 邮政编码数字串识别方法,其识别表决规则根据各分类器本身的特性,发挥了各个分类器的优点。通过对大量样本的统计获得每个分类器识别性能的先验知识,将其作为投票表决的依据,使识别组合结果达到高识别率和高 置信度 。提高了邮政编码数字串识别的准确率。,下面是邮政编码数字串识别方法专利的具体信息内容。

1、一种邮政编码数字串识别方法,包括如下步骤:
(1)将N个邮政编码字符序列的图象X=(x1…xn…xN)分别输入到K个独立的单字识别分 类器ek中,其中N和K为大于1的正整数;
(2)每个所述单字识别分类器ek将输入的字符图象xn识别为邮政编码{c1…cm…cM}中的 一个,或者拒识,表示为c(M+1),其中M为大于1的正整数;
(3)计算当识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’);
(4)根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X);其中 D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码;
(5)根据概率p(D|X)决定输入模式的识别结果。
2、根据权利要求1所述的邮政编码数字串识别方法,其特征在于:所述步骤(1)中,邮政 编码字符序列的个数N为6;所述步骤(2)中,邮政编码{c1…cm…cM}为数字0至9中 的任意一个。
3、根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于:所述步骤(3)中, 识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’)的计算方法为,根据所述单字识 别分类器ek识别结果进行样本统计,形成所述单字识别分类器ek识别情况的混乱矩阵:
CM k = n 11 ( k ) · · · n 1 M ( k ) n 1 ( M + 1 ) ( k ) · · · · · · · · · · · · · · · n ij ( k ) · · · · · · · · · · · · · · · · · · n M 1 ( k ) · · · n MM ( k ) n M ( M + 1 ) ( k ) , k = 1,2 , · · · , K
其中nmm’ (k)表示所述单字识别分类器ek将Cm类中的样本识别为Cm’类的数量,其表示的含义 为:(a)当m=m’,ek正确识别Cm类中样本的数量;
(b)当m’=M+1,ek拒识Cm类中样本的数量;
(c)当m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量,
所述单字识别分类器ek的识别结果为m’=ek(x)的样本总数为:
n m ( k ) = Σ i = 1 M n i m ( k ) , m = 1,2 , · · · , M + 1
在所述单字识别分类器ek的识别结果为m’的条件下,样本来自Cm类的概率为:
P ( x C m / e k ( x ) = m ) = n m m ( k ) n m ( k ) = n m m ( k ) Σ m = 1 M n m m ( k ) , m = 1,2 , · · · , M .
4、根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于:所述步骤(4)中, 根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X)的方法为:
假设生成混乱矩阵CMk的样本足够多并且反映了识别结果的空间分布,将CMk作为分类器组 合时的先验知识,即以P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为:
             s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’)    i=1,2,…,M
假设邮政编码D出现的频度表示为f(D),则X来自D的得分按下式计算:
s ( d n | x n ) = 1 K Σ k = 1 K s ( k ) ( x n C d n )
S ( D | X ) = Π n = 1 N s ( d n | x n ) + Π n = 1 N Σ k = 1 K s ( k ) ( x n C d n )
最后X属于D的概率为p(D|X)=ef(D)·S(D|X)。
5、根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于:所述步骤(5)中, 根据概率p(D|X)决定输入模式的识别结果的方法为,
如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,并且p(D|X)>α,则X=D,
即识别结果为D;其中α是在拒识与错识之间取得折中的一个阈值
如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,存在D’属于Ω,并且p(D’|X) 的值仅次于最大值p(D|X),如果p(D|X)-p(D’|X)>β,这里β是常数,则X=D,即识别 结果为D。
6、根据权利要求5所述的邮政编码数字串识别方法,其特征在于:所述α和β的取值分别 为0.5和0.2。

说明书全文

技术领域

发明涉及邮政编码数字串识别方法

背景技术

光学字符识别技术经过几十年的发展,逐步走向实用,然而人们还是希望识别系统能够 达到更好的识别性能。为了提高识别率和置信度,人们越来越倾向于采用多信息源、多特征 提取和多种识别方法的组合来实现高性能的识别系统。
现有的邮政编码数字串多分类器进行组合的一种简单易行方法就是投票表决,如多数票 规则和完全一致规则等。但这些表决规则并没有考虑到各分类器本身的特性,实行的是“一 人一票”的原则。而实际上由于各个分类器使用的特征不同,基于的原理和方法不一样,或 者训练过程使用的样本不尽相同,每个分类器的识别性能有所差别,有一定的互补性,即各 个分类器对每个类别的识别能有一定的差别。
一般的多分类器组合关注的是对单个字符识别结果的组合,其目的是达到对单字识别效 果的最优化,其原理如图1所示,输入待识样本Xn经过K个识别分类器识别后,得到K个 识别结果Sn(k)(k=1,2,..,K),经过多分类器识结果组合决策后,获得最终识别结果Cn。对多分 类器的组合时不考虑字符串的前后关系,其将字符串中每个字符的组合识别序列(C1… Cn…CN)送到一个字典库,由字典库检验字符串的识别结果是否有效,如图2所示。
在某些实际应用场合,希望获得字符串的整体识别效果最优,而不仅仅是单个字符串的识 别效果最优,因为单个字符串的识别效果最优不一定表示字符串的整体识别效果最优。比如 说,在邮政编码的识别中,六个数字同时识别正确方可供自动信函分拣机使用,要求对整个 邮政编码数字串的识别效果达到最佳。

发明内容

本发明的目的在于提供一种基于知识库的多分类器组合的邮政编码数字串识别方法。
为达上述目的本发明采用如下技术方案,
一种邮政编码数字串识别方法,包括如下步骤:
(1)将N个邮政编码字符序列的图象X=(x1…xn…xN)分别输入到K个独立的单字识别分 类器ek,其中N和K为大于1的正整数;对于中国邮政编码数字字符串而言,N=6。
(2)每个所述单字识别分类器ek将输入的字符图象xn识别为邮政编码{c1…cm…cM}中的 一个,或者拒识,表示为c(M+1),其中M为大于1的正整数;邮政编码{c1…cm…cM} 为数字0至9中的任意一个,即有M=10。
(3)计算当识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’);
(4)根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X);其中 D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码;
(5)根据概率p(D|X)决定输入模式的识别结果。
作为本发明的一种优选方式,所述步骤(3)中,识别结果为m’时输入模式为cm的概率 P(x∈Cm/ek(x)=m’)的计算方法可以是如下方法:
根据所述单字识别分类器ek识别结果进行样本统计,形成所述单字识别分类器ek识别情 况的混乱矩阵:
CM k = n 11 ( k ) · · · n 1 M ( k ) n 1 ( M + 1 ) ( k ) · · · · · · · · · · · · · · · n ij ( k ) · · · · · · · · · · · · · · · · · · n M 1 ( k ) · · · n MM ( k ) n M ( M + 1 ) ( k ) k = 1,2 , · · · , K
其中nmm’ (k)表示所述单字识别分类器ek将Cm类中的样本识别为Cm’类的数量,其表示的含义 为:(a)当m=m’,ek正确识别Cm类中样本的数量;
(b)当m’=M+1,ek拒识Cm类中样本的数量;
(c)当m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量,
所述单字识别分类器ek识别结果为m’=ek(x)的样本总数为:
n m ( k ) = Σ i = 1 M n im ( k ) m = 1,2 , . . . , M + 1
在所述单字识别分类器ek的识别结果为m’的条件下,样本来自Cm类的概率为:
P ( x C m / e k ( x ) = m ) = n mm ( k ) n m ( k ) = n mm ( k ) Σ m = 1 M n mm ( k ) m = 1,2 , · · · , M
作为本发明的另一优选方式,所述步骤(4)中,根据P(x∈Cm/ek(x)=m’)计算X的识别 结果为D=(d1,d2,…,dN)的概率p(D|X)的方法为:
假设生成混乱矩阵CMk的样本足够多并且反映了识别结果的空间分布,将CMk作为分类器 组合时的的先验知识,即以P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为:
            s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’)i=1,2,...,M
假设邮政编码D出现的频度表示为f(D),则X来自D的得分按下式计算:
s ( d n | x n ) = 1 K Σ k = 1 K s ( k ) ( x n C dn )
S ( D | X ) = Π n = 1 N s ( d n | x n ) = Π n = 1 N Σ k = 1 K s ( k ) ( x n C dn )
最后X属于D的概率为p(D|X)=ef(D)·S(D|X)。
作为本发明的再一优选方式,所述步骤(5)中,
根据概率p(D|X)决定输入模式的识别结果的方法为,
如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,并且p(D|X)>α,则X=D, 即识别结果为D;其中α是在拒识与错识之间取得折中的一个阐值(α=0.5);
如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,存在D’属于Ω,并且p(D’|X) 的值仅次于最大值p(D|X),如果p(D|X)-p(D’|X)>β,这里β是常数(β=0.2),则X=D,即识 别结果为D。
本发明邮政编码数字串识别方法,其识别表决规则根据各分类器本身的特性,发挥了各 个分类器的优点。通过对大量样本的统计获得每个分类器识别性能的先验知识,将其作为投 票表决的依据,使识别组合结果达到高识别率和高置信度。提高了邮政编码数字串识别的准 确率。
附图说明
以下结合附图及实施例进一步说明本发明。
图1为现有技术中多分类器组合单字识别方框图
图2为现有技术中字典库对识别结果进行校验的方框图
图3为本发明方法原理方框图

具体实施方式

如图3所示,待识别序列X=(x1...xn...xN)经过单字识别分类器ek识别后,结合字典库及 出现的概率进行决策,最后获得识别结果序列(d1,d2,…,dN)。
一种邮政编码数字串识别方法,包括如下步骤:
(1)将N个邮政编码字符序列的图象X=(x1...xn...xN)同时输入到K个独立的单字识别分 类器。对中国邮政编码数字字符串而言,N=6。
(2)每个单字识别分类器ek对输入的字符图象xn进行识别,获得识别结果,假设分类器 将输入模式识别为{c1...cm...cM}类中的一个,或者拒识。对于邮政编码数字而言, M=10,即其识别结果可能是{0,1,…,9}中的任意一个。
(3)当识别结果为m’时,输入模式可能为cm的概率用如下方式表示:
首先利用大量样本统计分类器ek的识别情况,从而形成有关该分类器识别情况的混 乱矩阵:
CM k = n 11 ( k ) · · · n 1 M ( k ) n 1 ( M + 1 ) ( k ) · · · · · · · · · · · · · · · n ij ( k ) · · · · · · · · · · · · · · · · · · n M 1 ( k ) · · · n MM ( k ) n M ( M + 1 ) ( k ) k = 1,2 , . . . , K
其中nmm’ (k)表示分类器ek将Cm类中的样本识别为Cm’类的数量,表示的含义为:
(a)如果m=m’,ek正确识别Cm类中样本的数量;
(b)如果m’=M+1,ek拒识Cm类中样本的数量;
(c)如果m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量。
对分类器ek而言,识别结果为m’=ek(x)的样本总数为:
n m ( k ) = Σ i = 1 M n im ( k ) m = 1,2 , . . . , M + 1
在分类器ek的识别结果为m’的条件下,样本来自Cm类的概率可以用条件概率来表示:
P ( x C m / e k ( x ) = m ) = n mm ( k ) n m ( k ) = n mm ( k ) Σ m = 1 M n mm ( k ) m = 1,2 , . . . , M
如果生成混乱矩阵CMk的样本足够多并且反映了模式空间的分布,该混乱矩阵反 映了分类器ek的识别情况,将CMk作为分类器组合时的的先验知识,即以 P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为:
            s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’)i=1,2,...,M
(4)计算X属于某一邮政编码字符串D=(d1,d2,…,dN)的概率:
假设D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码,并且假设对某个 特定的应用场合而言,邮政编码D出现的频度表示为f(D)。
X来自D的得分按下式计算:
s ( d n | x n ) = 1 K Σ k = 1 K s ( k ) ( x n C dn )
S ( D | X ) = Π n = 1 N s ( d n | x n ) = Π n = 1 N Σ k = 1 K s ( k ) ( x n C dn )
最后X属于D的可能性表示为:
                p(D|X)=ef(D)·S(D|X)
(5)采用如下规则决定输入模式的最优识别结果:
规则1:
如果存在D属于Ω,并且 p ( D | X ) = max D Ω p ( D | X ) and , p ( D | X ) > α
则X=D
其中α是一个阈值,用于在拒识与错识之间取得折中(α=0.5),
规则2:
如果存在D属于Ω,并且 p ( D | X ) = max D Ω p ( D | X )
存在D’属于Ω,并且 p ( D | X ) = max D Ω - D p ( D | X )
以及p(D |X)-p(D’|X)>β
则X=D
这里β是常数(β=0.2)。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈