专利汇可以提供Device and method for character recognition专利检索,专利查询,专利分析的服务。并且PURPOSE: To effectively integrate recognition results obtained by plural recognizing methods.
CONSTITUTION: A recognition integration part 3 receives the recognition results by the recognizing methods #1-#N of recognition parts 2-1 to 2-N and when a candidate character w
q appears as an (x
qi )th candidate as the result of the recognition by a recognizing method i#, candidate characters are outputted in the decreasing order of evaluated values by using an evaluation function f(X
q ) having a recognition candidate order vector X
q =(x
q1 , x
q2 ..., x
q N) regarding the character the character w
q as an argument. This evaluation function finds P(X) = (total frequency at which a candidate character appearing as X is correct)/(total frequency at which the candidate character appearing as X) as to recognition candidate order vectors obtained by recognizing many sample data for learning at the recognition parts 2-1 to 2-N and a pair of an input X and an output P(X) are found with input/output characteristics of a network obtained by the learning of a recognition integration evaluation function learning part 4 based upon error inverse propagation algorithm by a neural network consisting of ≥ three layers having N elements in the input layer and one element in the output layer.
COPYRIGHT: (C)1996,JPO,下面是Device and method for character recognition专利的具体信息内容。
【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の認識手法を適用した文字認識装置及び方法に関する。
【0002】
【従来の技術】従来の文字認識装置は、単一の認識手法によるものが一般的であった。 このため、従来の文字認識装置は、認識性能に限界があった。
【0003】
【発明が解決しようとする課題】そこで近年は、単一の認識手法の性能の限界を打ち破るために、複数の認識手法を適用し、各認識手法による認識結果を統合して新しい認識結果を出力する文字認識装置の実現が要望されていた。
【0004】本発明は上記事情を考慮してなされたものでその目的は、複数の認識手法による認識結果を効果的に統合することで、高い認識性能が実現できる文字認識装置及び方法を提供することにある。
【0005】
【課題を解決するための手段】本発明の第1の観点に係る構成は、第1乃至第N(Nは2以上の整数)のN種類の認識手法により同一認識対象に対する文字認識を行い、第i認識手法(i=1,2,…,N)によって認識した結果、候補文字w qが第x qi候補に現れるとした場合に、文字w qに関する認識候補順位ベクトル X q =(x q1 ,x q2 ,…,x qN ) を引数とする評価関数f(X q )を用いて、その評価値の大きい順に候補文字を出力する認識統合処理を行うようにしたもので、多数の学習用サンプルデータを実際に上記第1乃至第N認識手法で認識して得られる認識候補順位ベクトルについて、 P(X)=(Xに出現する候補文字が正解である頻度総数)/(Xに出現する候補文字の頻度総数) で定義されるP(X)を求め、入力X、出力P(X)の組を入力層の素子数N、出力層の素子数1の3層以上のニューラルネットワークで誤差逆伝播アルゴリズムによって学習させて得られるニューラルネットワークの入出力特性関数をもって上記認識統合処理で用いる評価関数f(X)とするようにしたことを特徴とするものである。
【0006】本発明の第2の観点に係る構成は、上記評価関数として、以下に示すf(X)、即ちn個の学習用サンプルデータの第j番目を第i認識手法で認識させたときに、その正解文字w qが第x qji候補に現れるとした場合に、
【0007】
【数5】
で定義される値Eをできる限り大きくする係数wi (i
=1,2,…,N)を用いた
【0008】
【数6】
を用いるようにしたことを特徴とする。【0009】本発明の第3の観点に係る構成は、第1乃至第N(Nは2以上の整数)のN種類の認識手法により同一認識対象に対する文字認識を行い、第i認識手法(i=1,2,…,N)によって認識した結果、候補文字w qの認識スコアがs qiである場合に、文字w qに関する認識候補スコアベクトル S q =(s q1 ,s q2 ,…,s qN ) を引数とする評価関数f(S q )を用いて、その評価値の大きい順に候補文字を出力する認識統合処理を行うようにしたもので、多数の学習用サンプルデータを実際に上記第1乃至第N認識手法で認識して得られる認識候補スコアベクトルについて、正解カテゴリーの認識候補スコアベクトルSを入力した場合の出力を1、不正解カテゴリーの認識候補スコアベクトルSを入力した場合の出力を0として、入力層の素子数N、出力層の素子数1の3層以上のニューラルネットワークで誤差逆伝播アルゴリズムによって学習させて得られるニューラルネットワークの入出力特性関数をもって上記認識統合処理で用いる評価関数f(S)とするようにしたことを特徴とする。
【0010】
【作用】本発明によれば、上記のように、学習用サンプルデータによる各認識手法(第1乃至第NのN種類の認識手法)の出力結果の統計的性質により、N種類の認識手法の統合処理が行われることから、N種類の認識手法のお互いの弱点が相補われ、認識性能の向上が可能となる。
【0011】
【実施例】以下、本発明の実施例につき図面を参照して説明する。 図1は本発明の一実施例に係る文字認識装置の全体構成を示すブロック図である。
【0012】この図1に示す文字認識装置は、文字の手書き入力等に用いられる座標入力部1と、それぞれ固有の認識手法(文字認識手法)による文字認識を行うN種類の文字認識部2-1,2-2,…,2-Nと、これら各文字認識部2-1〜2-Nからの認識結果情報と評価関数とを用いて新しい認識結果を出力する認識統合部3と、この認識統合部3で用いる評価関数を学習により決定する認識統合評価関数学習部4と、認識統合部3で決定された認識結果を利用者に提示する認識結果出力部5とから構成される。
【0013】なお、文字認識部2-1〜2-Nで適用される各認識手法(認識手法#1〜#N)としては様々な手法が提案されているが、ここではその認識方法自体については問わない。
【0014】次に、図1の構成の動作を、認識統合部3
及び認識統合評価関数学習部4の動作を中心に、文字認識部2-1〜2-Nでの各認識手法の順位に基づく統合処理#1を実施する場合を例に説明する。
【0015】まず、座標入力部1を通して手書きされた文字の軌跡を表す座標値列は各文字認識部2-1〜2-Nに送られる。 文字認識部2-1〜2-Nは、この手書き文字の座標値列(入力パターン)を対象として、それぞれの認識手法#1〜#Nにより周知の文字認識処理を行い、その認識結果を順位付きで出力する。
【0016】この順位付きの認識結果の具体例を、認識手法#1,#2(を適用した文字認識部2-1,2-2)での認識結果について、図2に示す。 なお、図2中の(a,b)の形式は、aが順位を、bが認識結果の候補文字を示す。 例えば、(1,あ)は、認識結果の候補文字が「あ」で、その順位(候補順位)が1位(即ち第1
位の候補文字)であることを示す。
【0017】ここで、座標入力部1からの入力パターンを文字認識部2-1〜2-Nが認識手法#1〜#Nで認識した結果、カテゴリーw kが認識手法#i(i=1,2,
…,N)の第x ki候補文字(順位がx ki位の候補文字)
に現れるとき、ベクトルX k =(x k1 ,x k2 ,…,
x kN )をカテゴリーw kの認識候補順位ベクトルと定義する。
【0018】図2の例の場合は、 w 1 =あ,w 2 =め,w 3 =お とすれば、N=2であることから、 X 1 =(1,2),X 2 =(2,1),X 3 =(3,
3) となる。
【0019】さて、本実施例では、図1の構成の文字認識装置を用いて(入力パターンに対する)通常の認識処理を行う前に、予め正解カテゴリーの分かっているn個の学習用のサンプルパターンについて、文字認識部2-1
〜2-Nにてそれぞれ固有の認識手法#1〜#Nにより認識処理を行わせるようにしている。
【0020】認識統合評価関数学習部4は、この文字認識部2-1〜2-Nでの認識手法#1〜#Nによるn個の学習用のサンプルパターンに対する順位付きの認識結果を受けて、その結果から前記した認識候補順位ベクトルX
を求め、順位Xに候補が出現する総数all(X)と順位Xに正解が出現する総数correct(X)を求める。
【0021】そして認識統合評価関数学習部4は、求めたall(X)及びcorrect(X)から、学習用サンプルパターン(学習用サンプルデータ)について順位Xの候補が正解である確率 P(X)=correct(X)/all(X) を計算する。
【0022】例えば、文字認識部が文字認識部2-1と文字認識部2-2の2つであり(N=2の場合)、この2つの文字認識部2-1,2-2(での認識手法#1,#2)により図2のような認識結果が得られた場合には、 (1)「あ」という候補文字が正解である確率P(X)はP(1,2) (2)「め」という候補文字が正解である確率P(X)はP(2,1) (3)「お」という候補文字が正解である確率P(X)はP(3,3) となる。
【0023】そこで、認識統合部3を、この確率の大きい順に候補文字を出力するように構成するならば、学習用サンプルデータについての統合認識率は最高になることは数学的に明らかである。
【0024】しかし、学習用サンプルデータは有限個であるため、P(X)は順位Xの候補が正解である真の確率を表しているわけではない。 このため、学習用サンプルデータ以外のデータ(通常の入力パターン)を認識させた場合に、P(X)の大きい順に候補文字を出力するという統合手法では、必ずしも良い統合結果が得られるとは限らない。
【0025】図3は、文字認識部2-1,2-2で適用する認識手法#1,#2から実際に学習により得られた(候補文字の順位の組み合わせとその)正解確率P(x 1 ,
x 2 )の例を示したものである。
【0026】正解確率P(x 1 ,x 2 )は、本来は、単調減少する滑らかな曲面になることが望ましいが、図3
の例からは、学習用サンプルデータ数が有限個ということもあり、関数曲面ががたついていることが分かる。
【0027】そこで本実施例では、認識統合評価関数学習部4において、図4に示すように、入力Xと出力P
(X)の組を、入力層の素子数N(Nは文字認識部数)、出力層の素子数1の3層以上のニューラルネットワークで、例えば“麻生英樹著:「ニューラルネットワーク情報処理」,産業図書,2.1.4 節(1988年)”に記載されているような周知の誤差逆伝播(Error Back Pro
pagation)アルゴリズムによって学習させて、学習終了後のニューラルネットワークの入出力特性f(X)を、
認識統合部3での統合処理に用いる評価関数f(X)とするようにしている。 即ち本実施例では、ニューラルネットワークの汎化能力を利用して、真の確率に近付けるようとしている。
【0028】さて、認識統合評価関数学習部4により得られるニューラルネットワークの入出力特性f(X)
は、認識統合部3での統合処理に用いる評価関数f
(X)として当該認識統合部3に渡される。
【0029】この結果、認識統合部3は、認識統合評価関数学習部4により得られた評価関数f(X)を用いることで、その評価関数の大きい順に候補文字を出力する。 即ち認識統合部3は、例えば f(X Q1 )≧f(X Q2 )≧… であった場合であれば、Q 1 ,Q 2 ,…の順に候補文字を出力する。
【0030】こうして得られる2つの文字認識部2-1,
2-2(での認識手法#1,#2)による出力を認識統合部3にて統合する評価関数の例を図5に示す。 この図5
の例では、図3とは異なって、関数曲面が滑らかとなっていることが分かる。
【0031】以上、図1の構成の動作につき、文字認識部2-1〜2-Nでの各認識手法の順位に基づく統合処理#
1を実施する場合を列に説明したが、図1の構成において、これとは別の統合処理#2を適用することも可能である。 そこで、この文字認識部2-1〜2-Nでの各認識手法の順位に基づく統合処理#2について、以下に詳述する。
【0032】まず、文字認識部2-1〜2-Nは、座標入力部1から与えられる入力パターン(手書き文字の座標値列)を対象として、それぞれの認識手法#1〜#Nにより文字認識処理を行い、その認識結果を図2の例のように順位付きで出力する。
【0033】認識統合部3は、座標入力部1からの入力パターンを文字認識部2-1〜2-Nが認識手法#1〜#N
で認識した結果、カテゴリーw kが認識手法#i(i=
1,2,…,N)の第x ki候補文字に現れるとき、認識候補順位のベクトル X q =(x k1 ,x k2 ,…,x kN ) を用いて統合処理#2を行う。
【0034】このために、認識統合評価関数学習部4では、Xを引数とする評価関数f(X)を学習により決定する。 認識統合部3は、認識統合評価関数学習部4により決定された評価関数の大きい順に候補文字を出力する。 即ち認識統合部3は、 f(X Q1 )≧f(X Q2 )≧… であった場合であれば、Q 1 ,Q 2 ,…の順に候補文字を出力する。
【0035】さて、統合処理#2を実施する場合、認識統合評価関数学習部4は、評価関数を候補順位の線形和で表すようにしている。 例えば、図1の構成中の文字認識部が文字認識部2-1と文字認識部2-2の2つであるものとすると(N=2の場合)、認識統合評価関数学習部4は、評価関数 f(x 1 ,x 2 )を f(x 1 ,x 2 )=w 1 x 1 +w 2 x 2で表し、最適な係数w 1 ,w 2を次の方法によって決定する。
【0036】まず、第j学習用サンプルパターンを文字認識部2-1,2-2(での認識手法#1,#2)により認識した結果、候補文字w kが候補順位の組(x kj1 ,x
kj2 )に出現するものとする。 ここで、正解文字をw q
とすると、 f(xqj1 ,xqj2 )>f(x kj1 ,x kj2 ) for all k≠q となるように関数f(X)を定めるならば、全てのiについてのf(x i1 ,x i2 )のうちの最大値(max f
(x i1 ,x i2 ))により正解カテゴリーを得ることができる。 全てのiについて上記式を満たすことが不可能な場合には正解カテゴリーを得ることはできないが、できるだけ多くのiについて上記式を満たすように定めるならば、正解をより上位候補に上げることができる。 そこで、認識統合評価関数学習部4は、n個の全学習用サンプルパターン(第1乃至第n学習用サンプルパターン)
について、
【0037】
【数7】
なる値Eを定義し、この値Eをできるだけ大きくするN
個の係数w
1 ,w
2 ,…,w
Nを求める。 ここで、係数w
1 ,w
2 ,…,w
Nの総和は1であるものとする。
【0038】今、N個の係数w 1 ,w 2 ,…,w Nを、
ベクトルWを用いて W=(w 1 ,w 2 ,…,w N ) のように定義すると、認識統合評価関数学習部4は、上記Eの値を大きくする係数(ベクトル)Wを、図6のフローチャートに従って、次のようにして求める。
【0039】まず認識統合評価関数学習部4は、Wの初期値W 0 (W k =W 0 )を、例えば乱数等により定める(ステップS1)。 次に認識統合評価関数学習部4は、
第j学習用サンプルパターンに対する認識手法#iによる認識結果のカテゴリーw iについての認識候補順位ベクトルX ijについて、正解カテゴリーをw qとしたときに、 W k (X qj −X ij )<0 の場合であれば(ステップS2)、 W k+1 =W k +c(X qj −X ij ) cは経験的に求められる係数で、例えば1より小さい正の係数の計算を行って、W k+1を求め(ステップS
3)、 W k (X qj −X ij )≧0 の場合であれば(ステップS2)、 W k+1 =W kによりW k+1を求める(ステップS4)。
【0040】このようにして求められるW k+1は、先のW kより上記Eの値を大きくするものとなる(W k (X
qj −X ij )<0の場合)。 W k (X qj −X ij )≧0の場合には、W k+1は先のW kと同じ結果となる。
【0041】認識統合評価関数学習部4は、求めたW
k+1を新たなW kとして(ステップS5,S6)、上記の計算処理(ステップS2,S3またはステップS2,
S4)を再び行う。
【0042】認識統合評価関数学習部4は、以上の動作を予め定められた回数繰り返す。 この繰り返し後のW
k+1が、上記Eの値を大きくするW、即ち係数w 1 ,w
2 ,…,w Nを示す。 認識統合評価関数学習部4は、以上の処理により目的とする係数w i (i=1,2,…,
N)を求めると、その係数を用いて、次式
【0043】
【数8】
に従って、認識統合部3で用いる評価関数f(X)を求める。 【0044】この結果、図1の構成の文字認識部が文字認識部2-1と文字認識部2-2の2つであるものとすると(N=2の場合)、評価関数f(X)、即ちf(x 1 ,
x 2 )は、前記したように f(x 1 ,x 2 )=w 1 x 1 +w 2 x 2となる。
【0045】以上は、文字認識部2-1〜2-Nが認識結果を順位付きで出力する場合について説明したが、本発明は、認識結果を類似度、距離値などのスコア(評価値)
付きで出力する場合にも、適用可能である。
【0046】そこで、図1の構成における文字認識部2
-1〜2-Nが認識結果をスコア付きで出力するものとして、文字認識部2-1〜2-Nでの各認識手法の評価値(スコア)に基づく統合処理#3を実施する場合の動作につき説明する。
【0047】まず、この例における文字認識部2-1〜2
-Nは、座標入力部1からの入力パターンを対象として、
それぞれの認識手法#1〜#Nにより文字認識処理を行い、その認識結果をスコア付きで出力する。
【0048】このスコア付きの認識結果の具体例を、認識手法#1,#2(を適用した文字認識部2-1,2-2)
での認識結果について、図7に示す。 なお、図7中の(c,d)の形式は、cがスコアを、bが認識結果の候補文字を示す。 例えば、(0.97,あ)は、認識結果の候補文字が「あ」で、そのスコア(例えば類似度)が0.97であることを示す。
【0049】ここで、座標入力部1からの入力パターンを文字認識部2-i(i=1,2,…,N)が認識手法#
iで認識した結果、当該文字認識部2-iから出力される、入力パターンとカテゴリーw kとの類似度(あるいは距離値などのスコア)をs kiで表すとき、ベクトル S k =(s k1 ,s k2 ,…,s kN ) をカテゴリーw kの認識候補類似度ベクトル(認識候補スコアベクトル)と定義する。
【0050】図7の例の場合は、 w 1 =あ,w 2 =め,w 3 =お とすれば、N=2であることから、 S 1 =(0.97,0.88) S 2 =(0.90,0.92) S 3 =(0.87,0.83) となる。
【0051】さて、本実施例では、図1の構成の文字認識装置を用いて(入力パターンに対する)通常の認識処理を行う前に、予め正解カテゴリーの分かっているn個の学習用のサンプルパターンについて、文字認識部2-1
〜2-Nにてそれぞれ固有の認識手法#1〜#Nにより認識処理を行わせるようにしている。
【0052】認識統合評価関数学習部4は、この文字認識部2-1〜2-Nでの認識手法#1〜#Nによるn個の学習用のサンプルパターンに対する類似度(スコア)付きの認識結果を受けて、その結果から前記した認識候補類似度ベクトルSを求める。
【0053】そして認識統合評価関数学習部4は、入力層の素子数N、出力層の素子数1の3層以上のニューラルネットワークに、正解カテゴリーの認識候類似度ベクトルSを入力した場合には出力1、不正解カテゴリーの認識候補スコアベクトルSを入力した場合には出力0となるように、誤差逆伝播アルゴリズムによって学習させて、学習終了後のニューラルネットワークの入出力特性f(S)を、認識統合部3での統合処理に用いる評価関数f(S)とするようにしている。
【0054】このように認識統合評価関数学習部4は、
Sを引数とする評価関数f(S)を学習により求めると、それを認識統合部3に渡す。 認識統合部3は、認識統合評価関数学習部4により得られた評価関数f(S)
を用いることで、その評価関数の大きい順に候補文字を出力する。 即ち認識統合部3は、例えば f(S Q1 )≧f(S Q2 )≧… であった場合であれば、Q 1 ,Q 2 ,…の順に候補文字を出力する。
【0055】以上に述べた、2つの文字認識部2-1,2
-2での認識手法#1,#2による出力(認識結果)を認識統合部3にて統合した結果の性能評価の例を、統合処理#1,#2,#3を実施したそれぞれの場合について、認識手法#1,#2を単独で用いた場合と対比させて、図8に示す。 ここでは、統合処理#1,#2,#3
により、いずれの場合にも認識率が30%以上向上していることが分かる。
【0056】なお、前記実施例では、図1の構成の文字認識装置に認識統合評価関数学習部4が設けられているものとして説明したが、これに限るものではない。 例えば、認識統合評価関数学習部4を文字認識装置から切り離して設け、文字認識部2-1〜2-Nの持つ認識手法#1
〜#Nと同様の認識手法でn個の学習用サンプルパターンをそれぞれ認識させて、その認識結果をもとに、(上記文字認識装置から切り離して設けた)認識統合評価関数学習部4にて、前記したような学習により統合処理のための評価関数を決定し、この決定した評価関数を文字認識装置内の認識統合部3に予め設定しておくようにしても構わない。
【0057】
【発明の効果】以上詳述したように本発明の文字認識装置及び方法によれば、学習用サンプルデータによる複数の認識手法の出力結果の統計的性質により、各認識手法の統合処理が行われることから、これら各認識手法による認識結果を効果的に統合して、高い認識性能を実現することができる。
【図1】本発明の一実施例に係る文字認識装置の全体構成を示すブロック図。
【図2】図1中の文字認識部2-1,2-2からの順位付きの認識結果の出力例を示す図。
【図3】2つの認識手法による候補文字の順位の組み合わせとその正解確率の例を示す図。
【図4】ニューラルネットワークを説明するための図。
【図5】2つの認識手法による候補文字の順位の組み合わせとその正解確率をニューラルネットワークで学習した結果得られた評価関数で表した図。
【図6】候補順位の線形和で表される評価関数の係数を求める手順を説明するためのフローチャート。
【図7】図1中の文字認識部2-1,2-2からのスコア付きの認識結果の出力例を示す図。
【図8】文字認識部2-1,2-2での認識手法#1,#2
による出力を認識統合部3にて統合した結果の性能評価の例を、統合処理#1,#2,#3を実施したそれぞれの場合について、認識手法#1,#2を単独で用いた場合と対比させて示す図。
1…座標入力部、2-1〜2-N…文字認識部、3…認識統合部、4…認識統合評価関数学習部、5…認識結果出力部。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于领域自适应神经网络的自动驾驶转向角度预测方法 | 2020-05-13 | 506 |
一种水泥熟料游离钙含量测量方法及系统 | 2020-05-15 | 107 |
一种Web攻击检测方法、系统、介质和设备 | 2020-05-17 | 440 |
用于生成模型的方法和装置 | 2020-05-13 | 509 |
基于长短时记忆网络的水泥成品比表面积预测方法及系统 | 2020-05-08 | 599 |
基于局部动态能量函数FCN-CRF模型的生态变化监测方法 | 2020-05-12 | 517 |
基于无标签数据的神经网络模型量化方法及装置 | 2020-05-15 | 292 |
胶凝砂砾石配合比关键指标预测抗压强度的BP神经网络分析方法 | 2020-05-11 | 764 |
基于深度学习的无源人体运动识别方法 | 2020-05-13 | 755 |
一种基于LSTM的海洋平台空气压缩机故障诊断方法 | 2020-05-11 | 286 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。