Address reader专利检索-通配符软件专利检索查询-专利查询网

Address reader

阅读：353发布：2021-06-01

专利汇可以提供Address reader专利检索，专利查询，专利分析的服务。并且PROBLEM TO BE SOLVED: To improve the processing speed of an address reader by detecting and segmenting the horizontally arrayed characters appearing in vertical writing way, adding the marks to the detected character patterns to show the horizontally arrayed characters and then assigning the different wild cards to the marks to carry out the collation of them.
SOLUTION: A character segmentation/identification part 109 segments the character images of town areas out of the character rows for every character and identifies every character to convert it into a character code. As a result, the similarity corresponding to the character code serving as a candidate is acquired together with the information showing vertical or horizontal writing way. A town area collation part 110 extracts the town area information on addresses by means of a town area word dictionary 112. Then the part 109 segments the character images of address display numbers for every character out of the information on the character segmentation candidates and the head position of the address display number and identifies every character to convert it into a character code. The presence or absence is judged for the horizontally arrayed characters appearing in vertical writing way based on the vertical/horizontal writing judging information. If the presence of such characters are recognized, the segmentation candidates are generated for the horizontally arrayed characters and these characters are identified.
COPYRIGHT: (C)1997,JPO，下面是Address reader专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】郵便物上の文字情報を検出して，町域情報と住所表示番号情報からなる住所情報を読み取る住所読み取り装置において，郵便物上の画像を電気信号に変換して入力する画像入力手段と，入力された画像から文字情報を切り出して識別し，切り出された各文字パターンに対して識別候補文字群を出力する文字切出識別手段であって，縦書き住所情報から横並び文字を検出して文字情報を再度切り出して識別し，切り出された各文字パターンに対して識別候補文字群を出力する文字切出識別手段と，該文字切出識別手段から出力された認識候補文字群と，町域情報を格納した町域辞書と照合することにより町域を認識する町域照合手段と，該町域照合手段の認識結果に基づき，住所表示番号領域の先頭を検出する住所表示番号領域検出手段と，該住所表示番号領域検出手段からの出力に基づいて決定された住所表示番号領域の先頭以降の各文字パターンに対して，文字切出識別手段の出力結果として，縦書き住所情報から横並び文字として検出された各文字パターンに対する識別結果の候補文字群中の数字を，縦書きと縦書き中の横並び文字に分け，それぞれを別々に任意の数字を表すワイルドカードで置き換えた候補文字群に変換するワイルドカード変換手段と，上記ワイルドカードで表現された住所表示番号の様々な表記パターンを単語として保持する住所表示番号表記パターン辞書と，ワイルドカード変換手段の出力結果と住所表示番号表記パターン辞書の単語とをオートマトンを用いて照合し，住所表示番号の表記パターンを認識する住所表示番号照合手段と，住所表示番号照合手段の出力結果と，文字認識手段から出力される候補文字群とを照らし合せ，ワイルドカードで置き換えられた候補文字群中の数字を復元し，住所表示番号の候補を出力する数字復元手段と，を有することを特徴とする住所読み取り装置。

【請求項２】請求項１記載の住所読み取り装置において，郵便物上の住所情報を表す文字群が縦書きであるか，横書きであるかを検出する文字方向検出手段と，各表記パターンを表す単語に，縦書きで現われる表記パターンか横書きで現われる表記パターンかに関する属性を持たせた住所表示番号表記パターン辞書と，ワイルドカードで置き換えた任意の位置にある各文字パターンの候補文字群に対し，その候補文字群の文字コードをインデックスとして，住居表示番号表記パターン辞書から単語を検索する単語検索手段と，文字方向検出手段の出力に基づき，単語検索手段によって検索された単語の中から，縦書き横書きのそれぞれの属性が一致する単語のみを読み出す単語選択手段と，を有することを特徴とする住所読み取り装置。

说明书全文

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，郵便物を自動的に区分するために，郵便物上に記載されている住所情報を読み取る住所読み取り装置に関する。

【０００２】

【従来の技術】住所情報として，例えば「秋川市高田11
1-2」が記述されている場合を想定する。この時，「秋川市高田」を町域情報，「111-2」の数字で記述されている部分を住所表示番号情報と定義する。住所表示番号には同じ意味を持つ様々な記述形態が存在する。例えば，「１１１番地２号」，「１１１番地の２」，「１１
１−２」，「１１１の２」は同じ住所表示番号を意味する。

【０００３】従来，住所表示番号の読み取り方法については，特開平７−５３９４６号に示されるようなワイルドカードを利用する方式が知られている。この方式の概要は以下の通りである。住所表示番号を表す文字パターンをそれぞれ切出して識別した結果は，一つの文字パターンに複数の候補文字が付随する候補文字ラティスとして出力される。この候補文字ラティスに対して住所表示番号の単語照合を行えば，正しい住所表示番号が抽出できると考えられる。しかし，住所表示番号は上述したように様々な表記形態がある上，丁目や番などを表す数字は任意の数字を取り得る。そのため，全ての数字や表記の組み合わせについて，住所表示番号の単語を保持するのは記憶容量と処理速度の点で事実上不可能である。

【０００４】そこで，候補文字中の数字を直接単語照合の対象とはせずに，数字候補を任意の数字を表すワイルドカードで置き換えた候補文字ラティスを作る。例えば算用数字なら「ｎ」，漢数字なら「ｋ」という具合である。一方，照合を行うための単語辞書には住所表示番号の表記パターンをワイルドカードで表した単語を登録しておく。「１１１番地２号」の表記パターンに対応する単語は「ｎｎｎ番地ｎ号」である。そして，ワイルドカードで表現された単語とワイルドカードに置き換えられた候補文字ラティスとの単語照合を行う。

【０００５】これにより，上で述べたような組み合わせの問題を回避することができ，正しい住所表示番号表記パターンを表す単語を抽出することができる。そして，
単語照合の結果，上位の候補に上がってきたワイルドカード単語の数字部分について，元の候補文字ラティスを参照しながら数字に復元すれば，正しい候補が得られる。

【０００６】

【発明が解決しようとする課題】しかしながら，上記の方法では縦書きの住所の場合に大きな問題点がある。例えば，図３のように縦書きの表記の中に算用数字が書かれた場合は，算用数字の部分は通常横並びで書かれる。
この時，その部分の文字パターンを切り出しして認識し，上述した特開平７−５３９４６号の知識処理を適用しようとすると次の問題が起こる。すなわち，算用数字の「１」とその下に続く区切り文字「｜」の形状が非常に似通っているために，それぞれの認識結果として，数字の「１」と区切り文字の「｜」が同時に候補文字に挙がってくる。このため，上記の知識処理を適用したとしても，住所表示番号の表記パターンとして許容される「１１１｜２」，「１１｜１２」，「１｜１１２」が同じような確信度で候補に挙げられる。

【０００７】このような弊害を防ぐために，縦書き中の文字と縦書き中の横並び文字を検出し，それぞれを区別して横並び文字列の直前直後の文字は必ず区切り文字であると仮定して，区切り文字以外の文字種が来た場合は追加のペナルティを課すという方法も考えられる。しかし，図３(b)に示すような「１１１｜１｜２」は横並び文字の「１１１」の直後は「｜」の区切り文字であるが，その後が横書き文字でないために「１１１｜１１
２」の候補も許すと言った弊害が出てくる。この弊害をなくすために，さらに縦書きでは２桁以上の算用数字は横書き文字しか有りえない等の様々な条件を課すことで，不要な候補を減らすことができる。しかし，精度を高くしようとして様々な拘束条件を課そうとすればするほど，それはそれぞれの表記に応じて細かな場合分けを必要として複雑になるだけでなく，表記法が変わった場合にその保守も困難となる。

【０００８】本発明は，処理速度を犠牲にすることなく上記問題点を解決することを目的とする。

【０００９】

【課題を解決するための手段】上記課題を解決するために，本発明では三つの手段を提供する。

【００１０】第一の手段は，縦書きで現われる横並び文字を検出して切出し，検出された文字パターンに横並び文字であることを示すマークを付けることである。

【００１１】第二の手段は，第１の手段で付与したマークに応じて，同じ算用数字であっても縦書きの算用数字と，縦書きで現われる横並びの算用数字をそれぞれ別のワイルドカードを割り当てて照合を行うことである。まず，単語照合が行われる文字識別結果の候補文字ラティスについて述べる。図３(a)の場合では横並び部分「１
１１」に対する算用数字の候補文字には，横並び算用数字であることを示す「Ｎ」のワイルドカードで置き換える。「２」には通常の算用数字のワイルドカード「ｎ」
で置き換える。その他の候補文字については従来と同じ置き換えを行う。このような方法で識別結果の候補文字ラティスから，２種類の算用数字を含めたワイルドカードに置き換えられた候補文字ラティスを生成する。

【００１２】次に照合を行う辞書単語について述べる。
住所表示番号の表記パターン辞書には，縦書きに部分的な横並びが混在する表記パターンを「ＮＮＮ−ｎ」のように「Ｎ」と「ｎ」の２種類の算用数字ワイルドカードを用いて表現した単語を格納しておく。このように算用数字について縦書き用と横並び用の２種類のワイルドカードを用意し，それらのワイルドカードを用いた候補文字ラティスと住所表示番号の表記パターンの単語を照合する。その結果，縦書きに部分的な横並びが存在しても正しい表記パターンが得られる。

【００１３】第三の手段は，高速に単語照合を行うためにインデックスを設けることである。住所表示番号の多様な表記パターンに対応するためには，縦書きで現われる横並びの表記パターンを含めて多くの単語を登録しておく必要があるり，それら単語群を全て照合すると膨大な処理時間を必要とする。そこで，インデックスを設けて不要な単語は照合を行わないようにする。以下に２つのインデックスを示す。

【００１４】一つ目のインデックスは，記入文字の１文字目，２文字目の候補文字をインデックスとすることである。１文字目，２文字目の候補文字に単語の文字が含まれるものは，正しい単語である可能性が高く，それに漏れるものは可能性が低いと思われる。そこで，１文字目，２文字目に該当する候補文字を含む単語のみを照合することで，全ての単語を照合しなくても高速に正しい解を探索することができる。

【００１５】二つ目のインデックスは，縦横書きのフラグである。住所表示番号の表記パターンには縦書きにしか現われないもの，横書きにしか現われないもの，および両方に現われるものの３種類に分けることができる。
例えば，上で述べたような縦書きに部分的な横並びが混在する表記パターン「ＮＮＮ−ｎ」は縦書きでしか現われない。そこで，縦書き文字切出しおよび識別を行うときに，縦横書きに関するフラグを出力するようにしておく。一方，ワイルドカードの単語にも縦横書きに関するフラグを設けておき，それらのフラグを照らし合せることで，不必要な単語照合を避けることができる。

【００１６】

【発明の実施の形態】以下，本発明の実施例を図１〜図１７を用いて説明する。

【００１７】図１は本実施例の装置全体の構成図である。郵便物１００は供給部１０１に順次送られる。供給部１０１において郵便物が所定位置を通過し，その通過の間に郵便物の表面の画像は画像入力部１０２により撮像される。画像入力部１０２はラインセンサのような光電変換素子からの画像信号をデジタル化して住所認識部１０６に送る。住所認識部１０６では，郵便物の表面に記載された住所を読み取り区分情報を生成する。一方，
表面画像が撮像された当該郵便物は遅延搬送路１０３に送られる。遅延搬送路１０３では，表面画像より区分情報を生成するための所定時間分，郵便物は当該搬送路１
０３を移動する。区分部１０４では，住所認識部１０６
からの区分情報に従って郵便物を区分けした後，区分棚１０５に格納する。

【００１８】住所認識部１０６は，制御部１０７，画像処理部１０８，文字切出識別部１０９，町域照合部１１
０，住所表示番号照合部１１１からなり，制御部１０７
は画像処理部１０８，文字切出識別部１０９，町域照合部１１０，住所表示番号照合部１１１を制御する。町域照合部１１０では町域単語辞書１１２を，住所表示番号照合部１１１では住居表示番号表記パターン辞書１１３
をアクセスし，文字切出識別部１０９の認識結果の誤りなどを自動的に修正する。

【００１９】住居表示番号表記パターン辞書１１３は，
表記パターン単語インデックス辞書１１４，表記パターン単語辞書１１５からなる。表記パターン単語辞書１１
５は，街区の表記パターンを納めた辞書であり，表記パターン単語インデックス辞書１１４は，表記パターン単語辞書１１５から必要な単語を選択的に検索するためのインデックスを納めた辞書である。

【００２０】図２は図１における住所認識部１０６の処理全体の流れを示したものである。図２を用いて住所認識部１０６の動作を説明する。

【００２１】ステップ１２０では，画像入力部１０２が郵便物の宛名書いてある面を撮像し，その画像を住所認識部１０６に入力する。

【００２２】ステップ１２１では，画像処理部１０８が画像入力部１０２より送られてきた宛名の書いてある全面の画像から宛名領域を抽出し，さらに宛名領域の画像から文字行毎の画像を抽出する。例えば図３(a)の住所文字行が得られたとする。

【００２３】ステップ１２２では，文字切出識別部１０
９がステップ１２１で得られた文字行の画像から，１文字毎に町域の文字画像を切り出した後，切り出した１文字毎に文字を認識して文字コードに変換する。ここで，
文字識別した結果は候補としての複数の文字コードと対応する類似度が得られる。また，文字の方向，すなわち縦書きか横書きかの情報も得られる。

【００２４】ステップ１２２の詳細を図４，図７を用いて説明する。図４は図３(a)の住所文字行から一文字毎の文字パターンを切り出すための切出し候補の仮説を，
ネットワークの形で表現した図である。図７は町域文字切出識別の処理手順を示す図である。

【００２５】ステップ１７０では，文字切出識別部１０
９が文字パターンの切出し候補を作成し，図４に示すような切出し候補をネットワークの形で保持する。そして，この時点では住所表示番号「１１１」もその上の町域と同じように縦方向にのみ文字パターンを切り出す。

【００２６】ステップ１７１では，文字切出識別部１０
９はステップ１７０で生成した文字切出し候補に対して文字識別を行う。識別した結果は候補としての複数の文字コードと，それに対応する類似度が得られる。さらに，文字パターンを縦向き，横向きに識別してそれぞれの識別結果の類似度を比較することで縦書きが横書きかを判定する。

【００２７】ステップ１７２では，各切出し候補の文字識別結果の類似度や文字パターン同士の隙間を基に各切出し候補の確信度を計算する。すなわち，例えば図４の１２７のような実際に存在しない文字切出しの候補は，
文字識別を行っても高い類似度は得られない。そこで，
識別の類似度を主体として切出し候補の確信度を計算することが可能である。

【００２８】ステップ１７３では，ステップ１７２で計算した各文字切出し候補の確信度に基づいて，全体の文字の切出しの確信度が高くなるように切出し候補を選択して，それに対応する候補文字ラティスが生成される。
例えば，図４において太線で示されるような切出し候補が選択され，その切出し候補に対する識別結果が図１０
の候補文字ラティスとして出力されえる。図１０(a)は候補文字ラティスの候補文字テーブルの例であり，図１
０(b)はそれに対応するコストテーブルの例である。ここでは，文字識別した時の類似度の高い順にコストが割り当てられている。図１０(a)の候補文字テーブルは，
記入文字番号毎に第１位から第ｍ位（ｍは任意）まで，
候補文字の文字コードが並べられている。図１０(b)のコストテーブルは，図１０(a)の候補文字テーブルの文字コードが格納されている位置と対応する場所に，その候補文字に対するコストが格納されている。例えば，記入文字番号１の第１位の候補文字「秋」のコストは「０」となる。

【００２９】以上のステップ１７０からステップ１７３
の処理により，図２ステップ１２２の町域の文字切出し識別処理が行われる。

【００３０】ステップ１２３では，町域照合部１１０
が，町域単語辞書１１２を用いてステップ１２２で得られた候補文字ラティスから住所の町域情報を抽出する。
町域情報の抽出法としては，候補文字ラティスからオートマトンを生成して単語照合を行う手法が知られている。これは「特願平１−２６２８８１」にその詳細が記述されている。ステップ１２３の処理の結果，町域情報として「秋川市高田」という町域文字列と，町域の終わりが５文字目，すなわち住所表示番号が６文字目から始まるという住所表示番号の先頭位置の情報が得られる。

【００３１】ステップ１２４では，文字切出識別部１０
９がステップ１２２で得られた文字の切出し候補とステップ１２３で得られた住所表示番号の先頭位置の情報から，再度１文字毎に住所表示番号の文字画像を切り出した後，切り出した１文字毎に文字を認識して文字コードに変換する。ここで，ステップ１２２で得られた縦書き横書きの判定情報を用いて縦書きの場合は，縦書き中の横並び文字がないか判定を行う。横並び文字があると判定された場合は，横並び文字に対して再度文字切出し候補を生成して文字識別を行う。

【００３２】ステップ１２４の詳細を図５，図６，図８，図１０を用いて説明する。図６は図４の切出し候補から横並び文字を検出して，横並び文字に対する切出し候補を追加した例である。図８は住所表示番号の文字切出識別の処理手順を示す図である。

【００３３】ステップ１８０では，図２のステップ１２
３で得られた住所表示番号先頭位置情報を用いて図５の１２８の位置から横並び文字が存在するかを各切出し候補について判定を行う。ここで，横並び文字が存在するかどうかの判定は切出し候補の文字識別結果の類似度が低い，あるいは前後の文字切出し候補の中に「｜」，
「丁」，「目」，「番」，「地」，「号」等の区切り文字が存在するかどうかで行われる。図５に横並び文字が検出された例を示す。

【００３４】ステップ１８１では，ステップ１８０の横並び文字の判定結果に基づき，横並び文字が存在すると判定される場合は，文字切出認識部１０９が文字パターンの候補を作成し，図６に示すような切出し候補をネットワークの形で追加する。

【００３５】ステップ１８２では，文字切出認識部１０
９はステップ１８１で追加生成した文字切出し候補に対して文字識別を行う。識別した結果は候補としての複数の文字コードと，それに対応する類似度が得られる。

【００３６】ステップ１８３では，図７のステップ１７
２と同様に各切出し候補の文字識別結果の類似度や文字パターン同士の隙間を基に各切出し候補の確信度を計算する。

【００３７】ステップ１８４では，ステップ１８３で計算した各文字切出し候補の確信度に基づいて，全体の文字の切出しの確信度が高くなるように切出し候補を選択して，それに対応する候補文字ラティスが生成される。
例えば，図６において斜線中の太線で示されるような切出し候補が選択され，その切出し候補に対する識別結果が図１１の候補文字ラティスとして出力されえる。図１
１(a)は候補文字ラティス中の候補文字テーブルの例であり，図１１(b)はそれに対応するコストテーブルの例である。記入文字番号「6-1」，「6-2」，「6-3」には図１０の記入文字番号「６」の文字パターンが，横並び文字として識別されたことを示す横並びフラグが立っている。

【００３８】以上のステップ１８０からステップ１８４
の処理により，図２ステップ１２４の住所表示番号の文字切出識別が行われる。

【００３９】ステップ１２５では，住所表示番号照合部１１１が住居表示番号表記パターン辞書１１３を用いて，ステップ１２４で得られた候補文字ラティスから住所表示番号を抽出する。ステップ１２５の詳細を図１，
図９，図１１〜図１７を用いて詳細に説明する。図９においてステップ１９１が本発明の特徴となっている。

【００４０】ステップ１９０では，図２のステップ１２
４で生成した候補文字ラティスを図１の住所表示番号照合部１１１に入力する。

【００４１】ステップ１９１では，ステップ１９０で得られた候補文字ラティスから，ワイルドカードラティスを生成する。ここで，ワイルドカードラティスとは住所表示番号の照合を行うために，候補文字ラティス中の数字を任意の数字を表すワイルドカードで置き換えたラティスである。

【００４２】ステップ１９１の詳細を図１１，図１２，
図１３を用いて説明する。

【００４３】図１２はワイルドカードラティスを生成するために用いる変換テーブルであり，以下に詳細を述べる。

【００４４】分類における「数字」のテーブルは，丁目，街区，住居表示番号を表す数字に関わるテーブルであり，縦書きの候補文字ラティス中に任意の算用数字と漢数字の候補文字があれば，それぞれ「ｎ」，「ｋ」というワイルドカードに変換される。但し，縦書き中の横並び算用数字は縦書きの「ｎ」と区別するために，
「Ｎ」というワイルドカードに変換される。「英字」のテーブルも同様に縦書きの英字は「ａ」，縦書き中の横並び英字は「Ａ」に変換される。

【００４５】「区切り文字」のテーブルは，例えば住所中に「３丁目８−１」とある場合に，丁目や街区の数字同士を区切るために使用される文字「丁目」や「−」に関するテーブルである。ここでは縦書きの「丁」，
「目」，「番」，「地」，「の」，「ノ」については変換せずに，そのままの文字を使用する。一方，縦書きの「｜」，「．」，「／」は「｜」というワイルドカードに変換されるが，縦書き中の横並びで現われる「−」，
「〜」は「−」に変換される。

【００４６】「その他」のテーブルは，「数字」テーブル，「区切り文字」テーブル以外の文字に関するテーブルで，上記で述べた以外の文字は全て「ｅ」というワイルドカードに変換される。すなわち「その他」というのは丁目，街区，住居表示番号に関わる文字以外の全てを指す。

【００４７】図１３は，図１２の変換テーブルを用いて，図１１で示す住所表示番号の候補文字ラティスから，ワイルドカードラティスを生成した例である。ワイルドカードラティスは図１３(a)で示すワイルドカードテーブルと，図１３(b)で示すコストテーブルの２つからなる。

【００４８】図１３のワイルドカードラティスの生成は，図１１(a)の候補文字テーブルにおいて候補文字の順位の高いほうから行う。まず第１位の候補文字をワイルドカードに変換して図１３(a)で示すワイルドカードテーブルの第１位の場所に書き込む。それと同時に変換された候補文字に対応するコストを，図１３(b)のコストテーブルの該当する場所に書き込む。

【００４９】次に，第２位の候補文字を調べ，それが第１位の候補文字と同じワイルドカードに属するなら，重複するのでそれを省略する。もし違うワイルドカードに属するのであれば，そのワイルドカードと対応するコストを，それぞれ図１３(a)のワイルドカードテーブル，
図１３(b)のコストテーブルに書き込む。以下，全ての候補文字について同じことを繰り返す。

【００５０】例えば，図１１(a)の候補文字テーブルにおける記入文字番号「6-1」の列の変換を考える。「6-
1」は横並び文字であることを示すフラグが立っているので，まず，第１位の候補文字「１」をワイルドカード「Ｎ」に変換して，図１３(a)のワイルドカードテーブルにおける記入文字番号「6-1」の第１位の場所に書き込む。それと同時に，候補文字「１」に対応するコスト「０」を，図１３(b)で示すコストテーブルの該当する場所に書き込む。

【００５１】次に，第２位を見ると候補文字「ノ」は違うワイルドカード「ノ」に属するので，省図１３(b)のコストテーブルの第２位の場所にそれを書き込む。更に，第３位を見ると候補文字「｜」は横並び文字では存在しないので省略する。第４位についても同様な処理を行い，第５位を見ると候補文字「７」は第１位の「１」
と同じワイルドカード「Ｎ」に属するので，省略して図１３(b)のワイルドカードテーブルには何も書かない。
以下，同様の処理を全ての順位の候補文字に対して行う。

【００５２】以上のステップ１９１の処理により，ステップ１９０で得られた候補文字ラティスから，ワイルドカードラティスが生成される。

【００５３】ステップ１９２では，ステップ１９１で生成したワイルドカードラティスから，単語照合を行うためのオートマトンを生成する。ステップ１９２の詳細を図１４を用いて説明する。

【００５４】図１４は辞書から単語を取り出し，オートマトンを用いて住所表示番号の表記パターンの単語照合を行う過程を示したものである。まず，オートマトン２
４１について説明する。住所表示番号パターンを表す辞書単語とワイルドカードラティスの照合を行うために，
図１３で示すワイルドカードラティスから有限オートマトン２４１を生成する。そして，オートマトン２４１は文字列として表した辞書単語を順次入力し，その単語の平均コストがいくらになるかを計算する。

【００５５】オートマトン２４１において丸印は状態を示し，その中に書かれた数字は状態番号を示す。加えて，状態と状態の間が単語の各記入文字位置に対応し，
状態間の線は遷移経路を示す。遷移経路上の左側の文字は，ある状態でオートマトンにその文字が入力された時に，その遷移経路を辿って次の状態に遷移することを示す。また，遷移経路上で「other」は遷移経路に対応する文字として明示されたもの以外の全ての文字を表す。
遷移経路上の［］内の数字は，その経路を辿って遷移した時に有するコストである。

【００５６】例として，オートマトン２４１を用いて，
単語「ＮＮＮ−ｎ」２４０が入力された時のコスト計算を考える。まず，状態１から状態２に遷移するときに「Ｎ」のコスト［０］が加算され，状態２から状態３に遷移するときは「Ｎ」のコスト［２］が加算され，以下同様に遷移が進んでいく。そして，単語の文字数分の遷移が全て終わった後，積算されたコストを単語の文字数で割ることでその単語の平均コスト２４２が得られる。

【００５７】次に，図１３のワイルドカードラティスからの有限オートマトン２４１の生成を説明する。まず，
図１４のオートマトン２４１の状態１と状態２の間の遷移経路を生成し，図１３(a)のワイルドカードテーブルの記入文字番号「6-1」の候補文字をそれぞれ割り当てる。それと共に，候補文字に対応する図１３(b)で示すコストテーブルのコストを，同様に状態１と状態２の間の遷移経路にそれぞれ割り当てる。次に，明示されたもの以外の全ての文字を表す遷移経路として「other」を生成し，さらにそのコストを１５とする。以下，同様に状態と遷移経路をワイルドカードラティスから次々に生成していく。ここで，遷移経路のコストはコストは必ずしも上記の値にする必要はなく，任意の数字でよい。

【００５８】以上のステップ１９２の処理により，ワイルドカードラティスからオートマトン２４１が生成される。

【００５９】ステップ１９３では，ステップ１９２で生成したオートマトン２４１と図１の表記パターン単語インデックス辞書１１４，表記パターン単語辞書１１５を用いて，住所表示番号表記パターンのオートマトン照合を行う。ステップ１９３の詳細を図１３，図１４，図１
５，図１６を用いて説明する。図１５はオートマトン照合処理の流れを示したＰＡＤである。図１６は住所表示番号単語辞書，住所表示番号単語インデックス辞書の構成を示した図である。

【００６０】まず，図１６の辞書の構成を説明する。表記パターン単語辞書１１５はワイルドカードを用いて丁目，街区，住居表示番号の表記パターンを表した単語，
およびその検索情報や属性を格納した辞書である。丁目，街区，住居表示番号の表記パターンを表した単語としては，例えば「ＮＮＮ−ｎ」，「ＮＮＮのｎ」等が格納されている。表記パターン単語インデックス辞書１１
４は，照合を行うために必要な単語を表記パターン単語辞書１１５から選択的に検索するためのインデックスを格納した辞書である。インデックスは，辞書単語の第１
文字目，第２文字目の文字を使用する。

【００６１】表記パターン単語辞書１１５は，住所表示番号の表記パターンを表す単語２７８，単語の第２文字目が同一の文字を持つ単語間の相対アドレス２７９，縦横書きを示すフラグ２８０からなる。

【００６２】縦横書きを示すフラグ２８０は，街区表記を表す単語が横書きに属するのであれば１，縦書きに属するのであれば２，縦横両方に属するのであれば３という数字が格納されている。

【００６３】表記パターン単語インデックス辞書１１４
は，１文字目インデックステーブル２７０，２文字目インデックステーブル２７４の二つのテーブルからなる。
１文字目インデックステーブル２７０は，辞書単語の第１文字目の文字番号を格納したテーブル２７１，同一の１文字目を持つ単語の数２７２，表記パターン単語辞書１１５へのポインタテーブル２７３からなる。２文字目インデックステーブル２７４は，同様に辞書単語の２文字目の文字番号を格納したテーブル２７５，同一の２文字目を持つ単語の数２７６，表記パターン単語辞書１１
５へのポインタテーブル２７７からなる。

【００６４】次に，表記パターン単語インデックス辞書１１４を用いて，表記パターン単語辞書１１５の単語を検索する時の処理の流れを説明する。実線で表された矢印は１文字目インデックステーブル２７０を用いて，第１文字目が同一の文字である単語を検索するときの検索の流れを示す。点線で表された矢印は２文字目インデックステーブル２７４を用いて，２文字目が同一の文字である単語を検索するときの検索の流れを示す。

【００６５】例えば，単語の１文字目が「Ｎ」である単語を辞書から検索する場合は，１文字目インデックステーブル２７０の第１文字目が同一の文字である単語の数
m1，および「Ｎ」のポインタP1(1)を参照する。ポインタP1(1)には，住所表示番号単語辞書の中で１文字目が「Ｎ」で始まる単語の最初のポインタが格納されているので，その単語を参照する。単語辞書の中では１文字目が同じ文字の単語は連続して並べてあるので，「Ｎ」で始まる最初の単語を見つけると，以下はポインタをインクリメントするだけで，次々に単語を検索することができる。そして，m1回検索を行うと「Ｎ」で始まる単語の終わりになるので，そこで単語の検索を終了する。

【００６６】単語の２文字目をインデックスとして検索する場合も同様である。例えば，単語の２文字目が「丁」である単語を辞書から検索する場合は，２文字目インデックステーブル２２４の第１文字目が同一の文字である単語の数q1，および「丁」のポインタP2(1)を参照する。ポインタP2(1)には，表記パターン単語辞書の中で２文字目が「丁」の単語のポインタが格納されているのでその単語を参照する。その後，単語の第２文字目が同一の文字を持つ単語間の相対アドレス２７９を参照してポインタをシフトすることで，第２文字目が同じ「丁」の単語を検索することができる。そして，q1回検索を行うと２文字目が同じ「丁」の単語の終わりになるので，そこで単語の検索を終了する。

【００６７】ここで，図２のステップ１２２の文字切り出し・文字認識で，住所が縦書きか横書きかが分かっている場合は，縦横書きを示すフラグ２８０を参照することで，検索した単語の中から該当する単語を絞り込んで取り出すことができる。

【００６８】次に，ステップ１９３の具体的処理内容を図１５の処理フロー，および図１３，図１４，図１６を用いて説明する。

【００６９】ステップ２５０では，照合を行おうとする住所に対して，図２のステップ１２２で得られた住所の縦横書きを表すフラグをセットする。

【００７０】ステップ２５２では，図１３(a)のワイルドカードテーブルにおける記入文字番号「6-1」の第１
位の候補文字を取り出し，図１６の１文字目インデックステーブル２７０を参照して，辞書単語数２７２，および単語辞書のポインタ２７３を取得する。

【００７１】ステップ２５４では，ポインタが指している先の単語を検索し，この単語がステップ２５０でセットした縦横書きフラグと矛盾がないかを辞書の該当するテーブル２８０を参照してチェックする。もし矛盾がなければステップ２５５に進む。

【００７２】ステップ２５５では，検索した単語を図１
４のオートマトン２４１に入力して，状態を遷移させながら平均コストを計算する。

【００７３】ステップ２５３では，ステップ２５４からステップ２５５の処理をステップ２５２で求めた辞書単語の数だけ繰り返す。

【００７４】ステップ２５１では，図１３(a)における記入文字番地「6-1」の次順位の候補文字を取り出し，
ステップ２５２からステップ２５５の処理を記入文字番地「6-1」の候補文字数回繰り返す。

【００７５】ステップ２５７では，図１３(a)のワイルドカードテーブルの記入文字番号「6-2」の第１位の候補文字を取り出し，図１６の２文字目インデックステーブル２７４を参照して，辞書単語数２７６，および単語辞書のポインタ２７７を取得する。

【００７６】ステップ２５９では，ポインタが指している先の単語を検索し，この単語がステップ２５０でセットした縦横書きフラグと矛盾がないかを辞書の該当するテーブルを参照してチェックする。もし矛盾がなければステップ２６０に進む。

【００７７】ステップ２６０では，検索した単語を図１
４のオートマトン２４１に入力して，状態を遷移させながら平均コストを計算する。

【００７８】ステップ２５８では，ステップ２５９からステップ２６０の処理をステップ２５７で求めた辞書単語の数だけ繰り返す。

【００７９】ステップ２５６では，図１３(a)の記入文字番地「6-2」の次順位の候補文字を取り出し，ステップ２５７からステップ２６０の処理を記入文字番地「6-
2」の候補文字数回繰り返す。

【００８０】ステップ２６１では，ステップ２５０からステップ２６０の処理で求めた単語，および，そのコストを昇冪の順に並べ変える。

【００８１】ステップ２６２では，ステップ２６１で並べ変えたコストの小さい単語の上位Ｌ（Ｌ＞１）個を選択する。

【００８２】以上のステップ２５０からステップ２６２
の処理により，図９におけるステップ１９３のオートマトン文字列照合が行われ，平均コストの小さい上位Ｌ個の単語およびそのコストが得られる。

【００８３】ステップ１９４では，ステップ１９３で得られた上位Ｌ個のワイルドカードで表された単語について，「Ｎ」，「ｎ」，「ｋ」の数字を表すワイルドカードを元の数字に復元して，候補を生成する。ここではＬ
＝１として，図１４の単語「ＮＮＮ−ｎ」２４０を数字に復元した結果を図１７に示す。数字復元の処理は，まず図１１(a)に示す候補文字テーブルと単語「ＮＮＮ−
ｎ」２４０の位置合わせを行う。その後，数字「Ｎ」に対応する場所の候補数字を図１１(a)候補文字テーブルから取り出して，実際の丁目や街区を生成する。また，
図１１(b)のコストテーブルから数字に対応するコスト取り出して，復元した表記パターン単語に対するコストを積算していく。

【００８４】ステップ１９５では，ステップ１９４で数字に復元した候補からコストの小さいＰ（Ｐ＞１）個の候補を住所表示番号照合結果として選択する。Ｐ＝２とすれば，「１１１｜２」，「１７１｜２」が住所表示番号照合結果として出力される。

【００８５】以上のステップ１９０からステップ１９５
までの処理により，図２のステップ１２５住所表示番号照合が行われ，照合結果として住所表示番号の候補が得られる。

【００８６】ステップ１２６では，ステップ１２３の町域照合で得られた町域候補「秋川市高田」と，ステップ１２５の住所表示番号照合で得られた住所表示番号の候補「１１１｜２」，「１７１｜２」をつないで住所候補を生成する。この例では，「秋川市高田１１１｜２」，
「秋川市高田１７１｜２」が得られる。さらに，この住所情報を用いて図１における区分部１０４を制御する制御情報を生成する。

【００８７】

【発明の効果】本発明は，次の３つの効果がある。第一は，縦書き中の横並び文字であるという情報を有効に用いて，様々な表記パターンの住所表示番号を正しく認識できることである。本発明では，文字パターンを切出し識別した結果の候補文字ラティスに対して，同じ算用数字であっても縦書きの算用数字と，縦書きで現われる横並びの算用数字をそれぞれ別のワイルドカードを割り当てて照合を行う。このため，縦書き中の横並び文字があることを含めた表記パターンを候補文字ラティスの中から取り出すことができる。その結果，横並び文字は算用数字しかありえない，または横並び文字の直前直後は「｜」などの区切り文字しかありえない，などの複雑なルールをプログラムに組み込まなくても，従来の単語照合の枠組みの延長で高精度な住所表示番号の認識が可能になる。

【００８８】第二は，住所表示番号の表記パターンを詳細に調べることができるにも関わらず，高速に処理されることである。まず，辞書から単語を検索するときに，
各文字パターンに対応する候補文字群をインデックスとして検索するために，照合を行う単語数を減らすことができる。さらに，各単語に縦横書きに対応する属性を持たせいているので，予め認識しようとする住所表示番号が縦横書きのどちらであるかが分かっていれば，不必要な単語の照合を防ぐことができ，高速な処理が可能となる。

【００８９】第三は，プログラムでルールを組み込む方式ではなく辞書照合方式であるために，新しい表記パターンが発生した場合は簡単に辞書に登録することができ，メンテナンスが容易なことである。

【図面の簡単な説明】

【図１】本発明における第１の実施例の装置の全体構成図である。

【図２】本発明における第１の実施例の装置の処理全体の流れを示す図である。

【図３】縦書き住所の入力画像の例を示す図である。

【図４】図３の入力画像に対して文字切出し候補をネットワークの形で表現した図である。

【図５】図４のネットワークで横並び文字を検出した例を示す図である。

【図６】図５で検出された横並び文字に対し，切出し候補を追加した例を示す図である。

【図７】町域の文字切出し識別の処理の流れを示すＰＡ
Ｄである。

【図８】縦書きの中に横並び文字を含む住所表示番号の文字切出し識別の処理の流れを示す図である。

【図９】住所表示番号照合を行う処理の流れを示す図である。

【図１０】町域照合を行うための候補文字ラティスの例を示す図である。

【図１１】住所表示番号領域の候補文字ラティスの例を示す図である。

【図１２】候補文字ラティスから住所表示番号照合を行うためのワイルドカードラティスを生成する変換テーブルを示す図である。

【図１３】図１２の変換テーブルを用いて，図６の候補文字ラティスから生成したワイルドカードラティスの例を示す図である。

【図１４】オートマトン単語照合の処理概要を示す図である。

【図１５】オートマトン単語照合の処理の流れを示すＰ
ＡＤ図である。

【図１６】住所表示番号単語インデックス辞書，住所表示番号単語辞書の構成を示す図である。

【図１７】照合した結果の住所表示番号単語から数字部分を復元した住所表示番号の候補の例を示す図である。

【符号の説明】

１００…郵便物，１０１…郵便物供給部，１０２…画像入力部，１０３…遅延搬送部，１０４…区分部，１０５
…区分棚，１０６…住所認識部，１０７…制御部，１０
８…画像処理部，１０９…文字認識部，１１０…町域照合部，１１１…住所表示番号照合部，１１２…町域単語辞書，１１３…住所表示番号表記パターン辞書，１１４
…表記パターン単語インデックス辞書，１１５…表記パターン単語辞書。

───────────────────────────────────────────────────── フロントページの続き (72)発明者丸川勝美東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者影広達彦東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者酒匂裕東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者嶋好博東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者渡辺成愛知県尾張旭市晴丘町池上１番地株式会社日立製作所オフィスシステム事業部内

标题	发布/更新时间	阅读量
基于设计信息模型的工作流模型推荐方法	2020-05-08	876
一种消息推送方法、装置、存储介质和服务器	2020-05-15	190
一种可自定义的dex分包的方法	2020-05-12	841
一种电子邮件在传递过程中限制转发的系统及方法	2020-05-15	262
一种基于机器学习的HTTP流量特征识别与提取方法	2020-05-11	38
日志提取方法、日志提取装置及存储介质	2020-05-08	469
一种字符串匹配的方法和装置	2020-05-13	528
一种网页应用监控方法、服务器和系统	2020-05-14	10
在数据库中对TRIE数据结构的有效使用	2020-05-14	373
一种基于代码注释自动生成开发文档的方法及系统	2020-05-12	814

Address reader

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：