首页 / 专利库 / 软件 / 通配符 / Address reading device and method

Address reading device and method

阅读:412发布:2021-05-23

专利汇可以提供Address reading device and method专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To identify an indicated address number accurately and rapidly by preparing a candidate character lattice of candidate characters converted to a wild card showing optional figures based on the candidate figures of a candidate character lattice, and collating the words of the indicated address number represented by the wild card with the words of a lattice of the wild card. SOLUTION: A street region collation part 111 in a knowledge processing part 110 produces a candidate character lattice based on character identification results, and information on the street region of an address and information relative to the display of an old address are extracted using the candidate character lattice. Next, an indicated address number collation part 112 extracts an indicated address number from the candidate character lattice. After that, the candidate character lattice is entered to the indicated address number collation part 112. Then the head character number entered of a region where the indicated address number of the candidate character lattice is written, is extracted. Following this procedure, a wild card lattice is produced based on the candidate character lattice to produce an automation for word collation. The words for the indicated address number are collated with the automation using the automation and dictionaries 115, 116.,下面是Address reading device and method专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】郵便物上の文字情報を検出して,町域情報と住所表示番号情報を含む住所情報を読み取る住所読取装置において,郵便物上の画像を電気信号に変換して入力する画像入力手段と,入力された画像から文字情報を切り出して認識し,切り出された各文字パターンに対して認識候補文字群を出力する文字認識手段と,文字認識手段から出力された認識候補文字群と町域情報を格納した町域辞書と照合することにより町域を認識する町域照合手段と,町域照合手段の認識結果に基づき,住所表示番号領域の先頭を検出する住所表示番号領域検出手段と,住所表示番号領域検出手段からの出力に基づき,住所表示番号領域の先頭以降の各文字パターンに対応する候補文字群中の数字を,任意の数字を表すワイルドカードで置き換えた候補文字群に変換するワイルドカード変換手段と,上記ワイルドカードで表現した住所表示番号の様々な表記パターンを単語として保持する住所表示番号単語辞書と,ワイルドカード変換手段の出力結果と住所表示番号単語辞書の単語とをオートマトンを用いて照合し,住所表示番号の表記パターンを認識する住所表示番号照合手段と,住所表示番号照合手段の出力結果と,
    文字認識手段から出力される候補文字群とを照らし合せ,ワイルドカードで置き換えられた候補文字群中の数字を復元し,住所表示番号の候補を出力する数字復元手段と,を有することを特徴とする住所読取装置。
  • 【請求項2】請求項1記載の住所読取装置において,郵便物上の住所情報を表す文字群が縦書きであるか,横書きであるかを検出する文字方向検出手段と,町域情報に加えて,町域を識別するための町域区分番号,その町域が新住所表記であるか,旧住所表記であるかの情報を格納した町域辞書と,町域照合手段の認識結果と住所表記辞書に基づき,その町域が新住所表記であるか,旧住所表記であるかを識別する住所表記識別手段と,各単語に新旧住所表記に関する属性,縦横書きに関する属性を持たせた住所表示番号単語辞書と,ワイルドカードで置き換えた任意の位置にある各文字パターンの候補文字群に対し,その候補文字群の文字コードをインデックスとして,住居表示番号単語辞書から単語を検索する単語検索手段と,文字方向検出手段と住所表記識別手段の出力に基づき,単語検索手段によって検索された単語の中から,住居表示番号単語辞書から新旧住所表記,縦横書きのそれぞれの属性が一致する単語のみを読み出す単語選択手段と,を有することを特徴とする住所読取装置。
  • 【請求項3】請求項1記載の住所読取装置において,町域照合手段の認識結果に基づき,住所表示番号領域の先頭を検出することができなかった場合に,認識結果として数字の候補が含まれる任意の文字パターンを住所表示番号領域の先頭として仮定する先頭仮定手段と,先頭仮定手段からの出力に基づき,住所表示番号領域の先頭と仮定される位置から,ワイルドカード変換手段の出力結果と住居表示番号単語辞書の単語とをオートマトンを用いて照合し,住所表示番号の表記パターンを認識する住所表示番号照合手段と,住所表示番号照合手段の出力結果と,文字認識手段から出力される候補文字群とを照らし合せ,ワイルドカードで置き換えられた候補文字群中の数字を復元し,住所表示番号の候補を出力する数字復元手段と,を有することを特徴とする住所読取装置。
  • 【請求項4】郵便物上の文字情報を検出して,町域情報と住所表示番号情報からなる住所情報を読み取り,住所表示番号の数値部が取りえる範囲を判定する住所読取装置において,郵便物上の画像を電気信号に変換して入力する画像入力手段と,入力された画像から文字情報を切り出して認識し,切り出された各文字パターンに対して認識候補文字群を出力する文字認識手段と,文字認識手段から出力された認識候補文字群と町域情報を格納した町域辞書と照合することにより町域を認識する町域照合手段と,町域照合手段の認識結果に基づき,住所表示番号領域の先頭を検出する住所表示番号領域検出手段と,
    住所表示番号領域検出手段からの出力に基づき,住所表示番号領域の先頭以降の各文字パターンに対応する候補文字群中の数字を,任意の数字を表すワイルドカードで置き換えた候補文字群に変換するワイルドカード変換手段と,上記ワイルドカードで表現した住所表示番号の様々な表記パターンを単語として保持する住所表示番号単語辞書と,ワイルドカード変換手段の出力結果と住所表示番号単語辞書の単語とをオートマトンを用いて照合し,住所表示番号の表記パターンを認識する住所表示番号照合手段と,住所表示番号照合手段の出力結果と,文字認識手段から出力される候補文字群とを照らし合せ,
    ワイルドカードで置き換えられた候補文字群中の数字を復元し,住所表示番号の候補を出力する数字復元手段と,住所表示番号の数値部の取り得る範囲の値を階層的に保持する住所表示番号範囲辞書と,数字復元手段から出力される住所表示番号の候補について,住所表示番号範囲辞書を参照して数値部の値が住所表示番号の取りうる範囲であるかを判定し,判定した結果に基づいて候補を絞り込む住所表示番号範囲判定手段と,を有することを特徴とする住所読取装置。
  • 【請求項5】郵便物上の文字情報を検出して,町域情報と住所表示番号情報からなる住所情報を読み取り,住所表示番号の数値部が取りえる範囲を判定する住所読取装置において,郵便物上の画像を電気信号に変換して入力する画像入力手段と,入力された画像から文字情報を切り出して認識し,切り出された各文字パターンに対して 認識候補文字群を出力する文字認識手段と,文字認識手段から出力された認識候補文字群と町域情報を格納した町域辞書と照合することにより町域を認識する町域照合手段と,文字認識手段から出力された認識候補文字群と町域情報を格納した町域辞書と照合することにより町域を認識する町域照合手段と,町域照合手段の認識結果に基づき,住所表示番号領域の先頭を検出する住所表示番号領域検出手段と,住所表示番号領域検出手段からの出力に基づき,住所表示番号領域の先頭以降の各文字パターンに対応する候補文字群中の数字を,任意の数字を表すワイルドカードで置き換えた候補文字群に変換するワイルドカード変換手段と,上記ワイルドカードで表現した住所表示番号の様々な表記パターンを単語として保持する住居表示番号単語辞書と,ワイルドカード変換手段の出力結果と住居表示番号単語辞書の単語とをオートマトンを用いて照合し,住所表示番号の表記パターンを認識する住所表示番号照合手段と,住所表示番号照合手段の出力結果として,住所表示番号候補が得られなかった場合に,オペレータが郵便物の宛名領域の画像を見ながら住所表示番号を入力するための表示装置と,住所表示番号の数値部の取り得る範囲の値を階層的に保持する住所表示番号範囲辞書と,オペレータが入力した住所表示番号の数値部が正しい範囲内に入っているかを住所表示番号範囲辞書を参照して判定する範囲判定手段と,判定の結果,範囲外と判定された場合はオペレータに警告を行う手段と,を有することを特徴とする住所読み取り装置。
  • 【請求項6】郵便物上の文字情報を検出して,町域情報と住所表示番号情報を含む住所情報を読み取る住所読取方法において,郵便物上の画像を電気信号に変換して入力し,入力された画像から文字情報を切り出して認識し,切り出された各文字パターンに対して認識候補文字群を出力し,出力された認識候補文字群と町域情報を格納した町域辞書と照合することにより町域を認識し,その認識結果に基づき,住所表示番号領域の先頭を検出し,その検出結果に基づき,住所表示番号領域の先頭以降の各文字パターンに対応する候補文字群中の数字を,
    任意の数字を表すワイルドカードで置き換えた候補文字群に変換し,上記ワイルドカードで表現した住所表示番号の様々な表記パターンを単語として保持する住所表示番号単語辞書を備え,ワイルドカードで変換した結果と住所表示番号単語辞書の単語とをオートマトンを用いて照合し,住所表示番号の表記パターンを認識し,その認識結果と,文字認識手段から出力される候補文字群とを照らし合せ,ワイルドカードで置き換えられた候補文字群中の数字を復元し,住所表示番号の候補を出力する,
    ことを特徴とする住所読取方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は,郵便物を自動的に区分するために,郵便物上に記載されている住所情報を読み取る住所読取装置及びその方法に関する。

    【0002】

    【従来の技術】住所情報として,例えば「東京都国分寺市西恋ヶ窪3丁目8−1」が記述されていた時,「東京都国分寺市西恋ヶ窪」を町域情報,「3丁目8−1」の数字で記述されている部分を住所表示番号情報と定義する。 従来,郵便自動読み取り区分法としては,町域情報について区分をする方式が知られている。 これは「東京都」,「国分寺市」,「西恋ヶ窪」と階層構造を持つため,1,2字程度文字が認識できない場合でも,階層構造を利用して,知識処理によりそれを補間することで,
    町域情報全体を認識することが可能だからである。 一方,住所表示番号情報はそのような階層構造がない上に,同じ意味を持つ住所表示番号でも様々な記述形態が存在する。 例えば,「三丁目八番地一号」,「3丁目8
    −1」,「3−8−1」,「3の8の1」は同じ住所表示番号を意味する。

    【0003】従来,このような住所表示番号の区分方法としては,例えば,特開平6−124366号公報,または電子方法通信学会信学技法NCL92−26,PR
    U92−40(1992年10月)「住所読み取りにおける丁目・街区認識方式」が知られている。 この手法は,切り出した各文字パターンを認識した後,認識した結果の文字種に応じてラベル付けし,住所表示番号部分を数値部と区切り情報部に分ける。

    【0004】例えば,「3丁目8−1」は「NDDND
    N」(N:算用数字を表すラベル,D:区切り情報を表すラベル)となる。 その後,ラベルの全ての組み合わせに応じた複数の処理関数を予め用意しておき,前述のラベル付け応じた個別の処理関数を呼び出すことにより,
    住所表示番号を認識するものである。

    【0005】

    【発明が解決しようとする課題】しかしながら,上記の方法では2つの大きな問題点がある。 一つ目の問題点は,誤認識に十分対応できないという問題である。 例えば,「3丁目8−1」という住所表示番号が入された時に,「丁」の認識結果に数字や区切り情報を表す文字以外の認識候補しかなかった場合には,ラベル付けを行うことができないために対応できない。 あるいは,住所表示番号の領域が検出できなかった場合は,ラベル付けができなくなるので住所表示番号を認識することができない。

    【0006】また,上記方法では区切り情報を表す文字を一つのラベルで表して区別していない。 そのため,例えば「3丁目8−1」の「目」が誤認しきされて「8」
    という認識候補があった場合は,「NDNNDN」というラベル付けがなされることになり,数字と数字の間が区切り情報で仕切られているので,一見矛盾のないラベル付けがなされることになる。

    【0007】この問題は区切り情報を詳細に区別すれば解決できる。 しかし,この装置では高速に処理することを目的として,ラベル付けに応じた個別の処理関数を設けてそれぞれで処理を行っている。 そのため,住所表示番号の様々な表記パターンを詳細に分類して処理しようとすると,非常に多くの処理関数を設ける必要があり,
    非常に困難となる。

    【0008】2つ目の問題点は,個別処理関数方式であるため,新しい表記パターンへの登録をする場合は新しく関数を生成する必要があり,メンテナンスが容易でないという問題である。

    【0009】本発明は,処理速度を犠牲にすることなく上記問題点を解決すること,および自動的に住所表示番号が認識できなかった場合に,オペレータにより正しい住所表示番号を入力するために確認の補助を行うことを目的とする。 その他の目的は,明細書の記載から自ずと明らかになろう。

    【0010】

    【課題を解決するための手段】上記課題を解決するために,本発明では基本的に5つの特徴事項を提供する。 第一の特徴事項は,任意の数字を表すワイルドカードを用いて単語照合を行うことである。 郵便物の住所情報から文字切出,認識結果として,候補文字群とそれに対応するペナルティを格納した候補文字ラティスが得られる。
    その後,知識処理により住所表示番号領域の先頭を検出し,住所表示番号領域の候補文字ラティスから,正しい住所表示番号を抽出するために,単語照合を行う。 しかし,丁目や番などを表す数字は任意の数字を取り得るため,全ての数字の組み合わせについて,住所表示番号の単語を保持するのは記憶容量と処理速度の点で事実上不可能である。 そこで,候補文字ラティスの数字候補を任意の数字を表すワイルドカードに変換した候補文字ラティスを作る。 そして,ワイルドカードで表した住所表記番号の単語とワイルドカードのラティスとの単語照合を行えば,住所表記番号においても町域照合と同様な単語照合ができ,正しい住所表示番号の単語を抽出することができる。 そして,単語照合の結果,上位の候補に上がってきたワイルドカードの単語の数字部分について,元の候補文字ラティスを参照しながら元の数字に復元すれば,正しい候補が得られる。

    【0011】上記第一の特徴事項の詳細について述べる。 住所表示番号領域について候補文字ラティスを示したのが図6である。 図6(a)は候補文字の文字コードを格納した候補文字テーブルであり,図6(b)はそれぞれの候補文字に対するペナルティである。 ワイルドカードへの変換テーブルの例を図7に示す。 図7において,例えば算用数字は「n」,漢数字は「k」,区切り記号は「丁」,「目」,「番」,「号」,「−」,「|」等に変換される。 住所表記番号で使用されない全ての文字はその他の文字として「e」に変換される。

    【0012】このようなテーブルを用いて生成されたワイルドカードラティスの例を図8に示す。 図8(a)はワイルドカードテーブルであり,図8(b)はそれに対応するコストテーブルである。 ここでは,一つの記入文字について同じワイルドカードが重複してでてきたら,最も上位に位置するワイルドカードのみをワイルドカードテーブルに書き込み,それ以外のワイルドカードは省略する。 例えば,図6(a)の記入文字番号12の候補文字を見ると,第1位,第2位,第5位にそれぞれ算用数字の候補があるが,第1位の算用数字に対するワイルドカード「n」のみを,図8(a)のワイルドカードテーブルの該当する場所に書き込む。 そして,図8(b)のコストテーブルのそれに対応する場所に,第1位のコスト「0」
    を書き込む。

    【0013】一方,照合を行うための単語はワイルドカードを用いて「n丁目n−ne」等の表現で辞書に格納されている。 よって,ワイルドカードラティスから単語照合を行うためのオートマトンを生成し,ワイルドカードで表された単語との照合を行うことで,正しい単語を得ることができる。 ここでオートマトンは状態と状態の間の遷移経路に対して,それぞれ候補文字とそれに対応するコストが割り当てられており,単語が状態間を遷移していく間に,該当するコストが積算されていく。 これにより,それぞれの単語に対して文字数で割った平均コストが得られ,そのコストが小さい単語が上位候補として挙げられる。

    【0014】図9にオートマトンの例を示す。 オートマトン191において丸印は状態を示し,その中に書かれた数字は状態番号を示す。 加えて,状態と状態の間が単語の各記入文字位置に対応し,状態間の線は遷移経路を示す。 遷移経路上の左側の文字は,ある状態でオートマトンにその文字が入力された時に,その遷移経路を辿って次の状態に遷移することを示す。 また,遷移経路上で「other」は遷移経路に対応する文字として明示されたもの以外の全ての文字を表す。 遷移経路上の[]内の数字は,その経路を辿って遷移した時に有するコストである。

    【0015】例として,オートマトン191を用いて,
    単語「n丁目n−ne」190が入力された時のコスト計算を考える。 まず,状態1から状態2に遷移するときに「n」のコスト[0]が加算され,状態2から状態3
    に遷移するときは「丁」のコスト[1]が加算され,以下同様に遷移が進んでいく。 そして,単語の文字数分の遷移が全て終わった後,積算されたコストを単語の文字数で割ることでその単語の平均コスト192が得られる。

    【0016】第二の特徴事項は,高速に単語照合を行うためにインデックスを設けることである。 住所表示番号の多様な表記パターンに対応するためには,多くの単語を登録しておく必要があるが,それら単語群を全て照合すると処理時間が膨大になる。 そこで,インデックスを設けて不要な単語は照合を行わないようにする。 以下に3つのインデックスを示す。

    【0017】一つ目のインデックスは,記入文字の1文字目,2文字目の候補文字をインデックスとすることである。 1文字目,2文字目の候補文字に単語の文字が含まれるものは,正しい単語である可能性が高く,それに漏れるものは可能性が低いと思われる。 そこで,1文字目,2文字目に該当する候補文字を含む単語のみを照合することで,全ての単語を照合しなくても高速に正しい解を探索することができる。 二つ目のインデックスは新旧住所表記のフラグである。 まず,予め町域照合の単語辞書にその町域の新旧住所表記に関するフラグを登録しておく。 一方,そのワイルドカードの単語に,新旧住所表記のどちらに対応する表記パターンかを示すフラグを設けておく。 そして,単語を検索する際に,それらフラグを照らし合せることで,不必要な単語照合を防ぐことができる。 三つ目のインデックスは,縦横書きのフラグである。 文字認識を行うときに縦横書きに関するフラグを出力するようにしておく,一方,ワイルドカードの単語にも縦横書きに関するフラグを設けておき,それらのフラグを照らし合せることで,不必要な単語照合を避けることができる。

    【0018】第三の特徴事項は,町域照合により住所表示番号領域の先頭が検出できなかった場合に,様々な記入文字位置において単語照合を行うことである。 まず住所の先頭から始まる候補文字ラティスの中から,数字の候補を全て探索し,それらを含む記入文字位置を記憶しておく。 これは住所表示番号が必ず数字から始まることによる。 そして,探索した記入文字位置を住所表示番号の先頭であると仮定して,仮定された全ての文字位置から単語照合を行う。 これにより,任意の位置に記入してある住所表示番号を照合することができる。

    【0019】第四の特徴事項は,住所表示番号の数字部分について階層的に数字の取り得る範囲を保持しておく住所表示番号範囲辞書である。 予め,丁目,番,号等の各数字部分の取り得る範囲を辞書中に階層的に登録しておく。 例えば,国分寺市は4丁目までしかないとか,4
    丁目は8番地までしかないとか,4丁目8番地は9号までしかない等の情報を階層的に保持しておく。 そして,
    ワイルドカードから数字に復元された住所表示番号の候補に対して,この辞書と照らし合せることで,在りえない住所表示番号を候補から除くことができる。

    【0020】第五の特徴事項は,第4の特徴事項を用いてオペレータが入力した住所表示番号が正しいかどうかの判定を行うことである。 照合の結果,正しい住所表示番号が得られなかった場合に,オペレータが郵便物の宛名を見ながら住所表示番号入力する。 その際に入力ミスを防ぐために,入力された住所表示番号が正しいかどうかを住所表示番号範囲辞書を用いて判定する。

    【0021】尚,上記の基本的な5つの特徴事項は,装置としても方法としてもそれぞれ発明として捉えられるものである。

    【0022】

    【作用】本発明は,次の5つの基本的な作用がある。 第一は,文字認識で正しい候補文字が全く挙がらなかった場合でも,住所表示番号を認識できることである。 本発明では,住所表示番号の表記パターンを任意の数字を表すワイルドカードを用いて表現した辞書単語として保持しており,認識結果の候補文字群と単語のコストを計算して照合を行うことで,住所表示番号を認識することができる。 そのため,住所表示番号の一部の認識結果の候補文字群に正しい候補が上がらなかった場合でも,それを補間して住所表示番号を認識することができる。 例えば,「3丁目8−1」の「丁」に対応する文字パターンに対して,「丁」という文字が認識候補として上がらなかった場合でも,それに対応する単語が全体としてコストが小さければ,「丁」を補間して住所番号を認識することができる。

    【0023】加えて,住所表示番号の表記パターンを辞書の形式で保持しているため,個別の関数を準備して処理するより詳細に表記パターンを見ることができるので,誤認識を防ぐことができる。

    【0024】第二は,住所表示番号を詳細に調べることができるにも関わらず,高速に処理されることである。
    まず,辞書から単語を検索するときに,各文字パターンに対応する候補文字群をインデックスとして検索するために,照合を行う単語数を減らすことができる。 さらに,各単語に新旧住所表記や縦横書きに対応する属性を持たせいているので,予め認識しようとする住所表示番号が新旧住所表記のどちらに属するか,あるいは縦横書きのどちらであるかが分かっていれば,不必要な単語の照合を防ぐことができ,高速な処理が可能となる。

    【0025】第三は,辞書方式であるために,新しい表記パターンが発生した場合は簡単に辞書に登録することができ,メンテナンスが容易なことである。

    【0026】第四に,住所表示番号の数字部分について階層的に数字の取り得る範囲を保持しておく住所表示番号範囲辞書があるため,実際にありえない住所表示番号の候補を除くことができる。

    【0027】第五に,住所表示番号照合の結果,住所表示番号候補が得られなかった場合に,オペレータが郵便物の宛名領域の画像を見ながら,住所表示番号を正しく入力できることである。 住所表示番号の数値部の取り得る範囲の値を階層的に保持する住所表示番号範囲辞書を保持しているため,オペレータが入力した住所表示番号の数値部が正しい範囲内に入っているかを,住所表示番号範囲辞書を参照して判定することができる。 判定の結果,範囲外と判定された場合はオペレータに警告を行うため,オペレータによる入力ミスを防ぐことができる。

    【0028】

    【実施例】以下,本発明の第一の実施例を図1〜図14
    を用いて説明する。

    【0029】図1は本実施例の装置全体の構成図である。 郵便物100は供給部101に順次送られる。 供給部101において郵便物が所定位置を通過し,その通過の間に郵便物の表面の画像は画像入力部102により撮像される。 住所認識部106では,郵便物の表面に記載された住所を読み取り区分情報を生成する。 一方,表面画像が撮像された当該郵便物は遅延搬送路103に送られる。 遅延搬送路103では,表面画像より区分情報を生成するための所定時間分,郵便物は当該搬送路103
    を移動する。 区分部104では,住所認識部106からの区分情報に従って郵便物を区分けした後,区分棚10
    5に格納する。 画像入力部102では,ラインセンサのような光電変換素子からの画像信号をデジタル化すると共に,郵便物の表面の画像から宛名の文字行を抽出する。

    【0030】住所認識部106は,制御部107,画像処理部108,文字認識部109,知識処理部110からなり,制御部107は画像処理部108,文字認識部109,知識処理部110をそれぞれ制御する。 知識処理部110は,町域照合部111,住所表示番号照合部112からなり,それぞれ町域照合部111では町域単語辞書113を,住所表示番号照合部112では住居表示番号辞書群114をアクセスし,文字認識部109の認識結果の誤りなどを自動的に修正する。

    【0031】住所表示番号辞書群114は,住所表示番号単語インデックス辞書115,住所表示番号単語辞書116,住所表示番号範囲辞書117からなる。 住所表示番号単語辞書116は,街区の表記パターンを納めた辞書であり,住所表示番号単語インデックス辞書115
    は,住所表示番号単語辞書116から必要な単語を選択的に検索するためのインデックスを納めた辞書である。
    住所表示番号範囲辞書117は各住所表示番号における丁目,街区,住居表示番号のそれぞれの範囲を階層的に記した辞書である。

    【0032】図2は図1における住所認識部106の処理全体の流れを示したものである。 図2を用いて住所認識部106の動作を説明する。

    【0033】ステップ120では,画像入力部102が郵便物の宛名書いてある面を撮像し,その画像を住所認識部106に入力する。 ステップ121では,画像処理部108が画像入力部102より送られてきた宛名の書いてある全面の画像から宛名領域を抽出する。 ステップ122では,画像処理部108がステップ121で得られた宛名領域の画像から文字行毎の画像を抽出する。 ステップ123では,文字認識部109がステップ122
    で得られた文字行の画像から,1文字毎に文字画像を切り出した後,切り出した1文字毎に文字を認識して文字コードに変換する。 ここで,文字認識した結果は候補としての複数の文字コードと対応する類似度が得られる。
    また,文字の方向,すなわち縦書きか横書きかの情報も得られる。

    【0034】ステップ124では,知識処理部110における町域照合部111がステップ123で得られた文字認識結果を基に候補文字ラティスを生成する。 ここで,候補文字ラティスの例を図4に示す。 これらは,例えば「東京都国分寺市西恋ヶ窪3−8−1日立寮」という住所が,郵便物の宛名に書いてあった時に,町域情報を表す「東京都国分寺市西恋ヶ窪」の部分の候補文字ラティスの例である。 図4(a)は候補文字ラティス中の候補文字テーブルの例であり,図4(b)はそれに対応するコストテーブルの例である。 図4(a)の候補文字テーブルは,記入文字番号毎に第1位から第m位(mは任意)
    まで,候補文字の文字コードが並べられている。 図4
    (b)のコストテーブルは,図4(a)の候補文字テーブルの文字コードが格納されている位置と対応する場所に,その候補文字に対するコストが格納されている。 例えば,
    記入文字番号1の第1位の候補文字「東」のコストは「0」となる。

    【0035】ステップ125では,知識処理部110の中の町域照合部111が,町域単語辞書113を用いてステップ124で得られた候補文字ラティスから住所の町域情報,および町域情報に対応する新旧住所表記情報を抽出する。 町域情報の抽出法としては,候補文字ラティスからオートマトンを生成して単語照合を行う手法が知られている。 これは特開平3−125288号公報にその詳細が記述されている。

    【0036】次に,町域単語辞書113の構成,および,町域情報に対応する新旧住所表記情報の抽出法を図5を用いて説明する。 町域単語辞書113は単語が階層的に格納されており,例えば,都道府県レベルの単語としては,埼玉県142,東京都143,神奈川県144
    があり,東京都143の下の市区郡レベルの単語としては,小金井市145,国分寺市146,国立市147がある。 そして,国分寺市146の下には町域レベルの単語,日吉町148,西恋ヶ窪149,東恋ヶ窪150がある。 さらに,町域レベルの単語には全国の町域情報を識別するための7桁の町域区分番号151〜153,個々の町域が新旧住所表記のどちらに該当するかを示すフラグ154〜156がそれぞれ一緒に格納されている。
    新旧住所表記のフラグは,例えばその町域が新住所表記に該当すれば1,旧住所表記に該当すれば2というような値を取る。 よって階層的に単語照合を行って町域情報が得られると,辞書の該当する部分を参照することで,
    町域情報を識別するための7桁の町域区分番号,辞書の新旧住所表記のフラグも同時に得られる。 7桁の町域区分番号は,後の処理で住所表示番号の数字部分の取りうる範囲を判定するために,住所表示番号範囲辞書117
    を検索する時のインデックス,および区分部105で郵便物を区分するための制御情報の一部として利用される。 また,新旧住所表記フラグは住所表示番号照合を行うために,住所表示番号単語辞書から照合する単語数を制限するためのインデックスとして利用される。 以上のステップ125の町域照合処理により,町域情報,町域区分番号,および新旧住所表記フラグが得られる。

    【0037】ステップ126では,知識処理部110の中の住所表示番号照合部112が住所表示番号辞書群1
    14を用いて,ステップ124で得られた候補文字ラティスから住所表示番号を抽出する。 ステップ126の詳細を図3,図5〜図11を用いて詳細に説明する。 図3
    においてステップ132,135が本発明の特徴となっている。

    【0038】ステップ130では,図2のステップ12
    4で生成した候補文字ラティスを住所表示番号照合部1
    12に入力する。 ステップ131では,候補文字ラティスの住所表示番号が書かれた領域の先頭の記入文字番号を検出する。 これは図2のステップ125で行った町域照合により,町域の書いてある領域の終わりが検出できるので,それを利用する。 ステップ132では,ステップ130で得られた候補文字ラティスから,ワイルドカードラティスを生成する。 ここで,ワイルドカードラティスとは住所表示番号の照合を行うために,候補文字ラティス中の数字を任意の数字を表すワイルドカードで置き換えたラティスである。

    【0039】ステップ132の詳細を図6,図7,図8
    を用いて説明する。 図7はワイルドカードラティスを生成するために用いる変換テーブルであり,以下に詳細を述べる。

    【0040】分類における「数字」のテーブルは,丁目,街区,住居表示番号を表す数字に関わるテーブルであり,候補文字ラティス中に任意の算用数字と漢数字の候補文字があれば,それぞれ「n」,「k」というワイルドカードに変換される。

    【0041】「区切り文字」のテーブルは,例えば住所中に「3丁目8−1」とある場合に,丁目や街区の数字同士を区切るために使用される文字「丁目」や「−」に関するテーブルである。 ここでは「丁」,「目」,
    「番」,「地」,「の」,「ノ」については変換せずに,そのままの文字を使用する。 一方「−」,「〜」,
    「/」は「−」というワイルドカードに変換される。

    【0042】「その他」のテーブルは,「数字」テーブル,「区切り文字」テーブル以外の文字に関するテーブルで,上記で述べた以外の文字は全て「e」というワイルドカードに変換される。 すなわち「その他」というのは丁目,街区,住居表示番号に関わる文字以外の全てを指す。

    【0043】図8は,図7の変換テーブルを用いて,図6で示す候補文字ラティスから,ワイルドカードラティスを生成した例である。 ワイルドカードラティスは図8
    (a)で示すワイルドカードテーブルと,図8(b)で示すコストテーブルの2つからなる。

    【0044】図8のワイルドカードラティスの生成は,
    図6(a)の候補文字テーブルにおいて候補文字の順位の高いほうから行う。 まず第1位の候補文字をワイルドカードに変換して図8(a)で示すワイルドカードテーブルの第1位の場所に書き込む。 それと同時に変換された候補文字に対応するコストを,図8(b)のコストテーブルの該当する場所に書き込む。

    【0045】次に,第2位の候補文字を調べ,それが第1位の候補文字と同じワイルドカードに属するなら,重複するのでそれを省略する。 もし違うワイルドカードに属するのであれば,そのワイルドカードと対応するコストを,それぞれ図8(a)のワイルドカードテーブル,図8(b)のコストテーブルに書き込む。 以下,全ての候補文字について同じことを繰り返す。

    【0046】例えば,図6(a)の候補文字テーブルにおける記入文字番号12の列の変換を考える。 まず,第1
    位の候補文字「8」をワイルドカード「n」に変換して,図8(a)のワイルドカードテーブルにおける記入文字番号12の第1位の場所に書き込む。 それと同時に,
    候補文字「8」に対応するコスト「0」を,図8(b)で示すコストテーブルの該当する場所に書き込む。

    【0047】次に,第2位を見ると候補文字「3」は同じワイルドカード「n」に属するので,省略して図8
    (b)のワイルドカードテーブルには何も書かない。 更に,第3位を見ると候補文字「日」は「n」と違うワイルドカード「e」に属するので,図8(a)のワイルドカードテーブルの中で空いている第2位の場所にそれを書き込む。 それと共に,図8(b)コストテーブルの対応する場所に候補文字「日」のコスト「2」を書き込む。 以下,同様の処理を全ての順位の候補文字に対して行う。

    【0048】以上のステップ132の処理により,ステップ130で得られた候補文字ラティスから,ワイルドカードラティスが生成される。

    【0049】ステップ133では,ステップ132で生成したワイルドカードラティスから,単語照合を行うためのオートマトンを生成する。 ステップ133の詳細を図9を用いて説明する。

    【0050】図9は辞書から単語を取り出し,オートマトンを用いて住所表示番号単語の照合を行う過程を示したものである。 まず,オートマトン191について説明する。 住所表示番号パターンを表す辞書単語とワイルドカードラティスの照合を行うために,図8で示すワイルドカードラティスから有限オートマトン191を生成する。 そして,オートマトン191は文字列として表した辞書単語を順次入力し,その単語の平均コストはいくらになるかを計算する。

    【0051】オートマトン191において丸印は状態を示し,その中に書かれた数字は状態番号を示す。 加えて,状態と状態の間が単語の各記入文字位置に対応し,
    状態間の線は遷移経路を示す。 遷移経路上の左側の文字は,ある状態でオートマトンにその文字が入力された時に,その遷移経路を辿って次の状態に遷移することを示す。 また,遷移経路上で「other」は遷移経路に対応する文字として明示されたもの以外の全ての文字を表す。
    遷移経路上の[]内の数字は,その経路を辿って遷移した時に有するコストである。

    【0052】例として,オートマトン191を用いて,
    単語「n丁目n−ne」190が入力された時のコスト計算を考える。 まず,状態1から状態2に遷移するときに「n」のコスト[0]が加算され,状態2から状態3
    に遷移するときは「丁」のコスト[1]が加算され,以下同様に遷移が進んでいく。 そして,単語の文字数分の遷移が全て終わった後,積算されたコストを単語の文字数で割ることでその単語の平均コスト192が得られる。

    【0053】次に,図8のワイルドカードラティスからの有限オートマトン191の生成を説明する。 まず,図9のオートマトン191の状態1と状態2の間の遷移経路を生成し,図8(a)のワイルドカードテーブルの記入文字番号12の候補文字をそれぞれ割り当てる。 それと共に,候補文字に対応する図8(b)で示すコストテーブルのコストを,同様に状態1と状態2の間の遷移経路にそれぞれ割り当てる。 次に,明示されたもの以外の全ての文字を表す遷移経路として「other」を生成し,さらにそのコストを15とする。 以下,同様に状態と遷移経路をワイルドカードラティスから次々に生成していく。
    ここで,遷移経路のコストはコストは必ずしも上記の値にする必要はなく,任意の数字でよい。

    【0054】以上のステップ133の処理により,ワイルドカードラティスからオートマトン191が生成される。

    【0055】ステップ134では,ステップ133で生成したオートマトン191と図1の住所表示番号単語インデックス辞書115,住所表示番号単語辞書116を用いて,住所表示番号単語のオートマトン照合を行う。
    ステップ134の詳細を図8,図9,図10,図11を用いて説明する。 図10はオートマトン照合処理の流れを示したPADである。 図11は住所表示番号単語辞書,住所表示番号単語インデックス辞書の構成を示した図である。

    【0056】まず,図11の辞書の構成を説明する。 住所表示番号単語辞書116はワイルドカードを用いて丁目,街区,住居表示番号の表記パターンを表した単語,
    およびその検索情報や属性を格納した辞書である。 丁目,街区,住居表示番号の表記パターンを表した単語としては,例えば「n丁目n−ne」,「n|n|ne」
    等が格納されている。 住所表示番号単語インデックス辞書115は,照合を行うために必要な単語を住所表示番号単語辞書から選択的に検索するためのインデックスを格納した辞書である。 インデックスは,辞書単語の第1
    文字目,第2文字目の文字を使用する。

    【0057】住所表示番号単語辞書116は,街区の表記パターンを表す単語228,単語の第2文字目が同一の文字を持つ単語間の相対アドレス229,新旧住所表記を示すフラグ230,縦横書きを示すフラグ231からなる。

    【0058】新旧住所表記を示すフラグ230は,街区表記を表す単語が新住所表記の表記パターンであれば1,旧住所表記の表記パターンであれば2,どちらの住所表記にも対応するのであれば3という数字が格納されている。 縦横書きを示すフラグ231は,街区表記を表す単語が横書きに属するのであれば1,縦書きに属するのであれば2,縦横両方に属するのであれば3という数字が格納されている。

    【0059】住所表示番号単語インデックス辞書115
    は,1文字目インデックステーブル220,2文字目インデックステーブル224の二つのテーブルからなる。
    1文字目インデックステーブル220は,辞書単語の第1文字目の文字番号を格納したテーブル221,同一の1文字目を持つ単語の数222,住所表示番号単語辞書116へのポインタテーブル223からなる。 2文字目インデックステーブル224は,同様に辞書単語の2文字目の文字番号を格納したテーブル225,同一の2文字目を持つ単語の数226,住所表示番号単語辞書11
    6へのポインタテーブル227からなる。

    【0060】次に,住所表示番号単語インデックス辞書115を用いて,住所表示番号単語辞書116の単語を検索する時の処理の流れを説明する。 実線で表された矢印は1文字目インデックステーブル220を用いて,第1文字目が同一の文字である単語を検索するときの検索の流れを示す。 点線で表された矢印は2文字目インデックステーブル224を用いて,2文字目が同一の文字である単語を検索するときの検索の流れを示す。

    【0061】例えば,単語の1文字目が「n」である単語を辞書から検索する場合は,1文字目インデックステーブル220の第1文字目が同一の文字である単語の数
    m1,および「n」のポインタP1(1)を参照する。 ポインタP1(1)には,住所表示番号単語辞書の中で1文字目が「n」で始まる単語の最初のポインタが格納されているので,その単語を参照する。 単語辞書の中では1文字目が同じ文字の単語は連続して並べてあるので,「n」で始まる最初の単語を見つけると,以下はポインタをインクリメントするだけで,次々に単語を検索することができる。 そして,m1回検索を行うと「n」で始まる単語の終わりになるので,そこで単語の検索を終了する。

    【0062】単語の2文字目をインデックスとして検索する場合も同様である。 例えば,単語の2文字目が「丁」である単語を辞書から検索する場合は,2文字目インデックステーブル224の第1文字目が同一の文字である単語の数q1,および「丁」のポインタP2(1)を参照する。 ポインタP2(1)には,住所表示番号単語辞書の中で2文字目が「丁」の単語のポインタが格納されているのでその単語を参照する。 その後,単語の第2文字目が同一の文字を持つ単語間の相対アドレス229を参照してポインタをシフトすることで,第2文字目が同じ「丁」の単語を検索することができる。 そして,q1回検索を行うと2文字目が同じ「丁」の単語の終わりになるので,そこで単語の検索を終了する。

    【0063】ここで,図2のステップ123の文字切り出し・文字認識で,住所が縦書きか横書きかが分かっているので,縦横書きを示すフラグ231を参照することで,検索した単語の中から該当する単語を絞り込んで取り出すことができる。

    【0064】また,図2のステップ125の町域照合で住所表示番号が新旧どちらの住所表記に属するのかが分かっているので,新旧住所表記を示すフラグ230を参照して,検索した単語の中から該当する単語を絞り込んで取り出すことができる。

    【0065】次に,ステップ134の具体的処理内容を図10の処理フロー,および図8,図9,図11を用いて説明する。

    【0066】ステップ200では,照合を行おうとする住所に対して,図2のステップ123で得られた住所の縦横書きを表すフラグ,ステップ125で得られた新旧住所表記を表すフラグをセットする。 ステップ202では,図8(a)のワイルドカードテーブルにおける記入文字番号12の第1位の候補文字を取り出し,図11の1
    文字目インデックステーブル220を参照して,辞書単語数222,および単語辞書のポインタ223を取得する。 ステップ204では,ポインタが指している先の単語を検索し,この単語がステップ200でセットした新旧住所表記フラグ,および縦横書きフラグと矛盾がないかを辞書の該当するテーブル230,231を参照してチェックする。 もし矛盾がなければステップ205に進む。 ステップ205では,検索した単語を図9のオートマトン191に入力して,状態を遷移させながら平均コストを計算する。 ステップ203では,ステップ204
    からステップ205の処理をステップ202で求めた辞書単語の数だけ繰り返す。

    【0067】ステップ201では,図8(a)における記入文字番地12の次順位の候補文字を取り出し,ステップ202からステップ205の処理を記入文字番地12
    の候補文字数回繰り返す。 ステップ207では,図8
    (a)のワイルドカードテーブルの記入文字番号13の第1位の候補文字を取り出し,図11の2文字目インデックステーブル224を参照して,辞書単語数226,および単語辞書のポインタ227を取得する。 ステップ2
    09では,ポインタが指している先の単語を検索し,この単語がステップ200でセットした新旧住所表記フラグ,および縦横書きフラグと矛盾がないかを辞書の該当するテーブルを参照してチェックする。 もし矛盾がなければステップ210に進む。

    【0068】ステップ210では,検索した単語を図9
    のオートマトン191に入力して,状態を遷移させながら平均コストを計算する。 ステップ208では,ステップ209からステップ210の処理をステップ207で求めた辞書単語の数だけ繰り返す。 ステップ206では,図8(a)の記入文字番地13の次順位の候補文字を取り出し,ステップ207からステップ210の処理を記入文字番地13の候補文字数回繰り返す。

    【0069】ステップ211では,ステップ200からステップ210の処理で求めた単語,および,そのコストを昇冪の順に並べ変える。 ステップ212では,ステップ211で並べ変えた単語の上位L(L>1)個を選択する。

    【0070】以上のステップ200からステップ212
    の処理により,図3におけるステップ134のオートマトン照合が行われ,平均コストの小さい上位L個の単語およびそのコストが得られる。

    【0071】ステップ135では,ステップ134で得られた上位L個のワイルドカードで表された単語について,「n」,「k」の数字を表すワイルドカードを元の数字に復元して,候補を生成する。 ここではL=1として,図9の単語「n丁目n−ne」190を数字に復元した結果を図12に示す。 数字復元の処理は,まず図6
    に示す候補文字テーブル160と単語「n丁目n−n」
    190の位置合わせを行う。 その後,数字「n」に対応する場所の候補数字,およびそのコストをそれぞれ図6
    (a)候補文字テーブルから取り出して,実際の丁目や街区を生成する。 また,図6(b)コストテーブルから数字に対応するコスト取り出して,復元した住所表示番号単語に対するコストを積算していく。

    【0072】ステップ136では,ステップ135で数字に復元した住所表示番号単語の候補について,丁目,
    街区,住居表示番号の数字部分を,図1の住所表示番号範囲辞書117と矛盾がないかを判別する。 ここで,住所表示番号範囲辞書117は各町域について,丁目,街区,住居表示番号の数字がそれぞれどの範囲を取りえるかの範囲情報を階層的に格納した辞書である。 住所表示番号範囲辞書117の詳細を図13を用いて説明する。

    【0073】住所表示番号範囲辞書117は,インデックステーブル260と住所表示番号範囲テーブル263
    からなる。 インデックステーブル260は,町域を識別する町域区分番号テーブル261と,住所表示番号範囲テーブル263へのポインタテーブル262からなる。
    住所表示番号範囲テーブル263は,丁目の番号をインデックスとして格納した丁目テーブル264,街区の番号をインデックスとして格納した街区テーブル265,
    住居表示番号の最大値を格納した住居表示番号テーブル266からなる。

    【0074】次に,住所表示番号範囲を参照する時の処理の流れを説明する。 例えば,「東京都国分寺市西恋ヶ窪」住所表示番号範囲を参照するには,まず図2のステップ125で図5に示す町域単語辞書を用いて求めた「東京都国分寺市西恋ヶ窪」に対応する町域区分番号「1850002」について,インデックステーブル2
    60の町域区分番号テーブル261を参照する。 「18
    50002」に対応するポインタPaは,住所表示番号範囲テーブル263の中で,「東京都国分寺市西恋ヶ窪」
    の範囲データが格納されている領域の先頭を参照している。 その領域には,丁目テーブル264,街区テーブル265をインデックスとして,住居表示番号の最大値が住居表示番号テーブル266に格納されてある。 そこで,該当する丁目,街区インデックスを検索することで,例えば「3丁目8番」の住居表示番号の最大値は9
    まで,「東京都国分寺市西恋ヶ窪」の全ての領域を検索することで,丁目の最大値は4までしかないことなどが分かる。 例えば,「東京都国分寺市西恋ヶ窪」の丁目が4丁目までしかない,3丁目3番地が住居表示番号5までしかないとすると,図12の候補群は図14で示す候補に絞られる。 以上のステップ136の処理により,住所表示番号の各丁目,街区,住居表示番号の範囲の判定が行われ,範囲外と判定された候補は図12の候補群から削除される。

    【0075】ここで,住所表示番号範囲辞書は本実施例に限るものではなく,例えば,住居表示番号部分は上限値のみではなく,下限値も同時に持たせてもよい。 また,駐車場の住居表示番号などを除いた,実際に郵便配達の対象となる住居表示番号のみを全て登録してもよい。

    【0076】ステップ137では,ステップ136で絞り込んだ候補からコストの小さいP(P>1)個の候補を住所表示番号照合結果として選択する。 ここでは,P
    =2として図14の「3丁目8−1」,「3丁目3−
    1」が照合結果として選択される。

    【0077】以上のステップ130からステップ137
    までの処理により,図2のステップ127住所表示番号照合が行われ,照合結果として住所表示番号の候補「3
    丁目8−1」,「3丁目3−1」が得られる。

    【0078】ステップ127では,ステップ125の町域照合で得られた町域候補「東京都国分寺市西恋ヶ窪」
    と,ステップ126の住所表示番号照合で得られた住所表示番号の候補「3丁目8−1」,「3丁目3−1」をつないで住所候補を生成する。 この例では,「東京都国分寺市西恋ヶ窪3丁目8−1」,「東京都国分寺市西恋ヶ窪3丁目3−1」が得られる。 さらに,この住所情報を用いて図1における区分部104を制御する制御情報を生成する。

    【0079】本発明の第二の実施例を図1,図2,図9,図15を用いて説明する。 ここでは,7桁の町域区分番号が宛名に印刷されている時に,町域照合により町域情報が得られなかった場合を考える。

    【0080】図2において,ステップ120からステップ122までは,第1の実施例と同様な処理を行う。

    【0081】ステップ123では,第一の実施例と同様に文字認識部109がステップ122で得られた文字行の画像から,1文字毎に文字を認識して文字コードに変換する。 ただし,ここでは住所情報だけでなく宛名に印刷されている町域区分番号も認識して文字コードに変換する。 ステップ124では,第一の実施例と同様に町域照合部111がステップ123で得られた文字認識結果を基に候補文字ラティスを生成する。 ステップ125では,第一の実施例と同様に町域照合部111が町域単語辞書113を用いて町域照合を行なう。 ただし,本実施例では町域照合の結果,町域情報および町域情報に対応する新旧住所表記情報を抽出できなかった場合を想定する。 ステップ126では,図1の知識処理部110の中の住所表示番号照合部112が住所表示番号辞書群11
    4を用いて,ステップ124で得られた候補文字ラティスから住所表示番号を抽出する。 ステップ126の詳細を図9,図15を用いて詳細に説明する。 図15においてステップ302,304が本発明の特徴となっている。

    【0082】ステップ300では,図2のステップ12
    4で生成した候補文字ラティスを入力する。

    【0083】ステップ301では,ステップ130で得られた候補文字ラティスから,第1の実施例と同様な方法でワイルドカードラティスを生成する。 ただし,町域情報が得られないために住所表示番号の先頭が検出できないので,住所の先頭からワイルドカードラティスを生成する。 ステップ302では,ワイルドカードラティスから数字の候補が含まれる記入文字番号を全て検出する。 すなわちワイルドカードテーブルで「n」や「k」
    が含まれる記入文字番号を抽出する。 ステップ303では,ステップ301で生成したワイルドカードラティスから第1の実施例と同様な方法により,記入文字番号1
    から単語照合を行うためのオートマトンを生成する。 そして,例えば図9のオートマトン191が得られたとする。 ここでは住所表示番号部分のオートマトンのみを表示している。

    【0084】ステップ304では,ステップ303で生成したオートマトン191と図1の住所表示番号単語インデックス辞書115,住所表示番号単語辞書116を用いて,住所表示番号単語のオートマトン照合を行う。
    ただし,第1の実施例の方式と違う点は,生成したオートマトンの状態数をK(K>1)とすると,K個の切断点で切断し,各切断点から始まる後部の部分オートマトンに対して第1の実施例の単語照合を行うことである。
    例えば,図9では状態番号1から始まるオートマトンに対して単語照合を行っていたが,それを状態番号2,
    3,・・・から始まるオートマトンに対しても,同様な単語照合を行う。 これにより,任意の位置に存在する単語を抽出することができる。 また,辞書から単語を選択する場合は,図2のステップ125で新旧住所表記の属性が得られないので,辞書にある新旧住所表記のフラグを見ないで単語を選択する。

    【0085】ステップ305では,第1の実施例と同様な方法により,ステップ304で得られた上位L(L>
    1)個のワイルドカードで表された単語について,
    「n」,「k」の数字を表すワイルドカードを元の数字に復元して,住所表示番号の候補を生成する。

    【0086】ステップ306では,第1の実施例と同様な方法によりステップ305で生成した候補から,コストの小さいP個の候補を住所表示番号照合結果として選択する。 以上のステップ300からステップ306までの処理により,図2におけるステップ126の住所表示番号照合が行われる。

    【0087】ステップ127では,ステップ123で得られた町域区分番号とステップ126で得られた住所表示番号を併せて図1の区分部104を制御する制御情報を生成する。

    【0088】以上ステップ120からステップ127の処理により,町域照合により住所表示番号領域の先頭が見つからなかった場合でも,区分部104を制御する制御情報を得ることが可能になる。

    【0089】本発明の第三の実施例を図2,図16,図17,図18を用いて説明する。

    【0090】図16において,本発明の特徴は不読修正部310と住所表示番号範囲辞書117である。 図16
    の装置の動作を図17を用いて説明する。

    【0091】ステップ340からステップ345までは,第1の実施例における図2のステップ120から1
    25までとそれぞれ同様な処理を行う。 ステップ346
    では,第1の実施例と同様な方法により住所表示番号照合を行う。 ただし,照合を行った結果,候補が得られなかった場合を考える。 ステップ347では,図16の制御部107が不読文字修正部310に知識処理部110
    の結果を送り,不読文字修正部310においてオペレータの入力作業により住所表示番号を入力する。 図18は入力作業のための表示画面の例である。 360は図16
    の画像入力部102で取り込んだ郵便物の宛名画像である。 361は知識処理部110の結果であり,住所表示番号の候補がなかったので数値に対応する部分は「?」
    で示されている。 362,363,364は,住所表示番号の中で,それぞれ丁目,街区,住居表示番号の数値をオペレータが入力するための枠である。 ここで,オペレータが入力した数値を知識処理部110が住所表示番号範囲辞書117を用いてその値が正しい範囲内に入っているかを判定する。 判定の結果,もし範囲外となった場合は,オペレータにその旨を表示する。 以上のステップ347の処理により,住所表示番号が入力される。

    【0092】ステップ348では,ステップ345で得られた町域情報と,ステップ346で入力された住所表示番号を結合して住所候補を生成する。 以上,ステップ340からステップ348の処理により,住所表示番号照合で候補が得られなかった場合でも,装置の補助によりオペレータが正しい住所表示番号を入力することができ,正しい住所が得られる。

    【0093】上記実施例では,住所表示番号の例は新住所表記を用いて説明したが,これは旧住所表記の住所表示番号に対しても同様な処理が適用される。

    【0094】

    【発明の効果】本発明は,次の5つの効果がある。 第一は,文字認識で正しい候補文字が全く挙がらなかった場合でも,住所表示番号を認識できることである。 本発明では,住所表示番号の表記パターンを任意の数字を表すワイルドカードを用いて表現した辞書単語として保持しており,認識結果の候補文字群と単語のコストを計算して照合を行うことで,住所表示番号を認識することができる。 そのため,住所表示番号の一部の認識結果の候補文字群に正しい候補が上がらなかった場合でも,それを補間して住所表示番号を認識することができる。 例えば,「3丁目8−1」の「丁」に対応する文字パターンに対して,「丁」という文字が認識候補として上がらなかった場合でも,それに対応する単語が全体としてコストが小さければ,「丁」を補間して住所番号を認識することができる。

    【0095】加えて,住所表示番号の表記パターンを辞書の形式で保持しているため,個別の関数を準備して処理するより詳細に表記パターンを見ることができるので,誤認識を防ぐことができる。

    【0096】第二は,住所表示番号を詳細に調べることができるにも関わらず,高速に処理されることである。
    まず,辞書から単語を検索するときに,各文字パターンに対応する候補文字群をインデックスとして検索するために,照合を行う単語数を減らすことができる。 さらに,各単語に新旧住所表記や縦横書きに対応する属性を持たせいているので,予め認識しようとする住所表示番号が新旧住所表記のどちらに属するか,あるいは縦横書きのどちらであるかが分かっていれば,不必要な単語の照合を防ぐことができ,高速な処理が可能となる。

    【0097】第三は,辞書方式であるために,新しい表記パターンが発生した場合は簡単に辞書に登録することができ,メンテナンスが容易なことである。

    【0098】第四に,住所表示番号の数字部分について階層的に数字の取り得る範囲を保持しておく住所表示番号範囲辞書があるため,実際にありえない住所表示番号の候補を除くことができる。

    【0099】第五に,住所表示番号照合の結果,住所表示番号候補が得られなかった場合に,オペレータが郵便物の宛名領域の画像を見ながら,住所表示番号を正しく入力できることである。 住所表示番号の数値部の取り得る範囲の値を階層的に保持する住所表示番号範囲辞書を保持しているため,オペレータが入力した住所表示番号の数値部が正しい範囲内に入っているかを,住所表示番号範囲辞書を参照して判定することができる。 判定の結果,範囲外と判定された場合はオペレータに警告を行うため,オペレータによる入力ミスを防ぐことができる。

    【0100】

    【図面の簡単な説明】

    【図1】本発明における第1の実施例の装置の全体構成図である。

    【図2】本発明における第1の実施例の装置の処理全体の流れを示す図である。

    【図3】住所表示番号照合を行う処理の流れを示す図である。

    【図4】町域照合を行うための候補文字ラティスの例を示す図である。

    【図5】町域情報を格納した町域辞書の構成の例を示す図である。

    【図6】住所表示番号領域の候補文字ラティスの例を示す図である。

    【図7】候補文字ラティスから住所表示番号照合を行うためのワイルドカードラティスを生成する変換テーブルを示す図である。

    【図8】図7の変換テーブルを用いて,図6の候補文字ラティスから生成したワイルドカードラティスの例を示す図である。

    【図9】オートマトン単語照合の処理概要を示す図である。

    【図10】オートマトン単語照合の処理の流れを示すP
    ADである。

    【図11】住所表示番号単語インデックス辞書,住所表示番号単語辞書の構成を示す図である。

    【図12】照合した結果の住所表示番号単語から数字部分を復元した住所表示番号の候補の例を示す図である。

    【図13】住所表示番号範囲辞書の構成の例を示す図である。

    【図14】図12の住所表示番号の候補から,各数字の部分について取り得る範囲を判定した後に残った候補を示す図である。

    【図15】本発明の第二の実施例における住所表示番号照合処理の流れを示す図である。

    【図16】本発明における第三の実施例の装置の全体構成図である。

    【図17】本発明における第三の実施例の処理全体の流れを示す図である。

    【図18】不読となった住所表示番号を入力するための画面の表示の例を示す図である。

    【符号の説明】

    100…郵便物,101…郵便物供給部,102…画像入力部,103…遅延搬送部,104…区分部,105
    …区分棚,106…住所認識部,107…制御部,10
    8…画像処理部,109…文字認識部,110…知識処理部,111…町域照合部,112…住所表示番号照合部,113…町域単語辞書,114…住所表示番号辞書群,115…住所表示番号単語インデックス辞書,11
    6…住所表示番号単語辞書,117…住所表示番号範囲辞書。

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 古賀 昌史 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 影広 達彦 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 寺本 正人 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所オフィスシステム事業部内 (72)発明者 渡辺 成 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所オフィスシステム事業部内 (72)発明者 藤澤 浩道 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈