首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / System and method for discriminating image zone

System and method for discriminating image zone

阅读:946发布:2021-01-10

专利汇可以提供System and method for discriminating image zone专利检索,专利查询,专利分析的服务。并且PURPOSE: To enable a labeling with a suitable image zone type by automatically discriminating whether an image zone includes any text, table or picture or not while utilizing a neural network. CONSTITUTION: When an image zone is divided by a zone dividing part 5, the respective image zones are sent to an image zone discrimination system 10 and this discrimination system 10 recognizes/judges or discriminates the types of the respective image zones. At such a time, an area discrimination part 12 selects an area from the respective image zones. The layer of subsampling neurons 14 receives the selected area and subsamples this area. A multilayer perceptron 16 judges whether the selected area is a text, picture or table or not. Based on this judgement, the image zones are labeled by the discriminated image zone types so that the image zone type can be reported to an operator.,下面是System and method for discriminating image zone专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 各イメージ・ゾーンがテキスト,ピクチャまたは表を含む複数のゾーン種類の一つである、複数のイメージ・ゾーンを受け取るべく接続可能なイメージ・ゾーン弁別システム(10)であって:各前記イメージ・ゾーンから領域を選択する領域識別部(12);および前記領域識別部(12)に接続され、前記領域をサンプリングし、かつ前記イメージ・ゾーンの前記サブサンプリングされた領域のゾーン種類を識別するニューラル・ネットワーク(13);によって構成されることを特徴とするイメージ・ゾーン弁別システム(10)。
  • 【請求項2】 前記ニューラル・ネットワーク(13)
    は:サブサンプリング・ニューロン(14)の層;および前記サブサンプリング・ニューロン(14)の層に接続された多層パーセプトロン(16);によって構成されることを特徴とする請求項1記載のイメージ・ゾーン弁別システム(10)。
  • 【請求項3】 文書のページからテキスト,ピクチャおよび表を含む複数のイメージ・ゾーンを識別するため、
    コンピュータ・プログラムの一部としてコンピュータ上で実行され、ラスタ・イメージを受け取るべく接続可能なシステムであって:前記ラスタ・イメージをイメージ・ゾーンに分割するゾーン分割手段(5);および各前記イメージ・ゾーンのゾーン種類を自動識別するイメージ・ゾーン弁別手段(10);によって構成されることを特徴とするシステム。
  • 【請求項4】 文書のページからテキスト,ピクチャおよび表を含む複数のイメージ・ゾーンを識別するため、
    コンピュータ・プログラムの一部としてコンピュータ上で実行されるイメージ・ゾーン弁別方法であって、前記コンピュータは複数のイメージ・ゾーンを受け取るべく接続可能な方法は: (a)各前記イメージ・ゾーンから領域を選択する段階; (b)前記領域をサブサンプリングする段階;および (c)前記イメージ・ゾーンの前記サブサンプリングされた領域のゾーン種類を自動識別する段階;によって構成されることを特徴とする方法。
  • 【請求項5】 文書のページからテキスト,ピクチャおよび表を含む複数のイメージ・ゾーンを識別するため、
    コンピュータ・プログラムの一部としてコンピュータ上で実行されるイメージ・ゾーン弁別方法であって、前記コンピュータは前記文書の前記ページから複数のイメージ・ゾーンを受け取るべく接続可能であり、前記コンピュータは多層ニューラル・ネットワークを含む方法は: a)各前記ゾーン・イメージから領域を選択する段階; b)前記多層ニューラル・ネットワークを利用して、前記領域をサブサンプリングする段階; c)前記多層ニューラル・ネットワークを利用して、前記領域の前記ゾーン種類を特定する、前記領域のゾーン種類を識別する段階;および d)前記領域を前記識別されたゾーン種類でラベル付けする段階;によって構成されることを特徴とする方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、一般に、文書変換システムおよびその方法に関し、さらに詳しくは、文書のページからテキスト,ピクチャおよび表を自動的に識別するイメージ・ゾーン弁別システムおよびその方法に関する。

    【0002】

    【従来の技術】文書のページには、テキスト,ピクチャおよびテーブルなどのさまざまな種類のイメージ・ゾーン(image zone)が含まれる。 ピクチャには、図形,図面,画像,写真または他の種類のイラスト表示が含まれる。 従来の文書変換(document conversion) システムでは、各種類のイメージ・ゾーンは別々に独立して処理されていた。 例えば、テキストを含むイメージ・ゾーンは、光学文字認識(optical character recognition) システムによって処理して、テキストの文字を認識する必要がある。 同様に、ピクチャを含むイメージ・ゾーンは、ラスタ/ベクトル・システム(raster-to-vector sy
    stem) によって処理する必要がある。 しかし、ピクチャを含むイメージ・ゾーンは光学文字認識エンジンによって処理する必要はない。

    【0003】

    【発明が解決しようとする課題】従来の文書変換システムは、ラスタ・イメージの部分をイメージ・ゾーンまたは情報ブロックに分割できる。 例えば、ラスタ・イメージがピクチャおよびこのピクチャを説明するテキストを含んでいる場合、従来の文書変換システムはピクチャとテキストをラベルのないイメージ・ゾーンに分割できる。 従来の文書変換システムの一部は、分割された情報ブロックまたはイメージ・ゾーンをハイライトできる。
    しかし、イメージ・ゾーンを処理する前に、文書変換オペレータは、ラスタ・イメージのハイライトされた部分がイメージ・ゾーンのどの種類かを特定し、特定されたイメージ・ゾーンをそのゾーン種類(テキスト,イメージ,表,手書き)で手作業によりラベル付けしなければならない。 従って、ラスタ・イメージの一部からイメージ・ゾーン種類を自動的に識別し、かつラスタ・イメージのこの部分を適切なイメージ・ゾーン種類でラベル付けする必要がある。

    【0004】

    【課題を解決するための手段】本発明は、イメージ・ゾーンがテキスト,表またはピクチャを含んでいるかどうかを、ニューラル・ネットワークを利用して自動識別する効用を有する。

    【0005】従って、本発明の利点は、イメージ・ゾーン種類がテキスト,表またはピクチャ・イメージであるかどうかを、ニューラル・ネットワークを利用して自動的に判定,識別または認識することである。

    【0006】本発明の一例に従って、イメージ・ゾーン弁別システムが提供され、このシステムは複数のイメージ・ゾーンを受け取るべく接続可能である。 各イメージ・ゾーンは、テキスト,ピクチャまたは表を含む複数のゾーン種類の一つを有する。 イメージ・ゾーン弁別システムは、(a)各イメージ・ゾーンから領域を選択する領域識別部(region identifier) および(b)領域識別部に接続され、この領域をサンプリングし、かつイメージ・ゾーンのサブサンプリングされた領域のゾーン種類を識別するニューラル・ネットワークによって構成される。

    【0007】本発明の別の例に従って、コンピュータ・
    プログラムの一部としてコンピュータ上で実行されるイメージ・ゾーン弁別方法が提供される。 本方法は、テキスト,ピクチャ,イメージおよび表を含む複数のゾーン種類を文書のページから識別する。 コンピュータは、複数のイメージ・ゾーンを受け取るべく接続可能である。
    本方法は、(a)各イメージ・ゾーンから領域を選択する段階;(b)この領域をサブサンプリングする段階;
    および(c)イメージ・ゾーンのサブサンプリングされた領域のゾーン種類を自動識別する段階によって構成される。

    【0008】本発明は、特許請求の範囲で具体的に指摘されている。 しかし、本発明の他の特徴は、添付の図面とともに以下の詳細な説明を参照することによって明らかになり、本発明について理解を深められる。

    【0009】

    【実施例】図1は、本発明の好適な実施例によるイメージ・ゾーン弁別システム10を示す。 イメージ・ゾーン弁別システム10は、領域識別部(region identifier)
    12およびニューラル・ネットワーク13によって構成される。 ニューラル・ネットワークは、サブサンプリング・ニューロン14の層および多層パーセプトロン(mul
    tilayer perceptron) 16によって構成される。

    【0010】図1に示すように、ラスタ・イメージはゾーン分割部(zone segmenter)5によって受け取られ、このゾーン分割部5はラスタ・イメージの部分を同様な情報のブロックまたはイメージ・ゾーンに分割する。 またゾーン分割部5は、複数のイメージ・ゾーンを含むラスタ・イメージから各イメージ・ゾーンを抽出できる。 ゾーン分割部5は、Xerox 社製のScanWorXなど市販のインテリジェント文字認識システムである。

    【0011】イメージ・ゾーンがゾーン分割部5によって分割されると、各イメージ・ゾーンはイメージ・ゾーン弁別システム10に送られ、このイメージ・ゾーン弁別システム10は各イメージ・ゾーンのゾーン種類を認識,判定または識別する。 イメージ・ゾーン弁別システム10はゾーン種類を出し、文書変換オペレータにこのゾーン種類を通知する。 またイメージ・ゾーン弁別システム10は、識別されたゾーン種類でイメージ・ゾーンをラベル付けする。 イメージ・ゾーン弁別システム1
    0が適切なゾーン種類を誤って識別した場合、オペレータは誤って識別されたゾーン種類を正しいゾーン種類で訂正できる。

    【0012】図1に示すように、イメージ・ゾーン弁別システム10は、領域識別部12および多層ニューラル・ネットワーク13によって構成され、多層ニューラル・ネットワーク13はサブサンプリング・ニューロンの層14および多層パーセプトロン16を含む。 領域識別部12は、ゾーン分割部5から各イメージ・ゾーンを受け取り、各イメージ・ゾーンから領域を選択する。 サブサンプリング・ニューロン14の層は領域識別部12によって選択された領域を受け取り、多層パーセプトロン16によって処理可能な情報量と整合性のあるサイズにこの領域をサブサンプリングする。 サブサンプリング・
    ニューロン14の層については、以下で詳細に説明する。

    【0013】サブサンプリングされた領域はニューラル・ネットワークの多層パーセプトロン16に与えられ、
    この多層パーセプトロン16は、選択された領域がテキスト,ピクチャまたは表であるかを判断する。 多層パーセプトロン16の判定結果に基づいて、イメージ・ゾーン弁別システム10は、識別されたゾーン種類でイメージ・ゾーンをラベル付けすることによって、この識別されたイメージ・ゾーン種類をオペレータに通知する。 ここで、イメージ・ゾーン弁別システム10がこのゾーン種類を誤って識別した場合には、オペレータはイメージ・ゾーンのゾーン種類を変更できる。

    【0014】図2は、本発明の好適な実施例によるイメージ・ゾーン弁別方法のフローチャートを示す。 ゾーン分割部5によって実行されるステップ200〜202
    は、イメージ・ゾーン弁別システム10によって処理するために、ラスタ・イメージを用意する。 まず第1に、
    ステップ200においてゾーン分割部5はラスタ・イメージを受け取り、ステップ201においてラスタ・イメージから異なるイメージ・ゾーンを手作業または自動的に識別し、ステップ202においてラスタ・イメージから各イメージ・ゾーンを抽出する。 ステップ201によって行われる分割は、人間のオペレータによって行われるのが一般的であるが、市販されている自動分割(auto-
    segmentation) ソフトウェアによって行うこともできる。

    【0015】イメージ・ゾーンがラスタ・イメージから抽出されると、ステップ203において分割部5はこれらのイメージ・ゾーンを保存する。 次に、各イメージ・
    ゾーンは、TIFF(tagged image file format)フォーマットでイメージ・ゾーン弁別システム10に送られる。 イメージ・ゾーンはTIFFフォーマットで送られるが、他のフォーマットも利用できる。

    【0016】ステップ204において、イメージ・ゾーン弁別システム10はイメージ・ゾーンの領域を選択する。 イメージ・ゾーン弁別システム10の第1段階は、
    領域識別処理である。 この処理は、抽出されたイメージ・ゾーンからピクセル(画素)を入力として受け取り、
    この入力イメージ・ゾーンの小領域Rを出力として生成する。 Rの寸法はh R ×w Rであり、ここでh Rはこの領域の高さであり、w Rはこの領域の幅である。 高さおよび幅はともにピクセル単位で測定される。 ここでは、
    イメージ・ゾーン弁別システム10は、イメージ・ゾーンの中央からピクセルを抽出することによって領域Rを生成する。 しかし、多層ニューラル・ネットワーク13
    がゾーン弁別を行うために十分な情報を領域Rが含んでいるかどうかを判断するため、他の高度な方法も利用できる。

    【0017】領域Rが選択されると、ステップ205において、ニューラル・ネットワーク13のサブサンプリング・ニューロン14の層は領域Rをサブサンプリングする。 サブサンプリング・ニューロン14は、x(幅)
    およびy(高さ)で選択された領域Rを、ニューラル・
    ネットワーク13の多層パーセプトロン16によって容易に処理できるサイズにサブサンプリングする。 ニューロン14の層に対する入力は、領域Rである。 サブサンプリング・ニューロン14の層に対する入力の数は、領域Rのサイズ、すなわちh R ×w Rである。 サブサンプリング・ニューロン14の第1層の出力は、サブサンプリングされた領域Rを表すR ssである。 R ssの寸法はh
    RSS ×w Rssであり、ここでh RSSはサブサンプリングされた領域の高さであり、w Rssはサブサンプリングされた領域の幅である。 これらの寸法は、x寸法およびy
    寸法のサブサンプリングされた比率によって決定される。

    【0018】x方向のサブサンプリング比率r xは次式によって与えられる。

    【0019】

    【数1】r x =w R /w Rss y方向のサブサンプリング比率r yは次式によって与えられる。

    【0020】

    【数2】r y =h R /h Rss領域Rのサイズ,平および垂直サブサンプリング比率r x ,r yならびに領域R ssのサイズは独立して選ぶことができるが、数1および数2を満たしている。

    【0021】サブサンプリング層14におけるニューロンNの数は、次式によって与えられる。

    【0022】

    【数3】N=h Rss ×w Rss N個のニューロンのそれぞれは、図3に示す例に示されるように、固定重み(fixed weight)のバイナリ閾値ニューロン31である。 図3では、領域R30の一部からの4つのピクセル301〜304はサンプリングされ、入力としてニューロン31に与えられる。 4つのピクセル301〜304のそれぞれは、1(「オン」)または0
    (「オフ」)の値を有する。 ピクセルの各値は、接続重み(connection weight) で乗算器32によって乗算される。 接続重みとは、サンプリングされるピクセル数で1
    を割った値である。 この例の接続重みは、1/4(0.
    25)に等しい。 乗算の結果は、加算器34において互いに加算される。 加算の結果が0.5以上の場合、閾値36はニューロン(それ自体)に1の値を割り当てる。
    加算の結果が0.5未満の場合、閾値36はそれ自体に0の値を割り当てる。

    【0023】サブサンプリング層14におけるニューロンの数が上式によって決定されると、接続重みを求めなければならない。 サブサンプリング層14における各ニューロンは、領域Rの各ピクセルに接続重みを介して接続される。 接続重みとは、ピクセルが「オフ」(または0)ではなく「オン」(または1)の場合にピクセルに割り当てる値である。 この接続ライン上のサブサンプリング14の層におけるニューロンに対する入力は、接続重みと、領域Rのピクセルとの積である。 数4の制約を満たす、領域RのすべてのピクセルからニューロンN i,
    j (i=0〜w Rss ;j=0〜h Rss )までの接続重みは、数5に設定される。

    【0024】

    【数4】{(r,c)|r=(i)(r y )+m;c=
    (j)(r x )+n;mCE(0,r y −1),nCE
    (0,r x −1)}

    【0025】

    【数5】接続重みr,c=1/(r x )(r y ) 上記の制約式は、領域Rのどのピクセルが接続重みr,
    cによって乗算されるかを特定する。 制約式において、
    rは領域Rの行(row) を表し、cは領域Rの列(column)
    表す。 (r,c)の組み合わせは、行列方式によってピクセルを指定する。

    【0026】領域を処理する際に上式がどのように用いられるかを示す例について以下で説明する。 領域Rが4
    00ピクセルに等しい幅w Rと、100ピクセルに等しい高さh Rを有すると想定する。 さらに、所望のサブサンプリングされた領域R ssが80ピクセルに等しい幅w
    Rssを有し、高さh Rssが20ピクセルに等しいと想定する。 サブサンプリング比率は次式によって決定される。

    【0027】r x =w R /w Rss =400/80=5 r y =h R /h Rss =100/20=5 従って、サブサンプリング層14におけるニューロンの数は次の通りである。

    【0028】N=h Rss ×w Rss =20 ×80=16
    00 1600個のニューロンのそれぞれは、図3に示すように固定重みのバイナリ閾値ニューロンである。 以下の制約式は、ニューロンN 1, 2に接続する接続重みが割り当てられるピクセル(r,c)のセットを決定する。

    【0029】{(r,c)|r=(i)(r y )+m;
    c=(j)(r x )+n;mCE(0,r y −1),n
    CE(0,r x −1)} {(r,c)|r=(i)(5)+m;c=(j)
    (5)+n;m CE(0,4),n CE(0,
    4)} ニューロンN 1, 2について、これは以下のピクセルのセットである。

    【0030】(r,c)={(5, 10), (5, 11), (5, 1
    2), (5, 13), (5, 14)(6, 10), (6, 11), (6, 12), (6,
    13), (6, 14)...(9, 10), (6, 11), (9, 12), (9, 1
    3), (9, 14) } ピクセルのセットの各ピクセルの接続重みr,cは、次式に設定される。

    【0031】接続重みr,c=1/(r x )(r y )=
    1/(5)(5)=0.40 従って、ピクセル・セットのピクセルが「オン」の場合、接続重み0.040で乗ぜられる。 各ピクセルについて各乗算が求められると、接続重みが加算される。 加算の結果が0.5以上の場合、ニューロンN 1, 2に値1
    が与えられ、「オン」となる。 それ以外の場合には、N
    1, 2には値0が与えられる。

    【0032】図2に基づいて、ステップ205において領域Rがサブサンプリング・ニューロン14の層によってサブサンプリングされると、ステップ206においてニューラル・ネットワーク13の多層パーセプトロン1
    6はサブサンプリングされた領域R ssを処理する。 多層パーセプトロン16は、例えば、パブリック・ドメイン
    (public domain) パッケージであるGenesis またはPlaN
    etなどの従来の多層パーセプトロンである。 多層パーセプトロン16は、バックワード・エラー・プロパゲーション(Backward Error Propagation)と呼ばれる周知の学習ルールでトレーニングされる。 多層パーセプトロン・
    ニューラル・ネットワーク16の構成は、N個の入力層ニューロンと、100個の隠れ層(hidden layer)ニューロンと、3個の出力層ニューロンとを有する3層の完全接続型ネットワークである。 入力層とは、適切な重みまたは押しつぶし(squashing) 関数のないファンアウト(f
    anout)分布ノードの層である。 双曲線正接関数は、隠れ層および出力層における非線形押しつぶし関数として用いられる。

    【0033】多層パーセプトロン・ニューラル・ネットワーク16は、例えば、電子データ・マニュアルなど、
    変換される文書クラスと整合性のあるテキスト/表/ラスタ周波数分布でサンプルについてトレーニングされる。 この文書クラスについて、各イメージ・ゾーンの出現回数が標準的な統計方法を用いて求められる。

    【0034】図1に示す多層パーセプトロン16の出力は、3つの値のベクトルである。 この出力ベクトルの各要素は、ゾーン種類(テキスト,表およびピクチャ)の一つについて符号化する。 ベクトル要素の値の範囲は−
    1から+1である。 もっとも大きい値のベクトル要素はもっとも可能性の高いゾーン種類に対応する。 結果はオペレータに出力され、イメージ・ゾーン弁別システム1
    0のニューラル・ネットワーク13によってゾーン種類が誤って識別された場合に、オペレータはゾーン種類を変更できる。

    【0035】図2に戻って、結果が出力されると、ステップ207においてイメージ・ゾーン弁別システム10
    は、特定のラスタ・イメージについて分割部5にまだ処理すべきイメージ・ゾーンがあるかどうか判断する。 ステップ207において、処理すべきイメージ・ゾーンが残っている場合、イメージ・ゾーン弁別システム10は次のイメージ・ゾーンを受け取り、すべてのイメージ・
    ゾーンがシステム10によって処理されるまでステップ204〜207を繰り返す。

    【0036】本発明は、ラスタ・イメージの一部からイメージ・ゾーンを自動識別し、ラスタ・イメージのこの部分を正しいイメージ・ゾーン種類でラベル付けすることが当業者に理解される。 この機能は、従来のシステムが実行できなかった機能である。

    【0037】特許請求の範囲は本発明の精神および範囲に含まれる本発明の一切の修正を網羅する。 例えば、文書ゾーン弁別システムはテキスト,表およびピクチャを識別するが、ニューラル・ネットワークは、例えば手書きなどの他のゾーンも識別するようにトレーニングできる。

    【図面の簡単な説明】

    【図1】本発明の好適な実施例によるイメージ・ゾーン弁別システムを示す。

    【図2】本発明の好適な実施例によるイメージ・ゾーン弁別方法のフローチャートを示す。

    【図3】本発明の好適な実施例による複数の固定重みのバイナリ閾値サブサンプリング・ニューロンの一つを示す。

    【符号の説明】

    5 ゾーン分割部 10 メージ・ゾーン弁別システム 12 領域識別部 13 ニューラル・ネットワーク 14 サブサンプリング・ニューロンの層 16 多層パーセプトロン 30 領域R 31 固定重みのバイナリ閾値ニューロン 32 乗算器 34 加算器 36 閾値 301〜304 ピクセル

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈