首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / Pattern recognizing method with hierarchical network

Pattern recognizing method with hierarchical network

阅读:24发布:2021-11-03

专利汇可以提供Pattern recognizing method with hierarchical network专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a pattern recognizing method capable of recognizing not only a two-dimensional object but also a three-dimensional object with variations of three-dimensional rotation, size and illumination conditions.
SOLUTION: A technique is proposed that shares components like weight- sharing (2) and pooling stages (3 and 5), with earlier approaches, but focuses on new methods for determining optimal feature-detecting units in intermediate stages (4) of a hierarchical network. Also, a new approach for training the hierarchical network is proposed which uses statistical means for (incrementally) learning new feature detection stages and significantly reduces the training effort for complex pattern recognition tasks, compared to the prior art. Since this learning is unsupervised, no teacher signal is necessary and a recognition architecture can be pre-structured for a certain recognition scenario. Only a final classification step must be trained with supervised learning, which reduces significantly the effort for the adaptation to a recognition task.
COPYRIGHT: (C)2003,JPO,下面是Pattern recognizing method with hierarchical network专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】特徴を有するパターンを認識する方法であって、 パターン上を走査する局所ウィンドウと固定された特徴検出器の畳み込みを行って複数の特徴マップを生成するステップと、 各特徴マップに非線形関数を個別に適用するステップと、 特徴マップの単純な特徴の局所組合せを検出するステップと、 検出した局所組合せに基づいてパターンを分類することによってパターンを認識するステップと、を含み、 特徴の局所組合せについて、統計的に独立した特徴が予め設定されていることを特徴とする、パターン認識方法。
  • 【請求項2】前記統計的に独立した特徴は、訓練パターンの畳み込みの独立成分分析によって予め決定されることを特徴とする、請求項1に記載の方法。
  • 【請求項3】前記統計的に独立した特徴は、訓練パターンの畳み込みの主成分分析によって予め決定されることを特徴とする、請求項1または2に記載の方法。
  • 【請求項4】前記特徴マップを生成するために、前記畳み込みの結果に勝者総取り戦略(Winner-Take-All、以下WTAという)が適用されることを特徴とする、請求項1乃至3の何れか1項に記載の方法。
  • 【請求項5】微分不可能な非線形関数が各特徴マップに適用されることを特徴とする、請求項1乃至4の何れか1項に記載の方法。
  • 【請求項6】先行するステップの特徴マップの少なくとも1つのプーリングステップが局所的に平均化されサブサンプリングされることを特徴とする、請求項1乃至5
    の何れか1項に記載の方法。
  • 【請求項7】前記分類ステップが、最急降下法により訓練された1層のシグモイド関数を用いて実現されることを特徴とする、請求項1乃至6の何れか1項に記載の方法。
  • 【請求項8】前記分類ステップが、RBFネットワーク、最近傍マッチング法、または多層パーセプトロン・
    ネットワークのうち何れか1つを使用して実行されることを特徴とする、請求項1乃至6の何れか1項に記載の方法。
  • 【請求項9】前記特徴マップを生成するステップ及び局所組合せを検出するステップが複数回繰り返されることを特徴とする、請求項1乃至8の何れか1項に記載の方法。
  • 【請求項10】特徴を有するパターンを認識する方法であって、 パターン上を走査する局所ウィンドウと固定された特徴検出器の畳み込みを行って複数の特徴マップを生成するステップと、 各特徴マップに非線形関数を個別に適用するステップと、 特徴マップの単純な特徴の局所組合せを検出するステップと、 検出した局所組合せに基づいてパターンを分類することによってパターンを認識するステップと、を含み、 特徴マップを生成するために、前記畳み込みの結果にW
    TAが適用されることを特徴とする、パターン認識方法。
  • 【請求項11】階層ネットワークを訓練する方法であって、 前記階層ネットワークは、 パターン上を走査する局所ウィンドウと固定された特徴検出器の畳み込みを行って複数の特徴マップを生成する手段と、 各特徴マップに非線形関数を個別に適用する手段と、 特徴マップの単純な特徴の局所組合せを検出する中間手段と、 検出した局所組合せに基づいてパターンを分類することによってパターンを認識する手段と、を含み、 前記局所組合せを検出する手段は、前記特徴の局所組合せの統計的な独立性が強化されるように増分的に訓練されることを特徴とする、階層ネットワークの訓練方法。
  • 【請求項12】計算装置上で実行されたときに請求項1
    乃至11の何れか1項に記載の方法を実現することを特徴とする、コンピュータ・ソフトウェア・プログラム。
  • 【請求項13】階層ネットワークを用いたパターン認識装置であって、 前記階層ネットワークは、 パターンを入力する手段と、 パターン上を走査する局所ウィンドウと固定された特徴検出器の畳み込みを行って複数の特徴マップを生成する手段と、 各特徴マップに非線形関数を個別に適用する手段と、 特徴マップの単純な特徴の局所組合せを検出する中間手段と、 検出した局所組合せに基づいてパターンを分類することによってパターンを認識する手段と、を含み、 前記局所組合せを検出する手段は、予め設定された統計的に独立した特徴を使用するように設計されることを特徴とする、パターン認識装置。
  • 【請求項14】前記統計的に独立した特徴は、訓練パターンの独立成分分析によって予め設定されていることを特徴とする、請求項13に記載のパターン認識装置。
  • 【請求項15】前記統計的に独立した特徴は、訓練パターンの主成分分析によって予め設定されていることを特徴とする、請求項13または14に記載のパターン認識装置。
  • 【請求項16】前記畳み込み手段は、前記畳み込みの結果にWTAを適用して前記特徴マップを生成することを特徴とする、請求項13乃至15の何れか1項に記載のパターン認識装置。
  • 【請求項17】前記非線形関数を適用する手段は、微分不可能な非線形関数を各特徴マップに適用するように設計されることを特徴とする、請求項13乃至16の何れか1項に記載のパターン認識装置。
  • 【請求項18】階層ネットワークを用いたパターン認識装置であって、 前記階層ネットワークは、 パターンを入力する手段と、 パターン上を走査する局所ウィンドウと固定された特徴検出器の畳み込みを行って複数の特徴マップを生成する手段と、 各特徴マップに非線形関数を個別に適用する手段と、 特徴マップの単純な特徴の局所組合せを検出する中間手段と、 検出した局所組合せに基づいてパターンを分類することによってパターンを認識する手段と、を含み、 前記畳み込み手段はWTAを使用して前記特徴マップを生成するように設計されていることを特徴とする、パターン認識装置。
  • 【請求項19】前記分類して認識する手段は、前記パターンの特定の全体ビューに調整されていることを特徴とする、請求項13乃至18の何れか1項に記載のパターン認識装置。
  • 【請求項20】前記畳み込み手段によって生成された特徴マップを局所的に平均化しサブサンプリングするプーリング手段をさらに含むことを特徴とする、請求項13
    乃至19の何れか1項に記載のパターン認識装置。
  • 【請求項21】前記分類して認識する手段は、最急降下法を用いて訓練されたシグモイド関数を使用するように設計されることを特徴とする、請求項13乃至20の何れか1項に記載のパターン認識装置。
  • 【請求項22】前記分類して認識する手段は、RBFネットワーク、最近傍マッチング法、または多層パーセプトロン・ネットワークのうち何れか1つを使用するよう設計されることを特徴とする、請求項13乃至20の何れか1項に記載のパターン認識装置。
  • 【請求項23】少なくとも、前記特徴マップを生成する手段と前記局所組合せを検出する手段とを複数回連続して備えることを特徴とする、請求項13乃至22の何れか1項に記載のパターン認識装置。
  • 【請求項24】前記階層ネットワークが並列計算ネットワークによって実現されることを特徴とする、請求項1
    3乃至23の何れか1項に記載のパターン認識装置。
  • 【請求項25】請求項13乃至23の何れか1項に記載のパターン認識装置を使用して、ディジタル表現で与えられた文字または物体を光学認識する方法。
  • 【請求項26】請求項13乃至24の何れか1項に記載のパターン認識装置を使用して、手書き数字を光学認識する方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、いくつかの特徴を有するパターンを認識する方法、階層ネットワークを訓練する方法、このような方法を実現するコンピュータ・
    ソフトウェア・プログラム、階層ネットワークを用いたパターン認識装置、及びパターン認識装置の使用に関する。

    【0002】本発明は、パターン認識の分野において適用可能であり、この場合パターンは、光学、音響または他のデジタル表現可能な方法で与えることができる。

    【0003】

    【従来の技術】最初に、処理アーキテクチャの背景について説明する。 収束的な階層符号化の概念においては、
    脳における感覚処理が階層的なステージ状に組織化され、各ステージでは上位のステージからの入に依存した限定的かつ並列的な動作が実行されると仮定する。 収束的な階層処理スキームは、恐らくは特定の視覚条件下において特定の物体が認識されているときにのみ発火する、いわゆる「おばあさん細胞(grandmother cell)」
    に至るまでに、より複雑化する特徴の組合せを保存する神経表現を形成するために用いられる。 この種の階層符号化に対する主な批判は、様々な視覚条件の下で特定の物体を構成する特徴の組合せが非常に多数になるために、表現しなければならない可能性の組合せ爆発を起こしてしまうということである(von der Malsburg, C. (1
    999), “The what and why of binding:The modeler's
    perspective”, Neuron, 24, 95-104)。

    【0004】近年、このような組合せ爆発を回避して不変認識を実現する方法が提案されている。 その主な考えは、階層ネットワークにおいて中間ステージを使用して同一の物体に対応する反応に対する高次の不変性を達成し、これによって組合せの複雑性を効率的に削減するというものである。

    【0005】並進不変認識の初期モデルとしてネオコグニトロンを提案した福島の業績以来、階層における二つの主要な処理モードが強調されてきた。 特徴選択的なニューロンは、通常局所的な特定の特徴に対して敏感に反応する。 また、プーリング(pooling)ニューロンは、
    不変変換が刺激に適用される場合、連続して活性化される特徴選択的ニューロンに対し空間統合を実行する。 Me
    l, BW & Fiser, J.(2000), “Minimizing binding e
    rrors using learned conjunctive features”, Neural
    computation 12(4), 731-762によって最近強調されたように、局所的特徴検出及び空間プーリングの結合ステージは、安定度と選択性のジレンマと呼ぶことのできるものに直面する。 過度の空間プーリングは、画像変換の下で非常に安定した応答を持つ複雑な特徴検出器につながる一方、広範にわたる空間プーリングは多くの微弱な証拠を集め過ぎてしまい、偶然に現れる特徴を用いてしまう可能性が増加するので、検出器の選択性は大きく減少する。

    【0006】概念的に魅力的であり神経生物学上も妥当と考えられる階層的なフィードフォワード認識概念の妥当性を示すには、十分に困難な現実世界の三次元不変認識問題への適用を成功させる必要がある。 中心的な問題は、特徴検出及びプーリングの結合ステージを最適化する実行可能な学習方法の定式化である。 人工的なデータについての見込みのある結果や、手書き文字認識の領域での非常に成功した応用例を除くと、三次元認識問題に対する応用例は例外的である(Lawrence, S., Giles, C.
    L., Tsoi, AC, & Back, AD (1997), “Face rec
    ognition: A convolutional neural-network approac
    h”, IEEE Transactions on Neural Networks 8(1), 98
    -113)。 その理由の1つは、現実世界の画像の処理には、誤差逆伝播法のような標準的な教師あり学習方法の適用が通常不可能になるほどのネットワークサイズが必要となることである。 階層における処理ステージは、勝者総取り(Winner-Take-All、以下WTAと呼ぶ)のようなネットワークによる非線形性を含むことができるが、同様の最急降下最適化は不可能である。 階層ネットワーク内部の処理で非常に重要なのは、使用する符号化戦略である。 重要な原則は、冗長度の低減、すなわち入力ストリームの要素間の統計上の依存性を低減する入力の変換である。 V1細胞の受容野に似たウェーブレットのような特徴は、スパースで過完備な(overcomplete)
    表現を与えることによって(Olshausen, BA及びFiel
    d, DJ (1997), “Sparse coding with an overcompl
    ete basis set: A strategy employed in V1”, Vision
    Research, 37, 3311-3325)、あるいは独立成分分析におけるように統計上の独立性を与えることによって(Bel
    l, AJ及びSejnowski, TJ (1997), “The 'indep
    endent components' of naturalscenes are edge filt
    ers”, Vision Research, 37, 3327-3338)、導出されてきた。これらの細胞は初期の視覚処理を実行するものであり、階層処理の初期ステージとされる。

    【0007】生物学的ビジョンの理解から離れても、これらの機能的な原則は、技術的なコンピュータビジョンの分野に非常に適したものである。 視覚における特徴検出について独立成分分析(ICA)が議論されているにもかかわらず、不変物体認識の適用例において有用なものは、わずかしかない。 「Bartlett, MS & Sejnowsk
    i, TJ (1997), “Viewpoint invariant face recogn
    ition using independent component analysis and att
    ractor networks”, In MC Mozer, MI Jordan」
    及び、「T. Petsche (Eds.), “Advances in Neural In
    formation Processing Systems”, Volume 9, pp. 817,
    The MIT Press」は、姿勢不変及び分類性能の点に関しては、顔認識に対する独立成分分析表現は主成分分析(PCA)ベースの表現よりも優位にあることを示した。

    【0008】次に、パターン認識のための階層ネットワークの使用について説明する。

    【0009】認識問題への適用における本質的な問題は、階層において情報変換に使用する符号化原理の選択と、不変性という条件下で物体を表現するのに最適な局所的特徴表現の選択である。 この両方の特性は独立してはおらず、所望の目標に到達するためには協調させる必要がある。 その概念上の魅力にもかかわらず、深い階層ネットワークにおける学習は、依然としていくつかの主要な欠点をもつ。 以下では、これまでに考えられた主要な方法の問題点について述べる。

    【0010】福島による「”Neocognitron: A self-org
    anizing neural network model fora mechanism of pat
    tern recognition unaffected by shift in positio
    n”, Biol. Cyb., 39, 139-202」は、ネオコグニトロンとともに不変認識についての階層的処理の原理を導入した。 これは、局所的テンプレートマッチング及び空間的プーリングの連続するステージに基づいている。 ネオコグニトロンは教師なし競合学習によって訓練することができるが、手書き数字認識のような適用例では教師ありの手動訓練手順を必要とした。 明らかに不利な点は、テンプレート・マッチングのための適当な手動による訓練パターンの選択に決定的に依存していることである(Lo
    vell, D., Downs, T., 及びTsoi, A. (1997), “An eva
    luation ofthe neocognitron”, IEEE Trans. Neur. Ne
    tw., 8, 1090-1105)。 学習ステージにおいて教師介入が必要であるために、今日まで三次元物体認識のようなさらに複雑な認識シナリオの訓練は実行不可能であった。

    【0011】Riesenhuber, M.及びPoggio, T.(1999)による「“Are cortical models really bound by the
    “binding problem” ?”, Neuron, 24, 87-93」は、適当なプーリング動作を持つ階層ネットワークは組合せ細胞の組合せ爆発を回避できるという点を強調した。 彼らは、ネオコグニトロンと同様のマッチングステージ及びプーリングステージを持つ階層モデルを提案した。 主な違いは、ネットワークステージ上のフィードフォワード情報の伝送に影響を与える非線形性である。 重ね合わせ問題を減らすために、彼らのモデルでは、複雑な細胞は最大の入力を提供するシナプス前細胞の信号のみを入力する。 このモデルは、人工的な紙クリップ画像及びコンピュータで描かれた動物や車の物体の認識に適用され(Riesenhuber, M. & Poggio, T. (1999b), “Hierarch
    ical models of object recognitionin cortex”, Natu
    re Neuroscience 2(11), 1019-1025)、また中間の組合せ特徴を定義するために局所列挙法を使用する。

    【0012】Y. Le Cunら(”Hand-written digit reco
    gnition with back-propagation network”, 1990, in
    advances in neural information processing systems
    2, pp. 396-404)以来、多層ネットワークが知られている。 入力画像は局所受容野を有する単一ニューロンを用いて走査され、このニューロンの状態は特徴マップと呼ばれる層の対応する位置に格納される。 この操作は、小型カーネルとの畳み込みと等価である。 重みベクトルを等しくしたニューロン集合の平面として特徴マップを実現することによって、プロセスを並列的に実行することができる。 すなわち、特徴マップのユニットは、画像の異なる部分において同一の操作を実行するようにする。
    加えて、シフト中の入力としてシステムに存在するあるレベルのシフト不変性は、特徴マップ上の結果をシフトするが、その他の点では結果を変更しない。 さらに、同一の画像から異なる特徴を抽出する複数の特徴マップを持つことが提案されている。 この局所的な畳み込み特徴マップという最新の考え方は、後続する隠れ層にも同様に適用可能であり、増大する複雑さと抽象化の特徴を抽出する。 多層畳み込みネットワークはパターン認識問題に広く適用されており、特に光学文字認識への応用が多い(包括的な調査のために、例えば「LeCun,Y., Botto
    u, L., Bengio, Y., & Haffner, P. (1998), “Gradien
    t-based learning applied to document recognitio
    n”, Proceedings of the IEEE, 86, 2278-2324 for a
    conprehensive review」を見よ)。 最適な特徴の学習は、誤差逆伝播法を用いて実行され、この場合、並進不変性の制約は重み配分によって明確に与えられる。 しかし最急学習では、その深い階層のために、大きな訓練集合(ensemble)及びネットワーク規模についてかなりの訓練時間がかかる。 Lawrence, S., Glies, CL, Tso
    i, AC, 及びBack, AD (1997)らによる「“Facere
    cognition: A convolutional neural-network approac
    h”, IEEE Transactions on Neural Networks 8(1), 98
    -113」は、次元数を低減するために自己組織化マップに基づいた従来のベクトル量子化で強化された方法を適用し、顔分類構成について改善された性能を報告した。

    【0013】次に、物体の不変認識への階層モデルの適用について簡単に説明する。

    【0014】米国特許第5,058,179号は、文字認識のための階層制約自動学習ネットワークに関する。 これによると、局所化された特徴抽出のための制約付き特徴検出を行う複数の層の後に、次元低減のための全結合された複数の層が後に続く、階層化ネットワークによって、非常に正確でかつ信頼できる光学文字認識が提供される。
    文字分類は、最後の全結合された層において実行される。 並列で制約付きの特徴検出を行う各層は、複数の制約付き特徴マップと対応する複数のカーネルから構成され、予め決められたカーネルは単一の制約付き特徴マップに直接関係付けられる。 アンダーサンプリングは、層から層まで実行することができる。

    【0015】米国特許第5,067,164号もまた制約付き特徴検出を行う複数の層を有する認識のための階層制約自動学習ニューラルネットワークを開示している。 制約付き特徴検出の各層は、複数の制約付き特徴マップと対応する複数の特徴低減マップを含む。 各特徴低減マップは、その制約付き特徴マップをアンダーサンプリングする層におけるただ1つの制約付き特徴マップにのみ接続される。 第1の制約付き特徴検出層の各制約付き特徴マップにおけるユニットは、対応するカーネルの関数として、及びそのユニットに関連する受容野で得られる文字のピクセル画像の異なる部分の関数として応答する。 第2の制約付き特徴検出層の各特徴マップにおけるユニットは、対応するカーネルの関数として、及び個々の特徴低減マップの異なる部分の関数として、あるいはユニットの受容野で得られる第1の制約付き特徴検出層における複数の特徴低減マップの組合せとして、応答する。 第2の制約付き特徴検出層の特徴低減マップは、最後の文字分類層の各ユニットに全結合される。 カーネルは、ネットワーク初期化または訓練の間、誤差逆伝播法によって自動的に学習される。 この方法の問題の1つは、階層の全てのカーネルについて同時に学習を行わなければならないということであり、大規模ネットワークに対しては学習が遅くなりすぎてしまう。 これによって、三次元不変物体認識というさらに困難な問題へのこの種の畳み込みネットワークの適用が妨げられてきた。

    【0016】米国特許第6,038,337号は、局所画像サンプリングを示す複合型ニューラルネットワークシステム、次元低減を行う自己組織化マップ・ニューラルネットワーク、及び複合型畳み込みネットワークを使用した物体認識方法及び装置を開示する。 複合型畳み込みニューラルネットワークは、並進、回転、拡大縮小及び変形に対して部分的な不変性を提供する。 複合型畳み込みネットワークは、階層的な層のセットにおいて連続してより大きな特徴を抽出する。 適用例として、正面ビューの顔認識が与えられる。

    【0017】

    【発明が解決しようとする課題】上記従来技術に鑑みて、本発明は、符号化効率を改善し、また大規模な階層畳み込みネットワークにおける学習の制約を低減することを目的とする。

    【0018】

    【課題を解決するための手段】この目的を達成する基本的な考え方は、新たな特徴検出ステージを(増分的に)
    学習するため統計的手段を用いた階層ネットワークを訓練するというものである。 実用性という点から、二次元物体だけでなく、三次元的な回転、大きさ及び照明条件が変化する三次元物体をも認識することができるような改良がなされなければならない。 別の利点として、この学習方法は、階層的畳み込みネットワークにおけるステージの間の任意の非線形性に対して実行可能である。 これに対して、上記従来技術は、ネットワークの設計に特定の制約を与える微分可能な非線形性を学習する誤差逆伝播法による学習を実行しているにすぎない。

    【0019】本発明の目的は、独立した請求項により達成される。 従属請求項は、本発明の中心概念をさらに発展させる。

    【0020】本発明によると、いくつかの特徴を有するパターン認識方法が提案される。 最初に、複数の固定された特徴検出器(以下、固定特徴検出器と呼ぶ)は、検出されるパターン上を走査する局所ウィンドウと畳み込まれ、複数の特徴マップを生成する。 続いて、各特徴マップについて任意の非線形関数が別個に適用される。 特徴マップの特徴の局所組合せが検出され、最後に、検出された局所組合せに基づいてパターンが分類される(従って認識される)。 (ネットワークの中間層に対応する)特徴の局所組合せのための本発明によると、統計的に独立した特徴は予め設定されている。

    【0021】統計的に独立した特徴は、訓練パターンの畳込みの独立成分分析(ICA)によって予め決定することができる。 独立成分分析は、データセットの独立成分である新しい特徴の構築手法に属する。 独立成分は、
    入力特徴の線形和から構築される成分の相互情報量を最小にする確率変数である。 このような変数が可能な限り独立していることは、情報理論において証明されている。

    【0022】代替的にまたは付加的に、統計的に独立した特徴は、訓練パターンの畳込みの主成分分析(PC
    A)によって予め決定することができる。 主成分分析は、データ・セットの主成分である新しい特徴の構築手法に属する。 主成分は、入力特徴の直交線形和から構築される分散を最大にする確率変数である。 これは、得られる特徴の非相関性のみを保証するので、独立成分分析の統計的独立よりも弱い概念である。

    【0023】特徴マップを生成するために、WTA及びさらなる非線形関数を畳み込みの結果に適用することができる。 上記の統計的学習方法は、結合されたWTA及びさらなる非線形性の性質に関わらず適用することができる。

    【0024】少なくとも一つのプーリングステップを含み、先行するマップの特徴マップを局所的に平均化しサブサンプリングする。 プーリングステップは、同一物体に対応する異なるパターンの変換における認識の不変性を付与する。

    【0025】分類ステップは、最急降下法によって訓練される一層のシグモイド関数を用いて実現することができる。 統計的に独立した特徴を予め設定するのに古典的な教師あり学習過程は必要でなく、従ってシステムの設定に必要な手間をかなり削減することに注意されたい。
    代替的に、RBF(radial basis function)ネットワーク、最近傍(Nearest-Neighbor)マッチング法、または多層パーセプトロン・ネットワークによって、分類ステップを実現することもできる。

    【0026】特徴検出ステップ、任意選択のプーリングステップ及びこれらの組合せは、複数回繰り返すことができる。

    【0027】本発明のさらに別の態様によると、いくつかの特徴を有するパターンを認識する方法が提案される。 複数の固定特徴検出器は、パターン上を走査する局所ウィンドウと畳み込まれ、複数の特徴マップを生成する。 特徴マップの特徴の局所組合せが検出され、検出された局所組合せに基づいてパターンが分類される(従って認識される)。 特徴マップを生成するために、WTA
    が畳込みの結果に適用される。

    【0028】本発明のさらに別の態様によると、階層ネットワークを訓練する方法が提案される。 階層ネットワークは、複数の固定特徴検出器をパターン上を走査する局所ウィンドウと畳み込む手段と、各特徴マップに非線形関数を個別に適用する手段と、特徴マップの単純な特徴の局所組合せを検出する中間手段と、検出された局所組合せに基づいてパターンを分類することによってそのパターンを認識する手段を含む。 本発明によると、局所組合せを検出する手段は、特徴の局所組合せの統計的な独立を強化するように増分的に訓練される。

    【0029】本発明のさらに別の態様によると、計算装置上で実行されるとき上記の方法を実現するコンピュータ・ソフトウェア・プログラムが提案される。

    【0030】本発明のさらに別の態様によると、階層ネットワークを用いたパターン認識装置が提案される。 階層ネットワークは、パターン(すなわち、物体のディジタル写真)を入力する手段を含む。 さらに、パターン上を走査する局所ウィンドウを複数の固定特徴検出器と畳み込む手段を備える。 中間手段は、特徴マップの特徴の局所組合せを検出する。 分類手段は、検出された局所組合せに基づいてパターンを「認識」する。 局所組合せを検出する手段は、予め設定した統計的に独立した特徴を使用するよう設計される。

    【0031】本発明のさらに別の態様によると、階層ネットワークを用いたパターン認識装置が提案される。 パターン認識装置は、パターンを入力する手段を含む。 さらに、パターン上を走査する局所ウィンドウを複数の固定特徴検出器と畳み込み、複数の特徴マップを生成する手段を備える。 中間手段は、特徴マップの特徴の局所組合せを検出する。 分類手段は、検出された局所組合せに基づいてパターンを認識する。 畳み込み手段は、WTA
    を使用して特徴マップを生成するように設計される。

    【0032】分類手段は、パターンの特定の全体ビューに対して調整される。

    【0033】階層ネットワークは、畳み込み手段によって生成された特徴マップを局所的に平均化しサブサンプリングするプーリング手段を含むことができる。

    【0034】分類手段は、最急降下法によって訓練されるシグモイド関数を使用するように設計することができる。

    【0035】分類手段は、RBFネットワークを使用するよう設計することができる。 分類手段は、最近傍マッチング法または多層パーセプトロン・ネットワークに基づくことができる。

    【0036】階層ネットワークは、並列計算ネットワークによって実現することができる。

    【0037】第1の特徴検出手段、任意選択のプーリング手段及び組合せ層のセットは、連鎖状に複数個備えることができる点に注意することが重要である。

    【0038】本発明の更に別の態様によると、上記で定義したパターン認識装置は、光学文字認識や、あるいは特に三次元物体の光学認識のために使用することができる。

    【0039】

    【発明の実施の形態】最初に、本発明に従ったネットワークの構成を図1に示すが、これは本発明を実現する技術的手段を説明するのにも役立つ。 画像は、ディジタルビデオカメラまたは写真カメラ等のサンプリング装置1
    7によってサンプリングされ、全体を16で示す階層ネットワーク16に供給される。 階層ネットワーク16
    は、単純な特徴検出ステージ18及び組合せ特徴検出ステージ19から成るセットを少なくとも一組以上含む。
    これらのステージ18、19は、図では20として示すように、ネットワーク16内で複数回繰り返すことができる。 ネットワーク16の最終的な出力は分類手段21
    に供給され、ここで出力を分類することによってサンプリングされた画像を認識する。

    【0040】新規な構成を除くと、本発明は、階層ネットワークを訓練する新しい手法にも関係する。 この訓練は、新たな特徴検出ステージ19を(増分的に)学習する統計手段を使用する。 増分的な学習は、処理階層のより高いステージにおける増分的な統計的独立特徴の検出に基づいている。 この学習は教師なし学習なので、教師信号は不要であり、特定の認識シナリオのために認識アーキテクチャを予め構成することができる。 教師あり学習による訓練を要するのは、最後の分類手段21のみであり、これにより認識作業への適用においてかなりの手間を削減する。

    【0041】以下では、図2を参照して本発明による階層モデルのアーキテクチャを詳細に説明する。 このモデルは、重み配分(weight-sharing)を持つフィードフォワード・アーキテクチャ、及び一続きの特徴に敏感に反応するマッチングステージ2とプーリングステージ3に基づいている。

    【0042】モデルは3つのステージを処理階層に含む。 第1の特徴マッチングステージ2は、符号の影響を受けない線形の受容野加算、同じ位置にある特徴間のW
    TA、及び最後の非線形閾値関数から構成される。 以下では、ベクトルの添え字は、特定の層の特定のプレーン内のニューロンのセット上で実行する表記法を採用する。 第1の層2における単一のセルの応答q 1 l (x,y)
    を計算するために、位置(x,y)の特徴タイプlに応答して、第1の画像ベクトルIが受容野の特性を特徴づける重みベクトルw 1 l (x,y)と掛け合わせられる。

    【0043】

    【数1】

    【0044】内積は「*」で表され、すなわち10×1
    0画素の画像I及びw 1 l (x,y)は100次元のベクトルである。 重みw 1 lは正規化されており、視覚野入力層における局所化された受容野を特徴付けている。 特徴プレーンlにおける全てのセルは、w 1 l (x,y)で与えられる同一の受容野構造を有しているが、古典的な重み配分または畳み込みアーキテクチャにおけるように、シフトされた受容野中心を有している(Fukushima, K. (198
    0), “Neocognitron: A self-organizing neuralnetwor
    k model for a mechanism of pattern recognition una
    ffected by shift in position”, Biol. Cyb., 39, 13
    9-202; LeCun, Y., Bottou, L., Bengio,Y., & Haffne
    r, P. (1998), “Gradient-based learning apprlied t
    o document recognition”, Proceedings of the IEEE,
    86, 2278-2324)。

    【0045】第2のステップでは、ソフトウェア的なW
    TAが次式に従って実行される。

    【0046】

    【数2】

    ここで、M=max

    k

    1

    k (x,y) であり γ

    1

    l (x,y)


    は,最大値以外の(sub-maximal)応答を抑制するWT


    Aの後の応答である。 パラメータ0<γ

    1 <1は競争の強度を制御する。 この非線形性は、高速の側抑制(late


    ral inhibition)により遅い応答を抑制する、潜時に基づく競合(latency-based competition)が刺激となっている。

    【0047】活性度は、第1の層2における全てのセルについて共通しきい値θ lを有する単純なしきい値関数に渡される。

    【0048】

    【数3】

    ここで、x≧0であればH(x)=1であり、それ以外はH(x)=0である。 s

    1

    l (x,y)は、第1の層2の位置


    (x,y)における特徴lに敏感に反応するニューロンの最終的な活性度である。

    【0049】プーリングセルの層3の活性度は次式によって与えられる。

    【0050】

    【数4】

    ここで、g

    1 (x,y)は、σ

    1によって特徴付けられる幅を持つ正規化ガウシアン局所化空間プーリングカーネルであり、これは全ての特徴lについて同一である。 ta


    nhは双曲線正接シグモイド変換関数である。 任意選択のプーリング層3は、同一の物体に対応する異なるパターンの変換下における認識の不変性を付与する。

    【0051】中間層4における特徴は、前の層3(プーリング層がない場合は2)のプレーンにおける特徴1
    2、13の局所組合せ10、11に敏感に反応することであり、従って以下では組合せセルと呼ぶ。 前のプレーンに対する組合せ線形加算は、次式によって与えられる。

    【0052】

    【数5】

    ここで、w

    2

    lk (x,y)は、前のプーリング層3のセルのプレーンkへの接続を記述する位置(x,y)で特徴lのプーリングセルの受容野ベクトルである。

    【0053】強度パラメータγ 2を有する同じWTAの後、プーリング層3における活性度は、共通のしきい値θ 2を有するしきい値関数の適用後に与えられる。

    【0054】

    【数6】

    【0055】中間組合せ層4から第2のプーリング層5
    へのステップは式(4)と同一であり、次式によって与えられる。

    【0056】

    【数7】

    ここで、g

    2 (x,y)は、範囲σ

    2を持つ第2のガウシアン空間プーリングカーネルである。

    【0057】最後の層15では、ニューロンは、Riesen
    huber, M.及びPoggio, T.らのRBFタイプの「ビューを(像)調整したユニット」(VTU:view-tuned-uni
    t)6のように、提示された物体の全体像について敏感に反応する(“Are corticalmodels really bound by t
    he “binding problem” ?”, Neuron, 24, 87-93)。
    最急ベースの学習を容易にするために、次式のシグモイド非線形関数を選択する。

    【0058】

    【数8】

    ここで、φ(x)=1+exp(-βx))

    -1はシグモイドフェルミ変換関数であり、w

    3

    lkは、前の層における全体プレーンkについてのlでインデックス付けされた、単一のビューを調整したセルの接続ベクトルである。 より大きな応答の柔軟性を可能にするために、あらゆるセル6


    は固有のしきい値θ

    3

    lを有する。 各VTUセル6は物体の特定のビューを表す。 従って、未知の入力刺激の分類は、最後の層15において最も活性しているVTU6を得ることによってなされる。 この活性化が一定のしきい値を上回らないときは、未知またはクラッタとしてパターンを棄却することができる。

    【0059】第1の特徴検出層2、任意選択のプーリング層3、及び組合せ層4からなる一組の層を数組み備えることができる点に注意することが重要である。

    【0060】次に、本発明による階層ネットワークの訓練について説明する。 訓練は、訓練パターンを有するネットワークを与えることによって実現することができる。 一例として、訓練パターンのライブラリは、連続して5度ずつ回転させた72個のビューを撮られた100
    個の物体から構成される。

    【0061】開始点では、WTAのプーリング範囲σ 1 ,
    σ 2 、しきい値θ 12 、及び強度γ 12を適当に調整する。 これらのパラメータは、ネットワーク非線形性の全体的な質の特徴を描写する。 第2のステップでは、非線形性のパラメータを一定に保ち、階層の中間層及び最終層の重み構造を修正する。 この例によれば、周知のC
    OIL−100データベース(Nayar, SK, Nene, S.
    A., & Murase, H. (1996), “Real-time 100 object r
    ecognition system”, in Proc. Of ARPA Image Unders
    tanding Workshop, Palm Springs)の100個の物体の分類作業に基づいて評価が行われる。 初めにビューを調整したユニットの訓練のための単純なパラダイムがあり、これはRiesenhuber及びPoggioのRBFタイプの設定と同様である。

    【0062】100個の物体の各々について72のビューが利用可能であり、これらは連続して5度ずつ回転している。 0度、120度、及び240度の3つのビューが各物体についての訓練パターン(ビュー)とされ、各ビューについてビューを調整したセルが採用されるので、
    合計300個のVTUが与えられる。 特定のパラメータ設定のために、最後の層15の活性化が記録される。 この活性度ベクトルは、高次元空間における最近傍分類のために用いられる。 これは、最後の層15のニューラル活性度により拡がる空間におけるテンプレート・マッチングと考えることができる。 結果的に、訓練は各々の訓練ビューのためのテンプレートを単に格納することになる。

    【0063】Riesenhuber及びPoggioの業績から離れて、最初に、組合せ層4のセルの接続パターンが考慮される。 これは、プーリング層3内の組合せ(中間)層4
    のセルの受容野中心の4つの隣接したニューロンの局所近傍におけるプーリング層3のただ2つのニューロンの結合に基づいている。 対称置換及び構成を除外した後に、2つのプーリングニューロンが異なる方向プレーンにあり同一の受容野位置を占め、120個の異なる組の組合せセルタイプが組合せ層4について求められる。 物体当たり3つのVTUという固定された数についてのパラメーター組合せに対する網羅的な格子状の検索において、分類の性能について最適の設定を発見することができる。 得られたパラメータは、θ 1 =0.1、θ 2 =0.
    95、σ 1 =2.5、σ 2 =2.5、γ 1 =0.9、γ 2
    0.0である。

    【0064】得られた最近傍分類は、69%が正しい。
    この特定のパラメータ設定は、ある符号化戦略を意味している。 単純なエッジ検出器12、13の第1の層2
    は、むしろ低いしきい値を方向間の強い局所的競争と結合させる。 その結果は、4つの異なる方向カテゴリのうちの1つへの入力の一種の「セグメント化」である。 これらの特徴は、ガボール受容野(層2)の大きさに相当する範囲内でプーリングされる。 組みになった組合せセルは高いしきい値を有し、これは両方のシナプス前のセルが強く活性する場合にのみ活性化される。 γ 2 =0なので、高しきい値により既に強いスパース化(sparsifi
    cation)を生じるので、組合せセルのレベルにおけるさらなるWTAは不必要であると思われる。

    【0065】低い初期しきい値及び強い勝者先取りを有する符号化戦略が最適であると仮定すると、入力画像の集合全体についてのプーリング層3のプレーンの活性度ベクトルの集合を生成することができる。 そして、この集合から20000個の5×5のパッチのランダムな選択を考慮することができる。 プーリング層3には4つのプレーンがあるので、5×5×4=100次元の活性度ベクトルを構成する。 続いて、この局所パッチの集合に対して主成分分析(PCA)と独立成分分析(ICA)
    の両方を実行することができる。 独立成分分析は、例えば高速ICAアルゴリズムを用いて実行することができる(Hyvarinen, A. & Oja, E. (1997),“A fast fixed-
    point algorithm for independent component Analysi
    s”; Neural Computation 9(7), 1483-1492)。主成分分析及び独立成分分析の両方について、得られる20個または50個の特徴プレーンの接続について重みベクトルとして用いられる20個または50個の成分を代替的に考慮することができる。得られる最近傍分類器の性能を評価した後に、後続する層のパラメータをσ 1 =1.
    5、σ 2 =1.5、θ 2 =0.5、γ 2 =0に調節することができ、これは、組合せ層ニューロンのより拡張された5×5受容野への適用を反映している。 最近傍分類に基づいた最適化の後、性能ゲインを調べることができるが、これはビューを調整したユニットの応答をシグモイド変換関数を用いて最適に調整することによって求めることができる。

    【0066】最後の層のニューロンの分類器出力に対して最急ベースの教師あり学習を実行することができる。
    ここで、訓練セットにおける特定のビューiについての目標出力は、次式で与えられている。

    【0067】

    【数9】

    ここで、lは提示されたビューに最も近いVTU6のインデックスであり、同一物体の他のビューについては次式のようになる。

    【0068】

    【数10】

    全ての他のVTU6は、次式の活性化レベルで沈黙していると想定される。

    【0069】

    【数11】

    【0070】訓練は、以下に示す二次エネルギー関数E
    上の確率的最急降下によって行うことができる(LeCun,
    Y., Bottou, L., Bengio, Y., & Haffner, P. (1998),
    “Gradient-based learning apprlied to document re
    cognition”, Proceedings of the IEEE, 86, 2278-232
    4)。

    【0071】

    【数12】

    ここで、iは訓練画像に対するカウントである。

    【0072】任意の不変認識手法において特に関心のある点は、以前は見ることのできなかった物体のビューの汎化能力である。 階層アーキテクチャの背後にある主要な考え方の1つは、物体のビューが変化したときに、後のステージにおける神経活性の不変性の段階的な増加を実現することである。 本発明は、階層アーキテクチャから得られるかなりの不変性を提供する。

    【0073】次に、VTU6によって実行することができる最近傍分類法について説明する。 画像を表す特徴空間におけるユークリッド距離を用いた最近傍検索を使用するテンプレート・マッチングは、画像分類の直接的な手法である。 この単純な手法は、訓練ビューを例えば写真メモリに収集し、画像強度ベクトル全体について最近傍検索を実行するVTU6を使用する。 訓練ベクトルの数が増加するにつれて、その性能は明らかに向上すると予想される。 主な問題は、物体表現の非効率性であり、
    物体の数が多くなると膨大な量のデータが必要になる。
    本発明による階層処理からさらに高次の不変性が予想できるので、層5におけるプールされた組合せセルの活性化に基づいて、テンプレート・マッチングを行うことができる。

    【0074】画像データにテンプレート・マッチングが直接適用されると、分類速度は、利用可能なビューの数と共にわずかにほぼ線形に増加する。 反対に、提案した階層の層5の出力に基づいた最近傍分類器を使用すると、訓練データの適切な数について非常に高速の増加が観察され、完全な分類に向かって飽和する。 120個の組合せセルの完全なセットを使用すると、分散が最大である50個のセルを使用したときと同様の性能が得られる。 特に関心があるのは、組合せセルの独立成分分析ベースの判定がより良い結果を生み、単純な組みで構築された組合せセルを上回る性能を持つことである。

    【0075】以下では、ビューを調整したユニット(V
    TU)6について説明する。 最近傍マッチングは単純な手法であり、重みの追加の適用を必要としないという利点を有する。 しかし、追加の最後の層15は、前のプーリング層5における高次元活性化パターンからより多くの情報を引き出すことができなければならない。 利用可能なVTU6の数を制限するために、各物体についてわずか3つのVTU6しか利用できない設定を使用することができる。 これらVTU6の重み及びしきい値は、確率的最急降下によって最適化することができる。 少数のわずか3つのVTU6にもかかわらず、最適化により、
    利用可能な訓練パターンの数に応じた匹敵する性能が達成される。 ここでも、独立成分分析で最適化された特徴が最高の結果を与える。 最大分散を有するペア組合せセルの選択よりも一般的な分散ベースの選択方法である主成分分析は、ペア組合せセルを上回る性能を持つが、独立成分分析のレベルには到達しない。

    【0076】認識についての問題の中心は、あらゆる自然の刺激には、背景から孤立して認識される物体だけでなく、大量のクラッタも含まれるということである。 より大きな認識についての変換許容範囲を得るためのプーリング範囲の増大能力を制限するのは、主に環境におけるクラッタの量である(Mel, BW & Fiser, J. (200
    0), “Minimizing binding errors using learned conj
    unctive features”, Neural computation 12(4), 731-
    762)。

    【0077】クラッタの影響は、ランダムにクラッタをばらまいた背景を人工的に生成し、物体の画像を切り取りこれを4画素のランダムな位置分散を有するように変換したクラッタをばらまいた背景画像上に置くことによって、評価される。 この手順により、20個の物体のセットについての画像集合がCOIL−20のデータベースから生成され、これらの画像を用いた訓練及びテストを実行した。 集合は、クラッタのみを含む200個のビューによって拡大され、全てのVTU6は沈黙した(すなわち、それらの訓練出力が0.1にセットされた)状態を維持すると予想される。 最後のVTUに棄却しきい値0.2を設定すると、クラッタ画像の1%のみが誤って物体と分類される。 誤棄却率、すなわち提示された物体がしきい値活性化を超えない割合は、1%未満である。 物体当たり3つのVTUを用いると、全体的な分類率は、さらに大きなCOIL−100のセットに匹敵する。 これは、従来のセグメント化を必要とすることなく、階層ネットワークの能力を強調し、異なる環境を一般化する。 わずか3つの訓練ビューを用いた場合でも、
    85%を正しく分類することができる。

    【0078】要約すると、現実世界の三次元不変物体認識を実行する階層的ニューラル・フィードフォワード・
    アーキテクチャの能力についての議論が進行中である。
    様々な階層的モデルが存在するが、適切な教師あり学習または教師なし学習方法は依然として研究が盛んである案件である。 重み配分、プーリングステージ、及びWT
    Aによる非線形性等の要素については先行する方法と同じだが、階層ネットワークの中間ステージにおける最適特徴検出セルを決定する新しい方法に着目した、認識を行うフィードフォワードモデルを提案した。 従来ほとんどの初期特徴検出ステージに適用された独立成分分析(ICA)が、中間の複雑な特徴についても優れた認識性能を達成する。 独立成分分析により学習された特徴は、以前に提案された発見的な単純特徴の組合せよりも良い結果をもたらす。

    【図面の簡単な説明】

    【図1】本発明に従ったネットワークの構成を説明する図である。

    【図2】本発明に従った階層ネットワークのアーキテクチャを図式的に示す図である。

    【符号の説明】

    1 パターン表現 2 固定特徴検出器 3 プーリング層、プーリング手段 4 局所組合せ層、局所組合せ手段 6 分類層、分類手段 7 局所ウィンドウ 8 パターン 9 特徴マップ 12 特徴 13 特徴

    ───────────────────────────────────────────────────── フロントページの続き (71)出願人 501442529 Carl−Legien Strasse 30 63073 Offenbach/Ma in, Germany (72)発明者 ハイコ・ヴェージンク ドイツ連邦共和国 60319 フランクフル ト・アム・マイン、ザントヴェーク 129 (72)発明者 エドガー・ケルナー ドイツ連邦共和国 63500 ゼーリゲンシ ュタット、フリートホフシュトラーセ 14 Fターム(参考) 5L096 CA02 EA27 EA39 FA27 FA32 GA17 GA51 HA11 JA09 JA11 KA04

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈