Neural network and its learning method专利检索-多层感知器前馈神经网络人工神经网络机器学习人工智能专利检索查询-专利查询网

Neural network and its learning method

阅读：919发布：2021-01-28

专利汇可以提供Neural network and its learning method专利检索，专利查询，专利分析的服务。并且PURPOSE:To provide the neural network which can learn even a linearly unseparable pattern and the learning method for that by conquering the problem that a perceptron can not linearly be separated and the problem that the local minimum point of back propagation is reached. CONSTITUTION:In the neural network which has an input layer 1, an intermediate layer 2, and an output layer 3, a neural network model of low order consists of neurons of the intermediate layer 2 and input layer 1 which learn plural linearly separable patterns and a neural network model of high order consists of neurons of the intermediate layer 2 and output layer 3 which provide linearly unseparable patterns by integrating those linear separable patterns.，下面是Neural network and its learning method专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】入力信号を受ける複数の入力ニューロンから成る入力層と、該入力ニューロンから信号を受けて所定の処理を行う１又は複数の中間ニューロンから成る中間層と、該中間ニューロンから信号を受けて所定の処理を行い出力信号を生成する１又は複数の出力ニューロンから成る出力層とで構成されるニューラルネットワークにおいて、前記入力層と前記中間層との間の結合係数は、学習によって決定され、前記中間層と前記出力層との間の結合係数は、与えられた所望の入出力パターンを前記中間ニューロンによって実現される線形分離可能なパターンの組合せで実現するように決定され、前記中間層は１層又は複数の層から成り、そのうちの少なくとも１層の中間ニューロンが、学習の進行と共に、所定の手続きにより必要に応じて生成されることを特徴とするニューラルネットワーク。

【請求項２】前記中間層は１層の中間ニューロンから成り、前記中間層と前記出力層との間の結合係数は、１番目から奇数番目までの前記中間ニューロンに対する前記出力ニューロンからの結合係数の総和が閾値よりも大きく、１番目から偶数番目までの前記中間ニューロンに対する前記出力ニューロンからの結合係数の総和が前記閾値よりも小さくなるように決定されていることを特徴とする請求項１記載のニューラルネットワーク。

【請求項３】前記中間層は奇数の層を構成する中間ニューロンから成り、入力側から奇数番目の層の中間ニューロンは、学習の進行と共に必要に応じて生成され、偶数番目の層の中間ニューロンは、その入力側の奇数番目の層の中間ニューロンに対して予め出力ニューロンとして設けられることを特徴とする請求項１記載のニューラルネットワーク。

【請求項４】状態をＯＮにする入力信号が入力されると常にＯＮの状態をとり続けるバイアスニューロンを前記中間ニューロンの各々に接続したことを特徴とする請求項１記載のニューラルネットワーク。

【請求項５】前記中間ニューロンが複数の群に区分されると共に、前記出力ニューロンが前記中間ニューロンの群の数と同数設けられ、各出力ニューロンがそれぞれ対応する群の中間ニューロンと接続されて、多入力多出力のネットワークを構成していることを特徴とする請求項１記載のニューラルネットワーク。

【請求項６】入力信号を受ける複数の入力ニューロンから成る入力層と、該入力ニューロンから信号を受けて所定の処理を行う１又は複数の中間ニューロンから成る中間層と、該中間ニューロンから信号を受けて所定の処理を行い出力信号を生成する１又は複数の出力ニューロンから成る出力層とで構成されるニューラルネットワークにおける学習方法において、与えられた入出力パターンが線形分離可能か否かを判定すると共に、線形分離可能な入出力パターンについては、前記入力層には入力パターンを、前記中間ニューロンには対応する所望の出力値をそれぞれ与え、該中間ニューロンに対して所定の学習手続きを実行し、前記出力層と中間層の間の結合係数は、前記中間ニューロンの信号と、該中間ニューロンの信号を入力とする前記出力ニューロンからの出力信号とが等しくなるように決定し、線形分離不可能な入出力パターンについては、前記中間層と入力層の間に、所定の学習パターン決定方法によって決定したパターンを割り当てて、前記中間ニューロンに対して前記所定の学習手続きを実行し、該中間ニューロンによって実現される線形分離可能なパターンの組合せで元の入出力パターンを実現するように前記出力層と中間層の間の結合係数を決定することを特徴とする学習方法。

【請求項７】請求項６記載の学習方法において、前記所定の学習手続きは、前記中間層と入力層の間の結合係数を目標出力と実際の出力が違う場合に所定の演算式に従って変更し、与えられたパターンの全てについて所定のパターン抽出方法に従ってパターンの集合を抽出し、そのパターン集合の中から所定の規則に従って選択したパターンを、それと異なる種類のパターンに変換することにより、最終的に線形分離可能なパターンを得ることを特徴とする学習方法。

【請求項８】請求項７記載の学習方法において、前記所定の規則は前記パターンを表現する座標空間の原点からの距離が最も遠いパターンを選択することである学習方法。

【請求項９】請求項７記載の学習方法において、ある入力パターンを前記中間ニューロンに与えて前記出力ニューロンの出力と目標出力との一致／不一致を判定し、一致しない場合に前記中間層と入力層の間の結合係数を修正する動作を、所定の終了条件が満たされるまで実行することを特徴とする学習方法。

【請求項１０】請求項９記載の学習方法において、前記終了条件は、前記結合係数の修正の回数が予め定めた値より大きくなったときであることを特徴とする学習方法。

【請求項１１】請求項９記載の学習方法において、前記終了条件は、学習における反復計算の際、現在の重みと、過去の少なくとも１つの時点における所定の条件を満たす重みとの比較に基づいていることを特徴とする学習方法。

【請求項１２】請求項９記載の学習方法において、前記結合係数の修正は、修正のステップ幅が所定の規則に従って修正毎に決定されることを特徴とする学習方法。

【請求項１３】請求項６記載の学習方法において、前記所定の学習手続きは、与えられたパターンのうち、目標出力が１であるＯＮパターンと目標出力が０であるＯＦ
Ｆパターンにそれぞれ異なる変換関数ｈ _ONとｈ _OFFを用い、全てのパターンに対して両変換関数の和を最大化し、学習する入出力パターンが線形分離不可能な場合には、この最大化の最適性条件式に基づき、前記入出力パターンを線形分離可能なパターンに変換して学習することを特徴とする学習方法。

【請求項１４】請求項６記載の学習方法において、元の入出力パターンと既に学習済みの中間ニューロンによって実現される入出力パターンとから所定の手続きにより学習パターンを決定し、その学習パターンを未学習の中間ニューロンに割り当てることを特徴とする学習方法。

【請求項１５】請求項６記載の学習方法において、与えられた入出力パターンに応じて所定の手続きにより前記中間ニューロンを生成することを特徴とする学習方法。

【請求項１６】請求項７記載の学習方法において、前記パターンの変換は、目標出力が０であるＯＦＦパターンを目標出力が１であるＯＮパターンに変換するものであり、前記ＯＦＦパターンの全ての要素がそれぞれ任意のＯＮパターンの対応する要素の値以上の値を持つとき、
該ＯＦＦパターンをＯＮパターンに変更することを特徴とする学習方法。

【請求項１７】請求項７記載の学習方法において、前記所定のパターン抽出方法は、前記中間層と入力層の間の結合係数の変化をチェックすることにより、その変化が０で且つ目標出力と実際の出力が一致しないパターンの集合を抽出することを特徴とする学習方法。

【請求項１８】請求項９記載の学習方法において、前記終了条件は、前記結合係数を引き数とする所定の目的関数の関数値、または該目的関数の亜勾配に基づくことを特徴とする学習方法。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワークに関するもので、詳細には、線形分離不可能な入力パターンとそれに対する出力値（本明細書では、この入力パターンと出力値の組を「入出力パターン」という）でも学習できるニューラルネットワーク及びそれに対する学習方法に関する。

【０００２】

【従来の技術】ニューラルネットワークについては、既にいくつかのモデルが提案されているが、最も基本的なものはパーセプトロンである。これは、入力層と出力層との間の結合の重み（結合係数）のみを変化させる学習を基本とするものである。その学習の方法は、それ以外の方法に比較して簡便な手続きで学習を実現できるという利点を有する。ここでいう「学習」とは、出力が目標出力に近づくように重みを変えていくことである。

【０００３】しかし、上記のパーセプトロンでは「線形分離」が不可能なパターンは学習できないという問題がある。「線形分離」とは、２種類に分類されるパターンを、２次元の場合は直線で、３次元以上の場合は多次元平面で、各分類に分離することを意味する。

【０００４】この線形分離不可能なパターンは学習できないというパーセプトロンの問題点は、バックプロパゲーション法によって解決される。この方法は、多階層のニューラルネットワークモデルに適用可能であり、線形分離不可能なパターンも学習可能としている。しかし、
バックプロパゲーション法は、基本的には目標出力と実際の出力との誤差の２乗関数を最小化する方法であり、
最急降下法と呼ばれる最適化の手法を用いているため、
与えられた入出力パターンから得られる誤差関数に局所最小点（ローカルミニマム）が存在すると、その局所最小点に陥って学習不能になる場合が生じる。また、バックプロパゲーション法には、パラメータの調整や重みの初期値設定が面倒であり、入力層と出力層の間の中間層（隠れ層）を構成するニューロンの必要な個数の決定が困難で、計算量が多く、時間がかかるという問題点もある。

【０００５】これに対し、多層構造のニューラルネットワークを構築するために必要なニューロンユニットを付加していく、次のようなアルゴリズムが提案されている。

【０００６】その１つは、フィードフォワード階層ネットワークを構築するニューロンユニット層の数と各層のユニット数を決定するアルゴリズムであり、それによって収束するまで層或は層の中のニューロンユニットを付加していく（米国マサチューセッツ工科大学発行の“ N
eural Computation”Vol. 2, 198-209 頁, １９９０
年。著者 Marcus Frean ）。

【０００７】もう１つは、線形閾ユニットから成る多層パーセプトロンを構築するために、所定のルールにより必要に応じてニューロンユニットを付加していくアルゴリズムである（“Journal of Phisics A: Math. Gen.”
Vol. 22, 2921-2203頁, １９８９年。著者 Marc Mezard
及び Jean PierreNadal）。

【０００８】しかしながら、これらのアルゴリズムは、
与えられた入力に対して所望の出力が得られるまで必要なニューロンユニットを付加していくものであるから、
最終的にネットワークを構築するまでニューロン層も各層を構成するニューロンも決まらず、それらの層及びニューロンの数も多くなり易い。その結果、ネットワークの構成が複雑化し、高速処理も困難になる。

【０００９】

【発明が解決しようとする課題】本発明の目的は、パーセプトロンの線形分離不可能という問題及びバックプロパゲーションの局所最小点に陥るという問題を克服すると共に、できるだけ少ない数のニューロンで線形分離不可能なパターンでも学習できるニューラルネットワークを構築することと、それに必要な中間ニューロンを自動的に生成する学習方法を提供することにある。

【００１０】

【課題が解決するための手段】本発明の基本思想は、図１に示すように、線形分離不可能な入出力パターンＰを線形分離可能なパターンＱ ₁ ,Ｑ ₂ ,・・・,Ｑ _nに分割し、それらを統合するパターンＲを生成し、線形分離可能なパターンＱ ₁ ,Ｑ ₂ ,・・・,Ｑ _nを中間ニューロンで、統合パターンＲを出力ニューロンで、それぞれ実現することにより、全体として線形分離不可能なパターンＰの学習を可能としたことにある。

【００１１】そのための手段として、本発明は、入力層と中間層と出力層とを含むニューラルネットワークにおいて、複数の線形分離可能なパターンＱ ₁ ,Ｑ ₂ ,・・・,Ｑ _n
を学習する中間層のニューロンと入力層のニューロンから成る下位のニューラルネットワークモデルと、それら複数の線形分離可能なパターンを統合して、線形分離不可能なパターンＰを実現する中間層のニューロンと出力層のニューロンから成る上位のニューラルネットワークモデルとを構成する。

【００１２】本発明のニューラルネットワークにおける学習方法は、フィードフォワード型のニューラルネットワークに対して、所定の学習手続きを実行し、与えられた線形分離不可能なパターンから複数の線形分離可能なパターンを作成するものである。

【００１３】以下、本発明のニューラルネットワークの形成と学習方法について説明する。

【００１４】（１）ニューラルネットワークの形成前述のように、任意の入出力パターン（線形分離不可能なパターンＰを含む）は、線形分離可能なパターンＱ ₁ ,
Ｑ ₂ ,・・・,Ｑ _nの組合せで表現することができる。

【００１５】例えば、図２（ａ）に示すように、２次元座標で概念的に表わした多次元概念座標に黒丸（ＯＮ）
と白丸（ＯＦＦ）の点で表示された２種類のパターンを考える。問題は、これが線形分離可能か否かということである。

【００１６】これらのパターンに対して、図２（ｂ）に示すような直線ａ，ｂ，ｃ，ｄを導入すると、図２
（ａ）のパターンは、各直線の矢印方向（図の右上に向かう方向）の領域を表わす和集合と差集合で表現することができる。

【００１７】まず、各直線が次の式で表わされるものとする。

【００１８】ａ：ｗ _A ^T ｘ＝θ ｂ：ｗ _B ^T ｘ＝θ ｃ：ｗ _C ^T ｘ＝θ ｄ：ｗ _D ^T ｘ＝θ 但し、ｗは結合重みベクトル、ｘは入力側のニューロンの状態値ベクトルであり、 ^Tは転置を示す。 θは閾値である。また、図の場合、ｗ _A ＞０，ｗ _B ＞０，ｗ _C ＞
０，ｗ _D ＞０，θ≧０とする。以下、文字又は数字に付した下線はベクトルを表わす。

【００１９】このようにすると、図２（ｃ）〜（ｆ）に示すように、各直線の矢印方向の点（黒丸）の集合は、
次式で表わされる領域に含まれる。

【００２０】（ｃ）の黒丸点の集合：ｗ _A ^T ｘ＞θ （ｄ）の黒丸点の集合：ｗ _B ^T ｘ＞θ （ｅ）の黒丸点の集合：ｗ _C ^T ｘ＞θ （ｆ）の黒丸点の集合：ｗ _D ^T ｘ＞θこれらの領域（集合）をそれぞれＡ、Ｂ、Ｃ、Ｄと書き、和集合の演算を〈＋〉、差集合の演算を〈−〉で表わすと、図２（ｂ）
のように分離される２種類の点から成るパターンは、｛（Ａ〈−〉Ｂ）〈＋〉Ｃ｝〈−〉Ｄと表わされる。

【００２１】一方、領域Ａ、Ｂ、Ｃ、Ｄにある変数ベクトルｘが各領域に含まれるか否かは、Ｌ（ｗ _A ^T ｘ −
θ），Ｌ（ｗ _B ^T ｘ −θ），Ｌ（ｗ _C ^T ｘ −θ），Ｌ（ｗ _D ^T
ｘ −θ）の値がそれぞれ１か０かで示される。

【００２２】但し、Ｌは変数ｚに対して次のように１又は０となる閾値関数である。ｚ≧０のとき、Ｌ（ｚ）＝１ｚ＜０のとき、Ｌ（ｚ）＝０上式に各領域を表わすベクトルｗを適用することにより、式の値が１であれば、変数ベクトルｘはｗで表わされる領域にあることになる。

【００２３】更に、ｘ _A ＝Ｌ（ｗ _A ^T ｘ −θ）ｘ _B ＝Ｌ（ｗ _B ^T ｘ −θ）ｘ _C ＝Ｌ（ｗ _C ^T ｘ −θ）ｘ _D ＝Ｌ（ｗ _D ^T ｘ −θ）とおくと、図２（ｂ）のパターンは次式で表わされる。

【００２４】ｙ＝Ｌ((θ＋ε) ｘ _A −２εｘ _B ＋２εｘ _C −２εｘ _D −θ) 但し、εはε＜θなる正の数である。

【００２５】なお、ｘ _A ，ｘ _B ，ｘ _C ，ｘ _Dの各々の係数（θとεで表わされる）の値は、厳密に上式の通りでなくても、ｘ _A ，ｘ _B ，ｘ _C ，ｘ _Dとｙとの間の入出力関係が上式と同じであれば、どんな値でもよく、更に広く言えば、上式の形をとらなくてもよい。

【００２６】ｙは、図２（ａ）の黒丸に対して値１をとり、白丸に対して値０をとる。このようにすれば、元の入出力パターンが線形分離不可能であっても、それを線形分離可能なパターンに変換し、ニューラルネットワークモデルで表現することができる。

【００２７】以上を一般化するならば、ｘ _A ，ｘ _B ，ｘ
_C ，ｘ _Dの代わりに、ｘ ¹ ，ｘ ² ，ｘ ³ ，ｘ ⁴としてｘ ¹ ＝Ｌ（ｗ _A ^T ｘ −θ）ｘ ² ＝Ｌ（ｗ _B ^T ｘ −θ）ｘ ³ ＝Ｌ（ｗ _C ^T ｘ −θ）ｘ ⁴ ＝Ｌ（ｗ _D ^T ｘ −θ）とおき、ｙ＝Ｌ((θ＋ε) ｘ ¹ −２εｘ ² ＋２εｘ ³ −２εｘ ⁴ −θ) とする。更に必要であれば、ｘ ⁵ ，ｘ ⁶ ，ｘ ⁷ ，・・・・・
というように増やしていけばよい。

【００２８】上記の一般式は、図３に示すような入力層１、中間層２、出力層３から成る３層構造のニューラルネットワークにおいて、中間層２のニューロンの状態値ｘ ¹ ，ｘ ² ，ｘ ³ ，・・・と出力層３のニューロンの状態値ｙとの関係を示す。なお、入力層１は複数（ｎ）個のニューロン（状態値ｘ ₁ ，ｘ ₂ ，・・・・・，ｘ _n ）で、出力層３は１個のニューロン（状態値ｙ）でそれぞれ構成され、これらのニューロンは予め与えられる。

【００２９】図３において、中間層２と出力層３との間の結合係数は、中間層２のニューロンによって実現される線形分離可能なパターンの組合せで元の入出力パターンを実現するように決定される。具体的には、中間層２
と出力層３との間の結合係数は、前述のように正の数ε
を用いることにより、１番目から奇数番目までの中間ニューロンに対する出力ニューロンからの結合係数の総和（θ＋ε）が閾値θよりも大きく、１番目から偶数番目までの中間ニューロンに対する出力ニューロンからの結合係数の総和（θ−ε）が前記閾値θよりも小さくなるように決定される。

【００３０】以上の数学的モデルの基礎となる閾値関数Ｌ（ｗ ^T ｘ −θ）は、マッカロー・ピッツ（McCulloch,
Pitts）のモデルとして知られているものであり、これはハードウエアでもソフトウエアでも実現可能であるから、図３のニューラルネットワークモデルも実現できる。

【００３１】（２）線形分離可能なパターンの作成線形分離不可能なパターンに対して、上位のニューロン（中間層と出力層）の間の結合係数（重み）が上記（１）のように決められたニューラルネットワークにおいて、線形分離可能なパターンを作成するために、下位のニューロン（入力層と中間層）の間の結合係数（図３
のｗ ^j _i ，ｉ＝１，２，・・・・，ｎ；ｊ＝１，２，・・・・，
ｋ）を次のような学習手続きによって決定し、そのように結合係数が決定されたニューラルネットワークモデルにより、線形分離不可能な入出力パターンの変換を行う。

【００３２】［学習手続き］目標出力と実際の出力が同じ場合は、重みの変更を行わない。

【００３３】目標出力と実際の出力が異なる場合は、

【００３４】

【００３５】で表わされるαを用いて、次式により重み
ｗ ^dを変更する。

【００３６】ｗ ^d+1 ＝ｗ ^d ＋α＊ｘなお、ｄは反復計算の繰返し数（イテレーション）を示す添字である。

【００３７】以上の学習手続きを行い、入力パターンの全てについて上記結合係数ｗ ^dの変化が０でないかどうかをチェックする。もし０で、かつ目標出力と実際の出力とが一致しないパターンがある場合には、線形分離不可能なパターンを学習していることになる。その場合は、それ以降に目標出力と実際の出力とが異なるパターンを記憶し、線形分離不可能なパターンの元になる「線形非分離核パターン集合」と称する線形非分離要素の集合を得る。これについては、後で詳細に説明する。

【００３８】以上の手順において、学習するパターンが線形分離可能な場合は上記の学習手続きによって学習することができ、全体の学習も終了する。一方、学習するパターンが線形分離不可能な場合は、上記の学習手続きによって線形非分離核パターン集合が得られる。そこで、得られた線形非分離核パターン集合の中から２種類のパターンの一方、例えばＯＮ／ＯＦＦ２つの種類のうちＯＦＦのパターンを適当に選ぶ。このときの選び方は、例えば、入力パターンのノルムが最大のものを選ぶようにする。そして、選んだＯＦＦパターンをＯＮに変更することで、変換が行われる。

【００３９】新しく得られた入出力パターンを元にして再度学習を行い、所定の終了条件（後述）が満たされた時に割当てを終了する。終了条件が満たされない場合には、線形非分離核パターン集合を求め、その中のＯＦＦ
パターンの１つをＯＮパターンに変更する。以上の処理を、全てのパターンについて線形分離可能となるまで繰り返す。

【００４０】上記の手続きで線形分離可能なパターンが得られる。その結果は、図２（ｃ）に対応する。次に図２（ｄ）のようなパターンを得るためには、図２（ｃ）
と元のパターンすなわち図２（ａ）との差を新しい元パターンとし、この新たに決めたパターンについて更に線形分離可能かどうかを調べるために、前述の処理を行う。

【００４１】以上の手続きを２つのパターンの差が線形分離可能なパターンとなるまで実行し、その後、各パターンに対応する重みを持つ中間層のニューロンを含む図３のようなニューラルネットワークにより、初めに与えられた入出力パターン（線形分離不可能なパターンを含む）の学習が達成される。図３については、後で詳細に説明する。

【００４２】また、本発明は、図３のような３層構造のみならず、例えば図２１に示すように、必要に応じて中間層２を複数の層で構成する多層構造に拡張できる。図２１に示した例では、中間層２は３層の中間ニューロンから成り、中間層２の入力側から１番目の層と３番目（すなわち出力側）の層の中間ニューロンは、学習の進行と共に必要に応じて生成され、２番目の層の中間ニューロンは、入力側の１番目の層の中間ニューロンに対して予め出力ニューロン（図３の出力ニューロンｙに相当）として設けられるものである。図２１についても、
後で詳細に説明する。

【００４３】以上から、本発明のニューラルネットワークは、入力信号を受ける複数の入力ニューロンから成る入力層と、該入力ニューロンから信号を受けて所定の処理を行う１又は複数の中間ニューロンから成る中間層と、該中間ニューロンから信号を受けて所定の処理を行い出力信号を生成する１又は複数の出力ニューロンから成る出力層とで構成されるものにおいて、入力層と中間層との間の結合係数は、学習によって決定され、中間層と出力層との間の結合係数は、与えられた所望の入出力パターンを前記中間ニューロンによって実現される線形分離可能なパターンの組合せで実現するように決定され、中間層は１層又は複数の層から成り、そのうちの少なくとも１層の中間ニューロンが、学習の進行と共に、
所定の手続きにより必要に応じて生成されることを特徴とする。

【００４４】本発明のニューラルネットワークにおける学習方法は、与えられた入出力パターンが線形分離可能か否かを判定すると同時に、線形分離可能な入出力パターンについては、入力層には入力パターンを、中間ニューロンには対応する所望の出力値をそれぞれ与え、該中間ニューロンに対して所定の学習手続きを実行し、出力層と中間層の間の結合係数は、中間ニューロンの信号と、該中間ニューロンの信号を入力とする出力ニューロンからの出力信号とが等しくなるように決定し、線形分離不可能な入出力パターンについては、中間層と入力層の間に、所定の学習パターン決定方法によって決定したパターンを割り当てて、中間ニューロンに対して前記所定の学習手続きを実行し、該中間ニューロンによって実現される線形分離可能なパターンの組合せで元の入出力パターンを実現するように出力層と中間層の間の結合係数を決定することを特徴とする。

【００４５】

【作用】本発明によれば、線形分離可能な入出力パターンに対しては、入力層に入力パターンを、中間ニューロンには対応する所望の出力値をそれぞれ与え、中間ニューロンに対して学習手続きを実行することにより、出力層と中間層の間の結合係数を決定する。線形分離不可能な入出力パターンに対しては、中間層ニューロンによって実現される線形分離可能なパターンの組合せで元の入出力パターンを実現するように中間層と出力層の間の結合係数を決定し、入力層と中間層の間には、その線形分離可能なパターンを割り当てて学習させる。

【００４６】上記のように、入力層と出力層との間の隠れ層を構成する中間ニューロンを自動的に生成することにより、線形分離不可能な入出力パターンを線形分離可能な入出力パターンに分割して、それらを統合するネットワークモデルを形成し、全体として線形分離不可能な入出力パターンの学習を可能にするニューラルネットワークが実現される。ここで、入力層と出力層は予め定められ、中間ニューロンのみが最少数又はそれに近い数で決定されるので、汎化能力が高く、情報処理などの高速化も達成される。

【００４７】後述の実験結果によると、４入力１出力のパターンの学習では、入力が全て０のパターンを除き、
全ての入出力パターンが学習できた。また、その学習の速さは、バックプロパゲーション法の約 500倍であった。入力が全て０のパターンについては、本発明の基本構成の拡張又は改変によって学習することができる。

【００４８】

【実施例】本発明をより詳細な数学モデルによって詳細に説明する。説明は、以下の項目に分けて行う。

【００４９】線形分離可能性線形分離可能割り当てアルゴリズム分離超平面の決定全体のアルゴリズム線形分離可能性各ニューロンの入出力関係は、

【００５０】

【数１】ｘ _out ＝ｈ（ｘ ^T ｗ −θ）（１）と表わされるものとする。ここで、変換関数ｈは

【００５１】

【数２】ｈ(z) ＝１（ｚ＞０のとき）ｈ(z) ＝０（ｚ＞０のとき）（２）で表わされる連続な閾値関数である。

【００５２】但し、ｘはｎ次元の２値ベクトル（ブーリアンベクトル）で、入力側のニューロンの状態値を表わす。ｘ _outは２値スカラーで、出力側のニューロンの状態値を表わす。ｗ ∈Ｒ ⁿは入力側ベクトルｘに対応するシナプスの結合重みベクトル、θ∈Ｒ ¹はニューロンの閾値であり、正の定数とする。

【００５３】ここで、「学習」とは、ｍ個のｎ次元２値ベクトルｘの入力に対して、式（１）のニューロンモデルによって構成されるネットワークの出力ｘ _outが所望の値となるように結合重みｗを変更していく過程をいうものとする。

【００５４】すなわち、ｍ個の入力ベクトルｘ＝（ｘ
_i ）の集合をＸとし、目標出力値が１であるような入力ベクトルの集合をＯＮパターン集合、目標出力値が０であるような入力ベクトルの集合をＯＦＦパターン集合と呼び、それぞれＸ _ON ，Ｘ _OFFと表わす。更にこれらの集合の要素をそれぞれ「ＯＮパターン」、「ＯＦＦパターン」と呼び、次の仮定をおく。

【００５５】仮定 a：Ｘ _ON ∩Ｘ _OFF ＝φ（空集合）ここで、

【００５６】

【数３】ｈ( ｘ ^T ｗ −θ）＝ 1 （ｘ ∈Ｘ _ON ）ｈ( ｘ ^T ｗ −θ）＝ 0 （ｘ ∈Ｘ _OFF ）（３）を満たすｗ、すなわち

【００５７】

【数４】ｘ ^T ｗ＞θ （ｘ ∈Ｘ _ON ）ｘ ^T ｗ＜θ （ｘ ∈Ｘ _OFF ）（４）なるｗを求める過程が「学習」である。

【００５８】上式の解ｗが存在するとき、パターン集合Ｘ _ON ，Ｘ _OFFを強い意味で分離する超平面

【００５９】

【数５】ｘ ^T ｗ＝θ （５）が存在する。このとき、集合Ｘ _ON ，Ｘ _OFFは「線形分離可能」であるという。そうでないとき、集合Ｘ _ON 、Ｘ
_OFFは「線形分離不可能」であるという。

【００６０】２値ニューラルネットワークの学習において、前記マッカロー・ピッツのニューロンモデルを用いる限り、２層間では線形分離可能なパターンしか扱えない。そのため、線形分離不可能なパターンを学習する場合は、３層以上のネットワークを用い、各層間では線形分離可能な入出力関係を扱いつつ、全体として線形分離不可能な入出力関係を実現しなければならない。３層以上のニューラルネットワークにより任意の入出力関係が実現できることは、既に証明されている。

【００６１】３層以上のネットワークに対する学習アルゴリズムを考える場合、中間層の教師信号をどう決定するかが問題となる。

【００６２】これらの問題を解決する手法として、本発明では、以下のような線形分離不可能なパターンを線形分離可能な複数のパターンに分割し、それらを入力層と中間層の間に割り当てて学習させるパターン割り当て法を考えた。

【００６３】線形分離可能割り当てアルゴリズム線形分離不可能な学習パターンに対して、中間層に適切な目標出力を与えることを考える。この手法を説明するために、図４のような学習パターンを考える。

【００６４】図４は、線形分離可能割り当ての例を示す。すなわち、一般的なｘ（ベクトル）空間において、
与えられた学習パターンに対し、半空間Ｓ ^k _ON （ｋ＝
１，…，５）が決定される場合の一例である。図の矢印側の空間がＳ ^k _ONの領域を示す。

【００６５】図４において、ａからｉまでの文字を付けた点のうち黒点をＯＮパターン、白点をＯＦＦパターンとすると、パターン集合Ｘ _ON , Ｘ _OFFは次のようになる。

【００６６】Ｘ _ON ＝｛ｂ，ｃ，ｆ，ｇ，ｉ｝Ｘ _OFF ＝｛ａ，ｄ，ｅ，ｈ｝これらは、明らかに線形分離不可能である。しかし、例えば、図４のように超平面（２次元の場合、直線）を配置し、これらの超平面で表わされる半空間（図の矢印側）をそれぞれ

【００６７】

【数６】Ｓ ¹ _ON ＝｛ｘ｜ｗ ^1T ｘ＞θ｝：Ｓ ⁵ _ON ＝｛ｘ｜ｗ ^5T ｘ＞θ｝（６）と表わすと、これらの半空間にパターンｘが含まれるかどうかは、ニューロンモデル（１）を使って、

【００６８】

【数７】ｘ ¹ ＝ｈ（ｗ ^1T ｘ −θ）：ｘ ⁵ ＝ｈ（ｗ ^5T ｘ −θ）（７）と表わされる各ニューロンの状態値が１をとるかどうかで判断できる。第１番目のニューロンｘ ¹により、半空間Ｓ ¹ _ONが実現される。ｘ ¹により、パターンａとｂ，
ｃ，ｆ，ｇ，ｉの目標出力（ＯＦＦパターンとＯＮパターンの分離）は実現されるが、ＯＦＦパターンｄ，ｅ，
ｈの分離は実現されない。これも実現するために、Ｓ ¹
_ONからＳ ² _ONをとった差集合Ｓ ¹ _ON −Ｓ ² _ONを考える。

【００６９】Ｓ ¹ _ON −Ｓ ² _ONは、ニューロンモデル（１）より、ｘ ₁ , ₂ ＝ｈ（（θ＋ε）ｘ ¹ −２εｘ ² −θ）で表わされるニューロンの状態値が１かどうかで判断できる。ｘ ₁ , ₂により、パターンａ，ｂ，ｃ，ｄ，ｅ，ｈ
に対しては所望の出力値が得られるが、ｆ，ｇ，ｉに対しては満足されていない。そこで、ｆ，ｇ，ｉも実現するために、Ｓ ³ _ONを付け加えて（Ｓ ¹ _ON −Ｓ ² _ON ）∪Ｓ ³ _ONという集合を考える。この集合に対して得られるｘ ₁ , ₃ ＝ｈ（（θ＋ε）ｘ ¹ −２εｘ ² ＋２εｘ ³ −θ）は、ｈを除くすべてのパターンを実現している。

【００７０】以上の議論をすべてのパターンに対して所望の出力が得られるように進めていくと、所望の出力ｙ
を与えるニューロンは、

【００７１】

【数８】ｙ＝ｈ（（θ＋ε）ｘ ¹ −２εｘ ² ＋２εｘ ³ −２εｘ ⁴ ＋２εｘ ⁵ −θ）（８）で表わされる。ただし、ε＞０とする。式（７），
（８）を一般的に書くと、

【００７２】

【数９】ｘ ^k ＝ｈ（ｗ ^kT ｘ −θ）（９）

【００７３】

【数１０】ｙ＝ｈ（（θ＋ε）ｘ ¹ −２εｘ ² ＋２εｘ ³ …・ −θ）（１０）と表わされ、図３のようなネットワークで実現できる。

【００７４】図３は、本発明によるニューラルネットワークの構成を示す。中間層２のニューロン数ｋは、アルゴリズムによって必要な数だけ確保される。

【００７５】出力層３と中間層２の間の重み係数は、ｘ
¹ 〜ｘ _out間のみθ＋εの値をとり、ｘ ²以降は−２
ε，２εが交互に与えられる。

【００７６】線形分離不可能な学習パターンを実現するためには、与えられた学習パターンに対して、前述のようにＯＮパターンのみとＯＦＦパターンのみを交互に仕切るような分離超平面を決定すればよい。

【００７７】これらの分離超平面が決定できれば、後はＯＮパターンとＯＦＦパターンが交互に分離超平面で仕切られている状態を表現するため、式（８）のように出力ニューロンｙから中間層の初めのニューロンｘ ¹に対する結合重みを閾値θよりεだけ大きくし、２番目以降のニューロンｘ ² ,ｘ ³ ,…, ｘ ^kに対する結合重みは、絶対値が２εで符号が交互に変化したものにすればよい。

【００７８】ところで、図４の半平面Ｓ ² _ONの向きが正反対を向いていると、ｘ ¹のみＯＮの領域がｘ ²に打ち消され、ｘ ₁ , ₂は常にｘ ²と同じ値をとることになる。

【００７９】このようにＳ ² _ONが決定されることを防ぐためには、

【００８０】

【数１１】（Ｓ ^k+1 _ON ∩Ｘ）⊂（Ｓ ^k _ON ∩Ｘ）（１１）が満足されなければならない。

【００８１】以上の議論および入力パターン集合Ｘがブーリアン集合であることを考慮すると、パターン割り当て法のアルゴリズムは、一般的に次のように書ける。

【００８２】アルゴリズムα （線形分離可能割り当てアルゴリズム）［ステップ１］イテレーション（繰返し）番号をｋ，後述の入力ベクトル集合をｘ ^kで表わしたとき、初めにＸ ⁰ ＝Ｘ（入力パターン集合），Ｘ ¹ _ON ＝Ｘ _ON （ＯＮパターン集合），Ｘ ¹ _OFF ＝Ｘ _OFF （ＯＦＦパターン集合），ｋ＝１とする。［ステップ２］Ｘ ^k-1を、Ｘ ^k _ONの全要素を含む半空間とＸ ^k _OFFの要素のみを少なくとも１つ含む半空間とに分離し、式（１１）の条件を満たす超平面、すなわちｗ ^kT ｘ＞θ， ∀ ｘ ∈Ｘ ^k _ON ｗ ^kT ｘ＜θ， ∃ ｘ ∈Ｘ ^k _OFFかつ

【００８３】

【数１２】｛ｘ ∈Ｘ｜ｗ ^kT ｘ＞θ｝⊂Ｘ ^k-1 （１２）となる超平面

【００８４】

【数１３】ｗ ^kT ｘ＝θ （１３）を求める。

【００８５】この超平面のＸ ^k _ON側の半空間に含まれる入力ベクトルの集合をＸ ^kとする。すなわち

【００８６】

【数１４】Ｘ ^k ＝｛ｘ ∈Ｘ｜ｗ ^kT ｘ＞θ｝（１４）［ステップ３］Ｘ ^k ＝Ｘ ^k _ONならば終了。そうでなければ

【００８７】

【数１５】Ｘ ^k+1 _ON ＝Ｘ ^k −Ｘ ^k _ON Ｘ ^k+1 _OFF ＝Ｘ ^k _ON （１５）とし、イテレーションｋをｋ＋１と更新してステップ２
へ行く。

【００８８】このアルゴリズムは、各イテレーション毎に、超平面ｗ ^kT ｘ＝θで学習パターンＸ ^k-1を集合Ｘ ^k
_ONとＸ ^k _OFFとに分離しようとする。そのように分離できた場合は終了し、そうでなければ、Ｘ ^k _ONの全ての要素を含む半空間とＸ ^k _OFFの少なくとも１つの要素を含む半空間とに超平面ｗ ^kT ｘ＝θで分離するものである。

【００８９】この分離の際には、前述したように式（１
１）が満たされなければならない。そのため、この式と等価な条件式（１２）をアルゴリズムに加えている。この条件と式（１４）により、Ｘ ^k+1 ⊂Ｘ ^kとなり、Ｘ ^kはイテレーション毎に要素数を少なくとも１つ減らす。

【００９０】超平面ｗ ^kT ｘ＝θによって集合Ｘ ^k _ONと分離される半空間には、Ｘ ^k _OFFの要素のみが存在し、これらの要素は、この超平面でＸ ^kと分離されている。一方、この超平面のＸ ^k _ON側には、Ｘ ^k _ONの全要素とＸ ^k
_OFFの残りの要素が分離しきれずに混在している。そこで、次のイテレーションでは、現イテレーションで分離できなかったＸ ^k _ONとＸ ^k _OFFの一部を分離することを試みる。

【００９１】このとき、単にＯＮパターンとＯＦＦパターンを分離するだけでなく、図４の例で考えたように、
ＯＮパターンとＯＦＦパターンを交互に分離する超平面を決定し、且つ、上掲の式（１０）で示されているように、和集合と差集合を交互に使用してＸ ^k _ONを表わさなければならない。そのため、分離しきれなかった集合Ｘ
^k _ONの全体とＸ ^k _OFFの一部の目標出力を反転し、次のイテレーションにおける学習パターンとする。

【００９２】Ｘ ^k _ONの反転は、上記（１５）の第２式のようにＸ ^k _ONをそのままＸ ^k+1 _OFFに置き換えればよい。
しかし、Ｘ ^k _OFFについては単純にはいかない。

【００９３】超平面ｗ ^kT ｘ＝θによって分離される、Ｘ
^k _ONを含まない半空間内のＸ ^k _OFFの要素は、既にＯＦＦ
又はＯＮパターンのみとなっている（イテレーションによって異なる）ので、超平面の反対側にあるＸ ^kの他の要素とは分離されている。これらの要素は、図４で考えると、既に仕切られたパターンとみなされる。上記の式（１２）の条件から、後のイテレーションで求める超平面のＯＮ側に、これらのパターンが含まれることはなく、それらの出力値は変化しない。そのため、これらをＸから除外した集合Ｘ ^k内のＸ ^k _OFFの要素の反転を行う。従って、上記（１５）の第１式のようにＸ ^kからＸ
^k _ONを差し引いたものをＸ ^k+1 _ONと更新する。

【００９４】以上の更新により、Ｘ ^k _ONとＸ ^k _OFFは、元のＯＮ、ＯＦＦパターン集合の部分集合をイテレーション毎に反転させたものとなる。すなわち

【００９５】

【数１６】Ｘ ^k _ON ⊂Ｘ _ON （ｋが奇数の場合）Ｘ ^k _ON ⊂Ｘ _OFF （ｋが偶数の場合）（１６）Ｘ ^kは図４のＳ ^k _ONに対応し、Ｘ _ONはＸ _ON ＝（Ｘ ¹ −Ｘ ² ）∪ ・・・・ ∪（Ｘ ^k-1 −Ｘ ^k ）
（ｋが偶数）Ｘ _ON ＝（Ｘ ¹ −Ｘ ² ）∪ ・・・・ ∪Ｘ ^k
（ｋが奇数）と表わされる。

【００９６】ところで、アルゴリズムαのステップ２の条件を満たす分離超平面（１３）の存在は、下記の［定理１］により保証される。

【００９７】［定理１］ｎ次元ブーリアンベクトル集合Ｂ ⁿの任意の唯一点は、残りの集合から強い意味で分離可能である。

【００９８】（証明）集合Ｂ ⁿから任意の要素ｘ ^aをとりだして考える。Ｂ ⁿからｘ ^aを差し引いた集合をＵとする。ｘ ^aがＵの要素の凸結合で表されるかどうかを調べる。

【００９９】Ｕ＝｛ｘ ₁ , ｘ ₂ ,…, ｘ _q ∈Ｂ ⁿ ｝とする。

【０１００】ｘ ^aがＵの要素の凸結合で表されると仮定すると、ｘ ^aは次式で表わされる。

【０１０１】

【数１７】

【０１０２】ベクトルｘ ^a , ｘ ₁ , ｘ ₂ ,…, ｘ _qの要素は０
または１であり、すべて異なるベクトルである。したがって、各ベクトルの要素ｘ _1j , ｘ _2j , …, ｘ _qjのうち、
少なくともどれか１つの要素が他と異なる値をもつｊが存在する。式（１７）の第１式の右辺の要素

【０１０３】

【０１０４】は、ただ１つのμ _iだけが１の場合は、ｘ
_ijの値つまり０か１になる。しかし、ただ１つのμ _iだけが１をとるとすると、ｘ ^aとｘ ₁ , ｘ ₂ ,…, ｘ _qはすべて異なるベクトルなので、式（１７）の第１式は成り立たない。また、２つ以上のμ _iが非零であると仮定すると、すべてのｊに対して

【０１０５】

【数１８】

【０１０６】とならずに、

【０１０７】

【０１０８】が０か１の値をとるためには、０でないμ
_iに対するｘ _iがすべて同じベクトルとならなければならない。これは、ｘ ₁ , ｘ ₂ ,…, ｘ _qがすべて異なるベクトルであることに反する。従って、式（１７）を満たすようなμ _i ,ｉ＝１, …, ｑは存在しない。よって、ｘ ^a
はＵの要素の凸結合で表わされないことになり、ｘ ^aはＵの凸包に含まれない。

【０１０９】以上から、Ｕの凸包はｘ ^aを含まないことが言えた。このことと下記の分離定理より、Ｕの凸包と
ｘ ^aが超平面で分離できると言える。

【０１１０】［分離定理］ ΓとΛがＲ ⁿの２つの空でない凸集合であり、Γはコンパクトで、Λは閉であるとする。 ΓとΛが交わらないとき、ΓとΛを強い意味で分離する平面｛ｘ｜ｘ∈Ｒ ⁿ ，ｃ・ｘ＝α｝（ｃ ≠ ０）が存在する。逆もまた成立する。言い換えると、

【０１１１】

【０１１２】が成立する。

【０１１３】Ｕの凸包とｘ ^aが超平面で分離できるということは、Ｕがｘ ^aと超平面で分離できることと同じである。しかし、この分離超平面ｗ ^kT ｘ＝θを求めることは、一般に容易ではない。そこで分離超平面ではなく、
元のパターンのうちいくつかのＯＦＦパターンをＯＮパターンと入れ換えることで、これらの分離超平面を求めるための半空間を規定することを考える。これらのパターンは当然、線形分離可能でなければならない。本発明は、これらのパターンを中間層のニューロンに与えて学習させることにより、前述の分離超平面を得ようとするものである。

【０１１４】このように、元のパターンに対して生成した複数の線形分離可能なパターンを中間層のニューロンに割り当てて学習させることから、この手法を「線形分離可能割り当て法」（Linearly Separable Allocation
Method）と呼ぶこととする。以下、これを“ＬＩＳＡ”
と略記する。

【０１１５】分離超平面の決定上掲の定理１により、アルゴリズムαのステップ２の条件を満たす分離超平面をどのように決定するかが、次の問題（原問題）となり、それは、前掲の式（４）で表わされるｗを求めることと等価である。

【０１１６】例えば図２（ａ）に示したように、与えられたパターンが線形分離可能でない場合、その原因となるパターン集合が得られたとする。その線形分離不可能の原因となるパターン集合のＯＮ、ＯＦＦパターンを入れ換えることによって、パターン全体を線形分離可能となるようにすることができる。本発明では、この線形分離不可能性の基になるパターン集合を「線形非分離核パターン集合」（Linearly Unseparable Core Pattern Se
t ）と呼ぶこととする。以下、これを“ＬＵＣＰＳ”と略記する。

【０１１７】以下では、このＬＵＣＰＳを定義するため、前提となる「双対問題」について説明し、その後、
ＬＵＣＰＳを実際に求めるための、「原問題に対する最適化問題」を導く。更に、その最適化問題の最適性条件と線形非分離核パターンとの関係、及びＬＵＣＰＳの抽出法について説明する。

【０１１８】−１双対問題準備として、前述のＯＮパターン集合Ｘ _ON及びＯＦＦパターン集合Ｘ _OFFから、次式で表わされる添字集合Ｉ _ON , Ｉ _OFFを作る。

【０１１９】Ｉ _ON ＝｛ｉ｜ｘ _i ∈Ｘ _ON ｝Ｉ _OFF ＝｛ｉ｜ｘ _i ∈Ｘ _OFF ｝ここで、次の補助定理１を原問題（４）に適用し、定理２を得る。

【０１２０】［補助定理１］行列Ａ∈Ｒ ^m*nとベクトルｂ ∈Ｒ ^mが与えられたとき、Ｉ．Ａｘ＞ｂには解ｘ∈Ｒ ⁿがある。又は II．Ａ ^T ｙ＝ ο ，ｂ ^T ｙ ≧０，ｙ＞０には解ｙ ∈Ｒ
^mがある。しかし、ＩとIIは同時には成立しない。但し、ｙ＞
０は、ｙの全ての要素が０以上で且つ少なくとも１つの要素が０でないことを示す。

【０１２１】（証明）上記のＩはＩ'. ξ＞０，Ａｘ − ｂ ξ＞ οには解ｘ ∈Ｒ ⁿ （ξ∈
Ｒ）がある。と同等である。これに Gordan の定理を適用すると、
Ｉ' が成立するか、又は II'. Ａ ^T ｙ＝０，（ｙ ^T , ｂ ^T ｙ）＞０には解ｙがある。しかし、Ｉ' とII' は同時には成立しない。

【０１２２】ここで、ｙ＝０とすると必ずｂ ^T ｙ＝０なので、（ｙ ^T , ｂ ^T ｙ）＞０はｙ ^T ＞０，ｂ ^T ｙ ≧０と同値。よってＩが成立するか、そうでなければIIが成立する。

【０１２３】［定理２］ある固定した正の値をもつθに対して、Ｉ．ｘ ^T _i ｗ＞θ，ｉ∈Ｉ _ON ｘ ^T _i ｗ＜θ，ｉ∈Ｉ _OFFに解ｗが存在する。又は II．

【０１２４】

【数１９】

【０１２５】に解λが存在する。しかし、ＩとIIは同時に成立しない。（証明）次のように学習パターン行列Ｖ∈Ｒ ^M*Nを作る。

【０１２６】

【数２０】

【０１２７】とし、ｖ _i ,（ｉ＝１，２，…，ｍ）から行列Ｖを

【０１２８】

【数２１】

【０１２９】とおく。また、同様に

【０１３０】

【数２２】

【０１３１】とおく。すると、ＩはＩ'. Ｖｗ＞ γに解ｗが存在する。と同等である。補助定理１よりＩ' が成立するか、または II'. Ｖ ^T λ ＝０， γ ^T λ ≧０， λ ＞ οに解λが存在する。しかし、I'とII' は同時に成立しない。

【０１３２】II' を式（２１）を使って書き換えると

【０１３３】

【０１３４】更に、式（２０）及び（２２）より、

【０１３５】

【数２３】

【０１３６】θは固定された正の数であるので、式（２
３）の第２式は

【０１３７】

【０１３８】となる。従って、Ｉが成立するか又はIIが成立する。

【０１３９】それぞれの解が同時に存在しないことから、式（１９）で表わされる問題を原問題（４）の「双対問題」と呼ぶ。双対問題（１７）の解λは、ＯＮ、Ｏ
ＦＦパターンベクトルの一次結合が等しくなるように決めた正の結合係数とみなすことができ、更に、ＯＮパターンに対する結合係数の総和がＯＦＦパターンの結合係数の総和以上であることを示している。

【０１４０】双対問題は、次のように書き換えられる。

【０１４１】

【数２４】

【０１４２】この式（２４）は、ＯＮパターン集合Ｘ _ON
の凸結合の一部がＯＦＦパターン集合Ｘ _OFFの凸結合と原点が作る錘体に含まれる場合に解μを持つことを示している。この意味は、概念的に図５で示される。

【０１４３】図５は、ｘ空間における双対問題の意味を示す。原点とＯＦＦパターン集合の凸結合のなす錘体の中にＯＮパターン集合の凸結合が含まれる場合に双対問題は解をもち、原問題は解を持たない。図５（ａ）は双対問題に解がなく、原問題に解がある場合、（ｂ）は双対問題に解があり、原問題に解がない場合である。

【０１４４】図５より、線形分離可能性は全てのパターンの相対的な位置関係によって決まることがわかる。しかし、図６に示すように、線形分離不可能なパターン集合の場合、その一部のＯＮパターンとＯＦＦパターンの入れ換えにより、元のパターンを線形分離可能なパターンに変換することができる。

【０１４５】図６は、線形分離不可能パターンの変換を示す。（ａ）の線形分離不可能パターンでは原点とＯＦ
Ｆパターン集合の凸結合のなす錘体がＯＮパターン集合の凸結合を含んでいる。そこで、（ｂ）のように、この錘体をなすＯＦＦパターン集合の一部（ＯＦＦパターン集合の左上の２点) をＯＮパターンに変更することにより、ＯＦＦパターンと原点のなす錘体はＯＮパターンを含まなくなる。

【０１４６】図５及び図６において、ＯＦＦパターン集合Ｘ _OFFの凸結合と原点が作る錘体にＯＮパターン集合Ｘ _ONの凸結合の一部が含まれるということは、問題（１
８）を満たす解μが存在することであり、それは問題（１７）の解λに対応する。このλは、Ｘ _ONとＸ _OFFのそれぞれの要素の線形結合が一致する場合の結合係数である。もし、この結合係数λの成分が０のものと正のものとに分けられるとすると、その正成分が双対問題の解を決定していると考えられる。すなわち、そのときのλ
の正成分が原問題の線形分離不可能性に関与していることを示している。

【０１４７】一般に、パターン数が次元数よりも大きければ、全てのパターンは一次従属になり、殆どのパターンに対する双対問題の解λは正となり得る。しかし、ブーリアンベクトルの場合は成分値が０か１のため、これらのパターンの張る空間の次元は連続値のパターンに比べて小さいものとなる。但し、学習パターン数がｎ次元の入出力パターンのとり得る全ての組合せの数に近いパターン数である場合には、その限りでない。しかし、このような場合は一般的でない。

【０１４８】この結果から、双対問題の解の正成分が求まれば、そのＯＦＦパターンを適宜ＯＮパターンに変更することにより、前記アルゴリズムαのステップ２で求めたい線形分離可能なパターン集合Ｘ ^k-1が得られるはずである。このようにして得られた線形分離可能なパターン集合Ｘ ^k-1を学習によって実現する中間層と、それらを統合する出力ニューロンを、アルゴリズムαに従って元のパターンを再構成するように決定すれば、元の線形分離不可能なパターンが実現できる。

【０１４９】以上を前提として、線形分離不可能性の基になるパターン集合である「線形非分離核パターン集合」を次のように定義する。

【０１５０】［定義１］前掲の双対問題（１７）の解
λ ＝［λ _i ］の非零の要素に対するパターンの集合Ｉ _LU
を、線形非分離核パターン集合（ＬＵＣＰＳ）と定義する。すなわち、Ｉ _LU ＝｛ｉ｜λ _i ＞０｝連立方程式が可解かどうかを調べる掃き出し法にλ ＞
０という条件を入れることにより、双対問題の解を求めることが可能である。しかし、問題の次元数、パターン数の増大に対して組合せ爆発を起こしてしまう。

【０１５１】故に、以下では、より現実的な実現方法について説明する。

【０１５２】−２原問題に対する最適化問題ここでは、線形非分離核パターン集合Ｉ _LUを求めるための最適化問題を定式化する。

【０１５３】収束を速めるためにＯＮパターン、ＯＦＦ
パターンそれぞれに、次のような変換関数を導入する。

【０１５４】

【数２５】

【０１５５】これらの関数は、図７のように表わされ、
共にｚ＝０で微分不可能となる。

【０１５６】ｈ _ONは、前掲の式（２）の変換関数から変形して作られ、引き数が正、すなわち原問題が許容である部分はｈと等しい。引き数が負、すなわち原問題が非許容である部分は線形になっている。

【０１５７】シグモイド関数では、引き数が０の近傍でしか傾きが存在しないのに対し、上記の変換関数は、原問題が非許容な部分では、常に一定の傾きが得られる。
そのため、学習時に結合重みｗ ^kの値に関わらず、安定かつ高速な収束が可能となる。ｈ _OFFも同じ理由から、
式（２５）のような表現となっている。

【０１５８】上記のように、ＯＮパターンとＯＦＦパターンの各々に対して変換関数ｈ _ON ，ｈ _OFFを割り当て、
各パターンを別個に考えてみると、ｈ _ONの最大化により、ＯＮパターンを実現する重みが求まり、ｈ _OFFの最小化によりＯＦＦパターンを実現する重みが求められる。ＯＮパターンとＯＦＦパターンについて、同時にこれらの操作を行うために、次の最適化問題を考える。

【０１５９】

【数２６】

【０１６０】ｈ _ONと−ｈ _OFFの総和の最大化により、Ｏ
Ｎパターンに関しては出力が１の領域方向、ＯＦＦパターンに関しては出力が０の領域方向に、解探索が行われる。入力パターンが線形分離可能であれば、次の問題の解は原問題（４）の許容解を与える。式（２６）は関数

【０１６１】

【数２７】

【０１６２】の最大化問題であるが、ｈ _ONは凹関数、ｈ
_OFFは凸関数なので、φはｗに関して凹関数となり、φ
の局所最大点＝大域的最大点となり、上記の問題（２
０）は、微分不可能最適化問題のための勾配法で解くことができる。

【０１６３】−３最適性条件と双対問題の関係ここでは、最適化問題（２０）の最適解から最適性条件を求め、その最適性条件の係数が、双対問題の解に等しくなることを示す。これにより、原問題（４）が線形分離不可能な場合、問題（２０）の最適解に対する最適性条件式の係数の非零（正) のパターン、すなわちＬＵＣ
ＰＳが求められることがわかる。

【０１６４】まず、問題（２０）の最適性条件を考える。

【０１６５】上記の関数φは部分的に微分不可能な関数であり、微分不可能な点で勾配は存在しないが、それに代わるものとして、亜勾配や一般勾配が、ある条件のもとで存在する。亜勾配の定義および最適化問題に対する最適性条件を以下に示す。

【０１６６】凹関数ｆのｘ∈Ｒ ⁿに関する最適化問題

【０１６７】

【数２８】

【０１６８】において、ｆがｘ ₀で微分不可能ならば、
亜勾配はｆ（ｘ）≦ｆ（ｘ ₀ ）＋ｚ ^T （ｘ − ｘ ₀ ），∀ ｘ ∈Ｘを満たすｚの集合である。その集合∂ｆ（ｘ ₀ ）を用いて、上記の最適化問題の最適性条件は、０ ∈∂ｆ（ｘ ₀ ）となる。

【０１６９】上記の関数ｈ _ON , −ｈ _OFFは一次元空間Ｒ
¹上で凹なので、明らかにｗ ∈intＸにおいてφの亜勾配が存在する。微分不可能な凹関数の最適化の最適性条件は、φの亜勾配集合∂φを用いて、次のように書ける。ただし、ｗ ^oは最適解を示す。

【０１７０】

【数２９】０ ∈∂φ（ｗ ^o ）（２９） φ _ON （ｗ；ｘ）＝ｈ _ON （ｘ ^T ｗ −θ） φ _OFF ( ｗ；ｘ）＝ｈ _OFF ( ｘ ^T ｗ −θ）とすると

【０１７１】

【数３０】

【０１７２】但し、

【０１７３】

【数３１】 ∂φ _ON （ｗ；ｘ）＝｛０｝（ｘ ^T ｗ＞θ） ∂φ _ON （ｗ；ｘ）＝ co{ ０，ｘ } （ｘ ^T ｗ＝θ） ∂φ _ON （ｗ；ｘ）＝｛ｘ｝（ｘ ^T ｗ＜θ） ∂φ _OFF ( ｗ；ｘ）＝｛ｘ｝（ｘ ^T ｗ＞θ） ∂φ _OFF ( ｗ；ｘ）＝ co{ ０，ｘ } （ｘ ^T ｗ＝θ） ∂φ _OFF ( ｗ；ｘ）＝｛０｝（ｘ ^T ｗ＜θ）（３１） coは凸包を示す。すなわち

【０１７４】

【数３２】 co { ０ , ｘ } ＝｛λ ｘ｜０≦λ≦１} （３２）式（３１），（３２）より

【０１７５】

【数３３】 ∂φ _ON ( ｗ；ｘ _i )＝｛λ _i ｘ _i ｝（ｉ∈Ｉ _ON ） ∂φ _OFF ( ｗ；ｘ _i )＝｛λ _i ｘ _i ｝（ｉ∈Ｉ _OFF ）（３３）但し、

【０１７６】

【数３４】ｉ∈I _ONに対して λ _i ＝０（ｘ ^T ｗ＞θ） λ _i ＝［０，１］（ｘ ^T ｗ＝θ） λ _i ＝１（ｘ ^T ｗ＜θ）ｉ∈I _OFFに対して λ _i ＝１（ｘ ^T ｗ＞θ） λ _i ＝［０，１］（ｘ ^T ｗ＝θ） λ _i ＝０（ｘ ^T ｗ＜θ）（３４）式（３０），（３３），（３４）より

【０１７７】

【数３５】

【０１７８】式（２９）と（３５）より、最適解ｗ ^oに対して

【０１７９】

【数３６】

【０１８０】及び式（３４）を満たすλ _iが存在する。
更に、すべてのｉに対して０≦λ _i ≦１が成り立つ。

【０１８１】原問題（４）が線形分離可能な場合には、
問題（２０）の最適解ｗ ^oにおいて ∂φ _ON ( ｗ；ｘ _i )＝｛０｝，ｉ∈Ｉ _ON ∂φ _OFF ( ｗ；ｘ _i )＝｛０｝，ｉ∈Ｉ _OFFとなる。

【０１８２】一方、原問題（４）が線形分離不可能な場合には、非許容なパターンが存在するので、式（３４）
からわかるように、亜勾配集合∂φ _ON又は−∂φ _OFFは非零の要素を持つ。そのため、式（３６）を満たす非零のλ _iが存在する。すなわち

【０１８３】

【数３７】 λ ＞ｏ（３７）最適性条件式を満たすλと双対問題（１７）の関係を導くために、次の定理を得る。

【０１８４】［定理３］原問題（４）

【０１８５】

【０１８６】に許容解ｗが存在しない場合

【０１８７】

【０１８８】が成り立っていれば、

【０１８９】

【０１９０】が成り立つ。

【０１９１】（証明) 次の補助定理２から明らかである。［補助定理２］与えられた行列Ａ∈Ｒ ^m*nに対して、
Ａｘ＞ｂに解ｘがない場合、Ａ ^T ｙ＝０，ｙ＞０の解ｙ ∈Ｒ ^pはｂ ^T ｙ ≧０を満たす。（証明）Ａ ^T ｙ＝０，ｙ＞０の解ｙ ^oが存在するときにｂ ^T ｙ ^o ≧０の否定であるｂ
^T ｙ ^o ＜０を仮定して矛盾を導く。

【０１９２】Ａｘ＞ｂに解ｘがないということは、補助定理１よりＡ ^T ｙ＝０，ｙ＞０，ｂ ^T ｙ ≧０に解ｙが存在することと等価であるので、Ａ ^T ｙ ⁰ ＝０，ｙ ⁰ ＞０，かつｂ ^T ｙ ⁰ ＜０なるｙ ⁰は存在しない。

【０１９３】原問題（４）に許容解がない場合、つまり学習パターンＸ _ON , Ｘ _OFFが線形分離不可能なとき、最適化問題（２０）の最適性条件式（３６）及び式（３
７）を満たすλの集合をΓとおき、双対問題（１７）の解集合をΛとおくと、式（１９），（３４），（３
６），（３７）と定理３より Γ⊂Λ が言える。また、双対問題（１７）の解が最適性条件式（３６）と式（３７）を満たすことから、 Γ⊃Λ が成り立つ。よって、 Γ＝Λ が言える。従って、原問題が線形分離不可能な場合には、最適化問題（２０）の最適解と最適性条件より求められるλは、双対問題の解と等しくなる。

【０１９４】−４線形非分離核パターンの抽出以上の理論から、原問題が線形分離不可能な場合には、
最適化問題（２０）の解ｗ ^oに対して式（３１）を満たすλを求め、その正成分がｗ ^oに対応した線形非分離核パターンに対応することがわかる。しかし、問題（２
０）は微分不可能点を持ち、最適解が常に求まるとは限らない。以下では、最適解が求まらなくても、ＬＵＣＰ
Ｓ（線形非分離核パターン集合）を抽出できることを示す。

【０１９５】まず、最適化問題（２０）に対する解法アルゴリズムを示す。

【０１９６】アルゴリズムβ ( 問題（２０）の解法アルゴリズム）［ステップ１］ある初期点ｗ ¹を適当に選び、イテレーション番号ｄをｄ＝１とおく。［ステップ２］ｈ _ON （ｘ ^T ｗ ^d −θ）；ｘ ∈Ｘ _ONと、ｈ
_OFF ( ｘ ^T ｗ ^d −θ）；ｘ ∈Ｘ _OFFを計算し、ｈ _ON （ｘ _p ^T ｗ ^d −θ）≠ 1, ｘ _p ∈Ｘ _ON又はｈ _OFF ( ｘ _p ^T ｗ ^d −θ）≠0, ｘ _p ∈Ｘ _OFFとなるパターンｘ _pが１つでも存在すれば、次のステップに進む。そうでなければ、ｗ ^dを問題（２０）の解ｗ
^oとして終了する。［ステップ３］ステップ２のｐに対して

【０１９７】

【数３８】ｗ ^d+1 ＝ｗ ^d ＋α ^p Δｗ ^d ( ｘ _p ) （３８）と修正する。但し、

【０１９８】

【数３９】

【０１９９】 Δ ｗ ^d ( ｘ _p )＝∇ _w φ _ON ( ｗ ; ｘ _p )，ｘ _p ∈Ｘ _ON Δ ｗ ^d ( ｘ _p )＝∇ _w φ _OFF ( ｗ ; ｘ _p )，ｘ _p ∈Ｘ _OFF ∇ _w φ _ON ( ｗ ; ｘ _p )及び∇ _w φ _OFF ( ｗ ; ｘ _p )は

【０２００】

【数４０】 ∇ _w φ _ON ( ｗ ; ｘ _p )＝ｘ _p ∇ _w φ _OFF ( ｗ ; ｘ _p )＝ｘ _p （４０）［ステップ４］下記の終了条件ａ、ｄ、ｅのいずれかを満たしていれば終了。そうでない場合、ある数字“d ₀ ”
に対してイテレーションｄ＝d ₀のときには、ｗ ^d ← w ₀とする。ｄ＞d ₀のときは、終了条件ｂが満たされていれば終了。そうでない場合、終了条件ｃが満たされていれば終了。いずれでもなければ、イテレーションをｄ←ｄ＋
１と更新してステップ２に戻る。終了条件ａ〜ｅは次の通りである。（終了条件ａ) 十分大きな正の整数j ₀を決め、ｊ＝
1,…, j ₀に対して｜ｗ ^d − ｗ ^dj ｜＜ζ となるｊがあれば終了。ただし、ζは十分小さな正の数である。（終了条件ｂ）ｄ＞ d ₀のときにｗ ^d ＝ w ₀となれば終了。（終了条件ｃ）ｄ＞ d ₀となれば終了。ただし、d
₀は、ｎ次元の線形分離可能な問題を解いた場合の最大イテレーション回数よりもいくらか大きい正整数とする。（終了条件ｄ）ｗ ^dに対する関数φの亜勾配集合∂φ
（ｗ ^d ）がゼロベクトルを含むならば終了。（終了条件ｅ） φ（ｗ ^d ）＜ φ（ｗ ^d-1 ）ならば終了。

【０２０１】本発明で用いるアルゴリズムにおいて最も難しいのは、終了条件である。その終了条件により実際のパターンが線形分離可能かどうかが判断される。終了条件ａ，ｂは、値ｄがあるd ₀よりも大きくなった時、つまり十分収束が進んでから、１サイクル以上でのｗの変化分Δ ｗ ^dが０とならないかどうかをチェックするものであり、終了条件ｃは、終了条件ａ，ｂによっても線形分離不可能かどうかが発見できなかった場合に、アルゴリズムを停止するためのものである。本発明における学習時間は、終了条件の良し悪しに支配される。後述の数値例では，d ₀ ＝３としている。

【０２０２】式（３９）のステップ幅の決定方法は、現在点ｗ ^dにおいて非許容なパターンｘ _pを原問題に対して許容とするために必要最小限の幅を与えるという考えから得られた。

【０２０３】前記の変換関数ｈ _ONとｈ _OFFは本来は０で微分不可能となり、式（３１）のように亜勾配を与えなければならないが、一般に亜勾配集合を陽に求めることは困難である。従って、ここではニューロンの変換関数の性質を考えて、式（４０）のように与える。

【０２０４】元の入出力パターンが線形分離可能な場合、すなわち原問題（４）に許容解がある場合には、上記のアルゴリズムβにより、パーセプトロンの学習手続きと同様に全ての入出力パターンを実現する解ｗ ^oが求まる。線形分離不可能な場合には、問題（２０）の最適性条件より得られるλ集合は、双対問題の解集合に等しい。アルゴリズムより、ｗ ^dの軌跡は、問題（２０）の最適性条件式（３６）と式（３７）を満たす最適解の近傍までは収束するが、最適解で停止することはなく、その中又はそのまわりで振動する。最適解が得られたとしても、問題（２０）の目的関数の亜勾配集合を陽に求めることは困難であり、そのため、ｗ ^dが最適性条件を満たしているかどうかの判定は困難である。

【０２０５】しかし、本発明におけるアルゴリズムは、
最適解を必要としているわけではない。あくまでも、Ｌ
ＵＣＰＳ（線形非分離核パターン集合）が求まればよい。多くの場合、全てのＬＵＣＰＳでなくても、その部分集合が得られれば、そこから変換すべきＯＦＦパターンを選択することができる。

【０２０６】アルゴリズムβにより、十分大きなｄ（ｄ
＞d ₀ ）に対して、ｗ ^dは最適解の近傍で振動する。最適解の近傍では、原問題（４）の非許容な成分が線形非分離核パターンに対応すると考えられる。

【０２０７】アルゴリズムの非許容なパターンに対する修正のステップ幅の決定法（３２）により、現在の非許容なパターンに対するステップ幅は、少なくとも現在のパターンに対する出力を目標出力と同じにするように決定される。

【０２０８】そうすると、線形非分離核パターン間で干渉がおこり、ｗ ^dはこれらのパターン間の目標出力を満たすｗの領域間を振動する。従って、ｗ ^dがある程度収束した後、ある近傍内で振動しはじめたら、それ以後に式（４）において非許容となる成分＝パターンは、ＬＵ
ＣＰＳの要素と考えられる。これらのパターンを登録することにより、ＬＵＣＰＳが得られるはずである。

【０２０９】得られたパターン集合の中から適当なＯＦ
Ｆパターンを選択してＯＮパターンに変えることにより、ＬＵＣＰＳの要素を減らしていくことができる。

【０２１０】この際、前掲ので説明した線形分離可能割り当て法のアルゴリズムの条件式（１２）を満たさなければ、Ｘ ^kの要素の減少が保証されない。この条件を満たすために、変換するＯＦＦパターンを選ぶときは、
次の規則によって選択する。

【０２１１】［規則Ａ］原点から距離が最も遠いＯＦ
Ｆパターンを選択する。

【０２１２】この線形分離不可能性の原因となっているパターンを１つ１つ変換することにより、線形分離可能なパターンが得られる。得られた線形分離可能なパターンから線形分離可能割り当てアルゴリズムの分離超平面が求められる。

【０２１３】以上の手法を線形分離可能割り当てアルゴリズムαに組み込めばよい。

【０２１４】図８及び図９は、本発明の学習方法を示すフローチャートである。

【０２１５】図８について説明すると、初めに、入力パターン（ベクトル）ｘ _p及び出力パターン（スカラー）
ｔ _p （ｐはｍ個のパターンの番号）を与える（ステップ１）。次に、目標出力パターンｔを初期値ｔ ¹に設定し（ステップ２）、イテレーション番号ｋを１に設定する（ステップ３）。そして、ｋ番目の中間ニューロンに対する目標出力パターンｔ ^kを線形分離可能な出力パターンｔ ^k _Mに代入し（ステップ４）、変換ルーティンを実行する（ステップ５）。変換ルーティンについては、後で図９を参照して説明する。

【０２１６】その後、ｋ＋１番目の出力パターンｔ ^k+1
としてｔ ^k _Mからｔ ^kを差し引いた差のパターンを与え（ステップ６）、上記ステップ４からステップ６までの動作をｔ ^k+1 ＝０になるまで繰り返す。すなわち、ステップ６の後、ｔ ^k+1 ＝０か否かを判定し（ステップ７）、ｔ ^k+1 ＝０でなければ、イテレーション番号ｋを１つ進めて（ステップ８）、ステップ４に戻る。

【０２１７】ｔ ^k+1 ＝０になると、前述のように決定された出力層と中間層の間の重み（結合係数）で図２のニューラルネットワークを構築する（ステップ９）。

【０２１８】次に、変換ルーティンについて説明する。

【０２１９】図９に示すように、初めに、重みｗ ¹を０
に設定し（ステップ１１）、パターン番号ｐ及び前記アルゴリズムβのイテレーション番号ｄをそれぞれ１に設定すると共に、後述の誤答を示す変数 sw を０に設定する（ステップ１２）。次に、パターンｐについて線形分離可能な目標出力ｔ ^k _Mpと実際の出力ｈ（ｘ _p ^T ｗ ^d −
θ）との一致を判定する（ステップ１３）。その結果、
一致していなければ、前述の式（３８）及び（３９）に従って重みｗ ^dを変更（修正）すると共に、変数sw を１に設定する（ステップ１４）。その後、振動しているか（ｄ＞d ₀ ）否かを判定し（ステップ１５）、“Ｙｅ
ｓ”のときパターンｐを登録する（ステップ１６）。

【０２２０】上記ステップ１３からステップ１６までの動作は、ｍ個のパターンについて実行される。すなわち、パターンｐの登録後、或は目標出力ｔ ^k _Mと実際の出力ｈ（ｘ _p ^T ｗ ^d −θ）とが一致している場合、ｐ≦ｍか否かを判断し（ステップ１７）、“Ｙｅｓ”である限り、ｐ及びｄをそれぞれ１つ進めて（ステップ１８）、
ステップ１３に戻る。

【０２２１】ｐがｍを越えたところで、終了条件（前掲のａ〜ｅのいずれか）を満たすか否かを判定し（ステップ１９）、“Ｙｅｓ”ならば、そのｐを線形分離不可能なパターンとして登録する（ステップ２０）。そして、
登録されたｐからＯＦＦのものを１つ選んでｐ'とし（ステップ２１）、それについて目標出力ｔ ^k _Mp'を１に設定して（ステップ２２）、ステップ１２に戻る。

【０２２２】一方、終了条件を満たさなければ、変数 s
w ＝０か否かを判断し（ステップ２３）、“Ｎｏ”であればステップ１２に戻り、“Ｙｅｓ”であれば線形分離可能として登録する（ステップ２４）。

【０２２３】線形分離可能割り当て法（ＬＩＳＡ）のアルゴリズム −１アルゴリズム前記で述べた線形分離割り当てアルゴリズムαと−
４で述べた最適化問題の解法アルゴリズムβを結合して、以下のようなアルゴリズムγ及びδ ^kが作られる。

【０２２４】アルゴリズムγ ［ステップ１］Ｘ ¹ _ON ＝Ｘ _ON ，Ｘ ¹ _OFF ＝Ｘ _OFFとし、
イテレーション番号ｋをｋ＝１とする。［ステップ２］Ｘ ^k ＝Ｘ ^k _ONとする。［ステップ３］後述のアルゴリズムδ ^kを使ってＸ ^k
_ONとＸ ^k −Ｘ ^k _ONが線形分離可能かどうかを調べる。［ステップ４］線形分離可能であれば、ステップ３のアルゴリズムδ ^kで得られたｗ ^oをｗ ^kとし、ステップ５に進む。線形分離不可能であれば、アルゴリズムδ ^k
で得られた集合｛ｘ _i ｜ｘ _i ∈Ｉ _LU ｝と｛Ｘ ^k −Ｘ
^k _ON ｝の共通集合から、ノルムが最大の要素ｘ _mを選び、Ｘ ^k ←Ｘ ^k ∪｛ｘ _m ｝として、ステップ３へ行く。［ステップ５］Ｘ ^k ＝Ｘ ^k _ONであればステップ６へ。
そうでなければＸ ^k+1 _ON ← Ｘ ^k −Ｘ ^k _ON Ｘ ^k+1 _OFF ← Ｘ ^k _ONとし、イテレーションｋをｋ＋１と更新してステップ２
へ行く。［ステップ６］式（９）（１０）で表わされる３層のニューラルネットワークモデルを図３のように構築して終了する。

【０２２５】アルゴリズムδ ^k ［ステップ１］ある初期点ｗ ¹を適当に選び、Ｙ ¹ _ON
＝Ｘ ^k _ON ，Ｙ ¹ _OFF ＝Ｘ ^k −Ｘ ^k _ON ，線形非分離核パターン集合Ｉ _LU ＝Φ（空集合）とし、イテレーション番号ｄ
＝１とする。［ステップ２」ｈ _ON （ｘ ^T ｗ ^d −θ）［ｘ ∈Ｙ ^k _ON ］
と、ｈ _OFF （ｘ ^T ｗ ^d −θ）［ｘ ∈Ｙ ^k _OFF ］を計算し、ｈ _ON ( ｘ _p ^T ｗ ^d −θ）≠１（ｘ _p ∈Ｙ ^k _ON ）又はｈ _OFF ( ｘ _p ^T ｗ ^d −θ）≠０（ｘ _p ∈Ｙ ^k _OFF ）なるパターンｐが１つでも存在すれば、次のステップへ行く。そうでなければ、ｗ ^dをｗ ^oとして終了する。「ステップ３］ステップ２のすべてのパターンｐについて、式（３８）及び（３９）に従って修正し、ｄ＞d ₀
であれば、パターンｐを線形非分離核パターン集合Ｉ _LU
に追加する。すなわちＩ _LU ← Ｉ _LU ∪｛ｐ｝但し、d ₀は予め決められた原問題に解があるときの収束イテレーション数の最大値とする。［ステップ４］前記の終了条件ａ、ｄ、ｅのいずれかを満たしていれば終了。そうでない場合、あるd ₀に対してｄ＝d ₀のときにはｗ ^d ←w ₀とし、終了条件ｂが満たされていれば終了。そうでなければ、終了条件ｃが満たされたとき終了。そうでなければ、ｄ←ｄ＋１としてステップ２に戻る。

【０２２６】−２アルゴリズムの高速化以下のアルゴリズムに対し、次のような改良を付加することにより、更に高速な学習が可能となる。１．重みを整数型として計算する。この場合、入力ニューロン数に比べ、閾値をあまり小さくしないことが重要である。小さくしすぎると、量子化誤差のために不必要にイテレーション回数が増加し、場合によっては無限循環に陥る可能性がある。２．アルゴリズムγのステップ３においてアルゴリズムδ ^kを実行する前にすべてのｉ∈Ｉ _ON ，ｊ∈Ｉ _OFFに対してｘ _j ≧ ｘ _iなるｊをＯＦＦパターンからＯＮパターンへと入れ換える。

【０２２７】上記２の高速化手法の意義は、次の通りである。

【０２２８】この手法により、線形非分離核パターン集合Ｉ _LUを発見するためのアルゴリズムδ ^kを行なう回数を減少させることができる。ただし、Ｉ _LU以外のパターンもＯＮにする場合があるので、上記アルゴリズムが循環する恐れがある。しかし、後述の実験に係る４入力パターンでは、循環は起きなかった。

【０２２９】図１０は、上記の高速化のための変換を示す。白丸がＯＦＦパターンを示し、黒丸がＯＮパターンを示す。（ａ）に示すように、ＯＮパターンと等しいか又はこれより大きいＯＦＦパターン（点線の右側か上側にある）は、ＯＮパターンに変換される。その処理の後、（ｂ）に示すように、ＯＮパターンとＯＦＦパターンは、はっきりと分離される。しかし、（ｃ）のように、入れ換えパターン数のより少ない変換も存在する。

【０２３０】図１０（ａ）のようにＯＦＦパターン集合と１つのＯＮパターンがある時、原点とＯＮパターンを結ぶ線がＯＦＦパターン集合の凸包内を通っているので、これらのパターンは線形分離不可能である。この場合、上記の高速化手法に従うと、点線の左側または上側にあるＯＦＦパターンは全てＯＮパターンに変換され、
図１０（ｂ）のようになり、線形分離可能となる。しかしこの変換は、線形分離可能なパターンを作るための最小限の変換ではない。図１０（ｃ）のようにすれば、より少ない変換ですむ。

【０２３１】図１１及び図１２は、上記のアルゴリズムγ及びδ ^kに基づく処理手順をＰＡＤ図で表わしたものであり、図１３は、図１１及び図１２における文字や記述法の説明図である。更に、図１４〜図１６は上記の高速化手法（図１０）を含むアルゴリズムγの詳細なフローチャートであり、図１７はアルゴリズムδ ^kの詳細なフローチャートである。これらの図は、前述の図８及び図９の処理手順を具体的に表わしたものであり、各ステップの内容は、図８及び図９で説明したものと基本的に同じであるので、それらについての説明は省略する。

【０２３２】−３アルゴリズムの拡張上記アルゴリズムでは、ニューロンのしきい値θを、固定された正の値としている。そのため、原点０では、ｈ
（ｗ ^T ｘ −θ）は必ず０となる。このように全ての入力が０の場合には、出力値は０となる。全ての入力が０の場合を含む全てのパターンを実現するためには、図１８
のようにバイアスニューロン４を追加すればよい。このバイアスニューロン４は、入力層１のすべてのニューロンがＯＦＦの時でも出力がＯＮとなるように常にＯＮとなっている。この構成により、すべての入力値が０の場合でも学習可能となる。

【０２３３】このようなニューロンは、実際の生物では、自分自身にフィードバックしているシナプス結合をもった図１９のような回路として存在する。このようなニューロンを用いれば、全ての入力が０の場合を含む、
全ての入出力パターンが上記のアルゴリズムで学習可能となる。

【０２３４】図１９は、自己フィードバックをもつバイアスニューロンユニットを示す。これは、ＯＮの入力信号が一旦入力されると、常にＯＮの値をとり続けるニューロンユニットである。入力側に抑制性の結合があれば、ＯＦＦにすることも可能である。

【０２３５】一方、上記アルゴリズムを実行するネットワークは、基本的に多入力１出力のネットワークを構成しているが、多入力多出力の場合への拡張は、図２０のようになる。この場合、出力層３から中間層２へのシナプス結合は、すべてのニューロン間の結合にはなっていないので、その分学習が高速に行われる。

【０２３６】また、本発明は、以上のような３層構造のみならず、図２１に示すように、必要に応じて中間層２
を複数の層で構成する多層構造に拡張できる。

【０２３７】図２１のネットワークは、入力層１と出力層３との間の中間層２が３層の中間ニューロンから成り、その入力側から１番目の層の中間ニューロン（状態値ｘ ¹ ₁ ,・・・・,ｘ ^k1 ₁ ；ｘ ¹ ₂ ,・・・・,ｘ ^k2 ₂ ；・・・・；ｘ
¹ _p ,・・・・,ｘ ^kp _p ）と３番目（すなわち出力側）の層の中間ニューロン（状態値² ｘ ₁ ，・・・・， ² ｘ _r ）は、
学習の進行と共に必要に応じて生成され、２番目の層の中間ニューロン（状態値ｘ ₁ '，・・・・，ｘ _p '）は、入力側の１番目の層の中間ニューロンに対して予め出力ニューロン（図３の状態値ｙで表わされる出力ニューロンに相当）として設けられるものである。〈実験〉ＬＩＳＡの有効性を確かめるために、線形分離不可能なパターンの学習を含む全てのパターンが学習できるかどうかを調べた。また、ＮＰ（nondeterministic
polynominal）問題とならないかどうかの数値実験も行った。どちらの実験もバックプロパゲーションによる学習と比較してみた。実験には、サン・マイクロ・システムズ（Sun MicroSystems ）社の“ＥＷＳ，ＳＵＮ４／
２６０”を使用した。

【０２３８】１．ニューラルネットワークの学習能力の検証一般に、全てのパターンが実際に学習できるかどうかを試すことは不可能である。そこで、４入力１出力の入出力パターンの全てを学習できるかどうかを実験した。ただし、前述のようにＬＩＳＡは正の閾値しか持たないので、図２０のような拡張（多入力多出力の構成）を行わなければ、全ての入力が０の時の出力はどうしても０になる。そのため、学習パターンは、４入力の全てが０となるパターンを除いた１５通りの入力パターンに対して２通り（０，１）の出力を対応させるようにした。従って、全ての入出力パターンの数は２ ¹⁵ ＝３２７６８通りである。

【０２３９】比較に用いたバックプロパゲーション法のネットワークは、２層( 入力層を除く) で、ニューロン数は入力層４個、隠れ層（中間層）８個、出力層１個の構成である。学習のパラメータは、学習のステップ幅η
＝0.9 、バイアス項の係数α＝0.9 として実験を行った。このバックプロパゲーション法による学習は、各イテレーション毎に目標出力とネットワークの出力パターンを比較して、全てが同じであれば終了する。その際、
ネットワークの出力は、0.5 を閾値として２値化して、
目標出力と比較した。従って、出力値が 0.6であれば、
目標出力と比較する値は１となり、0.3 であれば０となる。

【０２４０】また、イテレーション回数が 3,000回に達した場合は、全てのパターンを満たす解は求まらないとして、そのパターンに対する学習を打ち切った。実験結果は表１の通りである。

【０２４１】

【表１】

【０２４２】表１からわかるようにバックプロパゲーションは正答率が88％であるのに対してＬＩＳＡは 100％
であり、また学習に要した時間はバックプロパゲーションがＬＩＳＡの約1,984 倍かかった。次にバックプロパゲーションが3,000 回のイテレーションに達した場合は誤答として打ち切ったが、誤答のない場合の計算時間を比較すると表２のようになる。これはバックプロパゲーションで解くことができた、つまり3,000 回の学習回数未満で学習できた、100 個のパターンを調べたものである。

【０２４３】

【表２】

【０２４４】表２からわかるように誤答のない場合は、
ＬＩＳＡの方が 514倍ほど高速であることがわかる。このことから、バックプロパゲーションが 3,000回以下のイテレーション回数で学習できたときでも、ＬＩＳＡの方が約 500倍高速であると言える。しかし、上記のアルゴリズムの高速化で述べたように、整数計算の場合は閾値が小さすぎると学習速度が落ちてしまう。計算機のメモリ容量や問題の次元に応じて、なるべく大きな閾値を選ぶ方が望ましい。４次元の場合、32,768個のパターンによる試行中、ＬＩＳＡの中間層に作成されたニューロンの最大数は、５個であった。

【０２４５】２．ＮＰ問題となるかどうかの検証実験ＬＩＳＡがバックプロパゲーションに比べて高速であっても、入力パターンの数が増えていった場合に、ＮＰ問題であれば計算時間が指数的に増加していき、実用的な計算時間とは言えない。そこで、学習させるパターン数に対して、ＬＩＳＡの計算時間がどのように変化するかを実験した。

【０２４６】学習パターンは７入力１出力パターンとし、一様乱数により決められたＮ個のパターンを 100個ずつ学習させた。その結果を図２２に対数グラフとして示す。このグラフをパターン数 0,25,75の各値に対して多項式（ａＮ ^b ＋ｃ）で近似したところ、図の曲線のようになった。そして、その式は 1.5×10 ^-4 Ｎ ^2.99 ＋0.05
となった。パターン数が90近くになると、式の傾きの方が実験値を上回っていることがわかる。従って、７入力の場合、ＬＩＳＡの計算時間は多項式オーダーであり、
ＮＰ問題とはならない。７次元、１２７個のパターンの場合、１００個のランダムパターンによる試行中、ＬＩ
ＳＡの中間層の作成されたニューロンの最大数は、２２
個であった。

【０２４７】図２２には、バックプロパゲーションの計算時間も示した。ただし、この実験の場合、バックプロパゲーションには以下の変更を施した。

【０２４８】イテレーションが 300回を超えた場合は、
これ以上学習は収束しないとみなし、結合重みを一様乱数により再初期化し、改めて学習を始める。この手順を最大5 回まで繰り返す。このグラフからパターン数が40
以上では、ＬＩＳＡがバックプロパゲーションに比べ、
約100 倍ほど速いことがわかる。

【０２４９】図２２では、バックプロパゲーション（黒丸) に比べ、ＬＩＳＡ（白丸) の方が概ね100 倍程高速である。このグラフは縦軸が時間の対数なので、どちらのアルゴリズムも、計算量は指数関数的に増えていない。

【０２５０】もし、計算時間が指数関数的に増加していくのであれば、計算時間をプロットしたものは、ある傾きをもつ直線になるはずである。しかし、ＬＩＳＡとバックプロパゲーションの結果は、いずれもパターン数の増加に伴い傾きが鈍っていっている。ところが、この時のバックプロパゲーションの正答率は、図２３に示されるようにパターン数が40ぐらいを超えると、突然に減少し始める。ちょうど形がシグモイド関数に似ていたので、図の曲線のようにシグモイド関数で近似してみた。
ＬＩＳＡの正答率は、パターン数に関係なく100 ％を保っている。すなわち、７入力の一様乱数により作られた入出力パターンをすべて学習できたことを示している。

【０２５１】図２３に示すように、ＬＩＳＡの正答率はパターン数の増加に関係なく100 ％を維持した。バックプロパゲーションの正答率はパターン数の増加に伴い、
シグモイド関数的に減少している。

【０２５２】以上の結果から、次のことが判明した。

【０２５３】１．ＬＩＳＡはパターン数に関してはＮＰ
問題にはならない。

【０２５４】２．７入力の場合、ＬＩＳＡはバックプロパゲーションよりも約100 倍高速である。

【０２５５】３．バックプロパゲーションの学習可能パターン数（正答率) は、パターン数に対してシグモイド関数のように減少する。

【０２５６】パターン数が50個以上の場合、バックプロパゲーションの正答率は著しく減少し、実質的なＬＩＳ
Ａの学習速度はバックプロパゲーションの100 倍をかなり越えたものになると考えられる。

【０２５７】以上の通り、本発明の線形分離不可能なパターンでも学習できる２値ニューラルネットワークに対する学習アルゴリズムにより、上記実験の４入力１出力の場合、入力がすべて０の場合を除く全てのパターンが学習できた。また、従来のアルゴリズムに対して非常に高速に学習でき、計算時間は多項式のオーダーで済むことが判明した。

【０２５８】

【発明の効果】以上のように、本発明によれば、線形分離不可能な入出力パターンがいくつかの線形分離可能なパターンに変換され、それらは元の入出力パターンと同じ出力を出すように出力層で統合されるので、線形分離可能、不可能にかかわらず、全ての入出力パターンを学習できるニューラルネットワークが得られる。

【０２５９】また、中間層のニューロンは必要に応じて作り出されるので、パターンが線形分離可能な場合には１個、線形分離不可能な場合でも必要最小限又はそれに近い数のニューロンで十分である。それ故、所望の入出力パターンを実現する際のメモリ領域も必要最小限で済み、変更するニューロン間の結合重みの数も必要最小限であるから、学習速度が著しく高速化される。

【０２６０】更に、従来のバックプロパゲーション法は、ニューロンの変換関数にシグモイド関数を使っているため、局所最適点に近づけば重みの変化は大きくなるが、離れた点では非常に小さいのに対し、本発明で用いられる変換関数は、学習に非許容な点ではどこでも一定の傾きを持つ。また、ステップ幅が現在のパターンを許容にする最小限の幅がとられるため、結合係数は最適点からの距離に関係なく高速で収束する。

【０２６１】本発明では、中間層のニューロンを、必要に応じて自動的に作成するので、中間層のニューロン数をいくつにするかで悩まずに済む。

【０２６２】一般に、学習によって得られたニューラルネットワークの解析は非常に複雑で困難であるが、本発明の場合は、線形分離可能割り当て法によって図３のようなネットワークが構築される。このネットワークは、
図２（ｂ）の式で表わされるような集合間演算を実現したものであるため、解析が容易である。

【図面の簡単な説明】

【図１】本発明の基本思想を示す概念図。

【図２】線形分離不可能なパターンを線形分離可能なパターンに変換する原理を示す図。

【図３】本発明のニューラルネットワークの構成を示す図。

【図４】線形分離可能割当て法の例を示す図。

【図５】入力側ニューロンの状態変数空間における２種類のパターン集合の位置関係を示す図。

【図６】線形分離不可能なパターンの変換を示す図。

【図７】２種類のパターンに対する変換関数を示す図。

【図８】本発明の学習方法の手順を示すフローチャート。

【図９】図９中の変換ルーティンを示すフローチャート。

【図１０】アルゴリズムの高速化のためのパターン変換を示す図。

【図１１】本発明で用いられる全アルゴリズムを示すＰ
ＡＤ図。

【図１２】図１１に続くＰＡＤ図。

【図１３】図１１及び図１２中の変数などの説明図。

【図１４】本発明の実施例で用いられるアルゴリズムγ
の詳細なフローチャート。

【図１５】図１４に続くフローチャート。

【図１６】図１４及び図１５に続くフローチャート。

【図１７】図１６中のアルゴリズムδ ^kの詳細なフローチャート。

【図１８】バイアスニューロン付きのニューラルネットワークを示す図。

【図１９】自己フィードバックをもつバイアスニューロンユニットを示す図。

【図２０】多入力多出力の場合のニューラルネットワークの構成を示す図。

【図２１】中間層を複数の層で構成した多層構造のニューラルネットワークの例を示す図。

【図２２】本発明とバックプロパゲーション法の各々の計算時間の対数グラフ。

【図２３】パターン数に対する本発明とバックプロパゲーション法の正答率を示すグラフ。

【符号の説明】

１…入力層、２…中間層、３…出力層、４…バイアスニューロン。

标题	发布/更新时间	阅读量
基于人脸特征的癌症筛查方法及筛查系统	2020-05-11	650
一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法	2020-05-12	945
一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法	2020-05-13	804
基于极端随机树的非线性全光谱水体浊度定量分析方法	2020-05-17	274
一种基于自适应连接神经网络的图像处理方法及装置	2020-05-08	722
一种鉴别煤炭种类的方法及装置	2020-05-17	353
预测自动语音识别系统中的短语识别质量	2020-05-19	351
病历检测方法、装置、设备和存储介质	2020-05-15	808
一种基于大数据的国防科技热词发现方法及系统	2020-05-08	562
一种基于结构化用户属性描述的个性化任务型对话系统	2020-05-19	547

Neural network and its learning method

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：