Learning device

阅读:936发布:2021-01-03

专利汇可以提供Learning device专利检索,专利查询,专利分析的服务。并且PURPOSE: To decide the number of intermediate layer elements as well as an optimum model even when a Fisher information matrix is not always equal to a positive definite value for the parameter that is acquired by learning. CONSTITUTION: The learning device is provided with a parameter estimation part 11 which estimates the parameter θ of a multilayer perceptron 10 based on the learning data generated with the statistic variance produced around a genuine function f (x) so that the perceptron 10 performs the approximation of the genuine function and then optimize the parameter θ, and a model selection part 12 which selects a model that has an optimum number of intermediate layer elements based on the AIC that is calculated from the estimated value of the parameter of the perceptron 10 acquired by the part 11 and the number of intermediate layer elements. Thus, the model election the part 12 calculates the models that secure the positive definite properties of a Fisher information matrix and selects the optimum one of these models based on the AIC.,下面是Learning device专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 真の確率p(z)に従って発生した標本を用いて、次元の異なる複数のパラメータ空間{Θ (m) } mに属するパラメータθ (m)によってパラメトライズされるパラメータ付確率密度関数族{p(z;θ (m) )}によって最尤推定法で真の確率密度関数の推定を行なうパラメータ推定手段と、各mに対して得られたパラメータの推定値〈θ〉 (m)とパラメータΘ (m)の次元数とから計算されるAICに基づいて、最も適したパラメータの次元数をもつモデルを選択するモデル選択手段とを有し、前記モデル選択手段は、パラメータの推定値〈θ〉 (m)におけるFisher情報行列の正定値性の確保された各モデルを算出し、Fisher情報行列の正定値性の確保された各モデルのうちから最適なモデルをAICによって選択することを特徴とする学習装置。
  • 【請求項2】 入力層と中間層と出力層とのネットワークとして構成され、入力ベクトルが与えられるときに所定のパラメータθに基づき入力ベクトルに対する出力ベクトルを計算して出力する多層パーセプトロンと、真の関数f(x)のまわりに統計的なばらつきをもって発生した学習データを用いて、前記多層パーセプトロンが真の関数の近似を行なうように、該多層パーセプトロンのパラメータθの推定を行ない、パラメータθを最適化するパラメータ推定手段と、該多層パーセプトロンの中間層がH個の中間層素子をもつとするときに、前記パラメータ推定手段によって得られた多層パーセプトロンのパラメータの推定値〈θ〉 (H)と中間層素子の個数とから計算されるAICに基づいて、最適な中間層素子の個数をもつモデルを選択するモデル選択手段とを有し、前記モデル選択手段は、Fisher情報行列の正定値性の確保されたモデルを算出し、Fisher情報行列の正定値性の確保された各モデルのうちから最適なモデルをAICによって選択することを特徴とする学習装置。
  • 【請求項3】 請求項2記載の学習装置において、前記モデル選択手段は、冗長な中間層素子を削減することによって、Fisher情報行列の正定値性の確保された各モデルを得ることを特徴とする学習装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、パターン認識やシステム同定問題,制御問題などのように、与えられた入から望ましい出力を学習する学習装置に関する。

    【0002】

    【従来の技術】一般に、中間層の素子の出力関数としてシグモイド関数を用いた3層階層型ニューラルネットワークは、非線形性を有するシステムの入出力関係の同定に有効である。 通常、対象とするシステムに関する知識は、先験的前提がない限り、観測を通じて得られた有限個のデータのみに反映されている。 このため、ネットワークの結合重みは、データとネットワーク出力が近くなるよう、バックプロパゲーションアルゴリズムなどを用いた学習により推定される。 この場合、ネットワーク構造(ネットワークの複雑さ)が適切でないと、学習した入出力関係が獲得すべき入出力関係からずれてしまう。 従って、複雑さの異なる学習後のネットワークの中から、
    適切なものを選ぶ必要がある。 これは、一般に、モデル選択と呼ばれている。

    【0003】従来、モデル選択法としては、情報量基準AIC(Akaike's Information Criterion)を最小化するモデルを最適とみなして採用する方法が広く用いられている。 AICは、ゆう度原理とKL(Kullback-Leibler)
    情報量との関係から、モデルに関する適当な仮定のもとで漸近理論に従い導出された基準である。 AICが適用されるモデルは、主に自己回帰モデルあるいは重回帰モデルなどである。 階層型ニューラルネットワークにおいても、モデル選択の立場から、AICを直接用いる方法や学習により最ゆう推定量が得られた場合にAICと等価になる基準を用いる方法などが提案されている。

    【0004】

    【発明が解決しようとする課題】しかしながら、文献「“階層型ニューラルネットワークにおける結合重みの非一意性とAIC”萩原克幸 他 電子情報通信学会論文誌D-II,Vol.J76-D-II,No.9,pp2058-2065(1993)」に示されているように、3層階層型ニューラルネットワークを用いた非線形回帰モデルに対しては、結合重みの非一意性のためにAICが導出できず、従って、最適なネットワークモデルの選択を行なうことができない。

    【0005】このことを、以下に詳細に説明する。 いま、図4に示すような、中間層にm個の中間層素子を配置したr入力1出力の3層階層型ニューラルネットワークについて、中間層素子の出力関数をシグモイド関数,
    入力層,出力層の各素子の出力関数を線形関数とし、このネットワークをN(r,m)と表わす。

    【0006】非線形性をもつシステムに関する予測・制御あるいは機能解析といった目的のもとで、その入出力関係をN(r,m)により同定することを考える。 対象とするシステムをr入力1出力とし、入力ベクトル列x=
    (x 1 ,x 2 ,…,x n ) r ,(x i =(x i1 ,…,x ir )∈R r
    i=1,…,n)に対するシステムの応答をy=(y 1
    2 ,…,y n ) rとする。 いま、入力数rおよびxは固定されているものとする。 yの生成機構を、図5に示すように、各iで、システム固有の確定的出力h(x i )に確率変数の実現値として表わされる雑音成分ε iが重畳したものとみなし、その条件付き同時確率密度関数をp(y
    |x)(≡p)と表わす。 h(・)を真の入出力関係,pを真の分布と呼ぶ。

    【0007】今、yの確率構造を次式で表わす。

    【0008】

    【数1】y i =g(x i ,ω m )+ε i 0≦m≦M ε i 〜N(0,σ 2 ),各iで独立,等分散

    【0009】数1は、システムのパラメトリックモデルであり、非線形回帰モデルの一種であり、数1において、m,ω m ,σ 2が定まれば、次式で与えられるyの条件付き同時確率密度関数が規定される。

    【0010】

    【数2】

    【0011】ここで、θ k =(ω m ,σ 2 )(≡(θ k 1 ,…,
    θ k k ))およびk=m(r+2)+1は、それぞれf kのパラメータおよびパラメータ数を表わす。 このとき、kは中間層素子数mに依存して変わる。 K=M(r+2)+1
    をkの最大値とし、M≪nとする。 また、θ kのパラメータ空間をΘ k ∈R kとする。 以下、特に断わらない限り、モデルとは条件付き同時確率密度関数f kを意味し、モデルの族をF k ={f k ;θ k ∈Θ k }と表わす。

    【0012】階層型ニューラルネットワークの学習法としてのバックプロパゲーションアルゴリズムは、データとネットワーク出力との誤差2乗和を評価関数とする最急降下法と等価である。 なお、誤差2乗和は次式で与えられる。

    【0013】

    【数3】

    【0014】このとき、学習により得られた結合重みを〈ω m 〉とすると、分散σ 2の推定値〈σ 2 〉は、次式で与えられる。

    【0015】

    【数4】〈σ 2 〉=S n (〈ω m 〉)

    【0016】一般に、パラメータ空間Θ k内において、
    評価関数S n (・)の大域的な最小値を与えるパラメータの推定量〈θ kNLS =(〈ω mNLS ,〈σ 2NLS )を非線形最小2乗推定量と呼び、推定されたモデルをf(y|
    x,〈θ kNLS )(≡〈f kNLS )と表わす。 学習により非線形最小2乗推定量が得られる場合、ネットワークは、その構造が簡単すぎると、偏った入出力関係を学習してしまう。 逆に、複雑すぎると、学習に用いたデータに対する誤差は小さくなるが、真からは隔たった入出力関係を学習してしまう。 従って、学習したネットワークについて、適切なネットワーク構造,すなわち中間層素子数mを決める必要がある。

    【0017】これは、{〈f kNLS ;k=1,…,K}
    の中から、何らかの意味で、適切なモデルを選ぶことに対応し、一般に、モデル選択と呼ばれる。

    【0018】従来、自己回帰モデルあるいは重回帰モデルなどについては情報量基準AIC(Akaike's Informat
    ion Criterion)を最小化するモデルを選択する方法が広く用いられてきた。 AICは、〈f k 〉と真の分布pの近さの尺度としてKL(Kullback-Leibler)情報量を導入し、モデルに関する適当な仮定のもとで導出された基準である。 従って、その導出における仮定を満たすモデルの族を対象とする場合、AICにより選択されるモデルの適切さは、KL情報量を根拠として保証される。

    【0019】一方、ゆう度原理では、f kをパラメータθ kの関数と見るとき、l(θ k )=logf(y|x,θ k )を対数ゆう度と呼び、対数ゆう度を最大化するパラメータの推定量〈θ kMLを最ゆう推定量と呼ぶ。 このとき、
    l(〈θ kML )を最大対数ゆう度と呼び、最ゆう推定量〈θ kMLにより定められるモデルf(・|x,〈θ k
    ML )(≡〈f kML )を最ゆうモデルと呼ぶ。

    【0020】AICは、最ゆうモデルに対する基準である。 もし、推定されたモデルが最ゆうモデルでなければ、そのモデルはAIC導出における仮定を満たさない。 しかしながら、数2のモデルの場合、非線形最小2
    乗推定量は最ゆう推定量と一致することが知られている。 以下、学習により非線形最小2乗推定量が得られた場合を考え、〈θ k 〉=〈θ kML =〈θ kNLS
    〈f k 〉=〈f kML =〈f kNLSとする。

    【0021】ZをYと独立に同一分布に従う確率変数として、次式を平均対数ゆう度と呼ぶ。

    【0022】

    【数5】

    【0023】また、≪θ k ≫を次式を満たすパラメータ値とする。

    【0024】

    【数6】

    【0025】このとき、必ずしもf(・|x,〈θ k 〉)
    (≡≪f k ≫)は、真の分布pに一致する必要はない。

    【0026】〈f k 〉のpに対する近さの尺度としてK
    L情報量I(〈f k 〉,p〉)を導入することで、最ゆうモデルの平均対数ゆう度l * (〈θ k 〉)により最ゆうモデル間で真の分布との近さを相対的に評価できる。
    〈θ k 〉はデータに依存するためl * (〈θ k 〉)のデータ分布に関する期待値すなわち、次式で与えられる期待値が理想的な評価量となる。

    【0027】

    【数7】

    【0028】l n * (k)を期待平均対数ゆう度と呼ぶ。 通常、真の分布は未知であり、l(〈θ k 〉)によりl
    n * (k)を推定する必要がある。

    【0029】l * (・)およびl(・)をそれぞれの最大値を与える≪θ k ≫および最ゆう推定量〈θ k 〉において2
    次のテイラー展開により近似する。 そうして得られたl
    (〈θ k 〉)とl * (〈θ k 〉)の差は、最ゆう推定量の一致性および漸近正規性を考慮してデータに関する期待値をとると、Trace[J -1・I]で与えられる。 ここで、JおよびIはそのij成分が次式で与えられるk×
    k行列である。

    【0030】

    【数8】

    【0031】ところで、「モデルの族が真の分布を含む」という仮定のもとでは任意の入力ξ=(ξ 1 ,…,ξ
    r )∈R rに対して、g(ξ,ω m * )=h(ξ) ω m * ∈Ω mを満たすm(m * ≦m≦M)とω m *が存在する。 m(m * ≦m
    ≦M)についてg(ξ,ω m * )を真のネットワーク出力と呼ぶ。

    【0032】真のネットワーク出力が定数λの場合、すなわち、g(ξ,ω m * )=λ |λ|<∞の場合、真のネットワーク出力を定める結合重みは無数に存在する。 例えば、N(r,1)についてα j =0であればβ 1 /{1+
    exp(τ 1 )}=λを満たす(β 1 ,τ 1 )の組合せは一意に定められない。 従って、N(r,m)(m>1)についても同様のことがいえる。

    【0033】いま、λ=0の場合を考える。 g(ξ,
    ω m )について、すべてのβ j (j=1,…,m)がβ j =0
    を満たす場合、任意のα j ,τ j (j=1,…,m)に対して、g(ξ,ω m )=0が成り立つ。 すなわち、真の入出力関係を定める入力重み(結合重み)および閾値は一意性をもたない。

    【0034】このことから、階層型ニューラルネットワークN(r,m)を用いた非線形回帰モデルに対しては、
    すべてのmについて、パラメータの真値は識別不能となり、「パラメータの真値が大域的に識別可能である」という仮定が成り立たない。 従って、真値の集合内に何の制約(あるいは分布)も与えられていないことを考えると、平均対数ゆう度は、その集合内において平坦になる。

    【0035】このとき、数8の行列J(以後、Fisher情報行列と呼ぶ)について、一意性をもたないパラメータの真値に依存する要素が恒等的に0になり、Jは正則でなくなる。 従って、J -1は存在せず、N(r,m)を用いた非線形回帰モデルに対して、AICは導出できない。

    【0036】このように、従来では、多層パーセプトロンにAICを適用する場合に、Fisher情報行列が正定値性をもたないと、正しくAICが適用できないという問題があった。

    【0037】本発明は、学習の結果得られたパラメータにおいてFisher情報行列が必ずしも正定値でない場合でも最適なモデル,中間層素子の個数を決定することの可能な学習装置を提供することを目的としている。

    【0038】

    【課題を解決するための手段および作用】上記目的を達成するために、請求項1記載の発明は、真の確率p(z)
    に従って発生した標本を用いて、次元の異なる複数のパラメータ空間{Θ (m) } mに属するパラメータθ (m)によってパラメトライズされるパラメータ付確率密度関数族
    {p(z;θ (m) )}によって最尤推定法で真の確率密度関数の推定を行なうパラメータ推定手段と、各mに対して得られたパラメータの推定値〈θ〉 (m)とパラメータΘ
    (m)の次元数とから計算されるAICに基づいて、最も適したパラメータの次元数をもつモデルを選択するモデル選択手段とを有し、モデル選択手段は、パラメータの推定値〈θ〉 (m)におけるFisher情報行列の正定値性の確保された各モデルを算出し、Fisher情報行列の正定値性の確保された各モデルのうちから最適なモデルをAI
    Cによって選択することを特徴としている。 これにより、学習の結果得られたパラメータにおいてFisher情報行列が必ずしも正定値でない場合でも、最適なモデルを決定することができる。

    【0039】また、請求項2,請求項3記載の発明は、
    入力層と中間層と出力層とのネットワークとして構成され、入力ベクトルが与えられるときに所定のパラメータθに基づき入力ベクトルに対する出力ベクトルを計算して出力する多層パーセプトロンと、真の関数f(x)のまわりに統計的なばらつきをもって発生した学習データを用いて、多層パーセプトロンが真の関数の近似を行なうように、該多層パーセプトロンのパラメータθの推定を行ない、パラメータθを最適化するパラメータ推定手段と、該多層パーセプトロンの中間層がH個の中間層素子をもつとするときに、パラメータ推定手段によって得られた多層パーセプトロンのパラメータの推定値〈θ〉
    (H)と中間層素子の個数とから計算されるAICに基づいて、最適な中間層素子の個数をもつモデルを選択するモデル選択手段とを有し、モデル選択手段は、Fisher情報行列の正定値性の確保されたモデルを算出し、Fisher
    情報行列の正定値性の確保された各モデルのうちから最適なモデルをAICによって選択することを特徴としている。 これにより、学習の結果得られたパラメータにおいてFisher情報行列が必ずしも正定値でない場合でも、
    最適なモデルすなわち、最適な中間層素子の個数を決定することができる。

    【0040】

    【実施例】以下、本発明の実施例を図面に基づいて説明する。 図1は本発明に係る学習装置の一実施例の構成図である。 本実施例の学習装置には、多層パーセプトロン
    (例えば3層パーセプトロン)10が用いられている。 この多層パーセプトロン10は、L個の入力層素子1−1
    乃至1−Lを有する入力層1とH個の中間層素子2−1
    乃至2−Hを有する中間層2とM個の出力層素子3−1
    乃至3−Mを有する出力層3とのネットワークで構成され、L次元入力空間Xからの入力ベクトルxを入力層1
    において受け取り、入力ベクトルxが与えられた時のM
    次元出力ベクトルyを所定のパラメータθに基づき、次式により計算して出力層3から出力するようになっている。

    【0041】換言すれば、この多層パーセプトロン10
    は、次式の関数系によって特徴付けられている。

    【0042】

    【数9】

    【0043】ここでσ(t)はシグモイド関数であり、次式で与えられる。

    【0044】

    【数10】

    【0045】また、この多層パーセプトロン10のパラメータθは、θ=(w 11 ,...,w MH1 ,...,η M ,
    11 ,...,u HL1 ,...,ζ H )で表わされる。 なお、
    11 ,...,w MHはH個の中間層素子2−1乃至2−HとM個の出力層素子3−1乃至3−Mとの間の結合係数,
    11 ,...,u HLはL個の入力層素子1−1乃至1−LとH個の中間層素子2−1乃至2−Hとの間の結合係数,
    η 1 ,...,η MはM個の出力層素子3−1乃至3−Mの閾値,ζ 1 ,...,ζ HはH個の中間層素子2−1乃至2−H
    の閾値である。 このような多層パーセプトロン10では、ネットワークの出力を並列的な処理によって計算可能である。

    【0046】本発明では、この多層パーセプトロン10
    を実際に稼動するに先立ち(学習後の実際の応用に先立ち)、多層パーセプトロン10のモデルとして、その中間層2の中間層素子の個数HがH 1からH nまでのn個のモデルを用意し、n個のモデルのうちのどのモデルが最適であるか選択決定することを意図している。

    【0047】このため、本実施例の学習装置には、真の関数f(x)のまわりに統計的なばらつきをもって発生した学習データを用いて、多層パーセプトロン10が真の関数の近似を行なうように、該多層パーセプトロン10
    のパラメータθの推定を行ない、パラメータθを最適化するパラメータ推定部11と、該多層パーセプトロン1
    0の中間層2がH個の中間層素子をもつとするときに、
    パラメータ推定部11によって得られた多層パーセプトロン10のパラメータの推定値〈θ〉 (H)と中間層素子の個数とから計算されるAICに基づいて、最適な中間層素子の個数をもつモデルを選択するモデル選択部12
    が設けられている。

    【0048】なお、パラメータ推定部11は、与えられた学習データ{(x (ν) ,y (ν) )|ν=1,...,N}を用いて、ネットワーク,すなわち多層パーセプトロン10
    のパラメータθを例えばバックプロパゲーションによって最小2乗誤差を小さくするように推定する。 すなわち、次式の最小2乗誤差を小さくするように、θを求める。

    【0049】

    【数11】

    【0050】このように、本実施例では、パラメータ推定部11は、中間層2の中間層素子の個数Hがあらかじめ定められたH 1からH nまでの間のn個のモデル全てに対して、パラメータθの推定を行ない、各モデルにおける最小2乗誤差推定量,すなわちパラメータ推定量〈θ〉 (H) (=〈θ〉 (H1) ,…〈θ〉 (Hn) )を算出し、モデル選択部12は、パラメータ推定部11で得られた各モデルのパラメータ推定量〈θ〉 (H)を用いて、AIC
    に基づき、各モデルのうちから最適なモデルを選択するようになっている。

    【0051】ところで、前述したように、AICはFis
    her情報行列J(数8を参照)が非特異である場合(正定値である場合)に限り有効に働く。 しかしながら、多層パーセプトロンの場合には、前述の文献にも記載されているようにFisher情報行列Jが特異になる場合(J=0になる場合)があり、この場合には、上述したようなAI
    Cによるモデル選択がうまく働かない。

    【0052】本願の発明者は、多層パーセプトロンのF
    isher情報行列Jが特異になるのは、 (1)
    (w ij ,...,w Mj )=0となるjが存在する場合、(2)u j
    =(u j1 ,…,u jL )=0となるjが存在する場合、(3)
    相違なるj 1 ,j 2に対し、(u j1j1 )=(u j2j2
    または(u j1j1 )=−(u j2j2 )となる場合、の3条件のいずれかが成立する場合に限られる、という事実を見出した。 なお、u j1 ,u j2はベクトル量であり、
    ζ j1 ,ζ j2はスカラー量であって、添字j 1 ,j 2は中間層の素子番号である。 すなわち、u j1 ,ζ j1は中間層のj 1番目の素子の重みベクトル,閾値であり、u j2 ,ζ
    j2は中間層のj 2番目の素子の重みベクトル,閾値である。

    【0053】そこで、この事実を用いて、本実施例のモデル選択部12では、モデル選択を行なう際に、多層パーセプトロン10のFisher情報行列Jが特異であった場合には、上の3条件のどれが成り立っているかを判定し、それぞれに応じて冗長な中間層素子を削減し、入出力関数を変化させることなくFisher情報行列が非特異になるネットワークを得る操作を行なうようになっている。 Fisher情報行列Jが非特異なネットワークに変換されれば、通常のようにAICの手法を用いて学習後の期待誤差が最小になるようなモデル選択を行なうことができる。

    【0054】このため、本実施例では、モデル選択部1
    2には、例えば、素子削減機構13が設けられており、
    モデル選択部12は、多層パーセプトロンのFisher情報行列Jが特異になる場合、素子削減機構13により、上記3条件のいずれかに応じて冗長な中間層素子を削減して、多層パーセプトロンの当初のモデルを中間層素子数の少ないものに変換し、このように変換されたモデルのうちで最適なモデルを選択するようにしている。 換言すれば、変換された各モデルは、そのFisher情報行列Jが全て、非特異のものであるので、これにより、AICを用いてモデル選択を行なうことができる。

    【0055】具体的には、モデル選択部12は、当初のネットワークの中間層素子数がH個であった場合の変換モデルの中間層素子数をm(H)個と書くことにするとき、変換されたモデルに対し、AIC(Akaike's Info
    rmation Criterion)を用いて次式の量AIC Hを最小にするような中間層素子数,すなわちモデルを選択することができる。

    【0056】

    【数12】

    【0057】次にこのような構成の学習装置の動作について説明する。 いま、多層パーセプトロン10のモデルとして当初、図2に示すように、例えば、H 1個からH n
    個までの中間層素子を有するn個のモデルMDL 1 〜M
    DL nが用意されているとする。 この場合、多層パーセプトロン10を実際に応用するに先立って、その応用にどのモデルが最適であるかの選択(学習)が行なわれる。
    このモデル選択は、パラメータ推定部11で推定された各モデルMDL 1 〜MDL nのパラメータ推定値を用い、
    モデル選択部12において、AICにより実行される。

    【0058】この場合、各モデルMDL 1 〜MDL nのFi
    sher情報行列Jが全て正定値であり、非特異である場合には、AICにより最適なモデルを選択することができるが、各モデルMDL 1 〜MDL nのうちのいずれかにFi
    sher情報行列Jが正定値でないもの、すなわち特異なものがある場合には、AICによるモデル選択を行なうことはできない。

    【0059】この場合、モデル選択部12は、素子削減機構13を起動し、素子削減機構13に、上述した3条件のいずれが成り立っているかを判定させ、それに応じて冗長な中間層素子の個数を削減させる。

    【0060】すなわち、素子削減機構13は、先ず、中間層2から出力層3への重み{w ij }を調べ、ベクトル
    (w 1j ,...,w Mj )のノルムが、予め定められたごく小さい閾値th 1以下である場合には、中間層2の第j番目の素子を削減し、中間層素子が1個減少したモデルに変換する。

    【0061】次に、入力層1から中間層2への重み{u
    jk }を調べ、ベクトルu j =(u j1 ,...,u jL )のノルムが、予め定められたごく小さい閾値th 2以下である場合には、中間層2の第j素子を削減し、中間層素子が1
    個減少したモデルに変換する。

    【0062】次に、組{(u jj )}を調べ、相違なるj 1 ,j 2に関して、(u j1j1 )−(u j2j2 )のノルムが、予め定められたごく小さい閾値th 3以下であれば、中間層2の第j 2素子を削減し、w ij1 →w ij1
    +w ij2 (1≦i≦M)の変換を行ない、(w j1j1 )+
    (w j2j2 )のノルムが、あらかじめ定められた閾値th 3以下であれば、中間層2の第j 2素子を削減し、w
    j1 →w ij1 −w ij2 , η i →η i +w ij2 (i≦i≦M)の変換を行なう。

    【0063】この3種類の素子削減手順を、それ以上削減するものがなくなるまで繰り返すことにより、図3に示すような最終的なn個の変換モデル(極小モデル)MD
    1 '〜MDL n 'が得られる。 ここで、n個の変換モデルMDL 1 '〜MDL n 'ともとのモデルMDL 1 〜MDL nとは近似的に同一の入出力写像を実現している。 すなわち、変換されても、ネットワークの入出力関係は保存されている。 また、n個の変換モデルMDL 1 '〜MDL n '
    は、上述のように、3条件を成り立たせている中間層素子を削減したものとなっており、各変換モデルMDL 1 '
    〜MDL n 'はそのFisher情報行列Jが全て正定値(非特異)のものとなっている。

    【0064】従って、変換モデルMDL 1 '〜MDL n 'が求まると、モデル選択部12は、例えば数11に従って、変換モデルMDL 1 '〜MDL n 'のうち、AIC Hを最小にするようなモデルを選択することができる。 このようにモデルが選択されると、このモデルの多層パーセプトロンを用いて、実際の応用において(例えば、パターン認識や制御、システム同定の問題などにおいて)出力を計算することができる。

    【0065】なお、上述の実施例では、与えられた入力から所定の出力を出力するシステム(モデル)が多層パーセプトロンであるとしているが、本発明の学習装置は、
    多層パーセプトロンに限らず、AICによりモデルを選択する際、Fisher情報行列の正定値性が問題となるような全てのシステム(モデル)に適用可能である。

    【0066】すなわち、本発明の学習装置は、基本的には、真の確率p(z)に従って発生した標本を用いて、次元の異なる複数のパラメータ空間{Θ (m) } mに属するパラメータθ (m)によってパラメトライズされるパラメータ付確率密度関数族{p(z;θ (m) )}によって最尤推定法で真の確率密度関数の推定を行なうパラメータ推定部と、各mに対して得られたパラメータの推定値〈θ〉
    (m)とパラメータΘ (m)の次元数とから計算されるAIC
    に基づいて、最も適したパラメータの次元数をもつモデルを選択するモデル選択部とを有し、モデル選択部が、
    パラメータの推定値〈θ〉 (m)におけるFisher情報行列の正定値性の確保された各モデルを算出し、Fisher情報行列の正定値性の確保された各モデルのうちから最適なモデルをAICによって選択することを特徴としている。

    【0067】

    【発明の効果】以上に説明したように、本発明によれば、モデル選択手段は、Fisher情報行列の正定値性の確保されたモデルを算出し、Fisher情報行列の正定値性の確保された各モデルのうちから最適なモデルをAICによって選択するので、学習の結果得られたパラメータにおいてFisher情報行列が必ずしも正定値でない場合でも最適なモデル,中間層素子の個数を決定することができる。 これにより、パターン認識や制御、システム同定の問題に多層パーセプトロンを応用する際、期待誤差を最小にするような中間総素子数が選択でき、学習後の誤差を減少させることができる。

    【図面の簡単な説明】

    【図1】本発明に係る学習装置の一実施例の構成図である。

    【図2】図1の学習装置の動作を説明するための図である。

    【図3】図1の学習装置の動作を説明するための図である。

    【図4】3層階層型ニューラルネットワークの一例を示す図である。

    【図5】非線形性をもつシステムのモデルを示す図である。

    【符号の説明】

    1 入力層 2 中間層 3 出力層 10 多層パーセプトロン 11 パラメータ推定部 12 モデル選択部 13 素子削減機構

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈