首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 递归神经网络 / System and method for time-series trend estimation by recursive type neural network in column structure

System and method for time-series trend estimation by recursive type neural network in column structure

阅读:970发布:2021-07-19

专利汇可以提供System and method for time-series trend estimation by recursive type neural network in column structure专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To efficiently estimate the trend of time-series data which vary discontinuously by making the relation between the internal state of the neural network and the time-series data distinct. SOLUTION: The column structure recursive type neural network (CSSRNN) 19 is equipped with (m) columns consisting of neural elements 51-j (j=1,..., m) and (s) registers 52-j-k (k=1,..., S). Each neural element generates an output at time (t) from an input x and each column passes the output history of the neural elements before the time (t) to a nonlinear equation solving device 18. The nonlinear equation solving device 18 finds the zero point of a target function from the passed history and calculates the probability density of the value (x) corresponding to each zero point. Then the value having the largest probability density is passed as a predicted value of input data at next time. The independency of each column is high and discontinuous discrete values are suitably predicted.,下面是System and method for time-series trend estimation by recursive type neural network in column structure专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 時間的に変化するデータの変化トレンドを推定する情報処理装置において、 時系列データを入力する入力手段と、 文脈層を有するコラム構造の再帰型ニューラルネットワークを含み、過去の時系列データに関する情報を含む内部状態を出力するニューラルネットワーク手段と、 前記内部状態を用いて予測値の候補の出現確率を求め、
    最も確率の高い候補を予測値として求める予測値生成手段と、 前記予測値を未知データの推定結果として出力する出力手段とを備えることを特徴とする時系列トレンド推定システム。
  • 【請求項2】 前記ニューラルネットワーク手段は、データの特定の確率分布が選択される確率に関する情報を表す前記内部状態を出力することを特徴とする請求項1
    記載の時系列トレンド推定システム。
  • 【請求項3】 与えられた時系列データを学習し、前記再帰型ニューラルネットワークの最適パラメータを生成して前記ニューラルネットワーク手段に与える学習手段をさらに備え、 前記ニューラルネットワーク手段は、前記最適パラメータを用いて前記内部状態を計算するように構成されることを特徴とする請求項1記載の時系列トレンド推定システム。
  • 【請求項4】 前記学習手段は、前記再帰型ニューラルネットワークのパラメータの任意の値と前記与えられた時系列データとから評価関数を計算し、該評価関数の値が最適となるようなパラメータを前記最適パラメータとするように構成されることを特徴とする請求項3記載の時系列トレンド推定システム。
  • 【請求項5】 前記再帰型ニューラルネットワークは、
    前記時系列データを入力とするニューラル素子と、該ニューラル素子の過去における出力履歴を時間の序列を保って保持する文脈層のシフトレジスタとを含むコラムを複数備え、該シフトレジスタの出力は同じコラム内のニューラル素子に再帰的に入力されるように構成されることを特徴とする請求項1記載の時系列トレンド推定システム。
  • 【請求項6】 前記再帰型ニューラルネットワークは、
    前記時系列データを入力とするニューラル素子と該ニューラル素子の過去における出力履歴を保持する文脈層のレジスタとを含むコラムを複数備え、該レジスタの出力は同じコラム内のニューラル素子に再帰的に入力されるように構成されることを特徴とする請求項1記載の時系列トレンド推定システム。
  • 【請求項7】 前記予測手段は、時系列データの不連続なトレンドの離散性を表現する離散変数を前記ニューラル素子に割り付け、該離散変数と前記内部状態により表現されるエネルギー関数から定義される確率分布関数を生成し、該確率分布関数を用いて前記予測値を求めるように構成されることを特徴とする請求項6記載の時系列トレンド推定システム。
  • 【請求項8】 前記予測手段は、前記離散変数の確率分布を重みとして複数のガウス分布関数を合成した前記確率分布関数を生成するように構成されることを特徴とする請求項7記載の時系列トレンド推定システム。
  • 【請求項9】 前記予測手段は、前記内部状態を用いて複数のガウス分布関数の合成となる確率分布関数を生成し、該確率分布関数を用いて前記予測値を求めるように構成されることを特徴とする請求項1記載の時系列トレンド推定システム。
  • 【請求項10】 前記予測手段は、該内部状態が更新されることにより時間によって形状を変える確率分布関数の列を生成し、該確率分布関数の列から時間的に変化する予測値の列を生成するように構成されることを特徴とする請求項9記載の時系列トレンド推定システム。
  • 【請求項11】 前記予測手段は、前記内部状態と前記再帰型ニューラルネットワークのパラメータとから決められる予測方程式の解を、前記予測値の候補とするように構成されることを特徴とする請求項1記載の時系列トレンド推定システム。
  • 【請求項12】 前記予測手段は、前記内部状態と前記再帰型ニューラルネットワークのパラメータとにより記述される目標関数の零点を求める零点算定手段を備え、
    該零点に対応するデータ値を前記予測値の候補とするように構成されることを特徴とする請求項11記載の時系列トレンド推定システム。
  • 【請求項13】 前記予測手段は、前記零点の近傍における前記目標関数の値を前記内部状態から計算して前記零点算定手段に与える目標関数評価手段をさらに備えることを特徴とする請求項12記載の時系列トレンド推定システム。
  • 【請求項14】 前記予測手段は、前記予測値の候補と前記内部状態とからデータの確率分布関数の値を計算する確率算定手段をさらに備えることを特徴とする請求項11記載の時系列トレンド推定システム。
  • 【請求項15】 前記再帰型ニューラルネットワークは、ニューラル素子を含む複数のコラムを備え、前記予測手段は、該ニューラル素子に割り付けられた離散変数を用いて前記確率分布関数の正規化係数を計算する正規化係数算定手段をさらに備え、前記確率算定手段は、該正規化係数算定手段が求めた該正規化係数を用いて前記確率分布関数の値を計算するように構成されることを特徴とする請求項14記載の時系列トレンド推定システム。
  • 【請求項16】 前記複数の予測値の候補を前記確率算定手段に与えて、対応する前記確率分布関数の複数の値を受け取り、該複数の値の中で最大値に対応する候補を前記予測値として選ぶ予測値選択手段をさらに備えることを特徴とする請求項14記載の時系列トレンド推定システム。
  • 【請求項17】 時間的に変化するデータの変化トレンドを推定する情報処理装置における記憶媒体であって、 時系列データを入力する入力手段と、 文脈層を有するコラム構造の再帰型ニューラルネットワークを含み、過去の時系列データに関する情報を含む内部状態を出力するニューラルネットワーク手段と、 前記内部状態を用いて予測値の候補の出現確率を求め、
    最も確率の高い候補を予測値として求める予測値生成手段と、 前記予測値を未知データの推定結果として出力する出力手段とを備えることを特徴とする記憶媒体。
  • 【請求項18】 時間的に変化するデータの変化トレンドを推定する方法において、 文脈層を有するコラム構造の再帰型ニューラルネットワークを用いて、過去の時系列データに関する情報を含む内部状態を求め、 前記内部状態を用いて予測値の候補の出現確率を求め、 最も確率の高い候補を未知データの予測値とすることを特徴とする時系列トレンド推定方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は再帰型ニューラルネットワークに係り、時間的に不連続に変化する測定量の変化のトレンドを推定する推定システムおよびその方法に関する。

    【0002】

    【従来の技術とその問題点】従来より予測フィルタとして用いられているカルマンフィルタは、システム同定方法の古典であり、現在も様々な応用が考案されている。
    一方、非線形性を持つ時系列データの予測には、静的な非線形システムの同定法として技術的に確立されつつあるニューラルネットワークを適用する様々な方法が考案されている。 しかし、カルマンフィルタの応用には現状の計算機の能などからくる制限があり、また、ニューラルネットワークの時系列解析に対する応用は始まったばかりである。 このため、それぞれ次のような問題点が指摘される。 (1)カルマンフィルタを用いる方法 時系列データに不連続なトレンド変化が生じる場合やモデルの不確定さを表現するノイズにガウス型を仮定できない場合は、通常の線形ガウス型のカルマンフィルタでは予測や濾波がうまくいかない(北川源四郎.時系列解析プログラミング.岩波コンンピュータサイエンス.岩波書店,1993)。 もし、不連続な状態変化に線形ガウス型モデルで対処するなら、極端に次元の大きなモデルが必要になる。 この際、モデル次元を客観的に選択するための基準を設定することが難しくなる。

    【0003】そこで、近年、非線形非ガウス型の拡張カルマンフィルタが提案されている(Genshiro Kitagawa.
    Non-Gaussian State-Space Modeling of Nonstationar
    y Time Series. Journal of the American Statistical
    Association, 82(400):1032-1041, 1987.)。 拡張カルマンフィルタは、不連続なトレンドや非ガウス型のノイズに対する予測や平滑に成功している。 しかし、拡張カルマンフィルタを実行するには、予測、濾波、平滑の各分布を直接計算しなければならない。 したがって、状態空間モデルが大きくなる場合は、拡張カルマンフィルタの適切なフィルタ係数を同定するには時間がかかる。 これに対して、線形ガウス型モデルでは、平均値と分散を推定するだけで各段階で計算に必要な確率分布を決定できるので、同定に関する計算量は低く抑えることができるものの、同定可能対象は制限される。 また、拡張カルマンフィルタを効果的に応用するには、異常値なども含めたノイズを適当に表現できる分布族に関する先見的な知識を必要とする。

    【0004】しかし、サンプルからブートスラップ法を用いてノイズの分布を推定するモンテカルロフィルタを用いれば、ノイズに関する先見的な知識を欠く場合でも適切な推定や濾波および平滑ガ遂行される(Genshiro K
    itagawa. A Monte Carlo Filtering and Smoothing Met
    hod for Non-Gaussian Nonlinear State Space Models.
    Research Memorandum 462, The Institute of Statist
    ical Mathematics, 121993.)。 このモンテカルロフィルタの手法により、より一般的な非線形非ガウス型の時系列に対する方法論が確立しつつある。 ただし、リサンプリングによる確率分布の算定に必要な時間は無視できないほど大きくなる。 (2)ニューラルネットワークを用いる方法 時系列データから時間窓によリデータを切り出し、時間的に少しづつずれている一連のパターンを生成し、フィードフォワード型のニューラルネットワークとパックプロパゲーションによって時系列データを学習する方法がある(A. Waibel. Modular Construction of Time-Dela
    y Networks for Speech Recongnition.Neural Computat
    ion, 1:382-399, 1989. / Jeng-Neng Hwang, Shyh-R
    ong Lay, Martin Maechler, R. Douglas Martin, and J
    ames Schimert. Regression Modeling in Back-Propaga
    tion and Projection Pursuit Learning. IEEE Transac
    tions on Neural Networks, 5(3):342-353, May 199
    4.)。 この方法で時系列データを的確に学習するためには、ニューラルネットワークの規模が大きくなり、記憶領域が不足するという問題が残る。 これは時間軸のデータの変化を空間軸に展開し、入出力の相関をニューラルネットワークの重みで表現するためである。 これにより別の問題も生じる。 時系列データの確率構造を捉えるという視点による明確な記述がなされないことである。

    【0005】こうしたニューラルネットワークの規模の問題を解決する方法として、フィードバック構造を持った再帰型ニューラルネットワークが考案されている(Je
    romeT. Connor, R. Douglas Martin, and LE Atlas.
    Recurrent Neural Networksand Robust Time Series P
    rediction. IEEE Transactions on Neural Networks, 5
    (2):240-254, Mar 1994. )。 再帰型ニューラルネットワークには、主に2つの型がある。 出力層を回帰させる方法(Jordan型)と中間層を回帰させる方法(Elman
    型)である。 再帰型ニューラルネットワークには回帰する情報を蓄える層が特別に設けられていて、これを文脈層と呼ぶ。

    【0006】フィードバック構造により規模の問題は解決するが、文脈層がどれくらいの規模と密度で過去の情報履歴を回帰させれば適切な予測フィルタを構成できるのかが不明確である。 また、未知の時系列データ(パラメータ同定に用いるデータと同じ確率構造から生成される別のデータ)に対する動作や評価方法などが不明確である。 一般的なネットワークの結合を考える場合は空間的な計算コストが莫大になることは明らかであり、各種係数を探索する場合に、微分係数などの算定のために必要な情報が長大になる。

    【0007】そこで、ARMA(autoregressive movin
    g average )モデルに類似した制約構造の再帰型ニューラルネットワークを用いて、予測フィルタを構成する方法が考えられている(James Ting-Ho Lo. Synthetic Ap
    proach to Optimal Filtering. IEEE Transactions on
    Neural Networks, 5(5):803-811, Sep 1994. / GV
    Puskorius and LA Feldkamp. Recurrent Neural Ne
    tworks with the Decoupled Extended Kalman Filter A
    lgorithm. Science of Artifitial Neural Networks, 1
    710:461-473, 1992. )。 この場合、通常のカルマンフィルタによってニューラルネットワークの内部状態の解釈が与えられる。 二乗誤差を最小にする評価基準とカルマンフィルタに準拠する計算法を用いて、与えられたパラメータにおける誤差を算定しながら、与えられたデータに適するパラメータを選択する方法も考案されている。 しかしながら、この手法は、先に挙げたカルマンフィルタの計算量に関する問題を内在している。 また、ネットワークの内部状態と時系列データとの関係付けにおいて不明確な点が多く、内部状態の解釈が難しい。

    【0008】本発明は、再帰型ニューラルネットワークの内部状態と時系列データの関係を明確にし、不連続に変化する時系列のトレンドを効率的に推定する時系列トレンド推定システムとその方法を提供することを目的とする。

    【0009】

    【問題点を解決するための手段】図1は、本発明の時系列トレンド推定システムの原理図である。 図1の時系列トレンド推定システムは、入力手段1、ニューラルネットワーク手段2、予測値生成手段3、および出力手段4
    を備える。

    【0010】入力手段1は、時系列データを入力する。
    ニューラルネットワーク手段2は、文脈層を有するコラム構造の再帰型ニューラルネットワークを含み、過去の時系列データに関する情報を含む内部状態を出力する。

    【0011】予測値生成手段3は、上記内部状態を用いて予測値の候補の出現確率を求め、最も確率の高い候補を予測値として求める。 出力手段4は、上記予測値を未知データの推定結果として出力する。

    【0012】図2は、図1の時系列トレンド推定システムによる推定処理のフローチャートである。 図2のステップS1において、まず、入力手段1は現在の時刻のデータを入力する。

    【0013】ステップS2において、ニューラルネットワーク手段2は過去のデータ情報を持つ再帰型ニューラルネットワークの内部状態をコラム毎に設定する。 再帰型ニューラルネットワークは複数のコラムを備え、各コラムは入力データから出力を生成するニューラル素子と、ニューラル素子の過去の出力を保持する文脈層とを含む。 現在の時刻のデータが入力されると、ニューラル素子は入力データと同じコラムの文脈層からの回帰データとから新しい出力を生成し、文脈層のデータ情報は1
    時刻分シフトされる。

    【0014】ステップS3において、予測値生成手段3
    は内部状態により決められる予測方程式を解いて、予測値の候補を求める。 このとき、予測値生成手段3はニューラルネットワーク手段2から受け取った内部状態を用いて、予測方程式の解を求める。

    【0015】ステップS4において、予測値生成手段3
    は内部状態を用いて予測値の候補の出現確率を求める。
    ステップS5において、出力手段4は出現確率の最も大きなものを未知データの予測値として出力する。

    【0016】各コラムのニューラル素子に、時系列データの不連続なトレンドの離散性を表現する離散変数を割り付けることにより、離散変数と内部状態により一種のエネルギー関数を構成することができる。 このエネルギー関数から定義される確率分布関数を用いて、上記予測値の候補の出現確率を表す。 後述するように、こうして定義された確率分布関数に関する考察から、各コラムの内部状態は対応するニューラル素子の離散変数が1となる確率を与えていることが分かる。 また、ある離散変数が1となる確率が高ければ、そのコラムのパラメータにより決められる平均値を持つ確率分布の寄与が大きくなる。 したがって、内部状態は、データの特定の確率分布が選択される確率に関する情報を表しているといえる。
    このようにして構成された時系列トレンド推定システムにおいては、ニューラルネットワークの内部状態を時系列データの離散値の出現確率と関連づけて解釈することが可能となる。 また、各ニューラル素子には同じコラム内のデータ情報のみが再帰的に入力されるので、各コラムの独立性が高い。 したがって、各コラムのパラメータを、不連続な変化トレンドの離散値に適合するように調整することにより、そのトレンドの推定が容易になる。

    【0017】図1のニューラルネットワーク手段2は、
    実施形態の図3におけるコラム構造再帰型ニューラルネットワーク19に対応し、予測値生成手段3は非線形方程式求解装置18に対応する。 また、入力手段1および出力手段4は、表示・対話装置12に対応する。

    【0018】

    【発明の実施の形態】以下、図面を参照しながら本発明の実施の形態を詳細に説明する。 本実施形態においては、次のような方針でシステムを構築する。 (a)線形モデルでは追従できないトレンドの急激な変化に追従する能力を、ニューラルネットワークの隠れ素子に離散変数を割り付けることによって保証する。 この際、適切な追従能力を持ったフィルタを構成するために必要な同定法も与える。 (b)線形モデルや単純な分布を想定することでは対処できない異常値に対して、ネットワークの非線形特性の一つである飽和特性を利用して対処する。 (c)ガウス型の加重和によって、予測機構およびフィルタとしての測定量の確率密度関数を合成する。 確率密度関数は、ニューラルネットワークの内部状態に基づいて計算する。 これにより、ネットワークの内部状態と時系列との関係付けを明確にできる。 また、小規模のネットワークであれば効率的に実行できる計算法を用いる。 (d)ネットワークの構造は Elman型の構成とし、文脈層にコラム構造を導入してその構造を制約する。 これにより、回帰情報の独立性を保証し、最適な係数の探索に必要となる内部状態の再計算を容易にする。

    【0019】図3は、本発明の時系列トレンド推定システムの構成図である。 図3の時系列トレンド推定システムは、制御装置11、学習装置14、および予測装置1
    7を備える。 制御装置11は表示・対話装置12とシステム管理装置13からなり、学習装置14は観測装置1
    5とネットワーク学習装置16からなる。 また、予測装置17は、非線形方程式求解装置18とコラム構造再帰型ニューラルネットワーク19からなる。 以後、コラム構造再帰型ニューラルネットワークをCSSRNN(Co
    lumn-Structured Simple Reccurent Neural Network )
    と記す。

    【0020】この時系列トレンド推定システムは、例えば図4に示すような計算機システムとして実施される。
    図4の計算機システムは、CPU(中央処理装置)2
    1、メモリ22、入出力端末23、およびそれらを接続するバス24を備える。 入出力端末23は、例えばディスプレイ装置やキーボードを有する端末装置であり、表示・対話装置12に対応する。 また、バス24には、必要に応じてハードディスク等の外部記憶装置やプリンタ等が接続される。 システム管理装置13、学習装置1
    4、および予測装置17の各機能は、CPU21がメモリ22に格納されたプログラムを実行することにより実現される。

    【0021】制御装置11は、時系列トレンド推定システムと他のシステムまたはユーザ(以下、クライアントと呼ぶ)との間のデータの授受に必要なインタフェースである。 また、必要な計算機資源の確保およびデータの流れの制御を行う。 図3において、実線の矢印はデータの流れを表し、破線の矢印は制御情報の経路を表している。 時系列トレンド推定システムの動作には、学習モードと予測モードがある。 これらの2つのモードは制御装置11のシステム管理装置13により制御される。 システム管理装置13は、表示・対話装置12からの情報に基づいて、モードの切替を行なう。 学習モードでは、学習装置14が起動される。 このときデータの入力ラインは制御装置11から学習装置14に接続される。 必要な長さの時系列データが集まると、それをもとに学習が遂行される。 このとき、予測装置17は、CSSRNN1
    9の内部状態の更新に必要な入力を学習装置14から得る。 予測モードでは、学習装置14は起動待ち状態になり、入力ラインは直接予測装置17に接続される。 予測装置17は、最適なパラメータセットをもとに予測を遂行する。 その予測結果は、システム管理装置13を経由して、表示・対話装置12によりクライアントに提示される。

    【0022】学習装置14の観測装置15は、観測データx (t)を時間の経過に従って読み込む。 次に、学習装置14はネットワーク学習装置16を起動し、読み込んだデータを時系列データ{x 1 ,. . . ,x N }としてネットワーク学習装置16に渡す。 ネットワーク学習装置16は最適なパラメータセットΦ optを学習によって獲得し、予測装置17のCSSRNN19に出力する。
    その後、学習装置14は起動待ち状態となる。

    【0023】ネットワーク学習装置16は、時系列データ{x 1 ,. . . ,x N-1 }とパラメータセットΦを予測装置17に渡す。 ここで、予測装置17に最初に渡すΦは、ランダムなパラメータセットである。 そして、予測装置17から予測値 外1(以後、{x 1ハット,...,x Nハット}と記す。)を受け取り、時系列

    【0024】

    【外1】

    【0025】データとCSSRNN19によって表現されたモデルとの食い違いを評価する評価関数を計算しながら、その値に基づいてパラメータセットΦを修正する。 この操作は、評価関数が最小になるような最適なパラメータセットが見つかるまで繰り返される。

    【0026】予測装置17は、与えられたパラメータセットΦをもとにCSSRNN19を駆動して、CSSR
    NN19の内部状態を更新し、内部状態の情報をもとに非線形方程式求解装置18を使って時系列データの予測を行なう。

    【0027】CSSRNN19は、入力層、隠れ素子層、および文脈層からなる再帰型ニューラルネットワークである。 文脈層は、CSSRNN19の各隠れ素子の過去の出力を保存するシフトレジスタからなる。 各隠れ素子の過去の出力履歴は、それ自身にだけ回帰するのであって、その他の素子に直接伝達されることはない。 このCSSRNN19の文脈層のシフトレジスタ内部の値全体を内部状態と呼ぶ。 CSSRNN19は、早い時刻のデータから順に時間軸に沿って入力{x 1 ,. . . ,
    N-1 }を受け取りながら、逐次内部状態を更新する。

    【0028】非線形方程式求解装置18は、予測のための非線形方程式を解いて、データの予測値 外2 (以後、x (t)ハットと記す)を計算する。 非線形方程式の係数

    【0029】

    【外2】

    【0030】は、CSSRNN19の内部状態から決められる。 次に、各装置の構成要素と動作、およびそれらの間のデータの流れを説明する。

    【0031】表示・対話装置12は、クライアントに対して時系列データおよび推定したトレンドを提示する。
    時系列データおよび堆定トレンドは、予測装置17からシステム管理装置13を通じて表示・対話装置12に提供される。 クライアントは、提示された結果に不満があれば、予測装置17のパラメータの再学習を要求できる。 その際、クライアントは、CSSRNN19の規模を指定することができる。 また、学習装置14の学習アルゴリズムも変更することができる。 学習アルゴリズムの変更の際には、学習基準の変更や学習アルゴリズムの各パラメータの指定・変更が、表示・対話装置12を通じて行われる。 クライアントによる再計算の要求や各パラメータの変更指示は、システム管理装置13に伝達される。

    【0032】システム管理装置13は、学習装置14および予測装置17に必要な計算機資源を確保して、各装置を起動する。 システム管理装置13は、図3の破線で示された制御経路を通じて、学習装置14と予測装置1
    7の動作を制御する。 学習モードでは、学習装置14を呼び出して、予測装置17のパラメータの同定を遂行させる。 この際、システム管理装置13が直接予測装置1
    7と通信することはない。 予測モードでは、システム管理装置13は予測装置17と直接通信して、時系列データを伝達し、トレンド予測値を受け取る。 トレンド予測値は、表示・対話装置12を通じてクライアントに提供され、システム管理装置13はクライアントからのフィードバックを受けとる。 クライアントが予測結果に満足しない場合は、その要求に応じて学習装置14を起動し、予測装置17のパラメータの再学習を開始させる。
    この際、クライアントの要求事項として、学習基準の変更やCSSRNN19の規模の変更があれば、そのために必要な計算機資源を確保し、パラメータの初期値を設定して、学習装置14を呼びだす。 学習装置14によって更新されたパラメータにより、予測装置17は、再びCSSRNN19を駆動して予測を行なう。 新しく得られた予測データは、表示・対話装置12へ渡され、クライアントに提示される。

    【0033】学習装置14の主要な機能は、ネットワーク学習装置16によって提供される。 観測装置15は、
    必要な個数の標本を連続して収集し、パラメータの学習に必要な時系列データS={x 1 ,. . . ,x N }を生成するとき以外は、起動待ち状態にある。

    【0034】図5は、ネットワーク学習装置16の構成図である。 図5のネットワーク学習装置16は、シミュレーティド・アニーリング制御装置31、ランダムシンプレックスによるパラメータの精錬装置32、および評価関数算定装置33からなる。 ネットワーク学習装置1
    6は、予測装置17の適切な動作を保証するパラメータとして、例えば、評価関数

    【0035】

    【数1】

    【0036】が最小となるΦ=Φ optを学習によって求める。 (1)式において、x iハットは予測装置17から受け取る予測値であり、そのときにCSSRNN19
    に与えられたΦに依存している。 ネットワーク学習装置16は、評価関数算定装置33により予測装置17と通信しながら学習を遂行する。

    【0037】評価関数算定装置33は、時系列データ{x 1 ,. . . ,x N }と予測値列{x 1ハット,. . . ,x Nハット}とを入力として、(1)式の評価関数 merit(S|Φ)の値を計算し、出力する。
    {x 1ハット,. . . ,x Nハット}は、Φおよび{x
    1 ,. . . ,x N }を予測装置17へ入力した時にその出力として得られる。

    【0038】アニーリング制御装置31は、パラメータの選択基準、アニーリングの温度制御ルール、ランダム探索の回数の上限値N r 、およびアニーリングの試行回数N aを、制御データとしてシステム管理装置13から受け取る。 そして、それらに基づいてシミュレーティド・アニーリングによる最適パラメータの探索処理を制御する。 アニーリング制御装置31は、N a個の初期値のパラメータセットΦ (i ) init (i=1,...,N a
    を生成し、ランダムシンプレックスによるパラメータの精錬装置32に与える。

    【0039】パラメータ精錬装置32は、必要に応じて、パラメータセットΦを入力として評価関数算定装置33を起動し、 merit(S|Φ)の値を受け取る。 パラメータ精錬装置32は、公知の滑降シンプレックス法による局所最適化法を用いてパラメータセットΦを精練する。 各アニーリング試行において初期値のパラメータセットΦ (i) initから、 dim(Φ)+1個の点からなる初期値シンプレックスを生成して、探索を開始する。 ここで、 dim(Φ)はパラメータセットの独立変数の個数を表す。

    【0040】図6は、 dim(Φ)=2の場合の初期値シンプレックスの例を示している。 図6において、パラメータセットΦは2つの独立変数φ1、φ2を用いてΦ=
    (φ1,φ2)と表され、φ1φ2平面上の任意の1点Φ (i) initが初期値として与えられる。 パラメータ精錬装置32は、点Φ (i) initをもとに頂点Φ 1 、Φ 2 、Φ
    3を持つ三形の初期値シンプレックス34を生成する。 dim(Φ)=3の場合には、初期値シンプレックスは4つの頂点を持つ3次元図形となる。

    【0041】各アニーリング試行において、パラメータ精錬装置32は、シンプレックスの頂点の中で評価関数の値が最悪(最大)となる点、2番目に悪い点、および最良(最小)となる点を調べる。 次に、最悪値の点を除いた頂点の重心に対して、最悪値の点を対称移動して対称点(反点)を求め、その反点を最悪点の代わりに採用して新しいシンプレックスを生成する。 もし、反点において、評価関数の値が最良点の値よりも良ければ、重心から更にその方向に2倍の距離だけ進んだ点を新しい頂点とする。 また、反点の値が最悪値の次に悪い値よりも悪ければ、最悪点を重心方向へ1次元的に移動させ、新しい頂点を生成する。 それでも最良点よりも良い点が見つからなければ、最良点の方向へシンプレックス全体を収縮させる。 以上の操作を繰り返すことで、シンプレックスの形を変動させながら評価関数の値を小さくする方向を発見し、最終的にシンプレックスの大きさを縮小させることにより極小となる点を求める。

    【0042】このように、滑降シンプレックス法においては、シンプレックスが更新される毎に評価関数を計算する必要がある。 この計算は、既に説明したように、評価関数算定装置33が予測装置17と通信することによって実行される。

    【0043】図6においては、 merit(S|Φ 2 )> m
    erit(S|Φ 1 )> merit(S|Φ 3 )であるから、点Φ 2が最悪点となる。 そこで、パラメータ精錬装置32
    は、初期値シンプレックス34から点Φ 2を除いた残りの頂点Φ 1 、Φ 3の重心(この場合はΦ 1とΦ 3を結ぶ線分の中点)を求める。 そして、求めた重心に関して点Φ 2と対称な点をφ1φ2平面内で求め、その点での m
    erit(S|Φ)を計算して、 merit(S|Φ 1 )、 mer
    it(S|Φ 3 )と比較する。 もし、対称点での値が mer
    it(S|Φ 3 )より小さければ、重心からその方向にさらに離れた点を新しい頂点として、次のシンプレックスを生成する。

    【0044】また、パラメータ精錬装置32は、与えられた制御温度T (j) (j=1,2,...,M)によって決まる偏差を使って、シンプレックスを探索空間においてランダムウォーク(酔歩)させ、評価関数の大域的最小値の近傍を探索する。 各制御湿度における酔歩の回数はN rである。 この算法によって、各アニーリング試行から評価関数の大域的最小値を与えるパラメータセットの候補Φ (i) res (i=1,...,N a )が求まる。

    【0045】アニーリング制御装置31は、これらの候補の中で評価関数の値が最小となるパラメータセットを、最適なパラメータセットΦ optとして選ぶ。 ネットワーク学習装置16は、予測装置17に最適なパラメータセットΦ optを渡して、起動待ち状態になる。

    【0046】図7は、予測装置17の構成図である。 図17において、CSSRNN19の隠れ素子層は、m個の隠れ素子51−1、51−2、・・・、51−mからなる。 各隠れ素子は、図8に示すニューロン(ニューラル素子)を有する。 任意の隠れ素子と隠れ素子の間に相互結合は存在しない。 各隠れ素子には、文脈層を構成するs個のレジスタがそれぞれ割り付けられている。 例えば、隠れ素子51−1の出力側にはレジスタ52−1−
    1、52−1−2、・・・、52−1−sが設けられ、
    隠れ素子51−2の出力側にはレジスタ52−2−1、
    52−2−2、・・・、52−2−sが設けられ、隠れ素子51−mの出力側にはレジスタ52−m−1、52
    −m−2、・・・、52−m−sが設けられる。 1つの隠れ素子とそれに付随するレジスタによって、1つのコラムが形成される。 時刻tにおける隠れ素子に対する入力をx (t)とすると、同時刻におけるj番目の隠れ素子(j=1,...,m)の出力は、

    【0047】

    【数2】

    【0048】となる。 表記を簡潔に行なうため、幾つかの簡略表現を次のように導入する。

    【0049】

    【数3】

    【0050】ここで、関数LG(x)は、一般にロジスティック関数と呼ばれており、図8のニューロンの出力関数に相当する。 また、w jは入力x (t)に対するj番目の隠れ素子の重みである。 O j (ti)は時刻t−iにおけるj番目の隠れ素子の出力であり、 外3 (以後、ベクトルO j (t,s)と記す)は、j番目のコラムの

    【0051】

    【外3】

    【0052】s個のレジスタの値を成分とするベクトルである。 また、u jiはi番目のレジスタからの再帰値に対するj番目の隠れ素子の入力重みであり、 外4
    (以後、

    【0053】

    【外4】

    【0054】ベクトルu jと記す)は、それらの入力重みを成分とするベクトルである。 θ jはj番目の隠れ素子のロジスティック関数のバイアスであり、一般的にはしきい値と呼ばれている。 以上の表記法を用いて、CS
    SRNN19のパラメータセットを表記するとΦ=
    {(w j ,θ j ,ベクトルu j ):(j=1,...,
    m)}となる。 この場合、パラメータセットの次元 dim
    (Φ)は(s+2)mとなる。 また、

    【0055】

    【数4】

    【0056】で定義される 外5 (以後、O (t,s)バーと記す)を、時刻tにおけるCSS

    【0057】

    【外5】

    【0058】RNN19の内部状態と呼ぶことにする。
    内部状態O (t,s)バーの更新は、各コラム毎に行われる。 まず、(2)式により各隠れ素子の時刻tの出力O
    j (t) (j=1,...,m)を計算する。 次に、レジスタ内の値O j (t-1) ,. . . ,O j (ts)をシフトして、O j (t)を先頭のレジスタ52−j−1に保存する。 この際、レジスタ52−j−s内にある最も古い時刻の出力値O j (ts)が廃棄される。 そして、各コラムのレジスタ内の値はO j (t-1) ,. . . ,O j (ts)からO j (t) ,. . . ,O j (t-s+1)に更新される。 内部状態の更新は、各コラムにおいて時刻t+1までに終了する。

    【0059】このようなコラム構造を用いることにより、CSSRNN19の各々の隠れ素子に、その隠れ素子自身の過去における出力履歴を時間の序列を保持したままで再帰させることができる。 したがって、各コラムの再帰情報の独立性が保証される。

    【0060】こうして、時刻t=1,2,. . . 毎に観測値x (t)が新しく入力されると、CSSRNN19は状態をO (t,s)バーからO (t+1,s)バーに更新する。 このネットワークの内部状態O (t,s)バーから、時刻tにおけるxの予測密度関数および時刻tにおけるxの予測値(時刻t+1の入力に対する予測値)が計算できる。
    予測密度関数は、ネットワークの内部状態によって定義されたエネルギー関数から導くことができる。 このエネルギー関数は、各隠れ素子に対して隠れ変数h j
    {0,1}(j=1,...,m)を導入し、隠れ素子の出力を隠れ変数の値が1となる確率と解釈することにより定式化できる。 h jは0または1の離散値をとるため、離散変数と呼ぶこともできる。 x (t)に対する確率密度を表す予測確率密度関数を、隠れ変数h jを用いて表すと、

    【0061】

    【数5】

    【0062】となる。 ここで、Z (t)は、

    【0063】

    【数6】

    【0064】で与えられる正規化係数であり時間と共に変化する。 (3)式の予測確率密度関数は、複数のガウス確率密度関数を混合したものである。 例えば、隠れ素子1個からなるCSSRNN19(m=1)を考えると、予測確率密度関数は、(3)式より、

    【0065】

    【数7】

    【0066】となる。 (5)式の予測確率密度関数は、
    2個のガウス密度関数の合成関数である。 この場合、x
    (t) =0にピークを持つ1番目のガウス密度関数に対する重みは1/Z (t)であり、x (t) =w 1にピークを持つ2番目のガウス密度関数に対する重みは、

    【0067】

    【数8】

    【0068】となる。 同様にして、m個の隠れ素子からなるCSSRNN19が表現する確率密度関数は2 m個のガウス密度関数を合成したものになる。 各ガウス密度関数に対する合成の重みは、

    【0069】

    【数9】

    【0070】の関数となる。 一方、O j (tk)は、
    (2)式およびベクトルO j (t,s)の定義式より、入力x (t-1) ,. . . ,x (1)の値に依存しているので、合成の重みは入力x (t-1) ,. . . ,x (1)の変化によって変化する。 これは、事前の入力により予測確率密度関数の形状が変化することを意味しており、このことを用いて不連続トレンドの推定が可能になる。

    【0071】予測確率密度関数の微分から、トレンドの予測に必要な非線形方程式が得られ、

    【0072】

    【数10】

    【0073】となる。 (3)式および(6)式の導出方法については、後に詳しく説明する。 図7の非線形方程式求解装置18は、予測確率密度分布および予測値の計算を遂行する装置である。 非線形方程式求解装置18
    は、目標関数の零点を求める零点算定装置41、予測値選択装置42、目標関数評価装置43、正規化係数算定装置44、確率密度算定装置45からなる。

    【0074】(6)式から、目標関数TG(x)を、

    【0075】

    【数11】

    【0076】とおくことができる。 TG(x)=0となるxの値が(6)式の解となり、(3)式の予測確率密度の極大値を与える値に対応する。 零点算定装置41
    は、区間分割と単純な囲い込み法を繰り返して、目標関数の零点を与える変数xの値x 1 peak ,. . . ,x k
    peakを近似的に同定する。 このとき、必要に応じて変数値xを目標関数評価装置43に与えて、(7)式のTG
    (x)の値を計算させる。

    【0077】予測値選択装置42は、予測確率密度関数の極大値を与える変数値x 1 peak ,. . . ,x k peakの中で最大の極大値を与える変数値を選択する。 このとき、予測値選択装置42は、確率密度算定装置45と通信することで予測値の候補x 1 peak ,. . . ,x k peak
    に対する確率密度関数値v 1 peak ,. . . ,v k peakを得る。 これらの値から高速なソーティング法を用いて、
    確率密度関数の最大値を与えるx maxを求める。 予測値の候補が少ない場合は、確率密度関数値の単純な比較によって選択することが可能である。 また、確率密度が2
    つ以上の異なる変数値において最大値を取る場合は、それらの変数値の上で一様な確率分布を用いて、確率的にどれか1つを選択し、x maxとする。 こうして選択された変数値x maxが、次の入力の予測値x (t)ハットとして出力される。

    【0078】目標関数評価装置43、正規化係数算定装置44、確率密度算定装置45の3つの装置は、その構成および動作がCSSRNN19の内部状態に深く根ざしている。 これらの各装置について、図9から図11までを参照しながら詳しく説明する。

    【0079】図9は、目標関数評価装置43の構成を示している。 目標関数評価装置43は、CSSRNN19
    からの{ベクトルu j ,ベクトルO j (t,s) }(j=
    1,. . . ,m)と零点算定装置からの変数値xを入力として処理し、TG(x)を計算する。 そのために、目標関数評価装置43は、CSSRNN19に対応するコラム構造を持つ内部状態情報変換器61、および加算器(Σ)64、65を備える。 内部状態情報変換器61
    は、加算器62−1、62−2、・・・、62−mとロジスティック関数演算器(Logistic)63−1、63−
    2、・・・、63−mを備え、各加算器62−jとロジスティック関数演算器63−jがj番目のコラムを形成している。 図9において、矢印で表した各データ経路に付加された変数および定数は、その値を経路上のデータに乗算することを意味している。 記号の付加されていない経路を伝播するデータの値は、伝播の途中で変化することはない。

    【0080】各加算器62−jは、あらかじめセットされた重み係数w jを入力xに乗じ、その結果にしきい値θ jとベクトルの内積(ベクトルu j・ベクトルO j
    (t,s) )を加えて、ロジスティック関数演算器63−j
    に入力する。 ロジスティック関数演算器63−jは入力された値y jからLG(y j )を計算し、内部状態情報変換器61は、さらにそれらの出力LG(y j )(j=
    1,. . . ,m)にw jを乗じた値を出力とする。 次に、加算器64は、内部状態情報変換器61のm個の出力の総和を求める。 加算器65は、零点算定装置41から入力された変数値xから加算器64の出力を差し引いて、その結果を目標関数評価装置43の出力とする。

    【0081】図10は、正規化係数算定装置44の構成を示している。 正規化係数算定装置44は、(4)式のZ (t)を計算する装置であり、CSSRNN19に対応するコラム構造を持つ内部状態情報変換器71、2値ベクトル生成器73、ベクトル乗算器74、ベクトル加算器75、ノルム算定器76、加算器77、指数関数計算器(exp)78、累積型加算器79、逆数演算器(r
    ecip)80を有する。 2値ベクトル生成器73、ベクトル乗算器74、およびベクトル加算器75は、CS
    SRNN19の隠れ素子に割り付けた隠れ変数h 1 ,. . . ,h mに関係する計算を遂行する。 2値ベクトル生成器73は、0または1の値をとるm個の隠れ変数h 1 ,. . . ,h mを1つの隠れ変数ベクトル 外6 (以後、ベクトルhと記す)の成分として、2 m個の可能なベクトルh i (i=1,...,

    【0082】

    【外6】

    【0083】2 m )を全て生成する。 2値ベクトル生成器73は、隠れ変数ベクトルを生成することにより、
    (4)式を計算する一連の操作の流れを統括する。 内部状態情報変換器71は、加算器72−1、72−2、・
    ・・、72−mを備え、各加算器72−jがj番目のコラムを形成している。 そして、各加算器72−jがしきい値θ jと内積(ベクトルu j・ベクトルO j (t,s)
    を加えて出力する。 内部状態情報変換器71の出力は、
    ベクトル(ベクトルu 1・ベクトルO 1 (t,s)
    θ 1 ,. . . ,ベクトルu m・ベクトルO m (t,s) +θ
    m )となる。 正規化係数算定装置44の1回の呼び出しについて、内部状態情報変換器71は1度だけ起動され、CSSRNN19の内部状態に関する情報を出力する。 その出力結果は、ベクトル乗算器74の一方の入力として保存される。 ベクトル乗算器74は、隠れ変数ベクトルh i (i=1,...,2 m )とCSSRNN1
    9の内部状態情報のベクトルを入力として、それらの内積

    【0084】

    【数12】

    【0085】を計算し、出力する。 ここで、各隠れ変数ベクトルをベクトルh i =(h i1 ,...,
    ij ,. . . ,h im )と表記する。 ベクトル加算器75
    は、CSSRNN19の入力重み係数w 1 ,. . . ,w
    mと各隠れ変数ベクトルh i (i=1,...,2 m
    から

    【0086】

    【数13】

    【0087】を計算する。 ノルム算定器76は、(8)
    式のノルム(絶対値)の2乗を算定し、その値に1/2
    を乗じて、

    【0088】

    【数14】

    【0089】の値が計算される。 その結果は、加算器7
    7によりベクトル乗算器74の出力値に加算され、指数関数計算器78に入力される。 指数関数計算器78は、

    【0090】

    【数15】

    【0091】の値を計算し、その結果を累積型加算器7
    9に渡す。 以上の操作を2 m個の各隠れ変数ベクトルh
    iについて繰り返すことで、(4)式の右辺のベクトルh (t)に関する総和が計算される。 累積型加算器79
    は、全ての隠れ変数ベクトルについての総和を求め、逆数演算器80は、累積型加算器79の出力に(2π)
    1/2を乗じて、その逆数を求める。 こうして、正規化係数算定装置44からは(4)式のZ (t)の逆数が最終的に出力される。

    【0092】図11は、確率密度算定装置45の構成を示している。 時刻tにおいて、確率密度算定装置45
    は、予測値選択装置42から予測値の候補x=
    1 peak ,. . . ,x k peakを受け取り、これらの値に対する時刻tの予測確率密度関数の値v 1 peak ,. . . ,v k peakを出力する。 時刻tにおける予測確率密度関数は(3)式で与えられ、確率密度算定装置45は、CSSRNN19に対応するコラム構造を持つ内部状態情報変換器81、乗算器(П)84、指数関数計算器85、およびノルム算定器86を有する。
    内部状態情報変換器81は、加算器82−1、82−
    2、・・・、82−mと指数関数計算器(1+exp)
    83−1、83−2、・・・、83−mを備え、各加算器82−jと指数関数計算器83−jがj番目のコラムを形成している。

    【0093】各加算器82−jは、予測値選択装置42
    からの入力値x、CSSRNN19の入力重み係数w j 、しきい値θ j 、およびCSSRNN19のj番目のコラムの内部情報である内積値(ベクトルu j・ベクトルO j (t,s) )から、w j x+ベクトルu j・ベクトルO j (t,s) +θ jを求める。 また、各指数関数計算器83−jは、加算器82−jの出力から1+exp(w
    j x+ベクトルu j・ベクトルO j (t,s) +θ j )の値を計算する。 ノルム算定器86は入力値xのノルムの2
    乗を計算し、指数関数計算器85は、その値を用いて入力xの分布N(0,1)の密度関数における値exp
    (−|x| 2 /2)を求める。 乗算器84は、内部状態情報変換器81のm個の指数関数計算器の出力を積算し、さらに正規化係数算定装置から受け取る1/Z (t)
    と指数関数計算器85から受け取る正規分布密度関数値exp(−|x| 2 /2)を積算する。 ただし、N
    (0,1)は平均値0、分散1の正規分布を表す。 このようにして、(3)式のx (t)にx 1 pe ak ,. . . ,x
    k peakをそれぞれ代入した時の各p(x (t) |Ф,O
    (t,s)バー)の値v 1 peak ,. . . ,v k peakが計算され、予測値選択装置42に出力される。

    【0094】以上の実施形態において、評価関数算定装置33が計算する評価関数 merit(S|Φ)は、必ずしも(1)式の形式の平均2乗誤差である必要はない。 例えば、時系列データとCSSRNNの内部状態により決まる予測確率密度関数の対数尤度であってもかまわない。 その場合、評価関数は、

    【0095】

    【数16】

    【0096】と書ける。 ランダムシンプレックス法とシミュレーティド・アニーリング法を用いる図5のネットワーク学習装置16において、評価関数を(9)式のように置き換えたとしても、学習アルゴリズムの基本動作は変わらない。

    【0097】また、時系列データxをy=(x−m)/
    σと変換して、平均値の平行移動と分散の変更が可能なモデルを用いることもできる。 この場合、基底の個数と分散のトレードオフおよび分散の推定が必要となるが、
    その方法は容易である。

    【0098】さらに、本実施形態においては、1次元入カデータに対する変化トレンドの推定を行っているが、
    この推定処理は多次元にもそのまま拡張可能であり、モデルの解釈法などの変更はない。

    【0099】次に、(3)式および(6)式の導出方法について説明する。 一般に、隠れ素子数m個、各隠れ素子に対するレジスタ数s個を有するCSSRNNを考える。 また、入力データの次元はd次元とする。 このとき、入力重み変数もまたd次元となる。 (3)、(6)
    式ではd=1と置いた場合を考えている。

    【0100】CSSRNNの各隠れ素子に確率変数h j
    ∈{0,1}(j=1,...,m)を割り付ける。 これらを隠れ変数と呼び、ベクトルh=(h 1 ,...,
    m )で表現する。 時刻tのCSSRNNのd次元の入力 外7 (以後、ベクトル

    【0101】

    【外7】

    【0102】x (t)と記す)と隠れ変数ベクトルh (t)
    とを合わせて、時系列解析系の状態(ベクトルx (t)
    ベクトルh (t) )と呼ぶことにする。 CSSRNNの内部状態O (t,s)バーおよびパラメータセットФから状態(ベクトルx (t) ,ベクトルh (t) )のエネルギー関数を次式で定義する。

    【0103】

    【数17】

    【0104】このエネルギー関数から、状態(ベクトルx (t) ,ベクトルh (t) )の条件付き確率を次式で定義する。

    【0105】

    【数18】

    【0106】ここで、

    【0107】

    【数19】

    【0108】である。 (11)式の条件付き確率から、
    ベクトルx (t) 、ベクトルh (t)それぞれの条件付き確率を導くことができる。 まず、全ての隠れ変数ベクトルh (t)上の総和を計算することで、(11)式からベクトルh (t)を消去すると、

    【0109】

    【数20】

    【0110】を得る。 (12)式にd=1を代入すると(3)式が得られる。 また、ベクトルx (t)に関して(11)式を積分することで、ベクトルx (t)を消去すると、

    【0111】

    【数21】

    【0112】を得る。 ここで、h j (t)はベクトルh
    (t)のj番目の成分である。 次に、ベイスの法則により(11)式と(12)式から条件付き確率

    【0113】

    【数22】

    【0114】が求められる。 ここで、

    【0115】

    【数23】

    【0116】である。 (14)式の右辺の帰結の式において、各隠れ変数に関する確率が積の形で含まれることより、明らかに各隠れ変数の独立性を仮定することができる。 そこで、(15)式を用いて、

    【0117】

    【数24】

    【0118】を導くことができる。 (16)式の右辺は入力ベクトルx (t)に対するj番目の隠れ素子の出力を表しており、同時にまた、隠れ変数h j (t)が1である条件付き確率を与えている。 実際、入力ベクトルx (t)
    の次元が1次元である場合には、(16)式の右辺は(2)式の右辺に一致する。 このとき、(2)式のO j
    (t )は、h j (t) =1に対応する時系列データx (t)の確率密度を与える。 したがって、(16)式から、CS
    SRNNの内部状態の解釈と時系列データとの関係が明らかになる。 また、(14)式において各隠れ変数の独立性を仮定することは、CSSRNNのコラム間で情報の交換をしないことと対応している。

    【0119】次に、学習により最適なパラメータセットが見つかったと仮定する。 このとき、予測装置17は、
    予測確率密度関数p(ベクトルx (t) |Φ,O (t,s)バー)を用いて時刻tの予測を行う。 具体的には、最も確からしいベクトルx (t)の予測値として、確率密度関数のピークに対応する値を選ぶ。 そこで、微分方程式

    【0120】

    【数25】

    【0121】を満たすベクトルx (t)を予測値とする。
    (17)式は、

    【0122】

    【数26】

    【0123】と等価である。 ここで、(12)式のp
    (ベクトルx (t) |Φ,O (t,s)バー)を(18)式に代入して、予測方程式となる非線形方程式

    【0124】

    【数27】

    【0125】を得る。 入力ベクトルx (t)の次元が1次元である場合には、(19)式は(6)式に一致する。
    次に、図12から14までを参照しながら、図3の時系列トレンド推定システムの動作フローを説明する。

    【0126】図12は、時系列トレンド推定システムの全体処理のフローチャートである。 図12においてシステムが立ち上げられると、まず、あらかじめ決められた初期設定に基づいて制御装置11が起動される(ステップS21)。 表示・対話装置12およびシステム管理装置13は入力待ち状態となり(ステップS22)、クライアントからの要求が入力されると(ステップS2
    3)、システム管理装置13は、まず観測対象の変更要求があるかどうかを判定する(ステップS24)。

    【0127】変更要求があれば、観測対象を変更して時系列データのを収集を開始し(ステップS25)、次に学習アルゴリズムの変更要求があるかどうかを判定する(ステップS26)。 変更要求があれば、指定された項目を修正して必要な計算機資源を確保し(ステップS2
    7)、次にCSSRNN19の規模の変更要求があるかどうかを判定する(ステップS28)。 変更要求があれば、CSSRNN19の規模を修正して必要な計算機資源を確保し(ステップS29)、次に予測装置17の設定変更要求があるかどうかを判定する(ステップS3
    0)。 ステップS24で変更要求がなければステップS
    26の処理に移り、ステップS26で変更要求がなければステップS28の処理に移り、ステップS28で変更要求がなければステップS30の処理に移る。

    【0128】ステップS30で変更要求があれば、予測装置17の設定を変更して再起動し(ステップS3
    3)、次に学習装置14の設定変更要求があるかどうかを判定する(ステップS34)。 ステップS30で変更要求がなければ、予測装置17が起動されているかどうかを調べ(ステップS31)、起動されていればステップS34の処理に移る。 予測装置17が起動されていなければ、それを起動して(ステップS32)、ステップS34の処理に移る。

    【0129】ステップS34で変更要求があれば、学習装置14の設定を変更して再起動し(ステップS3
    7)、次に観測データの提示要求があるかどうかを判定する(ステップS38)。 ステップS34で変更要求がなければ、学習装置14が起動されているかどうかを調べ(ステップS35)、起動されていればステップS3
    8の処理に移る。 学習装置14が起動されていなければ、それを起動して(ステップS36)、ステップS3
    8の処理に移る。 ステップS38で提示要求があれば、システム管理装置13は、観測データを観測装置1
    5から表示・対話装置12に転送し(ステップS3
    9)、次に予測データの提示要求があるかどうかを判定する(ステップS40)。 提示要求があれば、予測装置17を呼び出して予測データを受け取り、表示・対話装置12に転送して(ステップS41)、次に学習の開始要求があるかどうかを判定する(ステップS42)。 要求があれば、学習装置14を呼び出して学習を行わせ、
    予測装置17のパラメータセットを更新して(ステップS43)、入力待ち状態となる(ステップS22)。 ステップS38で提示要求がなければステップS40の処理に移り、ステップS40で提示要求がなければステップS42の処理に移り、ステップS42で要求がなければステップS22で入力待ち状態となる。

    【0130】学習装置14は、制御装置11からの呼び出しに応じて処理を開始する。 図13は、学習装置14
    の処理のフロ一チャートである。 図13において学習装置14が立ち上げられると、まず制御装置11からの呼び出しがあるまで待機状態となる(ステップS51)。
    呼び出しがあると、学習装置14は、学習アルゴリズムのパラメータの変更要求があるかどうかを判定する(ステップS52)。 変更要求があれば、新しい設定パラメータを受け取って学習アルゴリズムを更新し(ステップS53)、次に学習基準の変更要求があるかどうかを判定する(ステップS54)。 変更要求があれば、新しい学習基準を受け取ってこれまでの学習基準を更新し(ステップS55)、次に時系列データの学習要求があるかどうかを判定する(ステップS56)。 ステップS52
    で変更要求がなければステップS54の処理に移り、ステップS54で変更要求がなければステップS56の処理に移り、ステップS56で学習要求がなければステップS51で待機状態となる。

    【0131】ステップS56で学習要求があれば、i=
    1とおいて(ステップS57)、パラメータセットΦの次元である dim(Φ)次元の空間のランダムな1点Φ
    (i) in itを生成する(ステップS58)。 次に、Φ (i)
    initから初期値シンプレックスSL (i) (0)を生成する(ステップS59)。 次に、予測装置17を呼び出してSL (i) (0)の各頂点のΦの値と時系列データ{x 1 ,. . . ,x N }を与え、対応する予測値列{x
    1ハット,. . . ,x Nハット}を受け取る(ステップS60)。 そして、SL (i) (0)の各頂点に対する評価関数 merit(S|Φ)の値を計算する(ステップS6
    1)。

    【0132】次に、j=1とおいて(ステップS6
    2)、制御温度T (j)において評価関数の極小値を与えるパラメータセットを、シンプレックスSL (i) (j-1)
    から出発して、滑降シンプレックス法とN r回の酔歩の試行により探索する(ステップS63)。 このとき、シンプレックスの収縮過程で新しく生成する頂点の評価関数の値を、予測装置17と通信しながら計算する(ステップS64)。 そして、新しく得られたシンプレックスをSL (i) (j)とする。

    【0133】次に、T (j)とアニーリングの最終到達温度T minとを比較する(ステップS65)。 T (j)がT
    minより高ければ、j=j+1とおき(ステップS6
    6)、T (j) =κT (j-1)とおいて温度を下げる(ステップS67)。 ここで、0<κ<1である。 そして、ステップS63以降の処理を繰り返す。 ステップS65でT (j)がT min以下になれば、そのときのシンプレックスSL (i) (j)の各頂点の内で評価関数が最小となる点を求め、それを局所最適パラメータセットΦ (i) resとして保存する(ステップS68)。

    【0134】次に、iをアニーリングの試行回数N aと比較し(ステップS69)、iがN aに達していなければ、i=i+1とおいて(ステップS70)、ステップS58以降の処理を繰り返す。 ステップS69でiがN
    aに達すると、得られたN a個のΦ (i) res (i=
    1,. . . ,N a )の中から、評価関数が最小となるものを最適パラメータセットとして選択する(ステップS
    71)。 そして、その最適パラメータセットをCSSR
    NN19にセットして(ステップS72)、待機状態に戻る(ステップS51)。

    【0135】予測装置17は、学習モードにおいては学習装置14から呼び出され、予測モードにおいては制御装置11から呼び出される。 両モードに置ける予測装置17の基本的な動作は同じであり、観測データの供給元と予測結果の出力先が異なるだけである。 図14は、予測装置17の処理のフロ一チャートである。

    【0136】図14において予測装置17が立ち上げられると、まず制御装置11または学習装置14からの呼び出しがあるまで待機状態となる(ステップS81)。
    呼び出しがあると、予測装置17は、CSSRNN19
    のパラメータセットの変更要求があるかどうかを判定する(ステップS82)。 変更要求があれば、新しいパラメータセットを受け取り、これまでのパラメータセットを更新して(ステップS83)、次に予測の要求があるかどうかを判定する(ステップS84)。 ステップS8
    2で変更要求がなければステップS84の処理に移り、
    ステップS84で予測要求がなければステップS81で待機状態となる。

    【0137】ステップS84で予測要求があれば、CS
    SRNN19の内部状態O (t,s)バーをセットし(ステップS85)、t=1とおいて予測を開始する(ステップS86)。 まず、非線形方程式(6)を解いて時系列データの予測値x (t)ハットを求め(ステップS8
    7)、予測結果として出力する(ステップS88)。 次に、時刻tにおける真値x (t)を読み込み(ステップS
    89)、CSSRNN19を駆動して内部状態O (t,s)
    バーをO (t+1,s)バーに更新する(ステップS90)。
    次に、tが時刻の上限値Nを越えたかどうかを判定し(ステップS91)、Nを越えていなければ、t=t+
    1とおいて(ステップS92)、ステップS87以降の処理を繰り返す。 そして、ステップS91でtがNを越えれば、予測を終了し(ステップS93)、待機状態に戻る(ステップS81)。

    【0138】次に、図3の時系列トレンド推定システムによるデータ変化のトレンドの推定例について説明する。 以下では、記述の簡便さを図って、m個の隠れ素子を有し、各隠れ素子にそれぞれs個のレジスタが割り付けられているCSSRNNをhmrs−NNと表記する。 隠れ素子に割り付けられたレジスタの数sは、文脈層の深さを表す。 例えば、隠れ素子2個、各隠れ素子毎のレジスタ数が1個のCSSRNNは、h2r1−NN
    と表される。

    【0139】まず、区分的に定常となるデータにおけるトレンド推定結果について説明する。 区分的に定常な時系列生成装置(不図示)から生成された次のような時系列を、予測の対象として選ぶ。

    【0140】

    【数28】

    【0141】ただし、N(μ,σ 2 )は、平均μ、分散σ 2のガウス密度関数を表す。 (20)式により生成される時系列の例は図15に示されている。 図15の時系列において、時刻tの4つの区間1≦t≦50、51≦
    t≦100、101≦t≦150、151≦t≦200
    の境界における平均値の不連続な切り替わりがデータの跳躍トレンドとして現れていることが伺える。 このような不連続な跳躍トレンドを時系列トレンド推定システムにより予測する。 このとき、最適パラメータセットの決定に用いられる学習データと、予測結果と比較するテストデータは、(20)式に従ってそれぞれ個別に生成されるものとする。

    【0142】h2r1−NNまたはh2r10−NNを備えるシステムに、図15の時系列を学習データとして与えて学習させ、未知のテストデータに対するそれぞれのシステムによる予測結果を求める。 h2r1−NN、
    h2r10−NNによる予測結果は、それぞれ図16、
    17のようになる。 図16、17において、実線はCS
    SRNNが予測した結果を表し、破線は時系列生成装置が実際に生成したテストデータを表す。

    【0143】これらの結果を見ると、確かに跳躍型のトレンドがうまく予測されていることが分かる。 しかし、
    支脈層の規模が小さいh2r1−NNの場合は、交替現象とノイズの振幅の揺らぎとがうまく分割できていない。 図16において、351≦t≦400の区間にある予測値D1は、周期的なトレンドから逸脱している。 これに対して、図17のh2r10−NNの場合はこうした予測値の逸脱がなく、より正確にトレンドを予測しているといえる。 このように、交替現象の追従にある程度のロバスト性(ノイズ等に引き摺られない強靱さ)を持たせるためには、文脈層の規模をある程度の大きさに設定する必要がある。

    【0144】次に、異常値を含む時系列データに対するトレンドの推定結果について説明する。 ノイズの摺らぎでは説明できない極端な偏差として、異常値の問題がある。 図18は、異常値が混入している跳躍型トレンドの時系列を示している。 図18の時系列は、基本的なデータを(20)式を用いて生成し、その上に異常値E1、
    E2、E3、E4を加算することにより得られる。 これらの異常値は、発生間隔がポアソン分布に従うように生成される。 またそれらの値は平均10、分散0.5の正規分布に従って生成され、確率1/2で正値として、また確率1/2で負値として跳躍型トレンドの時系列に加重されるものとする。 こうした異常値を生成する確率に関する情報は、時系列推定システムには全く与えられない。 ここで、異常値とは、例えば正規分布を仮定するなら、その平均値からの逸脱が大きく出現確率がほぼ0であるといえるような値のことである。

    【0145】CSSRNNとしてh2r1−NN、h2
    r10−NN、およびh10r10−NNを選び、それらを備えるシステムにそれぞれ図18に示した時系列を学習させる。 そして、それらのシステムによる予測結果を、図18と同様の機構で生成された別のデータでテストした結果をそれぞれ図19、20、21に示す。 図1
    9、20、21において、データE5、E6、E7、E
    8、E9、E10、E11、E12、E13、E14、
    E15、E16、E17、E18は、テストデータの異常値を表す。

    【0146】図19のh2r1−NNの場合は、予測値における異常値はD2、D3、D4、D5、D6、D
    7、D8、D9、D10、D11の10個である。 これらの異常な予測値は、それぞれ直前のテストデータの異常値E6、E7、E10、E12、E13、E14、E
    15、E16、E17、E18の影響を受けて生成されたものと考えられる。 これに対して、図20のh2r1
    0−NNの場合は、予測値における異常値はD12、D
    13、D14、D15、D16の5個だけである。 さらに、図21のh10r10−NNの場合は、予測値における異常値はD17のみとなっている。 図21において、予測値のトレンドが小刻みに上下しているのは、多数の隠れ素子により離散値がより細かく表現されることに起因する。 これらの結果より、CSSRNNにおいて回路の規模を大きくすると、より大きなロバスト性を実現できることがわかる。 したがって、本発明のシステムを用いれば、時系列の異常値が存在していても不連続トレンドを的確に推定することができる。

    【0147】次に、時系列SとパラメータセットΦにより決まるモデルとの適合度を測る関数 merit(S|Φ)
    (最小2乗法や最尤推定法等における評価関数)を用いて、CSSRNNを予測フィルタとして構成した時に、
    時系列の性質がどのように内部表現として獲得されるのかを考える。

    【0148】まず、隠れ変数ベクトルとガウス密度関数の関係について考察する。 CSSRNNの隠れ変数ベクトルh (t)と入力ベクトルx (t)上において、同時密度関数p(ベクトルx (t) ,ベクトルh (t) |Φ,O
    (t,s)バー)が(11)式により定義される。 この同時密度関数から導かれるベクトルx (t)の周辺密度p(ベクトルx (t) |Φ,O (t,s)バー)とベクトルh (t)の周辺分布関数P(ベクトルh (t) |Φ,O (t,s)バー)
    の間には、ガウス密度関数を基底とする線形関係がある。 このことは、以下の考察から容易に分かる。

    【0149】時刻tにおけるCSSRNNの隠れ変数ベクトルの予測分布は、(13)式のP(ベクトルh (t)
    |Φ,O (t,s)バー)によって決まる。 CSSRNNが表現する事象は、隠れ変数ベクトルが確率的に重なった状態である。 以後、表現上の簡約のため、予測における隠れ変数ベクトルの確率的重ね合わせのことを様相と呼ぶことにする。 (13)式は、可能な全ての隠れ変数ベクトルの集合上で定義され、それらの重率を予測する式である。

    【0150】ここで、隠れ変数ベクトルを要素表示するとともに、各要素に非負整数を指標として割り当てる。
    隠れ素子の個数をmとすると、2 m個の隠れ変数ベクトルは、

    【0151】

    【数29】

    【0152】のように表記される。 例えば、m=2のときは、隠れ変数ベクトルはベクトルh (0) =(0,
    0)、ベクトルh (1) =(1,0)、ベクトルh (2)
    (0,1)、ベクトルh (3) =(1,1)の4つである。

    【0153】時刻tにおける入力ベクトルの予測分布は、(12)式より、

    【0154】

    【数30】

    【0155】と書き換えられる。 ここで、 外8 (以後、ベクトルw jと記す)はj番目の

    【0156】

    【外8】

    【0157】隠れ素子の入力重みベクトルであり、

    【0158】

    【数31】

    【0159】である。 これは、平均値

    【0160】

    【数32】

    【0161】、分散1のガウス密度関数である(以後、
    形式的に

    【0162】

    【数33】

    【0163】と表記する)。 (22)式は、(13)式を用いて次のように書き換えることができる。

    【0164】

    【数34】

    【0165】ここで、

    【0166】

    【数35】

    【0167】である。 (23)式は、入力ベクトルの予測密度関数と隠れ変数ベクトルにより指定されるガウス密度関数の線形結合で表現されている。 その結合係数は、対応する隠れ変数ベクトルの予測分布である。 したがって、これらの結合係数はCSSRNNの内部状態の非線形関数になる。 各隠れ変数ベクトルh (i)
    (h i1 ,...,h im )を入力ベクトル空間上のガウス密度関数に対応させる写像

    【0168】

    【数36】

    【0169】は、各隠れ素子の重みの集合{ベクトルw
    1 ,. . . ,ベクトルw m }によって決まる。 CSS
    RNNとして、隠れ素子2個で入力ベクトルの次元が1
    の場合を考える。 隠れ素子の入力重みをそれぞれw 1
    2とすると、各隠れ変数ベクトルに対して基底となるガウス密度関数は、それぞれ、

    【0170】

    【数37】

    【0171】となる。 今、仮に隠れ変数ベクトルの時刻tにおける予測分布が次のように求められたとする。

    【0172】

    【数38】

    【0173】このとき、(23)式により入力x (t)の予測分布は、

    【0174】

    【数39】

    【0175】となる。 この場合、およそN(w 1 ,1)
    に近い形状の分布となることが分かる。 一般に、時刻t
    における入力x (t)の予測密度の形状は、入力重み間の距離や基底となるガウス密度関数に対する重みに応じて変わる。 予測密度関数のすそが広がることもあれば、いずれの基底関数のピーク(平均値)に対しても予測密度関数のピークとの間に偏差があることもある。 また、予測密度関数のピークが多数個あることもあり、その他にも様々に変化し得る。 隠れ変数ベクトルの予測分布が、
    特定の隠れ変数ベクトルh (i)だけに極端に偏る場合は、入力に対する予測密度関数はN(Σh ij・ベクトルw j ,1)にほぼ一致する。 このとき、その平均値Σh
    ij・ベクトルw jは、h ij =1となる隠れ素子の入力重みベクトルw jにより決められることになる。

    【0176】上述のような関係を急激なトレンド変化を伴う時系列の予測実験に利用してみる。 まず、次式に示す平均値移動型の時変ガウス分布により時系列Sを生成する。

    【0177】

    【数40】

    【0178】そして、隠れ素子が2個、各隠れ素子に割り付けられたレジスタが1個のh2r1−NNを時系列Sに適合させる。 そのために、負値対数尤度により定義された(9)式の merit(S|Φ)を最小にするパラメータΦ opt ={w 1 ,θ 1 ,u 1 ,w 2 ,θ 2 ,u 2
    を、数値的最適化法により見つける。 適当なパラメータが選択されると、それをΦ optとしてh2r1−NNを構成し、図22に示すテスト用の時系列の予測を行う。
    このときの予測の対象は、刻々と入力されるテストデータの次の時刻の入力値である。 h2r1−NNの内部状態の更新は、実際に入力される観測値を用いて行う。 このような設定は、オープンループと呼ばれる。 図23
    は、h2r1−NNによる予測結果を示している。 図2
    3の予測値は、入力x (t)の予測分布のピークに対応している。 図22と図23を比較すると、h2r1−NN
    はほぼ正確に時系列のトレンドの不連続な切り替えを追跡し、各トレンドをうまく予測していることが分かる。
    予測密度全体の時間的変化(予測密度関数列)は図24
    に示されている。 図24において、入力値xの予測確率密度Pが時間tの経過とともに変化する様子が示されている。 各時刻の予測確率密度Pのピークに対応するxの値を予測値としてプロットしたものが図23である。

    【0179】ここで、CSSRNNが時系列Sのどのような性質をその内部表現として獲得しているかを考察する。 まず、h2r1−NNの各隠れ変数ベクトルの予測分布と入力の予測分布との関係を定性的に説明するために必要な情報として、予測に用いたh2r1−NNの最適パラメータセットを図25に示す。 図25の各パラメータの値から、隠れ変数ベクトルとガウス密度関数との対応関係が、

    【0180】

    【数41】

    【0181】となることが分かる。 次に、h2r1−N
    Nが予測する隠れ変数ベクトルh (0) =(0,0)、ベクトルh (1) =(1,0)、ベクトルh (2) =(0,
    1)、ベクトルh (3) =(1,1)に対する確率密度を、それぞれ図26、27、28、29に示す。 図23
    の時系列のトレンド予測と図24の予測密度全体の変化、および図26から図29までの各隠れ変数ベクトルの予測分布を比較検討すると、次のようなことが言える。

    【0182】N(1,1)から生成される時系列の区間では、隠れ変数ベクトルh (1)の予測分布が係数の中で主項となり、予測密度の形状は主にN(1.0269
    6,1.0)によって形作られる。 また、時系列Sに対してh2r1−NNが隠れ変数ベクトルの予測として適切な様相を実現するために、無視できない割合でベクトルh (0)の分布N(0.0,1.0)が重なり合うようなパラメータが選ばれている。 このため、予測密度関数の負方向のすそが広がり、そのピークがN(1.026
    96,1.0)のピークからxの負方向にずれていることが分かる。 ここで、適切な様相を実現することは、入力に対する予測密度から計算される負値対数尤度を最小にすることを意味する。

    【0183】N(−1,1)から生成される時系列の区間では、隠れ変数ベクトルh (2)の予測分布が係数の中で主項となり、予測密度の形状は主にN(−1.108
    53,1.0)によって形作られる。 N(−0.081
    57,1.0)の重みが無視できるほど小さくないので、予測密度関数の正方向のすそが広がり、そのピークがN(−1.10853,1.0)のピークからxの正方向にずれていることが分かる。

    【0184】以上の議論は、(23)式により理論的に裏付けられている。 この実験結果から次のような解釈が得られる。 時系列Sに対してCSSRNNの最適なパラメータとは、CSSRNNによって表現可能な予測密度関数列の中から尤もらしい関数列を生成するものである。 最適なパラメータを設定することにより、CSSR
    NNは時系列Sの背後にある法則性(例えば、トレンドの切り替えなど)を相異なる様相から様相への変化として表現する。 時系列S自体は、様相の列によって指定された予測密度関数列により記述される。

    【0185】実験結果においては、CSSRNNの予測密度関数のモードによってトレンドが表現されている。
    ここで、モードとは、ある時刻における予測密度関数の最大ピークに対応するデータ値(最頻値)を指す。 図2
    6、27、28、29から明らかなように、様相としては大きく2つに大別される。 大別された各様相を1つのガウス密度関数基底N(Σh ij・ベクトルw j ,1)によって高い精度で近似できるならば、そのガウス密度関数が1つのトレンドを近似的に表現する。 この場合、そのトレンドはCSSRNNの重みベクトルとして明示的に分散表現されていることが分かる。

    【0186】また、時系列のトレンドが、様相の主項となる隠れ変数ベクトルに対応するガウス密度関数基底N
    (Σh ij・ベクトルw j ,1)のピークと数値的にほぼ一致する場合、そのトレンドのデータ値はCSSRNN
    の入力荷重Σh ij・ベクトルw jにより分散表現される。

    【0187】次に、予測フィルタとしてCSSRNNを用いる場合、文脈層がどのような役割を果たすかについて考える。 (25)式により生成される時系列の予測フィルタとして要求されることは、時系列のトレンドを予測することとトレンドが切り替わったときにそれを的確に追跡することである。

    【0188】(25)式から導かれる性質として、次のようなものを挙げることができる。 文脈層は時間的に変化し、予測密度関数の形状を変える。 文脈層の内容O
    (t,s)バーが変化することにより様相が変化し、予測密度関数の形状が変わる。

    【0189】

    【数42】

    【0190】は、j番目の隠れ素子の出力履歴が様相に関与する度合を示す。 (13)式において、Θ j (t)が大きければj番目の成分が1である隠れベクトルの重率が大きくなる。

    【0191】では、具体的な時系列とCSSRNNの文脈層の回帰係数およびしきい値との関係を考える。 ここでは、h2r1−NNとの比較のためにh2r2−NN
    による予測値を図30に示し、その予測密度関数列を図31に示す。 図23と図30とを比較するとh2r2−
    NNのトレンド予測には乱れが少なく、安定な予測を行っていることが分かる。 また、図31のどの時刻における予測密度関数の形状もガウス密度関数に近い。 h2r
    2−NNで使用した最適なパラメータセットは図32に示されている。 h2r2−NNの場合も、h2r1−N
    Nと同様にして、予測フィルタとして適当なパラメータを見つけることができる。

    【0192】次に、h2r2−NNが予測する隠れ変数ベクトルh (0) =(0,0)、ベクトルh (1) =(1,
    0)、ベクトルh (2) =(0,1)、ベクトルh (3)
    (1,1)に対する確率密度を、それぞれ図33、3
    4、35、36に示す。 これらの図から、各区間の様相はそれぞれ1つの隠れ変数ベクトルでほぼ完全に表現できていることが分かる。 N(1,1)が支配する区間に対してはベクトルh (2)が対応し、また、N(−1,
    1)の区間に対してはベクトルh (3)が対応する。 したがって、トレンドが入力荷重により分散表現されていることが分かる。 以上のことから、h2r1−NNに比べて、h2r2−NNの方が予測フィルタとしての性質をより多く満足していると考えられる。

    【0193】図37、38は、特別なテストデータとそれに対するh2r1−NNとh2r2−NNとによる予測結果を示している。 各CSSRNNのパラメータとしては、それぞれ図25、32に示したものを用いた。 このテストデータは、{−1.0,−0.5,−0.2,
    −0.1,0.0,0.1,0.2,0.5,1.0}
    のいずれかの値がある程度続いた後、不連続に切り替わるパターンを表している。 そして、それらの値の組み合わせを適宜決めることにより生成されている。 この実験の目的は、文脈層の回帰係数(レジスタ係数)としきい値の役割を明らかにすることである。 すなわち、最適パラメータのCSSRNNにおいて、入力x (t)に対する様相の変化およびトレンドの切り替わりを定性的に把握することが狙いである。 図37、38において、黒塗りの四角形がテストデータを表し、白抜きの四角形がh2
    r1−NNによる予測値を表し、白抜きの丸がh2r2
    −NNによる予測値を表す。

    【0194】テストデータの全区間(時間軸をtとして、t∈[1,2,...,230])において、全体的な傾向として、h2r1−NNに比べてh2r2−N
    Nの方がトレンドからの変位(変差)の大きなデータに対して鈍感であり、トレンドの切り替わりに対する追従の速さに遅れがある。

    【0195】図37のt∈[1,. . . ,30]においては、N(1,1)またはN(−1,1)の平均値をトレンドとして推定している状態で、分散1を越える変位のデータが突然入った場合、以後の予測がどのように変化するかを調べるためにテストデータを構成した。 例えば、N(1,1)の平均値1をトレンドと推定している状態で、その予測から外れてN(−1,1)の平均値−
    1の値に近い入力x (t ) =−0.5が突然入った場合、
    h2r1−NNの予測値もh2r2−NNの予測値も僅かに揺らぐだけである。 その予測値の乱れは、若干、h
    2r1−NNの方が大きい。 N(−1,1)の平均値−
    1をトレンドとして推定している状態で、N(1,1)
    の平均値1の値に近い入力x (t) =0.5が突然入った場合についても同様である。 h2r1−NN、h2r2
    −NNの内部状態O (t,1)バー、O (t,2)バーから決まるそれぞれの様相は、トレンドからの変差が分散を越えるような入力が3個程度含まれても現状を保持する。

    【0196】t∈[31,. . . ,60]においては、
    現在の予測がトレンドと一致しているものとして、トレンドそのものではないが、その周辺の値、つまり分散よりも小さな変位の値が連続して入力された場合、予測がどのように変化したかを調べるためにデータを構成した。 この場合、h2r1−NN、h2r2−NNともに予測値に変動は見られない。 この区間では、内部状態O
    (t,1)バー、O (t,2)バーの変化による様相の変化はほとんど生じないと考えられる。

    【0197】t∈[61,. . . ,100]においては、現在の予測がトレンドと一致しているものとして、
    平均値から分散以内の変差を持った入力が連続している状態で、分散の2倍の変差を持ったデータが突然入力された場合を考える。 これは、揺らぎや異常値を模したデータが入力された後の予測の変動を調べるためである。
    予測値にはある程度の乱れが生じ、入力の変化の影響が僅かながら持続する。 h2r1−NNに比べてh2r2
    −NNの方が、影響は残らないことが読みとれる。 内部状態O (t,1)バー、O (t,2)バーが変化し、それらの変化は様相の変化として現れている。 このとき、予測密度関数のピークの移動は小さいが、ガウス密度関数に比べると予測密度関数のすそは広がる傾向にある。

    【0198】図38のt∈[101,. . . ,150]
    においては、現在の予測がトレンドと一致しているものとして、変差が分散よりも大きく、分散の2倍以下であるようなデータが連続して入力される場合の予測の変化を調べた。 予測の変動は、h2r1−NNとh2r2−
    NNではかなり異なっている。 現在のトレンドを−1として入力x (t) =0.5を選び、その値を連続的に入力し続けた場合、予測密度関数は徐々にN(1,1)に近い形に変化する。 h2r1−NNでは連続的かつ直線的に変化している。 一方、h2r2−NNでは指数関数的に急激に変化してN(−1,1)に近い形からN(1,
    1)に変化する。 h2r1−NNに比べてh2r2−N
    Nでは、様相の保持が強固であることが分かる。

    【0199】t∈[151,. . . ,230]においては、内部状態の変化が様相の変化としてほとんど現れないという意味で保守的であることを示している。 ここでの入力はトレンドに対して分散を越える変差を持つデータではあるが、先の区間で用いられたデータよりも変差の小さいものを用いた。 h2r1−NNでは予測密度関数のピークが連続的に移動するが、h2r2−NNでは全く動かないといえる。 h2r2−NNにおいて、入力の変差が分散を越える大きさであっても、更新された内部状態の変化が様相の変化としてほとんど現れていない。

    【0200】以上、簡単にまとめると、(25)式で生成されたデータに対して適切なパラメータを選択するとき、平均値が一定に保たれている各区間において、CS
    SRNNのその区間における様相が、入力の変動に関わらず、できるかぎり保存されるようなパラメータが選ばれている。 このような様相の保存という要求がある一方で、様相の切り替えを的確に行うという要求にも答えなければならない。 したがって、文脈層のレジスタに割り付ける重みベクトルu jとしきい値θ jとして、CSS
    RNNの様相が保守的になり、かつ、様相から様相への遷移では中間的な様相を経由しないような値を選択することができればよい。 それらの値は、適当な個数のレジスタを持つCSSRNNにおいて、負値対数尤度を最小にするパラメータを探索することによって得られる。

    【0201】CSSRNNの予測分布は、入力および隠れ素子の過去の出力に応じて、2つのトレンドに対応する主な2つの様相の間を移り合う。 様相間の切り替えは揺らぎに対しては保守的であると同時に、実際の切り替えに対しては不連続的に対処するように、しきい値およびレジスタの重み係数が選ばれている。

    【0202】次に、レジスタの個数について考えてみる。 様相の切り替えを的確に行うという要求に加えて、
    計算効率という点も考えて文脈層の大きさを考える必要がある。 多数のレジスタを持つCSSRNNを予測フィルタとして用いる場合、適切なパラメータを選択する時の困難さやトレンドの切り替え時の動作遅れなど好ましくない側面が浮かび上がる。 レジスタの個数を増やせば負値対数尤度を小さくすることはできるが、予測値が時系列に引きずられるため予測フィルタとしては適切ではない。 したがって、時系列に対してレジスタの個数を適切に算定する必要がある。 そこで、単純なヒューリスティクスとして、形式的に情報量基準を援用し、レジスタの個数(文脈層の深さ)の適切さを計算する方法を導入する。

    【0203】ここでは、(25)式によって生成された時系列Sに対して、いくつかのh2rs−NN(1≦s
    ≦5)の形式的情報量基準 2×(負値対数尤度)+2×(隠れ素子1つ当たりのレジスタの個数) を計算する。 その結果は図39に示されている。

    【0204】図39から、分布のすそが重なる領域に出現するデータや異常値に対して各区間に対応する様相を保存するには、予測レジスタの個数を2個として過去2
    単位時間の出力を保存すれば十分であることが分かる。
    レジスタが2個以上のCSSRNNでは、レジスタ数の増加に伴う負値対数尤度の変化は小さい。 また、トレンドの予測値の形状に大きな差が見られないことや、レジスタの個数が増えると逆にCSSRNNのトレンドの予測がテストデータに引きずられる傾向があることなどを実験的に確かめることができる。 このような形式的情報量基準を用いる評価方法は、(25)式のような構造の情報源に対する予測フィルタを構成するという目的に合致したヒューリスティクスと考えられる。

    【0205】以上の実験および考察より、CSSRNN
    による予測フィルタの内部表現と時系列データの関係について次のような結論が得られた。 (e)CSSRNNにおいて、予測密度関数p(ベクトルx (t) |Φ,O (t,s)バー)が隠れ変数ベクトルh
    (i)の予測分布P(ベクトルh (i) |Φ,O (t,s)バー)を重みとするガウス密度関数N(Σh ij・ベクトルw j ,1)の線形結合で表現される。 基底となるガウス密度関数の平均値は、隠れ変数ベクトルと隠れ素子の入力重みベクトルw jとにより決まり、Σh ij・ベクトルw jとなる。 したがって、予測密度関数の形状は、隠れ変数ベクトルが確率的に重合した状態(様相)と入力重みベクトルとにより決まる。 (f)時系列Sに対してCSSRNNの最適なパラメータとは、CSSRNNによって表現可能な予測密度関数列の中から尤もらしい関数列を生成するものである。 ゆえに、最適なパラメータのCSSRNNでは、時系列S
    の持っている性質(確率的な構造)が様相の重率に反映される。 (g)時系列Sが平均値移動型のガウス密度関数によって生成される場合、CSSRNNは時系列Sの背後にあるトレンドの切り替えなどの法則性を相異なる様相から様相への遷移として表現する。 時系列Sそれ自体は、様相の列によって指定された予測密度関数列に従うものと見倣される。 (h)時系列のトレンドが、様相の主項となる隠れ変数ベクトルに対応するガウス密度関数基底N(Σh ij・ベクトルw j ,1)のピークと数値的にほぼ一致し、かつ、主項の重率が1.0に近ければ、トレンドの値はC
    SSRNNの入力荷重Σh ij・ベクトルw jにより分散表現される。 (i)作動中のCSSRNNでは、予測密度関数は、入力および隠れ素子の過去の出力に応じて、複数のトレンドに対応する主な複数の様相間を移り合う。 平均値移動型ガウス密度関数に対する予測フィルタとしては、様相間の切り替えが揺らぎに対して保守的であると同時に、
    それが不連続的に実施されることが要求される。 したがって、内部状態の変動が様相の変動に可能な限り影響しないという条件で、可能な限り内部状態の変動の許容範囲を広げるように、しきい値およびレジスタの重み係数が選ばれなければならない。 このとき、評価関数 merit
    (S|Φ)を数値的に最適化することで、要求を満たすパラメータが見つかる。 (j)予測フィルタを実現するために、CSSRNNの大きさ(隠れ素子の個数とレジスタの個数)を適切に選択する必要がある。 平均値移動型ガウス密度関数に対して、形式的情報量基準を用いて文脈層の深さ(レジスタの個数)および各パラメータの値を定めると、適切な予測フィルタを構成することができる。

    【0206】上述した実施形態から分かるように、本発明の時系列トレンド推定システムは、不連続に急変するトレンドを的確にトレースすることができる。 したがって、次のような非定常非線形の時系列解析を必要とする分野において、高速で的確なトレンドの推定に利用できる。 ♯1:コンピュータ・ネットワークの資源管理 ネットワーク・トラフィックやネットワーク全体のCP
    U負荷を、時系列データとして推定することができる。
    また、利用可能なメモリ量を用いてネットワークの利用度をモデル化し、利用度の変化を推定することができる。

    【0207】ネットワーク・トラフィックなどの時間的に変化する測定量からネットワークの状態を予測することにより、ネットワークの資源を適切に制御することができる。 特に、測定量が区分的に定常であって、各区間毎に不連続に変化するトレンドを含む場合でも、ネットワークの状態が的確に予測される。 ♯2:生体信号処理 脳波による睡眠ステージの個人別のモデル化を行い、睡眠障害の予測を行うことができる。 また、心電による個人別の負荷モデルを作成し、身体の異常の予測を行うことができる。

    【0208】

    【発明の効果】本発明によれば、再帰型ニューラルネットワークの内部状態と時系列データとの関係が明確になり、その関係を用いて時間的に不連続に変化する時系列のトレンドを効率的に推定することが可能になる。

    【図面の簡単な説明】

    【図1】本発明の原理図である。

    【図2】時系列トレンド推定処理のフローチャートである。

    【図3】実施形態のシステム構成図である。

    【図4】実施形態の計算機システムの構成図である。

    【図5】ネットワーク学習装置の構成図である。

    【図6】2次元のパラメータセットの初期値シンプレックスを示す図である。

    【図7】予測装置の構成図である。

    【図8】ニューラル素子を示す図である。

    【図9】目標関数評価装置の構成図である。

    【図10】正規化係数算定装置の構成図である。

    【図11】確率密度算定装置の構成図である。

    【図12】トレンド推定システムの処理フローチャートである。

    【図13】学習装置の処理フローチャートである。

    【図14】予測装置の処理フローチャートである。

    【図15】跳躍型トレンドの時系列を示す図である。

    【図16】h2r1のニューラルネットワークによる予測結果を示す図である。

    【図17】h2r10のニューラルネットワークによる予測結果を示す図である。

    【図18】異常値を含む時系列を示す図である。

    【図19】異常値を含む場合のh2r1のニューラルネットワークによる予測結果を示す図である。

    【図20】異常値を含む場合のh2r10のニューラルネットワークによる予測結果を示す図である。

    【図21】異常値を含む場合のh10r10のニューラルネットワークによる予測結果を示す図である。

    【図22】テスト用の時系列を示す図である。

    【図23】h2r1のニューラルネットワークによる予測値を示す図である。

    【図24】h2r1のニューラルネットワークによる予測分布を示す図である。

    【図25】h2r1のニューラルネットワークの最適パラメータセットの例を示す図である。

    【図26】h2r1のニューラルネットワークにおける隠れ変数ベクトル(0,0)の確率密度を示す図である。

    【図27】h2r1のニューラルネットワークにおける隠れ変数ベクトル(1,0)の確率密度を示す図である。

    【図28】h2r1のニューラルネットワークにおける隠れ変数ベクトル(0,1)の確率密度を示す図である。

    【図29】h2r1のニューラルネットワークにおける隠れ変数ベクトル(1,1)の確率密度を示す図である。

    【図30】h2r2のニューラルネットワークによる予測値を示す図である。

    【図31】h2r2のニューラルネットワークによる予測分布を示す図である。

    【図32】h2r1のニューラルネットワークの最適パラメータセットの例を示す図である。

    【図33】h2r2のニューラルネットワークにおける隠れ変数ベクトル(0,0)の確率密度を示す図である。

    【図34】h2r2のニューラルネットワークにおける隠れ変数ベクトル(1,0)の確率密度を示す図である。

    【図35】h2r2のニューラルネットワークにおける隠れ変数ベクトル(0,1)の確率密度を示す図である。

    【図36】h2r2のニューラルネットワークにおける隠れ変数ベクトル(1,1)の確率密度を示す図である。

    【図37】2つのニューラルネットワークの予測結果を示す図(その1)である。

    【図38】2つのニューラルネットワークの予測結果を示す図(その2)である。

    【図39】レジスタの個数と形式的情報基準の例を示す図である。

    【符号の説明】

    1 入力手段 2 ニューラルネットワーク手段 3 予測値生成手段 4 出力手段 11 制御装置 12 表示・対話装置 13 システム管理装置 14 学習装置 15 観測装置 16 ネットワーク学習装置 17 予測装置 18 非線形方程式求解装置 19 コラム構造再帰型ニューラルネットワーク 21 CPU 22 メモリ 23 入出力端末 24 バス 31 アニーリング制御装置 32 パラメータ精錬装置 33 評価関数算定装置 41 零点算定装置 42 予測値選択装置 43 目標関数評価装置 44 正規化係数算定装置 45 確率密度算定装置 51−1,51−2,51−m,51−j ニューラル素子(隠れ素子) 52−1−1,52−1−2,52−1−s,52−2
    −1,52−2−2,52−2−s,52−m−1,5
    2−m−2,52−m−s レジスタ 61,71,81 内部状態情報変換器 62−1,62−2,62−m,64,65,72−
    1,72−2,72−m,77,82−1,82−2,
    82−m 加算器 63−1,63−2,63−m ロジスティック関数演算器 73 2値ベクトル生成器 74 ベクトル乗算器 75 ベクトル加算器 76,86 ノルム算定器 78,83−1,83−2,83−m,85 指数関数計算器 79 累積型加算器 80 逆数演算器 84 乗算器

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈