Cluster classifying device专利检索-自组织映射人工神经网络机器学习人工智能专利检索查询-专利查询网

Cluster classifying device

阅读：106发布：2021-12-09

专利汇可以提供Cluster classifying device专利检索，专利查询，专利分析的服务。并且PURPOSE:To properly classify clusters without any previous knowledge of the number, positions, distribution shape, etc., of the clusters and without depending upon processing procedures, to visually see the process and result of the processing to facilitate processing by computing and to obtain the hierarchical structure of the clusters. CONSTITUTION:The device consists of a map generation part 11 which generates a map consisting of a prototype group for input data by using linear self- structured feature mapping, a hierarchical structure generation part 12 which generates the hierarchical structure of the clusters from the map, and a labeling part 13 which classifies the input data according to the obtained map and hierarchical structure, and, the hierarchical structure generation part 12 consists of a map analysis part 121 which calculates a quantity showing the degree of integration of the clusters from the obtained map and generates a data sequence and a data sequence merging part 122 which generates the hierarchical structure of the clusters from the obtained data sequence.，下面是Cluster classifying device专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】１次元の自己組織化特徴マッピングを用いて、入力データに対するプロトタイプ群からなるマップを作成するマップ作成部と、そのマップからクラスタの階層構造を作成する階層構造作成部と、得られたマップと階層構造に従って入力データを分類するラベル付け部とからなることを特徴とするクラスタ分類装置。

【請求項２】請求項１において、階層構造作成部が、
得られたマップからクラスタの集積度を表す量を計算し、データ列を作成するマップ解析部と、得られたデータ列からクラスタの階層構造を作成するデータ列融合部とからなることを特徴とするクラスタ分類装置。

【請求項３】請求項１において、階層構造作成部が、
得られたマップからクラスタの集積度を表す量を計算する集積度計算部と、クラスタの階層構造を作成するプロトタイプ融合部とからなることを特徴とするクラスタ分類装置。

【請求項４】請求項１において、階層構造作成部が、
得られたマップからクラスタの階層構造を作成するプロトタイプ融合部のみからなることを特徴とするクラスタ分類装置。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、クラスタ分類装置に関し、特に、複数個のデータをその類似性によってクラスタとしてまとめることにより複数個のクラスタに分類する装置に関する。

【０００２】

【従来の技術】複数個のデータをその類似性により複数個のクラスタに分類する方法としては、代表的には最尤推定法がある。この方法は、クラスタ数が既知で、それぞれのクラスタの大まかな位置が分かっている場合に用いることができる。まず、それぞれのクラスタ内のデータの分布を例えば正規分布等と仮定し、平均、分散等のパラメータを近似的に計算する。次に、あるデータがそのクラスタに所属する確率（この場合は正規分布）から識別関数を定義する。そして、パラメータから求められる識別関数の大小によりデータをクラスタに割り当てることによってクラスタ分類を行う。

【０００３】クラスタ数が既知で、分布の形を仮定しない方法としては、Ｋ−ｍｅａｎｓ法、ＬＢＧ法がある。
これは、分類の良さに関する評価基準を定義し、１）各クラスタの代表点の選出、２）その代表点を基にしたクラスタ分類、という操作を逐次繰り返すことにより評価基準を最適化し、クラスタ分類を行う方法であり、非階層的方法と呼ばれる。

【０００４】クラスタ数が未知で、分布の形も仮定できない場合、すなわち、データに関する前知識が全然ない場合は、階層的方法がある。これは、データ間及びクラスタ間に何らかの距離を定義して、それを基にデータを逐次的に統合・分割し、クラスタ分類を行うものである。

【０００５】また、データを自己組織化特徴マッピングニューラルネットワークに入力し、２次元のマップ上の素子にデータを割り当て、その素子に対応するデータの数からクラスタ分けをする手法が提案されている（Xueg
ong Zhang,Yanda Li,"SELF-ORGANIZING MAP AS A NEW M
ETHOD FOR CLUSTERING AND DATA ANALYSIS",Proceeding
s of the International Joint Conference on Neural
Networks,vol.3,pp.2448-2451,1993) 。

【０００６】

【発明が解決しようとする課題】上記のように、データをクラスタリングする従来の方法は、クラスタの数や位置、分布の形を仮定しているものがほとんどである。ところが、一般的にクラスタ分類を行う場合、分類前はクラスタの数や分布の形は未知であることが多い。例えば、画像の領域分割を行うために特徴ベクトルをクラスタ分類しようとした場合、分類前にクラスタの数や分布の形状は未知である。

【０００７】前述の、最尤推定法やＫ−ｍｅａｎｓ法、
ＬＢＧ法は、クラスタの数、位置、分布の形状を仮定して行う方法であり、この場合、その仮定を間違えたり、
初期値としての与え方が不適当な場合、本来クラスタを構成しているのにクラスタ分類されなかったり（過統合）、１つのクラスタとされるべきものが複数のクラスタに分類されたり（過分割）、本来所属すべきクラスタに分類されなかったり（誤分類）して、適正な結果は得られなくなる。クラスタの数を順次変化させてそれぞれの場合を調べる方法が、特開平５−２０５０５８号に開示されているが、分類処理をクラスタの数だけ繰り返さなければならず、アルゴリズムが複雑になる。かつ、その場合、クラスタの数を正しく推定したとしても、その位置、分布の仮定を間違えると、誤分類を生じ、適正な分類はできない。

【０００８】また、従来のクラスタの数や分布の形状を仮定しない階層的手法には、以下の問題点がある。Ａ−１）分割・統合処理の手順、及び、アルゴリズムの初期状態の設定によって結果が大きく変化する。Ａ−２）統合されない（すなわち、クラスタ分類されない）データが残ってしまうことがある。Ａ−３）処理の経過、結果を表すことが難しく、何時処理を終了するかを明確に判断できないため、過統合、過分割が起こりやすい。

【０００９】前述のデータを自己組織化特徴マッピングニューラルネットワークに入力し、２次元のマップ上の素子にデータを割り当て、その素子に対応するデータの数からクラスタ分けをする方法では、処理の経過、結果を表示することができる。しかし、この方法は２次元のマップを用いており、視覚的には表示できるが、その結果から、視覚的にではなく、計算的にクラスタを見つける処理をするのは、大きな工数と複雑なアルゴリズムを必要とする。

【００１０】以上の課題を整理すると、本発明のクラスタ分類装置に求められる条件は、以下の通りである。Ｂ−１）クラスタの数、位置、分布の形等の前知識なしに、過統合や過分割のない適正なクラスタ分類ができる。Ｂ−２）処理の手順に依存しないクラスタ分類ができる。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００１１】また、クラスタ分類においては、その応用目的によって、分類後、さらに特定のデータに関して分割したり統合すべき場合がある。このとき、クラスタの階層構造が得られていれば、再統合、再分割は容易である。よって、上記のＢ−１）、Ｂ−２）、Ｂ−３）の条件に次のＢ−４）を加える。Ｂ−４）クラスタの階層構造を得ることができる。

【００１２】本発明はこのような状況に鑑みてなされたものであり、その目的は、上記のＢ−１）、Ｂ−２）、
Ｂ−３）、Ｂ−４）の条件を満たして、クラスタの数、
位置、分布の形等の前知識なしに、過統合や過分割のない適正なクラスタ分類ができ、処理の手順に依存しないで分類でき、処理の経過や結果を視覚的に見ることができ、しかもその結果を計算的に処理することが容易で、
かつ、クラスタの階層構造を得ることができるクラスタ分類装置を提供することにある。

【００１３】

【課題を解決するための手段】上記の目的を達成する本発明のクラスタ分類装置は、１次元の自己組織化特徴マッピングを用いて、入力データに対するプロトタイプ群からなるマップを作成するマップ作成部と、そのマップからクラスタの階層構造を作成する階層構造作成部と、
得られたマップと階層構造に従って入力データを分類するラベル付け部とからなることを特徴とするものである。

【００１４】この場合、階層構造作成部は、得られたマップからクラスタの集積度を表す量を計算し、データ列を作成するマップ解析部と、得られたデータ列からクラスタの階層構造を作成するデータ列融合部とからなる場合と、得られたマップからクラスタの集積度を表す量を計算する集積度計算部と、クラスタの階層構造を作成するプロトタイプ融合部とからなる場合と、得られたマップからクラスタの階層構造を作成するプロトタイプ融合部のみからなる場合とが考えられる。

【００１５】

【作用】以下、上記のような構成を採用する理由と作用について説明する。まず、本発明の構成の概略とその作用を、図１のブロック図と、クラスタ分類の過程を簡単に示す図２〜図６を参照にして説明する。まず、本発明の構成の概略を示すと、図１に示したように、入力データを入力してマップを作成するマップ作成部１１と、クラスタの階層構造を作成する階層構造作成部１２と、階層構造によってラベル付けされたマップと入力データから入力データのラベル付けを行うラベル付け部１３からなっている。

【００１６】階層構造作成部１２は、その一例として、
マップからクラスタの集積度に関係する量を計算し、データ列を作成するマップ解析部１２１と、そのデータ列に基づいてクラスタの階層構造を作成するデータ列融合部１２２から構成する。階層構造作成部１２についての他の例は後述する。

【００１７】この構成のクラスタ分類装置の作用を示す一例として、２次元のデータを３つのクラスタに分類することを考える。その中の１つのクラスタは、さらに２
つのサブクラスタからなっているとする。ここでは、その階層構造も得ることを考える。もちろん、クラスタ分類前は、クラスタ数や分布の形状は未知である。

【００１８】まず、マップ作成部１１について説明する。マップ作成部１１は、データ入力部１１１とマップ部１１２から構成される。データ入力部１１１において、入力データ群２１を入力する。入力データ群２１
は、図２に示すような２次元ベクトルであり、大きく分けて３つのクラスタ２１Ａ、２１Ｂ、２１Ｃを形成し、
その１つの２１Ａは２つのサブクラスタ２１Ａ１、２１
Ａ２からなっている。ただし、階層構造作成部１２の説明までは、２１Ａが２つのサブクラスタ２１Ａ１、２１
Ａ２からなることは考慮しないこととする。

【００１９】次に、マップ部１１２で、入力データ群２
１を用いて、図３のマップ３１を作成する。マップ３１
は、複数個（ｋ個と置く。）の素子群３２によって構成される。入力データ群２１のそれぞれのデータは、素子群３２の何れかの素子に対応するようにする。具体的な対応方法を述べる。まず、入力データ群２１に対するプロトタイプ群３３を素子数個（ｋ個）だけ作成する。そして、各素子にそれぞれプロトタイプ群３３の１つを割り当てる。そして、入力データ群２１の各々に対しその入力データと最も類似しているプロトタイプを持つ素子を対応させればよい。そのとき、入力データ群２１の中、類似しているデータはそれぞれマップ３１上で近い素子に対応し、類似していないデータはそれぞれマップ３１上で遠い素子に対応するように、素子にプロトタイプを割り当てる。つまり、入力データ群２１の各データの位相情報をマップ３１に反映させるのである。

【００２０】このようにして、入力データ群２１から、
クラスタ２１Ａ〜Ｃに属するベクトルにそれぞれ対応する素子群３２Ａ〜Ｃからなるマップ３１を作成する。

【００２１】ここで注意しなくてはならないのは、クラスタ２１Ａ〜Ｃの記号は説明の便宜上付けたものであり、入力データ群２１は、クラスタ分類前に全くラベル付けされていないことである。もし、クラスタ分類前にいくつかの入力データがラベル付けされている場合は、
ラベル付けされていないデータに対して、マップ作成後に簡単にクラスタ分類ができる。この方法を述べておく。１）あるラベル（例えばＡ）のクラスタ２１Ａに属するデータに対応するマップ３１上の素子を選び、その素子にラベルＡを与える。２）１）の操作を２１Ｂ、２
１Ｃのクラスタに属するデータに対しても行い、マップ３１上の素子群にそれぞれＡ〜Ｃのラベルの何れかを与える。３）ラベル付けしていない入力データ群２１に対応するマップ上の素子を見つけ、その素子のラベルをそのデータのラベルとする。１）から３）の操作を行うことにより、全ての入力データをラベル付けでき、クラスタ分類が終了する。マップ３１をみると、上記の２）の操作が終了しているようにも思われるが、入力データ群２１は全くラベル付けされていないので、マップ３１のどこにクラスタが存在しているかはまだ不明である。よって、マップ３１上のどこにクラスタが存在するかを見つけるために、マップを解析しなくてはならない。

【００２２】そこで、マップ上のどこにクラスタが存在するかを見つけるために、マップ作成部１１で作成されたマップ３１をマップ解析部１２１で解析する。以下、
マップ解析部１２１について説明する。マップ解析部１
２１は、各素子に対しクラスタの集積度に関する量を計算する集積度計算部１２１Ａと、その結果に従ってデータ列を作成するデータ列作成部１２１Ｂからなる。クラスタの集積度を示す量としては、以下のような量が挙げられる。

【００２３】Ｃ−１）マップ３１上の素子群３２の各素子に対応する入力データ群の数。

【００２４】Ｃ−２）マップ３１上のある１つの素子に割り当てられたプロトタイプと、その素子とマップ３１
上で隣接する素子に割り当てられたプロトタイプとの類似性。クラスタは、データ群の空間において類似しているデータが集まったものである。この性質を用いて、上記のＣ−１）、Ｃ−２）の量がクラスタの集積度を示す理由を説明する。

【００２５】クラスタ内のデータは、クラスタ外に比べて多いという性質から、素子に対応する入力データの数を比較すれば、クラスタ中心付近のデータに対応する素子の場合は、対応するデータ数は多くなり、クラスタ中心から外れたデータに対応する素子の場合は対応するデータ数は少なくなるはずである。よって、Ｃ−１）の量を用いれば、図４（ａ）のように、山の部分がクラスタを示すヒストグラムが作成される。以下、この量を勝利数Ｖとも表記する。

【００２６】次に、Ｃ−２）の量について説明する。前述のように、マップ上で隣接する素子のそれぞれのプロトタイプは、入力データ空間でも類似している。また、
クラスタ内のデータは類似しているという類似性から、
そのプロトタイプの類似度は、クラスタ内では高く、クラスタ外では低いといえる。この２つのことから、マップ上で隣接するそれぞれの素子のプロトタイプ同志を比較することにより、その類似度からその素子の対応する入力データがクラスタ中心かクラスタ外かを区別できることが分かる。具体的に述べると、マップ上で隣接するそれぞれの素子のプロトタイプ同志の類似度が高ければ、その素子はクラスタ中心付近のデータに対応する素子であり、逆に、マップ上で隣接するそれぞれの素子のプロトタイプ同志の類似度が低ければ、その素子はクラスタ中心から外れたデータに対応する素子である。類似度として、例えば２次元ベクトルデータの場合、そのユークリッド距離を選べば、距離が大きければ類似度は低く、距離が小さければ類似度は高くなる。このとき、Ｃ
−２）の量を用いてヒトスグラムを作成すれば、図４
（ｂ）のように、山から山までがクラスタを表すようになる。以下、この量を隣接素子間の類似度ｄＭとも表記する。

【００２７】なお、勝利数Ｖと隣接素子間の類似度ｄＭ
の定義から、Ｖ／ｄＭの量もクラスタの集積度を表すことが分かる。このときは、谷から谷までの山がクラスタを表す。

【００２８】このようなヒストグラムの性質から、図４
（ａ）の場合は山、図４（ｂ）の場合は谷を分割することがマップをクラスタ毎に分割することに相当する。よって、このヒストグラムの山あるいは谷の数がクラスタ数に対応する。各山あるいは谷に相当するマップ上の素子がクラスタのプロトタイプに相当するので、この時点で適当な数のクラスタ分類ができたことになる（この場合は、３つ）が、階層構造を求めるために、次の操作を行う。

【００２９】まず、ヒストグラムの諸量から、データ列作成部１２１Ｂでデータ列を作成する。このデータ列について説明する。素子ｉに対応する勝利数、隣接素子間の類似度をそれぞれＶ _i 、ｄＭ _iとする。そして、式（１）のようなデータ列｛Ｘ _k ｝を作成する。

【００３０】

図４のようなヒストグラムの場合、データ列｛Ｘ

_k ｝を数直線上にプロットしたのが図５である。このように、

データ列｛Ｘ

_k ｝は、図４（ａ）では山、図４（ｂ）では谷に相当する部分に、数直線上でクラスタを形成していることが分かる。｛Ｘ

_k ｝を定性的に説明する。まず、素子ｋの重みベクトルの座標をｎ次元空間上で折れ線でつなぐ。そして、Ｘ

_kは、折れ線を一直線に伸ばしたときの線上での素子ｋの座標であるといえる。このとき、データ列｛Ｘ

_k ｝のｉ番目の点は、マップ３１のｉ

番目の素子に対応していることになる。つまり、複数のクラスタからなるｎ次元ベクトル入力データを、クラスタが抽出しやすいように、１次元データ集合に変換したと考えることができる。

【００３１】また、Ｖ _iはマップ３１上のｉ素子に対応する入力データ群の数であることから、図５のデータ列｛Ｘ _k ｝において、各点の個数がＶ _kであるという情報を付加すれば、さらにクラスタを抽出しやすくすることができる。

【００３２】次に、データ列作成部１２１Ｂで作成したデータ列｛Ｘ _k ｝を用いて、データ列融合部１２２で階層構造を作成する。この階層構造は、データ列｛Ｘ _k ｝
において近い値は逐次融合しながら最終的に一つになるまで融合し、その過程を表示することによって作成する。例えば、この場合、階層構造は図５のようになる。
融合過程については、詳しく後述する。

【００３３】前述のように、ヒストグラムの分割によって、大きく分けてクラスタの数は３であることは判明していたが、その階層構造は図５のようになっていることが分かる。

【００３４】以上のデータ列融合部１２２で作成された階層構造に基づいて、ラベル付け部１３で入力データにラベル付けする。ラベル付け部１３は、階層構造に基づいてマップにラベルを付けるマップラベル部１３１と、
ラベル付けするデータを入力するデータ入力部１３２
と、その入力データにラベルを付けるデータラベル部１
３３によって構成される。

【００３５】マップラベル部１３１では、階層構造に基づいてマップにラベル付けを行う。階層構造に基づいて、例えば図６に示すように、マップにＡ、Ｂ、Ｃというラベルを与えて、マップ６１とする。次に、入力データ群２１を再びデータ入力部１３２によって入力し、その入力データ群２１のラベル付けを行う。ラベル付けには、その入力データ群２１と、ラベル付けをしたマップ６１を用いる。具体的には、入力データ群２１に対応するマップ６１上の素子を見つけ、その素子のラベルをそのデータのラベルとすればよい。全てのデータ群２１に対し、ラベル付けが終了すれば、図６に示すように、入力データ群２１がＡ、Ｂ、Ｃの３つのクラスタに分類されたことになる。図６では、Ａ、Ｂ、Ｃそれぞれのクラスタに所属するデータを丸で囲んである。ここで、この丸は、説明の便宜上、データのあるところを囲むためにつけたもので、厳密な分離境界線を示している訳ではない。なお、前述のように、図２の入力データは予めラベル付けされていない。ラベル付け部１３で初めてラベル付けされることに注意する。ここで、便宜上、図２のラベルと図６のラベルは一致させてある。

【００３６】なお、さらに特定の部分だけ再分割、統合する場合は、階層構造に基づいて行えばよい。図５の階層構造から、マップ６１ａ）のように、Ａ、Ｂは１つのクラスタとして再統合させてもよいことが分かるし、さらに、Ａを再分類するには、マップ６１ｂ）のように、
Ａ１、Ａ２として分類することが可能である。このことは、後の実施例で示す。

【００３７】以上が本発明のクラスタ分類装置の作用の概略であり、図２のデータ群２１が、図６のように大きく分けてＡ、Ｂ、Ｃの３つのクラスタに分類され、階層構造が図５のように求められたことになる。本作用は、
クラスタの数、位置、分布の形等の前知識を必要としていないことは明らかであり、本発明のクラスタ分類装置に求められる条件のＢ−１）を満たしている。

【００３８】続いて、Ｂ−２）…処理の手順に依存しないクラスタ分類ができる…ことと、Ｂ−３）…処理の経過や結果を視覚的に見ることができ、しかもその結果を計算的に処理することが容易である…という条件を本発明が満たすことを示す。そのために、マップ作成部１１
についてさらに詳しく説明する。

【００３９】前述のように、マップ作成部１１では、データ群のプロトタイプを作成し、入力データの位相を反映するように、そのプロトタイプをマップの素子に割り当てることを行う。プロトタイプの作成は、ベクトル量子化法を用いれば可能だが、入力データの位相を反映するようにそのプロトタイプをマップの素子に割り当てることはできない。プロトタイプの作成と入力データの位相を反映するためのプロトタイプの割り当てを同時に行う方法は、コホーネンによる自己組織化特徴マッピング（以下、ＳＯＭと表記する。）のアルゴリズムがある（T.Kohonen,"Self-Organization and Associative Mem
ory",Third Edition,Springer-Verlag,Berlin,1989) 。
以下、このＳＯＭについて説明する。

【００４０】ＳＯＭは、図７に模式的に示すように、２
次元に並ぶ素子群の層ＭＬ（以下、マップ層ＭＬと表記する。）と、データを入力する入力層ＩＰから構成される。このマップ層ＭＬは、図７では２次元に並ぶ素子を示したが、１次元に並ぶ素子を用いてもよい。入力層Ｉ
Ｐは、マップ層ＭＬの全ての素子と結合しており、入力データをマップ層ＭＬの全ての素子に与えることができる。入力データは、スカラーでもベクトルでもかまわないが、ここでは一般的に、ベクトルｘ（ｎ次元）とおく。マップ層ＭＬの素子ｉ（ｉはマップ上の順番とし、
全素子数をｋ個とする。）は、全て重みベクトルｍ _i
(ｎ次元）を持つことにする。ＳＯＭのアルゴリズムは、入力ベクトルｘと各素子の重みベクトルｍ _iとの類似性から更新すべき重みベクトルを決定する＜類似性マッチング＞と、その重みベクトルｍ _iを入力ベクトルｘ
の方に近付ける＜更新＞とに分けられる。そして、両者の作用を繰り返すことにより、入力ベクトルｘの分布を反映する重みベクトルｍ _i （１≦ｉ≦ｋ）が生成する。
＜類似性マッチング＞と＜更新＞の具体的な表式を以下に示す。

【００４１】＜類似性マッチング＞

＜更新＞ｍ

_i （ｔ＋１）＝ｍ

_i （ｔ）＋α（ｔ）｛ｘ（ｔ）−ｍ

_i （ｔ）｝ｉ∈Ｎ

_c ｍ

_i （ｔ＋１）＝ｍ

_i （ｔ）その他・・・（３）ここで、｜ｘ−ｍ

_i ｜はｘとｍ

_iのユークリッド距離、

Ｃはその距離が最も小さかった素子（勝利素子）、Ｎ

はその勝利素子Ｃのマップ層ＭＬでの近傍、α（ｔ）は正の定数、ｔは時刻を示す。更新を繰り返しながら、Ｎ

_cとα（ｔ）の大きさは徐々に小さくする。また、α

（ｔ）は勝利素子Ｃから離れるに従い、小さくなるように選ぶこともできる。

【００４２】入力ベクトルｘの集合からランダムにｘを選んで逐次入力し、重みベクトルｍ _iの更新を繰り返すことにより、入力ベクトルｘの分布を反映する重みベクトルｍ _i （１≦ｉ≦ｋ）が生成する。すなわち、重みベクトルｍ _i （１≦ｉ≦ｋ）が入力ベクトルｘの分布のプロトタイプになっている。そして、ある素子の重みベクトルを入力ベクトルに近付けるように更新するとき、マップ上のその素子の近傍の素子も同様に更新するので、
マップ上で隣接する素子同志は、それぞれ、入力ベクトルの空間上でも近いベクトルに対応するようになる。よって、ＳＯＭアルゴリズムは、入力データ空間の位相を反映したプロトタイプの集合を作成することができる。
ＳＯＭアルゴリズムには、次のような特長がある。

【００４３】Ｄ−１）重みベクトルｍ _i （１≦ｉ≦ｋ）
の初期状態によらず、適正なマップが作成できる。Ｄ−２）入力ベクトルｘの入力順によらず、適正なマップが作成できる。Ｄ−３）マップが１次元か２次元であるので、入力データの位相を視覚的に見ることができる。Ｄ−４）＜類似性マッチング＞と＜更新＞という単純な操作の繰り返しなので、アルゴリズムが簡単である。

【００４４】ここで、適正なマップとは、プロトタイプの集合が入力データの位相をよく反映しているものをいう。Ｄ−１）、Ｄ−２）の特長は、本発明のクラスタ分類装置に求められる、Ｂ−２）…処理の手順に依存しないクラスタ分類ができる…という条件を満たすものである。Ｄ−３）の特長は、Ｂ−３）…処理の経過や結果を視覚的に見ることができ、しかもその結果を計算的に処理することが容易である…という条件に寄与する。

【００４５】しかし、マップが２次元の場合は、視覚的に見ることができるが、その結果を計算的に処理することは容易ではない。マップを１次元にすると、１次元のヒストグラムは２次元以上のヒストグラムに比べ、計算処理がかなり容易になる。よって、Ｂ−３）の条件を満たすことができる。

【００４６】ＳＯＭアルゴリズムのこのような有効性より、マップ作成部１１では、この１次元のＳＯＭアルゴリズムを採用する。すなわち、マップ作成部１１のデータ入力部１１１をＳＯＭの入力層ＩＰ、マップ部１１２
をＳＯＭのマップ層ＭＬとする。この構成により、入力データの位相を反映するプロトタイプの集合を作成し、
そのプロトタイプを持つ素子からなる１次元マップを作成する。このマップ作成部１１を具備した本発明のクラスタ分類装置は、前述のように、Ｂ−２）、Ｂ−３）の条件を満たすことが可能である。

【００４７】なお、マップ作成部１１で行うＳＯＭアルゴリズムにおいては、ヒストグラムの山と谷がはっきりした時点でマップ３１の作成が終了となる。このとき、
入力データ群２１の全てのデータを入力していなくても、作成を終了してよい。もし、入力データ群２１の全てのデータを入力した時点でヒストグラムの山と谷がはっきりしていない場合は、再び入力データ群２１を入力して、山と谷がはっきりしたときにマップ作成を終了すればよい。ヒストグラムの山と谷がはっきりしたかどうかの判断は、視覚的に容易にできるが、ヒストグラムの山と谷がはっきりしたかどうかを表す評価基準（グラフの平滑度、最大値と最小値の相対比等）を用意すれば、
自動的に判断することも可能である。この場合も、明らかに１次元のヒストグラムの方が２次元のヒストグラムより処理が容易である。なお、ヒストグラムを用いなくても、ＳＯＭアルゴリズムが進むにつれて入力データ群２１とそれに対応するプロトタイプの差が次第に小さくなることを利用し、その値またはその変化率があるしきい値より小さくなったときにマップ３１の作成を終了してもよい。

【００４８】続いて、Ｂ−４）…クラスタの階層構造を得ることができる…という条件を本発明が満たすことを示す。そのために、階層構造作成部１２について、さらに詳しく説明する。階層構造作成部１２では、前述のように、複数のクラスタからなるｎ次元ベクトル入力データをクラスタが抽出しやすいように、図５のような１次元データ集合に変換してから、そのデータの階層構造を得る。

【００４９】このような階層構造を得る手法として、メルティングアルゴリズムがある（Kenneth Rose et a
l.,"Statistical Mechanics and Phase Transition in
Clustering",Phys.Rev.Lett.65,pp.945-948(1990)）。
このアルゴリズムは、あるベクトルデータとそれに対するプロトタイプの集合からエネルギー関数を定義し、そのエネルギーの局所極小解（ここでは、プロトタイプの集合を解とする。）が、クラスタを表すことを利用する。エネルギー関数の形は、温度パラメータによって変更され、一般に温度が上昇するにつれて滑らかになり、
かつ、局所解の数は少なくなる。つまり、温度が上昇するにつれて、プロトタイプの数が減少する。プロトタイプはクラスタを代表するものと考えてよいので、プロトタイプの座標と温度の関係を表示すれば、階層構造が分かる。

【００５０】メルティングアルゴリズムの更新則について、式を用いて説明する。データをｘ、プロトタイプをｙとし、分配関数Ｚ、フリーエネルギーＦを次式で表す。ここで、Σ、Πの下の添字はそれぞれその記号による和、及び、積を示す。

ＦにＺを代入し、Ｆの極小値を求めるために、∂Ｆ／∂

ｙ＝０を解く。この結果、プロトタイプｙは次式のようになる。

【００５１】

この式がメルティングアルゴリズムのプロトタイプｙの更新則である。ある温度Ｔにおいて、この更新則を行い、ｙを求める。そして、温度Ｔを上昇させ、再びこの更新則を行い、ｙを求める。温度Ｔが上昇するにつれて、Ｆの局所極小値の数は次第に減少し、最終的には１

つになる。Ｆの局所極小値は、クラスタのプロトタイプに相当している。温度Ｔを低温から高温に上昇させるにつれて、クラスタのプロトタイプは近いもの同志が融合する。そこで、温度Ｔとクラスタのプロトタイプｙの関係をグラフに表せば、クラスタの階層構造が得られることになる。プロトタイプの表示は、ｙ座標をそのまま表示してもよいし、１次元に並んだＳＯＭのプロトタイプと対応付けて表してもよい。

【００５２】メルティングアルゴリズムは、データｘが２次元以上になると、プロトタイプの表示が困難になる、孤立点が融合し難い、等の欠点がある。しかし、マップ解析部１２１で作成されたデータ集合は１次元であり、また、マップ作成部１１で作成されたｎ次元ベクトルデータのプロトタイプ群から生成されているので、孤立点は生成され難い。また、メルティングアルゴリズムは、入力データの次元が大きくなると計算量が増すが、
この場合のデータ列は、本クラスタ分類装置が分類すべき入力データの次元にかかわらず、１次元なので、計算量は一定である。以上のことから、メルティングアルゴリズムの欠点は解決できる。

【００５３】よって、階層構造作成部１２では、このメルティングアルゴリズムを用いて、１次元データ集合からそのデータの階層構造を得る。階層構造作成部１２にこのメルティングアルゴリズムを用いた本発明は、Ｂ−
４）…クラスタの階層構造を得ることができる…という条件を満たしている。

【００５４】なお、適当なクラスタ数は、集積度計算部１２１Ａでヒストグラムを解析することによって分かるが、データ列融合部１２２においても求めることができる。適当なクラスタ程、メルティングアルゴリズムにおいて、そのプロトタイプが生じている温度範囲が長いといえる。よって、プロトタイプが融合されずに残っている温度範囲が長いときのクラスタの数を適当なクラスタの数とすればよい。ノイズ等でヒストグラムの山谷が微妙になり解析困難な場合、データ列融合部１２２でクラスタ数を求めればよい。

【００５５】以上、本発明のクラスタ分類装置の構成と作用を説明した。本発明のクラスタ分類装置は、次のＢ
−１）、Ｂ−２）、Ｂ−３）、Ｂ−４）の条件を満たす、以下のようなクラスタ分類装置である。

【００５６】すなわち、１次元の自己組織化特徴マッピングを用いて、入力データに対するプロトタイプ群からなるマップを作成するマップ作成部と、そのマップからクラスタの階層構造を作成する階層構造作成部と、得られたマップと階層構造に従って入力データを分類するラベル付け部とからなることを特徴とするクラスタ分類装置である。

【００５７】この場合、階層構造作成部は、図１のように、得られたマップからクラスタの集積度を表す量を計算し、データ列を作成するマップ解析部と、得られたデータ列からクラスタの階層構造を作成するデータ列融合部とからなる場合と、後記する図１１（ｂ）のように、
得られたマップからクラスタの集積度を表す量を計算する集積度計算部と、クラスタの階層構造を作成するプロトタイプ融合部とからなる場合と、後記の図１１（ａ）
のように、得られたマップからクラスタの階層構造を作成するプロトタイプ融合部のみからなる場合とが考えられる。

【００５８】Ｂ−１）クラスタの数、位置、分布の形等の前知識なしに、過統合や過分割のない適正なクラスタ分類ができる。Ｂ−２）処理の手順に依存しないクラスタ分類ができる。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００５９】Ｂ−４）クラスタの階層構造を得ることができる。

【００６０】

【実施例】以下、本発明のクラスタ分類装置の実施例について説明する。クラスタ分類の表示を簡単にするために、再び、図２のような２次元ベクトルデータをクラスタに分け、かつ、階層構造を求める場合の実施例を示す。まず、本発明の第１実施例として、図２と同じ２次元ベクトルデータを入力する場合を示す。本実施例は、
マップ部１１２のマップ３１の素子の数を３０にしている。

【００６１】まず、図４（ａ）に相当するヒストグラムを図８に示す。図８によると、３つの山が形成されており、入力データ群２１が３つのクラスタからなることが視覚的に明確である。次に、階層構造作成部１２で求めた階層構造を図９に示す。この図から、分類（ａ）、
（ｂ）、（ｃ）の３種類でプロトタイプを分け、マップ６１ａ）、６１、６１ｂ）により、入力データ群２１を分割した結果を図１０に示す。

【００６２】なお、マップ部１１２の１次元マップは、
マップの素子が両側でつながるリング状にしても、切り離した紐状にしてもよい。両者は、素子の重みの更新の際の近傍の概念が異なる。リング状の場合は、マップの両側を近傍としてつなぐことに相当し、紐状の場合はマップの両側を近傍としないことに相当する。リング状の場合は、マップの両側で、入力データの位相関係の反映が歪む＜ＢｏｒｄｅｒＥｆｆｅｃｔｓ＞(T.Kohonen,"Th
ings You Haven't Heard about the Self-Organizing M
ap",Proc. IEEE Int. Conf. on Neural Network,vol.3,
pp.1147-1156,1993)を除くことができる。紐状の場合は、両側が必ず切れているので、ヒストグラムで表したり、階層構造を表す際、便利である。この場合、境界効果を除くためには、両側の素子は、メルティングアルゴリズムの入力データとしない、ヒストグラムの横軸から除く、等をすればよい。

【００６３】メルティングアルゴリズムにおいて、データ｛Ｘ _k ｝を（６）式のｘに代入することによりｙを求めた。ここで、ｋ番目のデータの個数がＶ _kである、という付加情報を更新式に入れることができる。このとき、更新式は（７）式のようになる。

【００６４】

更新式を、（６）式の代わりに（７）式のようにした場合、Ｖのヒストグラムの山谷の大小がクラスタの階層構造の決定に寄与することになる。したがって、Ｖの小さな孤立点はプロトタイプになり難くなり、前述のようなメルティングアルゴリズムの欠点である、孤立点がクラスタになりやすいという問題を解決できる。ただし、データ列は、その作成過程より、孤立点が生じ難くなっているので、特に、入力データの分布がノイズが少ない滑らかな場合は、（６）式、（７）式の何れを用いてもよいが、入力データの分布にノイズが多く、データ列に孤立点が生じやすいときは（７）式を用いると効果がある。本実施例では（７）式を使った。

【００６５】また、（６）式において、Ｐ（ｘ∈ｙ）をｙに代入し、ｘの依存性を無視して、Ｐ（ｘ∈ｙ）の分母をはらうと、（８）式のようになる（Yui-fai Wong,"
Clustering Data by Melting",Nural Computation,5,89
-104(1993)）。

【００６６】

（８）式は（６）式に比べて、指数関数の和の回数が少ないので、計算量が少なくなり、アルゴリズムを高速化することができる。よって、階層構造作成部１２では、

（８）式のメルティングアルゴリズムを用いてもよい。

また、（８）式に（７）式と同様にＶの項を加えてもよい。上記の実施例の階層構造作成部１２は、図１のように、まず、データ列を作成して、そのデータの融合により階層構造を作成した。

【００６７】階層構造作成部１２では、この他に、図１
１（ａ）のように、マップ部１１２で作成したＳＯＭのプロトタイプが１次元で配列していることを利用して、
そのｎ次元ベクトルのプロトタイプから、直接、階層構造を作成してもよい。この場合は、マップ層のｎ次元プロトタイプのベクトルを、直接プロトタイプ融合部１５
１のメルティングアルゴリズムの入力とし、融合して得られたプロトタイプを表示すればよい。プロトタイプの表示は、１次元に並んだＳＯＭのプロトタイプと対応づけることにする。図１１（ａ）は、メルティングアルゴリズムの更新として（６）式あるいは（８）式を用いた場合であり、Ｖを用いた（７）式を使う場合は、図１１
（ｂ）のように、階層構造作成部１２でプロトタイプ融合部１５１の前に集積度計算部１５２を備えればよい。

【００６８】なお、図１と図１１（ａ）、（ｂ）の何れの構成にしても、メルティングアルゴリズムの次元が異なるが、そのアルゴリズムの本質は同様であるので、融合過程は同様の結果を得ることができる。よって、本実施例の結果は、図１の構成の場合のみを示した。図１の場合は、本クラスタ分類装置が分類すべき入力データの次元にかかわらず、メルティングアルゴリズムの次元数を１次元とすることができ、また、図１１（ａ）、
（ｂ）では、プロトタイプをそのまま融合するので、データ列作成部１２１Ｂを省略することができる。

【００６９】上記の実施例の入力データは、全て２次元のベクトルであったが、データ入力部１１１、１３２とマップ部１１２のプロトタイプ３３の次元数を変えることにより、多次元ベクトルにもスカラーにもすることができる。

【００７０】次元を変えた場合の例として、図１２に３
次元ベクトル５クラスタの場合のヒストグラムと得られた階層構造を示す。また、次元とヒストグラムの量を変えた場合として、図１３に４次元４クラスタの場合のＶ、ｄＭ、Ｖ／ｄＭのヒストグラムと得られた階層構造の例を示す。図１３のヒストグラムによると、適当なクラスタ数を見つける場合は、ｄＭあるいはＶ／ｄＭを用いると、解析しやすいことが分かる。これは、前記の境界効果と、ＳＯＭのもう１つの性質である、アルゴリズムが進むにつれて勝つ数が均等化する等確率性によるものである。

【００７１】多次元ベクトルの場合、データをそのまま座標軸上に表すことが困難であるため、本発明のように、視覚的にクラスタが発見でき、かつ、階層構造が分かることは有効である。

【００７２】本発明の入力データとしては、任意の大きさのスカラー、ベクトルを選んでよい。すなわち、ＳＯ
Ｍアルゴリズムは、Ｄ−１）…重みベクトルｍ _i （１≦
ｉ≦ｋ）の初期状態によらず、適正なマップが作成できる…という特長があるので、データを予め規格化したり、データの特徴（クラスタ数、クラスタ位置等）を知る必要がない。よって、画像情報、音声情報、通信記号、時系列データ等、あらゆる入力データに対し、クラスタ分類が可能である。

【００７３】

【発明の効果】以上述べたように、本発明によると、以下の条件を満たすクラスタ分類装置を提供することができる。

【００７４】Ｂ−１）クラスタの数、位置、分布の形等の前知識なしに、過統合や過分割のない適正なクラスタ分類ができる。Ｂ−２）処理の手順に依存しないクラスタ分類ができる。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００７５】Ｂ−４）クラスタの階層構造を得ることができる。

【図面の簡単な説明】

【図１】本発明の基本的な構成の概略を示す図である。

【図２】本発明によりクラスタ分類するデータの例を示す図である。

【図３】図１のマップ作成部で作成するマップを示す図である。

【図４】図１の集積度計算部で計算する勝利数と隣接素子間の類似度の分布図である。

【図５】図１のデータ列作成部で作成したデータ列とデータ列融合部で作成したクラスタの階層構造を示す図である。

【図６】ラベル付け部でラベル付けしたマップとデータを示す図である。

【図７】自己組織化特徴マッピングの構造を示す図である。

【図８】本発明の１実施例の勝利数のヒストグラムを示す図である。

【図９】本発明の１実施例のクラスタの階層構造を示す図である。

【図１０】本発明の１実施例でラベル付けしたデータを示す図である。

【図１１】本発明の階層構造作成部の別の構成例を示す図である。

【図１２】３次元ベクトル５クラスタの場合の勝利数のヒストグラムとクラスタの階層構造を示す図である。

【図１３】４次元ベクトル４クラスタの場合の勝利数と隣接素子間の類似度とそれらの比のヒストグラムとクラスタの階層構造を示す図である。

【符号の説明】

１１…マップ作成部１２…階層構造作成部１３…ラベル付け部２１…入力データ群２１Ａ、２１Ｂ、２１Ｃ…クラスタ２１Ａ１、２１Ａ２…サブクラスタ３１…マップ３２…素子群３２Ａ、３２Ｂ、３２Ｃ…素子群３３…プロトタイプ群６１、６１ａ）、６１ｂ）…マップ１１１…データ入力部１１２…マップ部１２１…マップ解析部１２２…データ列融合部１２１Ａ…集積度計算部１２１Ｂ…データ列作成部１２２…データ列融合部１３１…マップラベル部１３２…データ入力部１３３…データラベル部１５１…プロトタイプ融合部１５２…集積度計算部Ｖ…勝利数ｄＭ…隣接素子間の類似度ＭＬ…マップ層ＩＰ…入力層

标题	发布/更新时间	阅读量
一种基于文本的车辆图像细粒度检索系统	2020-05-12	889
将账户信息映射到服务器认证	2020-05-12	438
一种基于云计算技术的智能网联交通服务系统	2020-05-11	760
一种基于数据联勤服务的政策解读方法	2020-05-12	21
一种支持拓扑结构保持的高维数据可视化方法	2020-05-11	790
一种用于滨海核电站海洋致灾物预警系统	2020-05-11	359
基于分层密钥和BLS数字签名的区块链组织密钥管理方法	2020-05-08	343
一种垃圾焚烧电厂多组分气体分析系统及其方法	2020-05-12	742
基于数字孪生体的生产控制方法、装置、设备及介质	2020-05-11	520
一种基于深度卷积对抗神经网络的金相组织自动评级方法	2020-05-08	50

Cluster classifying device

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：