Improved rule generating method专利检索-数据挖掘挖矿资料储存系统专利检索查询-专利查询网

Improved rule generating method

阅读：764发布：2023-05-10

专利汇可以提供Improved rule generating method专利检索，专利查询，专利分析的服务。并且PROBLEM TO BE SOLVED: To make it possible to judge the superiority or inferiority of rules from an evaluation function or the characteristics of a feature space by generating the rules while inclusive by taking OR using plural rules once outputted by data mining, and mapping these generated rules into the feature space of rules.
SOLUTION: An improved rule generator 102 generates inclusive rules while using OR, a counter is generated into improved rule counter 107, record data in a record data storage device 108 are counted up by reading them through one path by this counter, and significant rules are extracted, stored and outputted by an improved rule evaluating device 104.
COPYRIGHT: (C)1999,JPO，下面是Improved rule generating method专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】属性とレコードからなる表形式のデータから、ある属性がある値を持つときに特徴的な、他の属性の値の組合せ条件を求める方法であって、レコードデータを入力して格納する手段と、同じレコードデータに対して過去に求められた属性の値の組合せ条件を複数入力して格納する手段と、上記複数の条件のＯＲの条件を複数生成し、それに対応するカウンタを生成する手段と、レコードデータに対して、対応する条件のカウンタをカウントアップする手段と、ルールの評価をして、優秀なルールを抽出する手段と、ルールを格納する手段と、ルールを出力する手段とを持つことを特徴とするデータ分析方法。

【請求項２】請求項１記載のデータ分析方法において、
複数条件のＯＲの条件を複数生成する処理は、元のすべての条件から二つをとるすべての組合せについてＯＲをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。

【請求項３】請求項１記載のデータ分析方法において、
複数条件のＯＲの条件を複数生成する処理は、元のすべての条件からＮ個をとるすべての組合せについてＯＲをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。

【請求項４】請求項１記載のデータ分析方法において、
複数条件のＯＲの条件を複数生成する処理は、元のすべての条件から２個からＮ個までをとるすべての組合せについてＯＲをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。

【請求項５】請求項１乃至４記載のデータ分析方法において、優秀なルールを抽出する手段は、最も優秀な１個のルールを抽出することを特徴とするデータ分析方法。

【請求項６】請求項１乃至４記載のデータ分析方法において、優秀なルールを抽出する手段は、優秀な上位Ｍ個のルールを抽出することを特徴とするデータ分析方法。

【請求項７】請求項１乃至６記載のデータ分析方法において、ルールを出力する手段は、ルールの条件と、ルールの優秀さを示す数値を含む情報を出力することを特徴とするデータ分析方法。

【請求項８】請求項１乃至７記載のデータ分析方法において、ルールを出力する手段は、ルールが存在する特徴空間を表示し、その中にルールを位置付けることを特徴とするデータ分析方法。

【請求項９】請求項１乃至８記載のデータ分析方法において、ルールを評価する手段は、ルールをその優秀さで１次元の尺度で並べることを可能とする評価関数を用いることを特徴とするデータ分析方法。

【請求項１０】請求項１乃至４及び７乃至８記載のデータ分析方法において、ルールの評価をして、優秀なルールを抽出する手段は、ルールの優秀さを示す評価関数を用いず、自明に得られるルール間の優劣の関係を用いて、どの他のルールよりも劣っていると見なされなかったルールのみを抽出することを特徴とするデータ分析方法。

【請求項１１】請求項１０記載のデータ分析方法において、カウンタの値から得られる二つの確率変数で張る２
次元の空間におけるルールの優劣に関する特性を利用することを特徴とするデータ分析方法。

【請求項１２】請求項１１記載のデータ分析方法において、２次元の空間内の任意の点に対してその点よりも優れているルールの存在範囲、及び劣っているルールの存在範囲、及び自明に得られるルール間の優劣の関係からのみでは優劣の判定がされないルールの存在範囲を表示できることを特徴とするデータ分析方法。

【請求項１３】請求項１乃至１２記載のデータ分析方法をプログラムに記憶し、コンピュータで読み取り可能な媒体。

【請求項１４】請求項１乃至１２記載のデータ分析方法をプログラムに記憶し、コンピュータで読み取り可能なようにし、それをネットワークを通じて配布するシステム。

【請求項１５】属性とレコードからなる表形式のデータから、ある属性がある値を持つときに特徴的な、他の属性の値の組合せ条件を求める装置であって、入力装置と、レコードデータ記憶装置と、同じレコードデータに対して過去に求められた属性の値の組合せ条件を複数格納しておく原始ルール記憶装置と、上記複数の条件のＯＲの条件を複数生成し、それに対応するカウンタを生成する改良ルール生成装置と、改良ルールカウンタと、レコードデータに対して、対応する条件のカウンタをカウントアップする改良ルールカウントアップ装置と、ルールの評価をして、優秀なルールを抽出する改良ルール評価装置と、改良ルールを格納する改良ルール記憶装置と、ルールを出力する出力装置とを持つことを特徴とするデータ分析装置。

【請求項１６】請求項１５記載のデータ分析装置において、複数条件のＯＲの条件を複数生成する処理は、元のすべての条件から二つをとるすべての組合せについてＯ
Ｒをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。

【請求項１７】請求項１５記載のデータ分析装置において、複数条件のＯＲの条件を複数生成する処理は、元のすべての条件からＮ個をとるすべての組合せについてＯ
Ｒをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。

【請求項１８】請求項１５記載のデータ分析装置において、複数条件のＯＲの条件を複数生成する処理は、元のすべての条件から２個からＮ個までをとるすべての組合せについてＯＲをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。

【請求項１９】請求項１５乃至１８記載のデータ分析装置において、改良ルール評価装置は、最も優秀な１個のルールを抽出し、出力装置がそれを出力することを特徴とするデータ分析装置。

【請求項２０】請求項１５乃至１８記載のデータ分析装置において、改良ルール評価装置は、優秀な上位Ｍ個のルールを抽出し、出力装置がそれを出力することを特徴とするデータ分析装置。

【請求項２１】請求項１５乃至２０記載のデータ分析装置において、出力装置は、ルールの条件と、ルールの優秀さを示す数値を含む情報を出力することを特徴とするデータ分析装置。

【請求項２２】請求項１５乃至２１記載のデータ分析装置において、出力装置は、ルールが存在する特徴空間を表示し、その中にルールを位置付け、入力装置が指定したルールに関する詳細情報を表示することを特徴とするデータ分析装置。

【請求項２３】請求項１５乃至２２記載のデータ分析装置において、改良ルール評価装置は、ルールをその優秀さで１次元の尺度で並べることを可能とする評価関数を用いることを特徴とするデータ分析装置。

【請求項２４】請求項２３記載のデータ分析装置において、出力装置は、等評価関数線を表示することを特徴とするデータ分析装置。

【請求項２５】請求項１５乃至１８及び２１乃至２２記載のデータ分析装置において、改良ルール評価装置は、
ルールの優秀さを示す評価関数を用いず、自明に得られるルール間の優劣の関係を用いて、どの他のルールよりも劣っていると見なされなかったルールのみを抽出し、
出力装置がそのルールを表示することを特徴とするデータ分析装置。

【請求項２６】請求項２５記載のデータ分析装置において、カウンタの値から得られる二つの確率変数で張る２
次元の空間におけるルールの優劣に関する特性を利用することを特徴とするデータ分析装置。

【請求項２７】請求項２６記載のデータ分析装置において、２次元の空間内の任意の点に対してその点よりも優れているルールの存在範囲、及び劣っているルールの存在範囲、及び自明に得られるルール間の優劣の関係からのみでは優劣の判定がされないルールの存在範囲を出力装置が出力することを特徴とするデータ分析装置。

说明书全文

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大規模なデータの解析を行う技術分野に属する。

【０００２】本発明は、データマイニングの技術分野に属する。

【０００３】

【従来の技術】大量のデータから、そのデータに潜む因果関係や規則性を自動的に求める技術にデータマイニングと呼ばれる手法がある。データマイニングの一手法であるルールインダクションでは、出力は、if A then B
というようなルールの形となる。

【０００４】福田、数値属性の最適結合ルールを発見する効率的アルゴリズム、情報処理学会論文誌、Vol.37,N
o.6 (1996)（公知例１）では、数値属性について、変域をいくつかのバケットに分割し、連続するバケットを連結することにより、その数値属性に関して最適な区間を求められるとしている。ここでは、確信度がある閾値以上で、サポートが最大となる区間、もうひとつは、サポートがある閾値以上で、確信度が最大となる区間を求める。

【０００５】福田、森下、相関ルールの可視化について、信学技報 DE95-6(1995-05)（公知例２）では、ルールの確信度の制約や、条件節と結論節の独立性、条件節に新しい条件を加えた時の確信度の変化、及びその統計的有意性を用いて意味のあるルールをふるい分けることを提案している。

【０００６】落田、行松、堀、滝、製造業におけるデータマイニングの応用と課題、人工知能学会誌、Vol.12,N
o.4(1997) （公知例３）では、別に用意した概念木を参照することによって、上位概念の関係を求め、自明な出力が出ないようにしている。

【０００７】Gregory Piatetsky-Shapiro, Discovery,
Analysis, and Presentation of Strong Rules, Knowle
dge Discovery in Databases, AAAI Press/The MIT Pre
ss(1991) （公知例４）では、ルールの評価尺度として満たす３つの条件を提示しており、それによると、if A
then B のルールにおいて、（１）P(A&B)=P(A)P(B)
で、０、（２）他のパラメータが同じなら、P(A&B) が増えれば評価尺度も増える。（３）他のパラメータが同じなら、P(A) が増えれば評価尺度は減る、としている。

【０００８】

【発明が解決しようとする課題】上記従来の技術には以下のような課題がある。

【０００９】公知例１では、数値属性に関して、連続する区間の連結しか対応できない。したがって、例えば、
年齢で２０歳未満の区間と６０歳以上の区間を統合するようなことはできない。また、記号値のような非数値属性には対応できない。

【００１０】ここでは、if A then B というルールについて、P(A&B) をサポート、P(B|A)を確信度と呼ぶことにする。

【００１１】また、サポートと確信度について、それぞれ片方に閾値を設けて他方を最大にするものを求める、
という方法では、サポートと確信度のトレードオフの関係を考慮したルールの抽出が行なえない。

【００１２】公知例２では、包含関係のないＡとＣという条件節をもつ二つのルール、if Athen B と if C the
n B を比べるのに、確信度とサポートを考慮した比較ができない。

【００１３】公知例３では、概念木が参照できないと、
ＯＲの組合せを生成できない。また、概念木が得られている場合でも、その概念木から得られる親子関係を越えたＯＲの組合せを生成できない。

【００１４】公知例４では、ルールの評価尺度が満たすべき、自明な関係について述べているが、P(A&B) と P
(A) が同時に増えるようなケースについては言及がなく、ルールの満たすべき自明な必要条件としては依然、
範囲が狭い。

【００１５】したがって、本発明の第１の目的は、数値属性においても、非数値属性においても、外部からの前提知識なしに、任意の区間または、属性の組合せを網羅した有意なルールを抽出することにある。

【００１６】また、本発明の第２の目的は、確率間のトレードオフを考慮したルール間の比較を行なうことにある。

【００１７】また、本発明の第３の目的は、ルールの評価尺度が満たすべき自明な必要条件を拡張し、それを用いてルール間の比較を行なったり、ルール空間の特性を出力したりするものである。

【００１８】

【課題を解決するための手段】本発明は、データマイニングによって一度出力された複数のルールを用いて網羅的にＯＲをとり、新しいルールを生成し、その中である評価尺度を最大にするルールを抽出するものである。

【００１９】また、本発明は、データマイニングによって一度出力された複数のルールを用いて網羅的にＯＲをとり、新しいルールを生成し、サポートと確信度等の確率間のトレードオフを考慮したルールの評価尺度の自明な関係を利用して、少なくともその関係を用いて他よりも評価尺度が小さいと判断はされないルールを抽出するものである。

【００２０】また、本発明は、サポートや確信度等の軸で張るルールの特徴空間を定義し、その空間でルールの位置を表示するものである。また、そのときに、ルールの評価尺度の大小について判断ができるように特徴空間の特性を表示できるようにするものである。

【００２１】

【発明の実施の形態】以下、本発明の実施の形態の一例を詳細に説明する。

【００２２】図１に本発明の実施の形態の一例の構成図を示す。

【００２３】本発明では、入力装置１０１、改良ルール生成装置１０２、改良ルールカウントアップ装置１０
３、改良ルール評価装置１０４、出力装置１０５、原始ルール記憶装置１０６、改良ルールカウンタ１０７、レコードデータ記憶装置１０８、改良ルール記憶装置１０
９が、バス１１０に相互接続されている。

【００２４】図２に本発明の実施の形態の一例のフローチャートを示す。以下、図２のフローチャートにしたがって、図１を用いながら、処理の流れを説明する。

【００２５】ステップ２０１では、レコードデータを入力装置１０１から入力し、レコードデータ記憶装置１０
８に格納する。レコードデータは、表形式のデータとなっており、属性×レコードの形式で、その値が入っているようなデータである。表形式のレコードデータの例を図３に示す。

【００２６】ステップ２０２では、過去に実施されたデータマイニングによって出力された結果であるルールを入力装置１０１から入力し、原始ルール記憶装置１０６
に格納する。ここでは、ステップ２０１で入力されたレコードデータと同じレコードデータから得られたルールのみを入力、格納する。また、ルールは、ＩＦ男ＴＨＥ
Ｎ不良顧客、ＩＦ女かつ２０代ＴＨＥＮ不良顧客、のように、ＩＦ−ＴＨＥＮルールの形式をとっており、ＩＦ
の項目とＴＨＥＮの項目の対で格納される。また、この際、ＴＨＥＮ項目は共通のものとする。

【００２７】ステップ２０３では、原始ルール記憶装置１０６に格納されたルールから、改良ルール生成装置１
０２が新しいルールを生成し、対応するカウンタを生成し、改良ルールカウンタ１０７を初期化する。改良ルールカウンタ１０７は、生成されたルールの識別子とそのカウンタの対の配列となる。また、カウンタ自身は、Ｉ
ＦとＴＨＥＮの両方が成り立つカウンタ「正例カウンタ」と、ＩＦは成り立つがＴＨＥＮが成り立たないカウンタ「負例カウンタ」の二つのカウンタを持つ構造となる。このカウンタの例を図４に示す。初期化はそれぞれのカウンタを０とする処理である。改良ルール生成装置１０２は、原始ルール記憶装置１０６に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのＯＲのルールを生成し、そのカウンタを改良ルールカウンタ１０７に生成する。

【００２８】ステップ２０４では、すべてのレコードデータが読まれたかどうかを判定する。すべてのレコードデータが読まれたときには、ステップ２０７に移る。まだすべてのレコードデータを読んでいないときには、ステップ２０５に移る。

【００２９】ステップ２０５では、まだ読んでいないレコードデータをレコードデータ記憶装置１０８から１レコード読み込む。

【００３０】ステップ２０６では、改良ルールカウントアップ装置１０３が、ステップ２０５で読み込んだ１個のレコードデータが満たすすべての改良ルールカウンタ１０７のカウンタをカウントアップする。改良ルールカウンタ１０７は、配列の形なので、それをすべて走査し、ＩＦとＴＨＥＮの両方を満たしていれば、対応する正例カウンタを１だけカウントアップし、ＩＦは満たすがＴＨＥＮを満たしていないときには、対応する負例カウンタを１だけカウントアップする。このフローチャートを図５に示す。ステップ５０１では、すべてのルールを走査したか否かを判定する。走査した場合には、終了する。まだ残っているルールがあるときには、ステップ５０２に移る。ステップ５０２では、残りのルールのうちのひとつについて、当該レコードデータが、当該ルールのＩＦの項目を満たしているかどうかを判定する。満たしていない場合には、ステップ５０１に移り、満たしている場合には、ステップ５０３に移る。ステップ５０
３では、当該レコードデータが当該ルールのＴＨＥＮの項目を満たしているかどうかを判定する。満たしている場合にはステップ５０４に移り、満たしていない場合にはステップ５０５に移る。ステップ５０４では、改良ルールカウンタ１０７で当該ルールに対応する正例カウンタを１だけカウントアップする。ステップ５０５では、
改良ルールカウンタ１０７で当該ルールに対応する負例カウンタを１だけカウントアップする。

【００３１】ステップ２０７では改良ルール評価装置１
０４が、ルールの評価を行なう。改良ルールカウンタ１
０７にあるすべてのルールについて、以下の評価関数の値を計算し、最大の値を持つものを抽出する。なお、この評価関数は、公知例４で示された、ルールの最も簡単な評価関数を変形したものである。以下にその変形の過程を示す。

【００３２】

【数１】

【００３３】ステップ２０８では、ステップ２０７で出力されたルールとその評価関数の値及び、対応する改良ルールカウンタ１０７の正例カウンタと負例カウンタの値を改良ルール記憶装置１０９に格納する。

【００３４】ステップ２０９では、ステップ２０８に格納された情報を出力装置１０５に出力する。

【００３５】この実施の形態によれば、一度行なわれたデータマイニングで出力されたルールを用い、数値属性での隣接性や、非数値属性での属性値のグループ関係とは関係なく、優秀なルールを生成することができる。また、原始ルールそのものも対象としているので、この操作により、ルールの優秀さが悪くなることはない。

【００３６】また、この実施の形態によれば、大量のレコードデータを対象にするときにも、一度の読み込みによって、優秀なルールを網羅的に探索することができ、
レコードデータを何度もアクセスしなくてよい。

【００３７】また、この実施の形態は以下のように変更して実施することも可能である。

【００３８】第１に、ステップ２０３において、改良ルール生成装置１０２が生成するルールが、原始ルール記憶装置１０６に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのＯＲのルールとなっていたところを、原始ルール記憶装置１０６に格納されたすべてのルールと、そのルールからＮ個をとるすべての組合せのＯＲのルールとすることも可能である。これは、Ｎを２からそれ以外に一般化するものである。Ｎの値は、入力装置１０１から入力することも可能であるし、固定にしておくことも可能である。

【００３９】これにより、例えば３個のルールのＯＲのようなより広い範囲を含み得るルールについて評価ができるようになる。

【００４０】第２に、ステップ２０３において、改良ルール生成装置１０２が生成するルールが、原始ルール記憶装置１０６に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのＯＲのルールとなっていたところを、原始ルール記憶装置１０６に格納されたすべてのルールと、そのルールから２個以上Ｎ個以下をとるすべての組合せのＯＲのルールとすることも可能である。上述の第１の実施の形態の変更例で、Ｎ個としたものを、２個からＮ個に網羅的に行なうものである。
Ｎの値は、入力装置１０１から入力することも可能であるし、固定にしておくことも可能である。

【００４１】これにより、Ｎ個以下のルールのＯＲについて、最もよい改良ルールが得られる。

【００４２】第３に、ステップ２０７において、改良ルール評価装置１０４が、改良ルールカウンタ１０７にあるすべてのルールから評価関数を最大にするルールを抽出する処理を、評価関数が大きいＭ個のルールを抽出するように変更して実施することも可能である。そこでは、図６にあるようなＭ個の配列を用意する。配列のそれぞれの要素は少なくとも、ルールを識別できるＩＤと評価関数の値を持つ。このＭ個の配列の内容は、評価関数の値で降順になるように記憶される。ここで、図中の配列中の数字は評価関数の値を示す。今、評価関数の値が１０のルールが得られた時には、評価関数の値が６の要素の位置に挿入され、以降、ひとつずつ繰り下がり、
評価関数の値が３の要素はこの配列からは消される。このようにすれば、評価関数の大きなＭ個のルールを抽出することができる。

【００４３】これにより、複数の有意な改良ルールを出力することができ、さらに別の意思決定手法を利用することが可能となる。

【００４４】第４に、ステップ２０９における出力装置１０５への出力を図などを用いてグラフィカルにすることもできる。図７に、if A then B のときの P(A|B) と
P(A)をそれぞれｙ軸、ｘ軸にしたグラフを示す。ここで、先の数１の評価関数が等しくなる等評価関数線は、
y=x と平行な直線となる。このグラフ中に、ルールを指定位置に出力する。 P(A|B) は、正例のカウンタとＢ
の個数の比、P(A)は、正例のカウンタと負例のカウンタの和と全体集合の個数の比で表される。また、等評価関数線を重畳表示する。さらに、入力装置１０１を用いて、グラフ中のルールを指示すれば、その詳細情報が表示されるようにする。このイメージを図８に示す。

【００４５】第５に、ステップ２０７で改良ルール評価装置１０４が数１に示される評価関数を用いて最大の評価関数を持つものを抽出する処理を行なっていたが、評価関数を陽に決めなくても自明に得られるルール間の優劣の関係を用いて、どのルールからも劣っていると判断されなかったルールのみを抽出するように変更して実施することも可能である。

【００４６】以下にこの原理を説明する。

【００４７】前述したように、if A then B のルールで、今は、Ｂを固定している。公知例４によれば、ルールの優劣に関しては、１）同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

【００４８】２）同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

【００４９】と言える。

【００５０】これに以下の自明な規則を追加する。

【００５１】３）同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

【００５２】この３つの規則を P(A|B) と P(A) で張る２次元の空間に表すと図９のようになる。図中、注目するルールをひとつ考え、その位置が定まっている。矢印と数字は、対応する数字の規則によれば、矢印の根元のルールよりは、矢印の先のルールの方が優秀であることを示す。１）と２）の矢印をそれぞれ、ベクトルとして、ａ、ｂとすると、αａ＋βｂで表されるベクトル（ただしαとβは０以上であり、同時に０にはならない）の先にあるルールは注目するルールより優秀なルールとなる。ここに、３）の規則を加える。数２にあるように、 P(B|A) が一定ということは、原点を通る直線上にあることを示しており、さらに、P(B|A) が一定なので、P(A&B) は P(A) の正値定数倍となるから、３）の規則は図９のような矢印となる。

【００５３】

【数２】

【００５４】以上により、注目するルールより優秀だと言える領域が広がり、図１０の斜線領域となる。同様の議論により、注目するルールより自明に劣っているというルールの領域も決まり、図１１に示されるように、領域１が注目するルールより自明に優秀なルールの存在領域であり、領域２が注目するルールより自明に劣っているルールの存在領域であり、領域３がこの規則からでは優劣が判断できない領域である。因みにこの領域３が、
注目するルールの等評価関数線の存在領域の必要条件となる。また、y=x より下の領域はすべて領域２となる。
これは、公知例４で、P(A&B)=P(A)P(B) のとき、評価尺度＝０という条件から、求まるものである。 P(A&B)=P
(A)P(B) は変形すると、P(A|B)=P(A) となる。これは、
y=x の直線となるが、これより右だと、P(B|A) はP(B)
より小さくなり、A を加えた意味がなくなる。したがって、y=x より右にあるルールは y=x より左にあるルールより自明に劣っている。

【００５５】あるルールに注目すれば、P(A|B) と P(A)
で張るグラフ上で、そのルールより自明に劣っているルールというのがわかるので、これを順にすべてのルールについて行なえば、どのルールからも自明には劣っていなかったルールを抽出することができる。

【００５６】これにより、評価関数を陽に決めなくても優秀なルールを絞り込めるので、評価関数を決めたがために優秀なルールを見逃してしまうということを避けられる。

【００５７】第６に、上記第５の実施の変更例において、グラフは、P(A|B) と P(A) で張る２次元であったが、これを、P(B|A) とP(A&B) に変更して実施することも可能である。

【００５８】その原理について述べる。

【００５９】これらの確率は、P(B)が一定であることにより、自由度は２となっている。したがって、上述のグラフに１対１に変換することが可能となっている。

【００６０】

【数３】

【００６１】数３より、１）同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

【００６２】は、同じ P(A&B) なら、P(B|A) が大きい方が優秀なルールである、と書き換えられる。

【００６３】

【数４】

【００６４】数４より、２）同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

【００６５】は、P(A&B) と P(B|A) の比が同じなら、P
(A&B) が大きい方が優秀なルールである、と書き換えられる。また、３）同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

【００６６】は、そのままグラフ中で用いることができる。

【００６７】これらをグラフに表示すると、図１２が、
１）、２）、３）を表す矢印となる。注目するルールの位置を定めるには、数５に従えばよい。

【００６８】

【数５】

【００６９】これにより、第５の実施の形態の変更例と同様にルールの自明な優劣を定める領域を図１３に示す。領域１が注目するルールより自明に優秀なルールの存在領域であり、領域２が注目するルールより自明に劣っているルールの存在領域であり、領域３がこの規則からでは優劣が判断できない領域である。因みにこの領域３が、注目するルールの等評価関数線の存在領域の必要条件となる。また、P(B|A) が、P(B) 以下の領域は、すべて領域２となる。これは、公知例４で、P(A&B)=P(A)P
(B) のとき、評価尺度＝０という条件から、求まるものである。 P(A&B)=P(A)P(B) は変形すると、P(B|A)=P(B)
となる。これは、y=P(B) の直線となるが、これより下だと、P(B|A) は P(B) より小さくなり、A を加えた意味がなくなる。したがって、y=P(B) より下にあるルールは y=P(B) より上にあるルールより自明に劣っている。

【００７０】以上によれば、 P(A&B) と P(B|A) の二つに関心があるユーザやアプリケーションにとって有意なビューを提供できる。

【００７１】また、注目するルールより劣っているルールの条件が簡単な１次式二つで表される。

【００７２】第７に、上記第５の実施の変更例において、グラフは、P(A|B) と P(A) で張る２次元であったが、これを、P(B|A) とP(A) に変更して実施することも可能である。

【００７３】その原理について述べる。

【００７４】これらの確率は、P(B) が一定であることにより、自由度は２となっている。したがって、上述のグラフに１対１に変換することが可能となっている。

【００７５】

【数６】

【００７６】数６より、１）同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

【００７７】は、P(B|A) と P(A) の積が同じなら、P
(A) が小さい方が優秀なルールである、と書き換えられる。

【００７８】同じく数６より、２）同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

【００７９】は、同じ P(A) なら、P(B|A) が大きい方が優秀なルールである、と書き換えられる。

【００８０】

【数７】

【００８１】また、数７より、３）同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

【００８２】は、同じ P(B|A) なら、P(A) が大きい方が優秀なルールである、と書き換えられる。

【００８３】これらをグラフに表示すると、図１４が、
１）、２）、３）を表す矢印となる。注目するルールの位置を定めるには、数８に従えばよい。

【００８４】

【数８】

【００８５】これにより、第５の実施の形態の変更例と同様にルールの自明な優劣を定める領域を図１５に示す。領域１が注目するルールより自明に優秀なルールの存在領域であり、領域２が注目するルールより自明に劣っているルールの存在領域であり、領域３がこの規則からでは優劣が判断できない領域である。因みにこの領域３が、注目するルールの等評価関数線の存在領域の必要条件となる。また、P(B|A) が、P(B) 以下の領域は、すべて領域２となる。これは、公知例４で、P(A&B)=P(A)P
(B) のとき、評価尺度＝０という条件から、求まるものである。 P(A&B)=P(A)P(B) は変形すると、P(B|A)=P(B)
となる。これは、y=P(B) の直線となるが、これより下だと、P(B|A) は P(B) より小さくなり、A を加えた意味がなくなる。したがって、y=P(B) より下にあるルールは y=P(B) より上にあるルールより自明に劣っている。

【００８６】以上によれば、 P(A) と P(B|A) の二つに関心があるユーザやアプリケーションにとって有意なビューを提供できる。

【００８７】第８に、ステップ２０７では、数１で決まる評価関数を用いたが、他の評価関数を用いてもよい。
その際には、第５乃至第７の実施の形態の変更例中、等評価関数線の存在領域の必要条件を満たすことが必要である。

【００８８】以上によれば、ユーザが興味のある特性にしぼった評価関数を設定し、その評価関数を最大、もしくは、大きくするような改良ルールを抽出することができる。

【００８９】第９に、上記第４乃至第７の実施の形態の変更例において、ルールの空間を表すグラフにおいて、
あるポイントを入力装置１０１で指示すると、それより自明に優秀なルールの領域、及び、自明に劣っているルールの領域、及び、判断できない領域を表示できるように実施することも可能である。その実現例を図１６に示す。

【００９０】これにより、あるルールと別のルールが自明に優劣の判断がつくかどうかを知ることができる。

【００９１】

【発明の効果】以上述べたように、本発明によれば、数値属性においても、非数値属性においても、外部からの前提知識なしに、任意の区間または、属性の組合せを網羅した有意なルールを抽出できる。

【００９２】また、確率間のトレードオフを考慮したルール間の比較を行なうことができる。

【００９３】また、ルールの評価尺度が満たすべき自明な必要条件を拡張し、それを用いてルール間の比較を行なったり、ルール空間の特性を出力したりできる。

【図面の簡単な説明】

【数１】評価関数及びその導出を示す式

【数２】自明な関係３）をグラフ上に表現する際の計算過程を示す式

【数３】自明な関係１）を P(B|A)vs.P(A&B) のグラフで利用する際の計算過程を示す式

【数４】自明な関係２）を P(B|A)vs.P(A&B) のグラフで利用する際の計算過程を示す式

【数５】P(B|A)vs.P(A&B) のグラフにルールの点を定める際の計算過程を示す式

【数６】自明な関係１）を P(B|A)vs.P(A) のグラフで利用する際の計算過程を示す式

【数７】自明な関係３）を P(B|A)vs.P(A) のグラフで利用する際の計算過程を示す式

【数８】P(B|A)vs.P(A) のグラフにルールの点を定める際の計算過程を示す式

【図１】本発明の第１の実施の形態の構成図

【図２】本発明の第１の実施の形態のフローチャート

【図３】表形式のレコードデータの例

【図４】カウンタの例

【図５】カウントアップのフローチャート

【図６】評価関数の値の大きいＭ個のルールを抽出するための配列

【図７】グラフィカルな出力例

【図８】詳細情報表示の実現例

【図９】３つの自明な規則の P(A|B)vs.P(A) 空間内の表現

【図１０】P(A|B)vs.P(A) 空間内における、注目するルールより優秀なルールの存在領域

【図１１】P(A|B)vs.P(A) 空間のルール優劣に関する自明な特性

【図１２】３つの自明な規則の P(B|A)vs.P(A&B) 空間内の表現

【図１３】P(B|A)vs.P(A&B) 空間のルール優劣に関する自明な特性

【図１４】３つの自明な規則の P(B|A)vs.P(A) 空間内の表現

【図１５】P(B|A)vs.P(A) 空間のルール優劣に関する自明な特性

【図１６】空間のルール優劣に関する自明な特性を表示する実現例

【符号の説明】

１０１…入力装置、１０２…改良ルール生成装置、１０
３…改良ルールカウントアップ装置、１０４…改良ルール評価装置、１０５…出力装置、１０６…原始ルール記憶装置、１０７…改良ルールカウンタ、１０８…レコードデータ記憶装置、１０９…改良ルール記憶装置、１１
０…バス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者伊藤幸康神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

标题	发布/更新时间	阅读量
数据挖掘系统及方法	2020-05-08	428
一种spark下的机器学习快速大规模样本签名方法	2020-05-08	664
基于ZORRO系统的数据挖掘任务创建方法	2020-05-11	948
一种移动用户位置预测方法与系统	2020-05-08	972
一种基于改进粒子群优化SVM的空气质量预测算法	2020-05-08	972
一种基于跨领域推荐思想的声音直播主播价值评定方法	2020-05-08	89
一种IP应用场景的分类方法	2020-05-11	915
深度机器学习所生成的乳腺癌预后的概率识别模型	2020-05-08	586
一种基于文本语料的涉恐事件实体属性抽取系统及方法	2020-05-11	835
一种多功能数据挖掘装置	2020-05-11	982

Improved rule generating method

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：