首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / Improved rule generating method

Improved rule generating method

阅读:764发布:2023-05-10

专利汇可以提供Improved rule generating method专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To make it possible to judge the superiority or inferiority of rules from an evaluation function or the characteristics of a feature space by generating the rules while inclusive by taking OR using plural rules once outputted by data mining, and mapping these generated rules into the feature space of rules.
SOLUTION: An improved rule generator 102 generates inclusive rules while using OR, a counter is generated into improved rule counter 107, record data in a record data storage device 108 are counted up by reading them through one path by this counter, and significant rules are extracted, stored and outputted by an improved rule evaluating device 104.
COPYRIGHT: (C)1999,JPO,下面是Improved rule generating method专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】属性とレコードからなる表形式のデータから、ある属性がある値を持つときに特徴的な、他の属性の値の組合せ条件を求める方法であって、 レコードデータを入力して格納する手段と、 同じレコードデータに対して過去に求められた属性の値の組合せ条件を複数入力して格納する手段と、 上記複数の条件のORの条件を複数生成し、それに対応するカウンタを生成する手段と、 レコードデータに対して、対応する条件のカウンタをカウントアップする手段と、 ルールの評価をして、優秀なルールを抽出する手段と、 ルールを格納する手段と、 ルールを出力する手段とを持つことを特徴とするデータ分析方法。
  • 【請求項2】請求項1記載のデータ分析方法において、
    複数条件のORの条件を複数生成する処理は、元のすべての条件から二つをとるすべての組合せについてORをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。
  • 【請求項3】請求項1記載のデータ分析方法において、
    複数条件のORの条件を複数生成する処理は、元のすべての条件からN個をとるすべての組合せについてORをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。
  • 【請求項4】請求項1記載のデータ分析方法において、
    複数条件のORの条件を複数生成する処理は、元のすべての条件から2個からN個までをとるすべての組合せについてORをとった条件と元のすべての条件を生成することを特徴とするデータ分析方法。
  • 【請求項5】請求項1乃至4記載のデータ分析方法において、優秀なルールを抽出する手段は、最も優秀な1個のルールを抽出することを特徴とするデータ分析方法。
  • 【請求項6】請求項1乃至4記載のデータ分析方法において、優秀なルールを抽出する手段は、優秀な上位M個のルールを抽出することを特徴とするデータ分析方法。
  • 【請求項7】請求項1乃至6記載のデータ分析方法において、ルールを出力する手段は、ルールの条件と、ルールの優秀さを示す数値を含む情報を出力することを特徴とするデータ分析方法。
  • 【請求項8】請求項1乃至7記載のデータ分析方法において、ルールを出力する手段は、ルールが存在する特徴空間を表示し、その中にルールを位置付けることを特徴とするデータ分析方法。
  • 【請求項9】請求項1乃至8記載のデータ分析方法において、ルールを評価する手段は、ルールをその優秀さで1次元の尺度で並べることを可能とする評価関数を用いることを特徴とするデータ分析方法。
  • 【請求項10】請求項1乃至4及び7乃至8記載のデータ分析方法において、ルールの評価をして、優秀なルールを抽出する手段は、ルールの優秀さを示す評価関数を用いず、自明に得られるルール間の優劣の関係を用いて、どの他のルールよりも劣っていると見なされなかったルールのみを抽出することを特徴とするデータ分析方法。
  • 【請求項11】請求項10記載のデータ分析方法において、カウンタの値から得られる二つの確率変数で張る2
    次元の空間におけるルールの優劣に関する特性を利用することを特徴とするデータ分析方法。
  • 【請求項12】請求項11記載のデータ分析方法において、2次元の空間内の任意の点に対してその点よりも優れているルールの存在範囲、及び劣っているルールの存在範囲、及び自明に得られるルール間の優劣の関係からのみでは優劣の判定がされないルールの存在範囲を表示できることを特徴とするデータ分析方法。
  • 【請求項13】請求項1乃至12記載のデータ分析方法をプログラムに記憶し、コンピュータで読み取り可能な媒体。
  • 【請求項14】請求項1乃至12記載のデータ分析方法をプログラムに記憶し、コンピュータで読み取り可能なようにし、それをネットワークを通じて配布するシステム。
  • 【請求項15】属性とレコードからなる表形式のデータから、ある属性がある値を持つときに特徴的な、他の属性の値の組合せ条件を求める装置であって、 入力装置と、 レコードデータ記憶装置と、 同じレコードデータに対して過去に求められた属性の値の組合せ条件を複数格納しておく原始ルール記憶装置と、 上記複数の条件のORの条件を複数生成し、それに対応するカウンタを生成する改良ルール生成装置と、 改良ルールカウンタと、 レコードデータに対して、対応する条件のカウンタをカウントアップする改良ルールカウントアップ装置と、 ルールの評価をして、優秀なルールを抽出する改良ルール評価装置と、 改良ルールを格納する改良ルール記憶装置と、 ルールを出力する出力装置とを持つことを特徴とするデータ分析装置。
  • 【請求項16】請求項15記載のデータ分析装置において、複数条件のORの条件を複数生成する処理は、元のすべての条件から二つをとるすべての組合せについてO
    Rをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。
  • 【請求項17】請求項15記載のデータ分析装置において、複数条件のORの条件を複数生成する処理は、元のすべての条件からN個をとるすべての組合せについてO
    Rをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。
  • 【請求項18】請求項15記載のデータ分析装置において、複数条件のORの条件を複数生成する処理は、元のすべての条件から2個からN個までをとるすべての組合せについてORをとった条件と元のすべての条件を生成することを特徴とするデータ分析装置。
  • 【請求項19】請求項15乃至18記載のデータ分析装置において、改良ルール評価装置は、最も優秀な1個のルールを抽出し、出力装置がそれを出力することを特徴とするデータ分析装置。
  • 【請求項20】請求項15乃至18記載のデータ分析装置において、改良ルール評価装置は、優秀な上位M個のルールを抽出し、出力装置がそれを出力することを特徴とするデータ分析装置。
  • 【請求項21】請求項15乃至20記載のデータ分析装置において、出力装置は、ルールの条件と、ルールの優秀さを示す数値を含む情報を出力することを特徴とするデータ分析装置。
  • 【請求項22】請求項15乃至21記載のデータ分析装置において、出力装置は、ルールが存在する特徴空間を表示し、その中にルールを位置付け、入力装置が指定したルールに関する詳細情報を表示することを特徴とするデータ分析装置。
  • 【請求項23】請求項15乃至22記載のデータ分析装置において、改良ルール評価装置は、ルールをその優秀さで1次元の尺度で並べることを可能とする評価関数を用いることを特徴とするデータ分析装置。
  • 【請求項24】請求項23記載のデータ分析装置において、出力装置は、等評価関数線を表示することを特徴とするデータ分析装置。
  • 【請求項25】請求項15乃至18及び21乃至22記載のデータ分析装置において、改良ルール評価装置は、
    ルールの優秀さを示す評価関数を用いず、自明に得られるルール間の優劣の関係を用いて、どの他のルールよりも劣っていると見なされなかったルールのみを抽出し、
    出力装置がそのルールを表示することを特徴とするデータ分析装置。
  • 【請求項26】請求項25記載のデータ分析装置において、カウンタの値から得られる二つの確率変数で張る2
    次元の空間におけるルールの優劣に関する特性を利用することを特徴とするデータ分析装置。
  • 【請求項27】請求項26記載のデータ分析装置において、2次元の空間内の任意の点に対してその点よりも優れているルールの存在範囲、及び劣っているルールの存在範囲、及び自明に得られるルール間の優劣の関係からのみでは優劣の判定がされないルールの存在範囲を出力装置が出力することを特徴とするデータ分析装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、大規模なデータの解析を行う技術分野に属する。

    【0002】本発明は、データマイニングの技術分野に属する。

    【0003】

    【従来の技術】大量のデータから、そのデータに潜む因果関係や規則性を自動的に求める技術にデータマイニングと呼ばれる手法がある。 データマイニングの一手法であるルールインダクションでは、出は、if A then B
    というようなルールの形となる。

    【0004】福田、数値属性の最適結合ルールを発見する効率的アルゴリズム、情報処理学会論文誌、Vol.37,N
    o.6 (1996)(公知例1)では、数値属性について、変域をいくつかのバケットに分割し、連続するバケットを連結することにより、その数値属性に関して最適な区間を求められるとしている。 ここでは、確信度がある閾値以上で、サポートが最大となる区間、もうひとつは、サポートがある閾値以上で、確信度が最大となる区間を求める。

    【0005】福田、森下、相関ルールの可視化について、信学技報 DE95-6(1995-05)(公知例2)では、ルールの確信度の制約や、条件節と結論節の独立性、条件節に新しい条件を加えた時の確信度の変化、及びその統計的有意性を用いて意味のあるルールをふるい分けることを提案している。

    【0006】落田、行松、堀、滝、製造業におけるデータマイニングの応用と課題、人工知能学会誌、Vol.12,N
    o.4(1997) (公知例3)では、別に用意した概念木を参照することによって、上位概念の関係を求め、自明な出力が出ないようにしている。

    【0007】Gregory Piatetsky-Shapiro, Discovery,
    Analysis, and Presentation of Strong Rules, Knowle
    dge Discovery in Databases, AAAI Press/The MIT Pre
    ss(1991) (公知例4)では、ルールの評価尺度として満たす3つの条件を提示しており、それによると、if A
    then B のルールにおいて、(1)P(A&B)=P(A)P(B)
    で、0、(2)他のパラメータが同じなら、P(A&B) が増えれば評価尺度も増える。 (3)他のパラメータが同じなら、P(A) が増えれば評価尺度は減る、としている。

    【0008】

    【発明が解決しようとする課題】上記従来の技術には以下のような課題がある。

    【0009】公知例1では、数値属性に関して、連続する区間の連結しか対応できない。 したがって、例えば、
    年齢で20歳未満の区間と60歳以上の区間を統合するようなことはできない。 また、記号値のような非数値属性には対応できない。

    【0010】ここでは、if A then B というルールについて、P(A&B) をサポート、P(B|A)を確信度と呼ぶことにする。

    【0011】また、サポートと確信度について、それぞれ片方に閾値を設けて他方を最大にするものを求める、
    という方法では、サポートと確信度のトレードオフの関係を考慮したルールの抽出が行なえない。

    【0012】公知例2では、包含関係のないAとCという条件節をもつ二つのルール、if Athen B と if C the
    n B を比べるのに、確信度とサポートを考慮した比較ができない。

    【0013】公知例3では、概念木が参照できないと、
    ORの組合せを生成できない。 また、概念木が得られている場合でも、その概念木から得られる親子関係を越えたORの組合せを生成できない。

    【0014】公知例4では、ルールの評価尺度が満たすべき、自明な関係について述べているが、P(A&B) と P
    (A) が同時に増えるようなケースについては言及がなく、ルールの満たすべき自明な必要条件としては依然、
    範囲が狭い。

    【0015】したがって、本発明の第1の目的は、数値属性においても、非数値属性においても、外部からの前提知識なしに、任意の区間または、属性の組合せを網羅した有意なルールを抽出することにある。

    【0016】また、本発明の第2の目的は、確率間のトレードオフを考慮したルール間の比較を行なうことにある。

    【0017】また、本発明の第3の目的は、ルールの評価尺度が満たすべき自明な必要条件を拡張し、それを用いてルール間の比較を行なったり、ルール空間の特性を出力したりするものである。

    【0018】

    【課題を解決するための手段】本発明は、データマイニングによって一度出力された複数のルールを用いて網羅的にORをとり、新しいルールを生成し、その中である評価尺度を最大にするルールを抽出するものである。

    【0019】また、本発明は、データマイニングによって一度出力された複数のルールを用いて網羅的にORをとり、新しいルールを生成し、サポートと確信度等の確率間のトレードオフを考慮したルールの評価尺度の自明な関係を利用して、少なくともその関係を用いて他よりも評価尺度が小さいと判断はされないルールを抽出するものである。

    【0020】また、本発明は、サポートや確信度等の軸で張るルールの特徴空間を定義し、その空間でルールの位置を表示するものである。 また、そのときに、ルールの評価尺度の大小について判断ができるように特徴空間の特性を表示できるようにするものである。

    【0021】

    【発明の実施の形態】以下、本発明の実施の形態の一例を詳細に説明する。

    【0022】図1に本発明の実施の形態の一例の構成図を示す。

    【0023】本発明では、入力装置101、改良ルール生成装置102、改良ルールカウントアップ装置10
    3、改良ルール評価装置104、出力装置105、原始ルール記憶装置106、改良ルールカウンタ107、レコードデータ記憶装置108、改良ルール記憶装置10
    9が、バス110に相互接続されている。

    【0024】図2に本発明の実施の形態の一例のフローチャートを示す。 以下、図2のフローチャートにしたがって、図1を用いながら、処理の流れを説明する。

    【0025】ステップ201では、レコードデータを入力装置101から入力し、レコードデータ記憶装置10
    8に格納する。 レコードデータは、表形式のデータとなっており、属性×レコードの形式で、その値が入っているようなデータである。 表形式のレコードデータの例を図3に示す。

    【0026】ステップ202では、過去に実施されたデータマイニングによって出力された結果であるルールを入力装置101から入力し、原始ルール記憶装置106
    に格納する。 ここでは、ステップ201で入力されたレコードデータと同じレコードデータから得られたルールのみを入力、格納する。 また、ルールは、IF男THE
    N不良顧客、IF女かつ20代THEN不良顧客、のように、IF−THENルールの形式をとっており、IF
    の項目とTHENの項目の対で格納される。 また、この際、THEN項目は共通のものとする。

    【0027】ステップ203では、原始ルール記憶装置106に格納されたルールから、改良ルール生成装置1
    02が新しいルールを生成し、対応するカウンタを生成し、改良ルールカウンタ107を初期化する。 改良ルールカウンタ107は、生成されたルールの識別子とそのカウンタの対の配列となる。 また、カウンタ自身は、I
    FとTHENの両方が成り立つカウンタ「正例カウンタ」と、IFは成り立つがTHENが成り立たないカウンタ「負例カウンタ」の二つのカウンタを持つ構造となる。 このカウンタの例を図4に示す。 初期化はそれぞれのカウンタを0とする処理である。 改良ルール生成装置102は、原始ルール記憶装置106に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのORのルールを生成し、そのカウンタを改良ルールカウンタ107に生成する。

    【0028】ステップ204では、すべてのレコードデータが読まれたかどうかを判定する。 すべてのレコードデータが読まれたときには、ステップ207に移る。 まだすべてのレコードデータを読んでいないときには、ステップ205に移る。

    【0029】ステップ205では、まだ読んでいないレコードデータをレコードデータ記憶装置108から1レコード読み込む。

    【0030】ステップ206では、改良ルールカウントアップ装置103が、ステップ205で読み込んだ1個のレコードデータが満たすすべての改良ルールカウンタ107のカウンタをカウントアップする。 改良ルールカウンタ107は、配列の形なので、それをすべて走査し、IFとTHENの両方を満たしていれば、対応する正例カウンタを1だけカウントアップし、IFは満たすがTHENを満たしていないときには、対応する負例カウンタを1だけカウントアップする。 このフローチャートを図5に示す。 ステップ501では、すべてのルールを走査したか否かを判定する。 走査した場合には、終了する。 まだ残っているルールがあるときには、ステップ502に移る。 ステップ502では、残りのルールのうちのひとつについて、当該レコードデータが、当該ルールのIFの項目を満たしているかどうかを判定する。 満たしていない場合には、ステップ501に移り、満たしている場合には、ステップ503に移る。 ステップ50
    3では、当該レコードデータが当該ルールのTHENの項目を満たしているかどうかを判定する。 満たしている場合にはステップ504に移り、満たしていない場合にはステップ505に移る。 ステップ504では、改良ルールカウンタ107で当該ルールに対応する正例カウンタを1だけカウントアップする。 ステップ505では、
    改良ルールカウンタ107で当該ルールに対応する負例カウンタを1だけカウントアップする。

    【0031】ステップ207では改良ルール評価装置1
    04が、ルールの評価を行なう。 改良ルールカウンタ1
    07にあるすべてのルールについて、以下の評価関数の値を計算し、最大の値を持つものを抽出する。 なお、この評価関数は、公知例4で示された、ルールの最も簡単な評価関数を変形したものである。 以下にその変形の過程を示す。

    【0032】

    【数1】

    【0033】ステップ208では、ステップ207で出力されたルールとその評価関数の値及び、対応する改良ルールカウンタ107の正例カウンタと負例カウンタの値を改良ルール記憶装置109に格納する。

    【0034】ステップ209では、ステップ208に格納された情報を出力装置105に出力する。

    【0035】この実施の形態によれば、一度行なわれたデータマイニングで出力されたルールを用い、数値属性での隣接性や、非数値属性での属性値のグループ関係とは関係なく、優秀なルールを生成することができる。 また、原始ルールそのものも対象としているので、この操作により、ルールの優秀さが悪くなることはない。

    【0036】また、この実施の形態によれば、大量のレコードデータを対象にするときにも、一度の読み込みによって、優秀なルールを網羅的に探索することができ、
    レコードデータを何度もアクセスしなくてよい。

    【0037】また、この実施の形態は以下のように変更して実施することも可能である。

    【0038】第1に、ステップ203において、改良ルール生成装置102が生成するルールが、原始ルール記憶装置106に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのORのルールとなっていたところを、原始ルール記憶装置106に格納されたすべてのルールと、そのルールからN個をとるすべての組合せのORのルールとすることも可能である。 これは、Nを2からそれ以外に一般化するものである。 Nの値は、入力装置101から入力することも可能であるし、固定にしておくことも可能である。

    【0039】これにより、例えば3個のルールのORのようなより広い範囲を含み得るルールについて評価ができるようになる。

    【0040】第2に、ステップ203において、改良ルール生成装置102が生成するルールが、原始ルール記憶装置106に格納されたすべてのルールと、そのルールから二つをとるすべての組合せのORのルールとなっていたところを、原始ルール記憶装置106に格納されたすべてのルールと、そのルールから2個以上N個以下をとるすべての組合せのORのルールとすることも可能である。 上述の第1の実施の形態の変更例で、N個としたものを、2個からN個に網羅的に行なうものである。
    Nの値は、入力装置101から入力することも可能であるし、固定にしておくことも可能である。

    【0041】これにより、N個以下のルールのORについて、最もよい改良ルールが得られる。

    【0042】第3に、ステップ207において、改良ルール評価装置104が、改良ルールカウンタ107にあるすべてのルールから評価関数を最大にするルールを抽出する処理を、評価関数が大きいM個のルールを抽出するように変更して実施することも可能である。 そこでは、図6にあるようなM個の配列を用意する。 配列のそれぞれの要素は少なくとも、ルールを識別できるIDと評価関数の値を持つ。 このM個の配列の内容は、評価関数の値で降順になるように記憶される。 ここで、図中の配列中の数字は評価関数の値を示す。 今、評価関数の値が10のルールが得られた時には、評価関数の値が6の要素の位置に挿入され、以降、ひとつずつ繰り下がり、
    評価関数の値が3の要素はこの配列からは消される。 このようにすれば、評価関数の大きなM個のルールを抽出することができる。

    【0043】これにより、複数の有意な改良ルールを出力することができ、さらに別の意思決定手法を利用することが可能となる。

    【0044】第4に、ステップ209における出力装置105への出力を図などを用いてグラフィカルにすることもできる。 図7に、if A then B のときの P(A|B) と
    P(A)をそれぞれy軸、x軸にしたグラフを示す。 ここで、先の数1の評価関数が等しくなる等評価関数線は、
    y=x と平行な直線となる。 このグラフ中に、ルールを指定位置に出力する。 P(A|B) は、正例のカウンタとB
    の個数の比、P(A)は、正例のカウンタと負例のカウンタの和と全体集合の個数の比で表される。 また、等評価関数線を重畳表示する。 さらに、入力装置101を用いて、グラフ中のルールを指示すれば、その詳細情報が表示されるようにする。 このイメージを図8に示す。

    【0045】第5に、ステップ207で改良ルール評価装置104が数1に示される評価関数を用いて最大の評価関数を持つものを抽出する処理を行なっていたが、評価関数を陽に決めなくても自明に得られるルール間の優劣の関係を用いて、どのルールからも劣っていると判断されなかったルールのみを抽出するように変更して実施することも可能である。

    【0046】以下にこの原理を説明する。

    【0047】前述したように、if A then B のルールで、今は、Bを固定している。 公知例4によれば、ルールの優劣に関しては、 1)同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

    【0048】2)同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

    【0049】と言える。

    【0050】これに以下の自明な規則を追加する。

    【0051】3)同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

    【0052】この3つの規則を P(A|B) と P(A) で張る2次元の空間に表すと図9のようになる。 図中、注目するルールをひとつ考え、その位置が定まっている。 矢印と数字は、対応する数字の規則によれば、矢印の根元のルールよりは、矢印の先のルールの方が優秀であることを示す。 1)と2)の矢印をそれぞれ、ベクトルとして、a、bとすると、αa+βbで表されるベクトル(ただしαとβは0以上であり、同時に0にはならない)の先にあるルールは注目するルールより優秀なルールとなる。 ここに、3)の規則を加える。 数2にあるように、 P(B|A) が一定ということは、原点を通る直線上にあることを示しており、さらに、P(B|A) が一定なので、P(A&B) は P(A) の正値定数倍となるから、3)の規則は図9のような矢印となる。

    【0053】

    【数2】

    【0054】以上により、注目するルールより優秀だと言える領域が広がり、図10の斜線領域となる。 同様の議論により、注目するルールより自明に劣っているというルールの領域も決まり、図11に示されるように、領域1が注目するルールより自明に優秀なルールの存在領域であり、領域2が注目するルールより自明に劣っているルールの存在領域であり、領域3がこの規則からでは優劣が判断できない領域である。 因みにこの領域3が、
    注目するルールの等評価関数線の存在領域の必要条件となる。 また、y=x より下の領域はすべて領域2となる。
    これは、公知例4で、P(A&B)=P(A)P(B) のとき、評価尺度=0という条件から、求まるものである。 P(A&B)=P
    (A)P(B) は変形すると、P(A|B)=P(A) となる。 これは、
    y=x の直線となるが、これより右だと、P(B|A) はP(B)
    より小さくなり、A を加えた意味がなくなる。 したがって、y=x より右にあるルールは y=x より左にあるルールより自明に劣っている。

    【0055】あるルールに注目すれば、P(A|B) と P(A)
    で張るグラフ上で、そのルールより自明に劣っているルールというのがわかるので、これを順にすべてのルールについて行なえば、どのルールからも自明には劣っていなかったルールを抽出することができる。

    【0056】これにより、評価関数を陽に決めなくても優秀なルールを絞り込めるので、評価関数を決めたがために優秀なルールを見逃してしまうということを避けられる。

    【0057】第6に、上記第5の実施の変更例において、グラフは、P(A|B) と P(A) で張る2次元であったが、これを、P(B|A) とP(A&B) に変更して実施することも可能である。

    【0058】その原理について述べる。

    【0059】これらの確率は、P(B)が一定であることにより、自由度は2となっている。 したがって、上述のグラフに1対1に変換することが可能となっている。

    【0060】

    【数3】

    【0061】数3より、 1)同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

    【0062】は、同じ P(A&B) なら、P(B|A) が大きい方が優秀なルールである、と書き換えられる。

    【0063】

    【数4】

    【0064】数4より、 2)同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

    【0065】は、P(A&B) と P(B|A) の比が同じなら、P
    (A&B) が大きい方が優秀なルールである、と書き換えられる。 また、 3)同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

    【0066】は、そのままグラフ中で用いることができる。

    【0067】これらをグラフに表示すると、図12が、
    1)、2)、3)を表す矢印となる。 注目するルールの位置を定めるには、数5に従えばよい。

    【0068】

    【数5】

    【0069】これにより、第5の実施の形態の変更例と同様にルールの自明な優劣を定める領域を図13に示す。 領域1が注目するルールより自明に優秀なルールの存在領域であり、領域2が注目するルールより自明に劣っているルールの存在領域であり、領域3がこの規則からでは優劣が判断できない領域である。 因みにこの領域3が、注目するルールの等評価関数線の存在領域の必要条件となる。 また、P(B|A) が、P(B) 以下の領域は、すべて領域2となる。 これは、公知例4で、P(A&B)=P(A)P
    (B) のとき、評価尺度=0という条件から、求まるものである。 P(A&B)=P(A)P(B) は変形すると、P(B|A)=P(B)
    となる。 これは、y=P(B) の直線となるが、これより下だと、P(B|A) は P(B) より小さくなり、A を加えた意味がなくなる。 したがって、y=P(B) より下にあるルールは y=P(B) より上にあるルールより自明に劣っている。

    【0070】以上によれば、 P(A&B) と P(B|A) の二つに関心があるユーザやアプリケーションにとって有意なビューを提供できる。

    【0071】また、注目するルールより劣っているルールの条件が簡単な1次式二つで表される。

    【0072】第7に、上記第5の実施の変更例において、グラフは、P(A|B) と P(A) で張る2次元であったが、これを、P(B|A) とP(A) に変更して実施することも可能である。

    【0073】その原理について述べる。

    【0074】これらの確率は、P(B) が一定であることにより、自由度は2となっている。 したがって、上述のグラフに1対1に変換することが可能となっている。

    【0075】

    【数6】

    【0076】数6より、 1)同じ P(A|B) なら、P(A) が小さい方が優秀なルールである。

    【0077】は、P(B|A) と P(A) の積が同じなら、P
    (A) が小さい方が優秀なルールである、と書き換えられる。

    【0078】同じく数6より、 2)同じ P(A) なら、P(A|B) が大きい方が優秀なルールである。

    【0079】は、同じ P(A) なら、P(B|A) が大きい方が優秀なルールである、と書き換えられる。

    【0080】

    【数7】

    【0081】また、数7より、 3)同じ P(B|A) なら、P(A&B) が大きい方が優秀なルールである。

    【0082】は、同じ P(B|A) なら、P(A) が大きい方が優秀なルールである、と書き換えられる。

    【0083】これらをグラフに表示すると、図14が、
    1)、2)、3)を表す矢印となる。 注目するルールの位置を定めるには、数8に従えばよい。

    【0084】

    【数8】

    【0085】これにより、第5の実施の形態の変更例と同様にルールの自明な優劣を定める領域を図15に示す。 領域1が注目するルールより自明に優秀なルールの存在領域であり、領域2が注目するルールより自明に劣っているルールの存在領域であり、領域3がこの規則からでは優劣が判断できない領域である。 因みにこの領域3が、注目するルールの等評価関数線の存在領域の必要条件となる。 また、P(B|A) が、P(B) 以下の領域は、すべて領域2となる。 これは、公知例4で、P(A&B)=P(A)P
    (B) のとき、評価尺度=0という条件から、求まるものである。 P(A&B)=P(A)P(B) は変形すると、P(B|A)=P(B)
    となる。 これは、y=P(B) の直線となるが、これより下だと、P(B|A) は P(B) より小さくなり、A を加えた意味がなくなる。 したがって、y=P(B) より下にあるルールは y=P(B) より上にあるルールより自明に劣っている。

    【0086】以上によれば、 P(A) と P(B|A) の二つに関心があるユーザやアプリケーションにとって有意なビューを提供できる。

    【0087】第8に、ステップ207では、数1で決まる評価関数を用いたが、他の評価関数を用いてもよい。
    その際には、第5乃至第7の実施の形態の変更例中、等評価関数線の存在領域の必要条件を満たすことが必要である。

    【0088】以上によれば、ユーザが興味のある特性にしぼった評価関数を設定し、その評価関数を最大、もしくは、大きくするような改良ルールを抽出することができる。

    【0089】第9に、上記第4乃至第7の実施の形態の変更例において、ルールの空間を表すグラフにおいて、
    あるポイントを入力装置101で指示すると、それより自明に優秀なルールの領域、及び、自明に劣っているルールの領域、及び、判断できない領域を表示できるように実施することも可能である。 その実現例を図16に示す。

    【0090】これにより、あるルールと別のルールが自明に優劣の判断がつくかどうかを知ることができる。

    【0091】

    【発明の効果】以上述べたように、本発明によれば、数値属性においても、非数値属性においても、外部からの前提知識なしに、任意の区間または、属性の組合せを網羅した有意なルールを抽出できる。

    【0092】また、確率間のトレードオフを考慮したルール間の比較を行なうことができる。

    【0093】また、ルールの評価尺度が満たすべき自明な必要条件を拡張し、それを用いてルール間の比較を行なったり、ルール空間の特性を出力したりできる。

    【図面の簡単な説明】

    【数1】評価関数及びその導出を示す式

    【数2】自明な関係3)をグラフ上に表現する際の計算過程を示す式

    【数3】自明な関係1)を P(B|A)vs.P(A&B) のグラフで利用する際の計算過程を示す式

    【数4】自明な関係2)を P(B|A)vs.P(A&B) のグラフで利用する際の計算過程を示す式

    【数5】P(B|A)vs.P(A&B) のグラフにルールの点を定める際の計算過程を示す式

    【数6】自明な関係1)を P(B|A)vs.P(A) のグラフで利用する際の計算過程を示す式

    【数7】自明な関係3)を P(B|A)vs.P(A) のグラフで利用する際の計算過程を示す式

    【数8】P(B|A)vs.P(A) のグラフにルールの点を定める際の計算過程を示す式

    【図1】本発明の第1の実施の形態の構成図

    【図2】本発明の第1の実施の形態のフローチャート

    【図3】表形式のレコードデータの例

    【図4】カウンタの例

    【図5】カウントアップのフローチャート

    【図6】評価関数の値の大きいM個のルールを抽出するための配列

    【図7】グラフィカルな出力例

    【図8】詳細情報表示の実現例

    【図9】3つの自明な規則の P(A|B)vs.P(A) 空間内の表現

    【図10】P(A|B)vs.P(A) 空間内における、注目するルールより優秀なルールの存在領域

    【図11】P(A|B)vs.P(A) 空間のルール優劣に関する自明な特性

    【図12】3つの自明な規則の P(B|A)vs.P(A&B) 空間内の表現

    【図13】P(B|A)vs.P(A&B) 空間のルール優劣に関する自明な特性

    【図14】3つの自明な規則の P(B|A)vs.P(A) 空間内の表現

    【図15】P(B|A)vs.P(A) 空間のルール優劣に関する自明な特性

    【図16】空間のルール優劣に関する自明な特性を表示する実現例

    【符号の説明】

    101…入力装置、102…改良ルール生成装置、10
    3…改良ルールカウントアップ装置、104…改良ルール評価装置、105…出力装置、106…原始ルール記憶装置、107…改良ルールカウンタ、108…レコードデータ記憶装置、109…改良ルール記憶装置、11
    0…バス。

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 幸康 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈