首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / Data mining system and method

Data mining system and method

阅读:965发布:2023-06-10

专利汇可以提供Data mining system and method专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a processing method which can use a general computer to mine a large quantity of data that can be so far processed at a high speed only by a super-parallel computer.
SOLUTION: A rule base 7 where the presumed rules are set is prepared together with the commodity data which includes the correspondence between the commodities and their attribute information, and a receipt data base 9, i.e., a set of receipt data (raw purchase data). Then a commodity attribute that is optimum for generation of a rule is obtained based on the base 7 and the said commodity data. At the same time, the multi-dimensional data are generated via the base 9 and based on the said commodity attribute, and the candidates of rules to be generated are set by a means 4 based on the multi- dimensional data. Then true rules which satisfy toe given support degree are selected from the combinations of all elements that construct a set rule. A data mining means 2 selects a rule that satisfies the given certainty among those selected rules.
COPYRIGHT: (C)1997,JPO,下面是Data mining system and method专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 予め想定されるルールを設定したルールベースと、商品とこの商品の有する属性情報とを対応させた商品データと、生の購買データであるレシートデータの集合であるレシートデータベースと、前記ルールベースと前記商品データによりルールの生成に最適な商品の属性を求めると共に、求めた属性を基に前記レシートデータベースを検索して多次元データを生成し、この多次元データを基に生成するルールの候補を設定し、設定したルールを構成する要素の全ての組み合わせから与えられた支持度を満足するルールを選択し、選択したルールの中で与えられた確信度を満足するルールを選択するデータマイニング手段と、を備えたことを特徴とするデータマイニングシステム。
  • 【請求項2】 前記データマイニング手段は、ルールの生成に最適な商品の属性をルールを構成する要素についての重複度を用いて求めることを特徴とする請求項1に記載のデータマイニングシステム。
  • 【請求項3】 前記ルールベースは、専門家が有するノウハウを基に作成したルールによって構築されていることを特徴とする請求項1または請求項2に記載のデータマイニングシステム。
  • 【請求項4】 前記ルールベースは、過去のデータマイニングによって生成されたルールによって構築されていることを特徴とする請求項1または請求項2に記載のデータマイニングシステム。
  • 【請求項5】 前記ルールベースは、前記レシートデータベースからサンプリングにより数を限定して事前のマイニングによって作成されたルールにより構築されていることを特徴とする請求項1または請求項2に記載のデータマイニングシステム。
  • 【請求項6】 前記データマイニング手段にレシートデータから商品名を含む第1のテーブルと、前記商品データと前記求めた属性とを対応付けた第2のテーブルとを生成する手段を設け、この第1のテーブルと第2のテーブルにより多次元データを生成するソータ装置を備えたことを特徴とする請求項1乃至請求項5のいずれかに記載のデータマイニングシステム。
  • 【請求項7】 前記多次元データを多面的に表示する表示制御手段を備えたことを特徴とする請求項1乃至請求項5のいずれかに記載のデータマイニングシステム。
  • 【請求項8】 以下の工程を有するデータマイニング方法 (a)予め想定されるルールをルールベースとして生成する工程、(b)商品とこの商品の属性情報を対応させた商品データベースを生成する工程、(c)前記ルールベースと前記商品データベースとを用いてルールを生成するのに最適な商品の属性を求める工程、(d)求めた属性を基にレシートデータから多次元データを生成する工程、(e)生成した多次元データを基にルール候補を生成して、このルール候補の要素を構成するすべての組み合わせからシステムに設定された支持度を満足するルールを選択する工程、(f)選択したルールの中からシステムに設定された確信度を満足するルールを選択する工程。
  • 【請求項9】 前記最適な商品の属性を求める工程は、
    ルールを構成する要素についての重複度を用いて求める工程であることを特徴とする請求項8に記載のデータマイニング方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】この発明は、製造業、流通業、電等のサービス業で用いられるデータベースの個別の属性間からルールを抽出するデータマイニングシステムに関するものである。

    【0002】

    【従来の技術】まず、データベースの中のデータから知識を発見していくデータマイニングの一つの例としてバスケット分析について説明する。 これは同時購買の傾向を示すルールを膨大な購買データの中から抽出していくもので、そのルールとしては、例えば「パンを買う時は、同時に乳を買う」といったものが挙げられる。 これを通常「パン→牛乳」といった形で該当する購買品から成る論理式で記述する。 当然、「パンを買っているが、牛乳は買っていない」購買データも存在することが考えられ、全ての購買データがこのルールを満たす訳ではないため、成り立つデータの割合が高いルールのみが抽出されることになる。 このルールの抽出、棄却の目安となる二つの数値として「ルールの対象となる購買データの購買データ全体に対する割合」(これを支持度と称す)と「ルールの左辺に該当するデータに対する、ルールの左辺と右辺と同時に満たすデータの割合」(これを確信度と称す)があり、前者はルールの一般性、後者はルールの正確さを示している。 バスケット分析では、この二つの数値に対するしきい値をあらかじめ決めておき、候補となるルールの数値がそのしきい値を越えるか否かを求めることによってルールとしての抽出の有無を判断する。

    【0003】従って、あるルールの候補が与えられた場合、各々の購買データについて左辺の商品を含むか、またそれと同時に右辺の商品を含むかどうかを調べて全体の集計を求めるのが処理の基本となる。

    【0004】図10は、電子情報通信学会技術研究報告Vol. 95 No. 408 CPYS95−95「I
    BMにおけるデータマイニング技術」に開示されている超並列計算機を用いたバスケット分析によるデータマイニングシステムを模式的に示したものである。 並列化のアルゴリズムそのものについては、同文献のp30に示されている。 図に示すように、このシステムは、システム全体を制御する制御用マシン20と複数の超並列マシン30とで構成されている。 制御用マシン20は、生の購買データの集合を大容量のディスク装置等に格納した購買データベース21と、この購買データベース21を分割して複数の超並列マシン30に転送する購買データ分割手段22とルールとなる候補を設定して検証するルール候補設定・検証手段23を備え、各超並列マシン3
    0は、分割して転送されてきた購買データを大容量のディスク装置等に格納した分割購買データベース32
    (n)(nは正の整数)と、購買データの検索と集計を行う購買データ検索・集計手段31とを備えている。

    【0005】以下、動作について説明する。 購買データベース21は購買データ分割手段22によって分割され、超並列マシン30の有する大容量のディスク装置等に分割購買データベース32(n)として格納される。
    システム全体を制御する制御用マシン20ではルール候補設定・検証手段23がルールと考えられる候補を生成し、各並列マシン30に送る。 次に各並列マシン30では購買データ検索・集計手段31によってルール検証に必要なデータを検索し、その集計値を制御用マシン20
    に返す。 ルール候補設定、検証手段23では各超並列マシン30の集計した値を合計し、購買データ全体での集計値を出し、ルールの検証を行う。 以上の動作を候補として挙げられるルール全てについて繰り返す。

    【0006】

    【発明が解決しようとする課題】以上のように、従来においては、極めて大容量の購買データ全てについて検索する必要があり、全件検索を高速化するために超並列計算機を用いて性能を出していた。 そのためハードウェアのコストが高価である上、超並列計算機を動作させるための特別な並列プログラミングを組まねばならず、それができるシステムコンサルタントの援助を必要としていた。

    【0007】また、従来においては、購買品の組み合わせ全てを対等に扱うためルールの候補の全てを検証しなければならず、「どのようなルールが生成され易いか、
    あるいは重要か」というバイアスを反映させることによる検証するルールの絞り込みを行うことができなかった。

    【0008】この発明は、上記のような問題点を解決するためになされたもので、通常のマシンでのマイニングを実現し、従来の通常のマシンと同様のプログラミングによる処理を可能とし、コストの削減を可能にすることを目的とする。

    【0009】また、検証するルールをバイアスを用いることにより、購買データの検索を行う以前に絞り込むことにより処理の効率化を図ることを目的とする。

    【0010】

    【課題を解決するための手段】この発明に係わるデータマイニングシステムは、予め想定されるルールを設定したルールベースと、商品とこの商品の有する属性情報とを対応させた商品データと、生の購買データであるレシートデータの集合であるレシートデータベースと、前記ルールベースと前記商品データによりルールの生成に最適な商品の属性を求めると共に、求めた属性を基に前記レシートデータベースを検索して多次元データを生成し、この多次元データを基に生成するルールの候補を設定し、設定したルールを構成する要素の全ての組み合わせから与えられた支持度を満足するルールを選択し、選択したルールの中で与えられた確信度を満足するルールを選択するデータマイニング手段と、を備えるようにしたものである。

    【0011】また、前記データマイニング手段は、ルールの生成に最適な商品の属性をルールを構成する要素についての重複度を用いて求めるようにしたものである。

    【0012】また、前記ルールベースは、専門家が有するノウハウを基に作成したルールによって構築するようにしたものである。

    【0013】また、前記ルールベースは、過去のデータマイニングによって生成されたルールによって構築するようにしたものである。

    【0014】また、前記ルールベースは、前記レシートデータベースからサンプリングにより数を限定して事前のマイニングによって生成されたルールを用いて構築するようにしたものである。

    【0015】また、前記データマイニング手段にレシートデータから商品名を含む第1のテーブルを、前記商品データと前記求めた属性とを対応付けた第2のテーブルとを生成する手段を設け、この第1のテーブルと第2のテーブルにより多次元データを生成するソータ装置を備えるようにしたものである。

    【0016】また、前記多次元データを多面的に表示する表示制御手段を備えるようにしたものである。

    【0017】この発明に係わるデータマイニング方法は、以下の工程を有するものである。 (a)予め想定されるルールをルールベースとして生成する工程、(b)商品とこの商品の属性情報を対応させた商品データベースを生成する工程、(c)前記ルールベースと前記商品データベースとを用いてルールを生成するのに最適な商品の属性を求める工程、(d)求めた属性を基にレシートデータから多次元データを生成する工程、(e)生成した多次元データを基にルール候補を生成して、このルール候補の要素を構成するすべての組み合わせからシステムに設定された支持度を満足するルールを選択する工程、(f)選択したルールの中からシステムに設定された確信度を満足するルールを選択する工程。

    【0018】また、前記最適な商品の属性を求める工程は、ルールを構成する要素についての重複度を用いて求める工程とするものである。

    【0019】

    【発明の実施の形態】図1は、この発明によるデータマイニングシステムの一実施の形態を示す構成図である。
    図において、1はデータマイニングを実行するサーバマシンで、このサーバマシン1は多次元データの生成、データを検索する検索式の生成および処理結果を出力するデータマイニング手段2、販売店における購買品に関する商品データ、即ち商品名とこの商品名に対応する品目、販売場所、メーカ名等の属性情報で構成された商品データを格納した商品データベース6、後述のルールベース生成方法により予め生成されるルールが格納されたルールベース7、販売店における生の購買データであるレシートデータを大容量のディスク装置等に格納したレシートデータベース9を管理すると共にレシートデータおよびその検索命令を受けて、検索結果を出力する大福帳データベース手段8、およびデータマイニング手段2
    により生成・参照される多次元データを格納した多次元データベース11を管理すると共に多次元データ操作命令を受けて、操作結果を出力する多次元データベース手段10を備えている。 13はトランザクションデータを処理するサーバマシンで、このサーバマシン13は実時間で発生するトランザクションデータ(購買データ)を格納したトランザクションデータベース15とトランザクションデータを管理すると共にトランザクションデータを受けて、購買データ(レシートデータ)を出力するオンラインデータベース手段14を備えている。

    【0020】サーバマシン1とサーバマシン13とは例えば、LANにより接続されていてトランザクションデータが発生するたびに、その情報は、サーバマシン1のデータマイニング手段2に伝達され、大福帳データベース手段8によりレシートデータベース9に格納される。
    また、データマイニング手段2は、多次元データ作成手段3、ルール候補設定・検証手段4および多次元データ構造決定手段5を備えている。 また、多次元データベース手段10には、データの高速処理を行うために高速ソータ装置12の接続が可能な構成となっている。 なお、
    この明細書においては、データベースとは、データの集合とデータを格納するディスク装置等の器の両方を指すものとし、データベース手段とは、データベースをアクセスするアクセスメソッドを指すものとする。

    【0021】この実施の形態におけるデータマイニングシステムおよびデータマイニング方法は、データマイニングの対象となる販売店における生のレシートデータを集積して、この集計データをバスケット分析を用いて同時購買ルールの抽出を行うものである。

    【0022】以下、図を参照しながら、この実施の形態における動作について詳細に説明する。 まず、オンラインデータベース手段14について説明する。 オンラインデータベース手段14はオンライントランザクション処理に用いられる基幹系のデータを取扱う。 この実施の形態におけるオンラインデータベース手段14は、一般的なリレーショナルデータベースが有する基本的な機能と共に、データの更新を行う毎に、発生したレシートデータをデータマイニング手段2を経由して大福帳データベース手段8に転送する機能を備えている。

    【0023】次に大福帳データベース手段8について説明する。 従来から大福帳システムと呼ばれるものがあり、ここで使用されるデータベースは、データを発生順に格納していくもので、データの更新は行われず、基本的にはデータの追加のみがなされるものである。 この実施の形態で使用する大福帳データベース手段8は、この従来の大福帳システムにおけるベータベースのアクセスメソッドを用いて、発生順にレシートデータを大容量データベース(レシートデータベース9)に格納してデータベースを管理するものである。

    【0024】次に多次元データベース手段10について説明する。 多次元データベース手段10は多次元データを生成する機能を有すると共に生成された多次元データを管理し、それに対するアクセスメソッドを提供するものである。 この多次元データベース11については従来からデータベースのキーの数に相当する次元を作るOL
    AP(On Line Analytical Pro
    cessing)と呼ばれるものがあり、この実施の形態では、このOLAPを用いるものとする。 他の形式のデータから多次元データを生成する際には高速ソータ装置12を用いて変換するデータをソートすることによって、高速処理を実現することも可能である。 また、多次元データベース手段10に表示制御機能を付加することにより、様々な検索要求に対して多次元データベース1
    1にダイシングあるいはスライシング処理を施して検索結果をあらゆる度から多面的に表示することが可能である。

    【0025】次にこの実施の形態における最も特徴とするデータマイニング手段2について説明する。 データマイニング手段2は多次元データに対する検索要求を作成し、その結果に対して統計処理を施してルールを抽出する手段である。 ルールは「A→B」という形をしており、これは、「商品Aを買う人は商品Bも買う」ということを意味している。 また、このデータマイニング手段2は、上述のように多次元データ操作手段3、ルール候補設定・検証手段4、多次元データ構造決定手段5の3
    つの手段から成り立っている。 以下にこのデータマイニング手段2が他の手段と連携してルール生成を行う手順について説明する。

    【0026】図2は、この実施に形態におけるデータマイニングの処理の流れを示すフローチャート図である。
    図2に示すように、このデータマイニング処理は、大きく3つのステップから成り立っている。 まず、ステップ100における購買品のカテゴリ化では、商品データベース6とルールベース7をバイアスとして購買品のカテゴリ化、多次元データの構造決定を行う。 ステップ20
    0におけるデータ集計では、集計値を格納した多次元データベース11の生成、更新が行われる。 ステップ30
    0におけるルール生成では、ルール候補の設定と、集計値を基にしたルール候補の検証が行われる。 以下に各ステップの詳細について説明する。

    【0027】まず最初のステップ100における購買品のカテゴリ化ついて説明する。 このステップ100はデータマイニング手段2を構成する一手段である多次元データ構造決定手段5によって実行される。 まず多次元データ作成のためのバイアスを設定するためにルールベース7に格納されているルールデータの検索を行う。 ルールベース7上の各ルールは「商品A→商品B」という形式で、同時にその重要度を示す数値である価値を有しており、この価値は実際の購買データ上で成り立つ数(支持度)、確度(確信度)、専門家の判断によって与えられた数値等によって決められる。 なお、ルールベースの作成方法としては、以下の3つの方法を用意している。

    【0028】(1)第一の方法 第一の方法は専門家が、経験を基に格納するルールを決定するものである。 各ルールの価値はそれを格納することを決定した専門家自身の判断によって数値が与えられる。

    【0029】(2)第二の方式 第二の方式は過去のデータマイニングによる結果によってルールベースを構築するものである。 各ルールの価値はその支持度と確信度の積で決定される。

    【0030】(3)第三の方式 第三の方式はレシートデータの集合からランダムに抜き出されたより少ないレシートデータでルール抽出を行い、その結果によってルールベースを構築するものである。 各ルールの価値はその支持度と確信度の積で決定される。 この方法によるルール抽出はデータ量が少ないため処理を高速に行うことができる。

    【0031】図3は、ステップ100におけるカテゴリ化の詳細な処理を示すフローチャート図である。 また、
    図4は、データマイニング手段2が有する商品データベース6のデータ形式を示す図で、各購買品は、商品名とそれに該当する品目、販売場所、メーカ等の属性からなるテーブルによって構成される。 このデータの形式、構造は専門家によって決められ、一旦作成されると扱う購買品が変わらない限り固定のデータである。

    【0032】以下、図3のフローチャート図を参照しながら、データマイニング手段2がルールデータベース7
    と商品データベース6を用いてデータマイニングのバイアス設定としての購買品のカテゴリ化を行う手順を説明する。

    【0033】ここでは、例として、ルールデータベース7の中にルールデータとして「A,B→C:価値10」
    が格納されているものとして説明する。 まずステップ1
    10において、このルールの中に出現する購買品(即ちA,B,C)を抽出し、ステップ120において、生成された集合(A,B,C)について商品データベース6
    の検索を行う。 次にステップ130において、商品データベース7に設定された購買品の各属性について重複度を計算する。 この例では、属性を品目とする場合には(A,B,C)が(弁当、飲料、菓子)と全て異なるので重複度は0、属性を販売場所とする場合には(棚1、
    棚2、棚1)でAとCが棚1で一致するので重複度は1、属性をメーカとする場合には(M社、M社、M社)
    と全てが一致するので重複度は2となる。 次にステップ140において、重複度と価値の積を計算する。 そしてこれをルールデータベース7に格納されている全てのルールについて計算し、ステップ150において、その和を以下の計算により求める。 Σ(ルールベース中の全ルールについて)重複度*価値 これを、商品データベース6の各属性毎(即ち、品目、
    販売場所、メーカ名等)に計算する。 そして、ステップ160において、最も値の少ない属性をカテゴリ化に使う属性として決定する。 何故ならば、即ち、この属性を用いるのがルールとして最も適切と判断されるからである。 以下の説明では、品目が属性として決定されたこととして説明を続ける。 この場合には、商品は(品目が弁当に該当する購買品)、(品目が飲料に該当する購買品)、(品目が菓子に該当する購買品)といったようにカテゴリ化される。

    【0034】次にステップ200のデータ集計について説明する。 このステップ200はデータマイニング手段2を構成する一手段である多次元データ操作手段3によって実行される。 ここでは大福帳データベース手段8が管理するレシートデータベース9とデータマイニング手段2が管理する商品データベース6とカテゴリ化属性から(この場合、属性としては品目)、多次元データが作成される。 作成される多次元データは図5のように各次元に相当する購買品が並べられ対応するセルにその集計値、例えば(弁当次元=A、菓子次元=C、飲料次元=
    D)のセルには購買品A,C,Dを含むレシートデータの数が入る。 なお、この実施の形態では大福帳データベース手段8には図5に示すような形式のレシートデータの集積がレシートデータの発生順に格納されているとする。 大福帳データベース手段8はレシートデータが一件発生する毎に何番目に発生したかを示すレシート番号を付与し、データベース9の最後尾にそれを加える。 このデータから多次元データを作成する方法としては以下の2つの方式を用意してある。

    【0035】第一の方法 第一の方法では、データマイニング手段2はレシートデータが発生する度にそのレシートデータを大福帳データベース手段8を通じて検索して、検索された購買品を商品データベース6と照らし合わせてカテゴリに分類し、
    カテゴリ毎の全ての組み合わせを生成し、各組み合わせの該当する多次元データのセルの集計値を1増やす命令を多次元データベース手段10に送る。 図6の例においてレシート番号1のレシートデータが発生した時には、
    まず購買品を分類すると弁当(A)、菓子(C,E)、
    飲料(D)となり、組み合わせは(A,C,D)と(A,E,D)が生成され、多次元データの(弁当次元、菓子次元、飲料次元)=(A,C,D),(A,
    E,D)の二つのセルの集計値が一つ増えることになる。

    【0036】第二の方式 第二の方式では、まずデータマイニング手段2は大福帳データベース手段8にレシートデータ9の検索命令を出し、レシートデータの中から必要な属性の絞り込みを行い、図7のようなテーブルを作成する。 次にデータマイニング手段2はカテゴリ化を行う属性と商品データベース6から図8のようなテーブルを作成する。 そして図7
    と図8の二つのテーブルを多次元データベース手段10
    に送り、さらに各次元に配置されるカテゴリである品目を指定した集計値の多次元データ生成命令を多次元データベース手段10に送る。 多次元データベース手段10
    では図7のテーブルと図8のテーブルを高速ソータ装置12に用いてソートした後結合し、各レシート番号毎に各カテゴリ全ての組み合わせを生成し、図9に示すようなテーブルを作成する。 そして、図9に示すテーブル形式のデータを再度高速ソータ装置12でソートして多次元データの各次元の値に対応するレシートの数を集計し、その値を多次元データの該当するセルに格納する。

    【0037】次にステップ300のルール生成について説明する。 このステップ300はデータマイニング手段2を構成する手段であるルール候補設定・検証手段5と多次元データ操作手段3によって実行される。 以下に多次元データベース手段10で生成された集計値の多次元データ11から、ルール生成を行う手順を説明する。 ルール候補設定・検証手段4では多次元データの各次元に相当するカテゴリ間の購買品の全ての組み合わせからルールの候補を生成し、ユーザからシステムに対して予め指定された支持度、確信度を満たすかどうか判断する。
    例えば(弁当、菓子、飲料)=(A,C,D)の組み合わせの中からは[A,C,D],[A,C],[A,
    D],[C,D],[A],[C],[D]の各々の集計値の検索が行われる。 このうち、例えば[A,C,
    D]については多次元データの該当するセルの集計値、
    [A,C]では弁当がA、飲料がCのセル全ての集計値の合計、[A]では弁当がAのセル全ての集計値の合計が採られる。 合計値は多次元データの作成時、あるいは更新時に多次元データベース手段10によって自動的に計算、更新される。 多次元データ操作手段3では各々の集計値を多次元データ11から検索するための検索式を作成し、多次元データベース手段10に送る。 検索結果は多次元データ操作手段3へ返されそれを基にルール候補設定・検証手段4による候補ルールの検証が行われる。 例えば検索結果として[A,C,D]と[A,C]
    の集計が与えられ支持度を上回り、 [A,C,D]の集計値/[A,C]の集計値 が与えられた確信度を上回る時、[A,C→D]なるルールが抽出されることになる。 この実施の形態におけるデータマイニングでは以上の検証を全ての多次元上の組み合わせについて行い、ルールを抽出する。

    【0038】

    【発明の効果】以上のように、この発明によれば、予め想定されるルールを設定したルールベースと、商品とこの商品の有する属性情報とを対応させた商品データと、
    生の購買データであるレシートデータの集合であるレシートデータベースと、前記ルールベースと前記商品データによりルールの生成に最適な商品の属性を求めると共に、求めた属性を基に前記レシートデータベースを用いて多次元データを生成するようにしたので、ルールの抽出および検証に大容量のデータベースを使用する必要が無く、一般的なマシンで処理することが可能となる。 また、検証するルールをカテゴリ間でのルールに絞ることができ、生成するルールはルールベースによるバイアスを反映したものとなる。

    【0039】また、多次元データを生成するための商品の属性を商品の有する属性の重複度を用いて求めるようにしたので、ルールベース中のルールの特徴を生かしたルールのみに候補を絞ることができる。

    【0040】また、ルールベースを専門家が有するノウハウを基に作成したルールによって構築するようにしたので、専門家のノウハウを活用できるので、初めてルールベースを構築するときには有効である。

    【0041】また、ルールベースを過去のデータマイニングによって生成されたルールによって構築するようにしたので、学習効果を生かすことができ適切なルールベースを構築することができる。

    【0042】また、ルールベースをレシートデータベースからサンプリングにより数を限定して事前のマイニングによって作成されたルールにより構築するようにしたので、ルールベースの構築が容易となる。

    【0043】また、高速ソータ装置を設けるようにしたので、異なる形式のデータから多次元データを高速に作成することができる。

    【0044】また、前記多次元データを多面的に表示するようにしたので、表示された集計値の多次元データを事前にユーザが分析することによって、どの部分に重点を置いてデータマイニングを行うか等の目安が立て易くなる。

    【0045】また、予め想定されるルールをルールベースとして生成する工程と、商品とこの商品の属性情報を対応させた商品データベースを生成する工程と、前 記ルールベースと前記商品データベースとを用いてルールを生成するのに最適な商品の属性を求める工程と、を有するようにしたので、検証するルールをカテゴリ間でのルールに絞ることができ、生成するルールはルールベースによるバイアスを反映したものとなる。 従って、データの処理量が従来に比べると遥かに少なくて済み、一般的なマシンでデータマイニングを実行することができる。

    【0046】また、最適な商品の属性を求める工程において、多次元データを生成するための商品の属性を商品の有する属性の重複度を用いて求めるようにしたので、
    ルールベース中のルールの特徴を生かしたルールのみに候補を絞ることができる。

    【図面の簡単な説明】

    【図1】 この発明によるデータマイニングシステムの一実施の形態の構成を示す図である。

    【図2】 実施の形態におけるデータマイニングの処理手順を示すフローチャート図である。

    【図3】 購買品のカテゴリ化の詳細を示すフローチャート図である。

    【図4】 商品データの1例を示すである。

    【図5】 集計値の多次元データの例を示す図である。

    【図6】 レシートデータの1例を示す図である。

    【図7】 レシートデータの属性絞り込みによって生成されるテーブルを示す図である。

    【図8】 商品データとカテゴリ化の属性によって生成されるテーブルを示す図である。

    【図9】 レシート番号と多次元データ上で可能な購買品の組み合わせを示すテーブル図である。

    【図10】 従来のデータマイニングシステムの構成を示す図である。

    【符号の説明】

    2 データマイニング手段、3 多次元データ操作手段、4 ルール候補設定・検証手段、5 多次元データ構造決定手段、6 商品データベース、7 ルールベース、8 大福帳データベース手段、9 レシートデータベース、10 多次元データベース手段、11 多次元データベース、12 高速ソータ装置、14 オンラインデータベース手段、15 トランザクションデータベース。

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈