Data mining method and system专利检索-数据挖掘挖矿资料储存系统专利检索查询-专利查询网

Data mining method and system

阅读：463发布：2023-04-20

专利汇可以提供Data mining method and system专利检索，专利查询，专利分析的服务。并且PROBLEM TO BE SOLVED: To computerize a data mining processing by generating a transaction record in the formats of respective transaction items in the record and coding discrimination information of the transaction record, items and item types corresponding to them into one value. SOLUTION: For example, there is a multi-column table which has (m) columns, also has (n) columns (C1C2...cn) out of them selected as inputs of item values, and can represent arbitrary mixture of items of the same or different item types. Then the table functions to extract column discrimination information and values corresponding to respective records in input data including columns c1, c2...cn (401, 402) and then calculate a coded map (403). As an output (404), this mechanism generates a two-column table for relation and a three- column table for a sequential pattern.，下面是Data mining method and system专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】複数のレコードの関連付け規則または順次パターンあるいはその両方をデータ・マイニングするコンピュータ化方法であって、レコードがトランザクション識別情報と、対応する項目タイプを備える少なくとも１つのトランザクション項目とを含み、前記複数のレコードが異なる項目タイプのトランザクション項目を含み、前記方法が各レコードをトランザクション形式の１つまたは複数のトランザクション・レコードに変換する前処理ステップを含み、前記レコード内の各トランザクション項目ごとにトランザクション・レコードが生成され、前記トランザクション・レコードが、前記レコードのトランザクション識別情報と、前記トランザクション項目とそれに対応する項目タイプとを１つの値にコード化するコード化トランザクション項目とを含み、前記方法が、関連付け規則または順次パターンあるいはその両方をデータ・マイニングするために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む方法。

【請求項２】前記データ・マイニング技法がアプリオリ技法である、請求項１に記載の方法。

【請求項３】前記コード化トランザクション項目が前記トランザクション項目と前記項目タイプとにデコード可能である、請求項１に記載の方法。

【請求項４】前記コード化トランザクション項目が前記項目タイプと前記トランザクション項目との並置によって生成される、請求項２に記載の方法。

【請求項５】請求項１ないし４のいずれか一項に記載の前記方法の前記ステップを実行するように適合された手段を含むシステム。

【請求項６】請求項１ないし４のいずれか一項に記載の方法を実行するソフトウェア・コード部分を含む、データ処理システムにおける実行のためのデータ処理プログラムを記録したコンピュータ可読記録媒体。

【請求項７】請求項１ないし４のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ可読プログラム手段を含む、コンピュータ使用可能媒体。

说明书全文

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ・マイニング技法に関する。より詳細には、本発明は、データ資産の関連付け規則または順次パターンあるいはその両方のマイニングの分野に関する。

【０００２】

【従来の技術】ビジネス分野と科学分野においてデータベースに記憶されるデータ量とデータベース・アプリケーションの数は、最近２０年間で激増している。この電子記憶データ量の急増は、データ記憶のための関係モデルの成功と、データ検索技術と操作技術の発展および成熟によって促進された。データ記憶技術は需要に対応するように急速に発達したが、データ分析用のソフトウェアの開発には最近までほとんど力が注がれていなかった。最近になって、各企業は、これらの大量のデータにこれまで無視されていた資源が隠されていることを認識した。この大量の記憶データには、企業の業務の多くの局面に関する知識が含まれており、より効果的なビジネス意志決定支援のために利用されるのを待っている。現在、これらのデータ・セットを管理するために使用される「データベース管理システム」では、ユーザはデータベース内に明示的に存在する情報、すなわちデータにアクセスすることができるに過ぎなかった。データベースに記憶されたデータは、利用可能な情報の「氷山の一角」に過ぎない。このデータには、企業のビジネスの多くの局面に関する知識が暗黙に含まれており、より効果的なビジネス意志決定支援のための利用を待っている。
この大規模なデータ・セットからの知識の抽出は、データベースにおける「データ・マイニング」または「データ・ディスカバリ」と呼ばれ、データから、暗示的で以前には知られていない潜在的に有用な情報を非自明的に抽出することであると定義することができる。データ・
マイニングのこの明白な利点により、多くの資源がその開発に向けられている。

【０００３】データ・マイニングは、大規模なデータベースを分析してそこから有用な情報を取り出すツールの開発を必要とする。データ・マイニングの応用分野として、トランザクション・レコードの分析によって大規模な顧客トランザクション・データベースから顧客購買パターンを引き出すことができる。このような購買習慣は、きわめて重要なマーケティング情報を提供することがある。たとえば、小売業者は、顧客の購買パターンがわかれば、通常可能なよりも有効な店舗陳列やより有効な自己管理を行うことができる。他の例として、カタログ販売会社は、顧客が第１の品目を購入した場合、同じ顧客がその第１の購入後の特定の期間内にある程度の確率で特定の第２の品目を購入すると予測可能であるとわかれば、より有効なダイレクト・メールの発送を行うことができる。

【０００４】データ・マイニングは、いくつかの技法を使用して、大量のデータの中からいくつかの知識を見つける。このような２つの技法が、いわゆる関連付け規則のマイニングと、順次パターンのマイニングである。

【０００５】トランザクションの大規模データベースからの関連付け規則の特定は、データ・マイニングの重要な部分である。「関連付け規則」は、Ｘ→Ｙの形の式であり、ＸおよびＹは項目のセットである。小売業の分野では、マイニング（探索）するデータは一般にはトランザクションから成り、各トランザクションは品目のセットによって特徴づけられる。たとえば、データベースに靴と上着に関する顧客の販売トランザクションが含まれるとする。可能な関連付け規則は、「上着を含むトランザクションの３０パーセントが靴も含み、全トランザクションの１０パーセントが靴と上着の両方を含む」というものである。３０パーセントの値を規則の信頼度と呼び、１０パーセントの値は規則のサポートである。関連付け規則をマイニングする作業では、トランザクションから、特定のユーザ指定最小サポートおよび信頼度の制約を満たすすべての関連付け規則を見つける。概念的には、問題はレコードの関係テーブルから関連付け規則を見つけることであると見なすことができる。各レコードは、小売業トランザクションデータベースの場合のようにトランザクションを表すか、またはデータベース内のその他のデータ項目とすることができる。各レコードは、１つまたは複数の属性を持ち、各属性はトランザクションの項目に対応する。

【０００６】データ・マイニングのもう一つの基本的な部分は、順次パターンの特定に関する。これは、時間データに基づく規則を必要とする。自然災害のデータベースがあるとする。そのようなデータベースから、ロサンゼルスに地震があれば必ず翌日にキリマンジャロ山が噴火するという結論を出した場合、そのような規則は順次規則になる。このような規則は、市場獲得や自然災害の予防措置を行うのに有用となり得る予知を行うのに有用である。順次規則を他の規則から区別する因子は時間因子である。

【０００７】データ・マイニングのその他の応用分野としては、カタログ設計、アドオン販売、店舗レイアウト、および購入パターンやその他多くに基づく顧客区分がある。一般には、これらの応用分野に関与するデータベースはきわめて大規模である。したがって、この作業には高速アルゴリズムを使うことが避けられない。

【０００８】関連付け規則を求めるマイニングと順次パターンを求めるマイニングのいくつかの方法が提案されているがいわゆる「アプリオリ（APRIORI）」手法から導き出された方法（R. Agrawal, S.Rikantの「Fast Algo
rithms for Mining Association Rules」（第２０回Ｖ
ＬＤＢ会議議事録、１９９４年）を参照）のみが、大量のデータを処理するのに十分な効率の高さを持つことが実証されている。

【０００９】アプリオリ手法は、「トランザクション形式」と呼ぶ特別なデータ形式に基づく。関連付けの場合、トランザクション形式は概念的に２つの列、すなわち「トランザクション識別子」と「項目識別子」から成る。順次パターンの場合、概念的には３つの列、すなわち「トランザクション・グループ識別子」、「トランザクション識別子」、および「項目識別子」から成る。現況技術のアプリオリ手法のはるかに重大な欠点は、すべての「項目識別子」が同じタイプに関係する必要があることである。その結果、アプリオリ手法は、同じタイプの項目間の関連付け規則または順序を導き出すことができるに過ぎない。たとえば、項目識別子が特定の顧客が購入した特定の製品に関係する場合、アプリオリ技法は、「顧客が「製品１」を購入した場合、その顧客はＸ
％の確率で「製品２」を購入するであろう」という形の規則しか導き出すことができない。アプリオリ手法は、
生成された規則に、たとえば顧客の性別、年齢、職業、
住所、またはその他の特徴のような他のタイプの項目を含めることができない。規則を導き出すプロセスに多くの異なる項目タイプを含めてしまえば、導き出された規則が本質的にはるかに選択的になるため、規則の重要度を大幅に高めることができる。

【００１０】

【発明が解決しようとする課題】本発明は、異なる項目タイプのトランザクション項目を含む多数のレコードの関連付け規則または順次パターンあるいはその両方のデータ・マイニングのためのコンピュータ化された方法を提供する目的に基づく。

【００１１】

【課題を解決するための手段】本発明の目的は、独立請求項によって解決される。本発明のその他の有利な構成および実施形態は、それぞれの従属請求項に記載されている。

【００１２】本発明は、多数のレコードの関連付け規則または順次パターンあるいはその両方のデータ・マイニングのためのコンピュータ化された方法に関する。本発明は、トランザクション識別情報と、対応する項目タイプを備えた少なくとも１つのトランザクション項目とを含み、多数のレコードが異なるタイプのトランザクション項目を含むレコードに適用可能である。この提案の方法は、各レコードをトランザクション形式の１つまたは複数のトランザクション・レコードに変換する前処理ステップを含む。前記レコード内の各トランザクション項目の前記トランザクション形式に従ってトランザクション・レコードが生成され、前記トランザクション・レコードは、前記トランザクション・レコードのトランザクション識別情報と、前記項目およびそれに対応する項目タイプを１つの値にコード化するコード化トランザクション項目とを少なくとも含む。最後に、前記方法は、関連付け規則および順次パターンあるいはその両方のデータ・マイニングのために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む。

【００１３】本発明は、従来技術によるデータ・マイニング技法を拡張し、多数の項目タイプの項目を含むデータ資産に基づく関連付け規則または順次パターンあるいはその両方を求めるマイニングもサポートするようになる。この技術分野における現在の活動は、新しい先進的なマイニング・アルゴリズムを求めることに集中しているが、本発明はまったく異なる意外な方向を向いた特徴によってこの目的を達成することができる。新しいマイニング・アルゴリズムを提案するのではなく、本発明は、マイニングするデータを新しいコード化方式に変換する新規な前処理ステップを提案する。データがトランザクション形式ではないため、新しいアルゴリズムを導入する必要なしに、関連付け／順次パターンを求める効率的なマイニングのための項目フィールドとして定義する複数のフィールドの使用をサポートする。したがって、きわめて効率的で最適化されていることが最近数年間で実証されているマイニング・アルゴリズムが従来通り適用可能である。

【００１４】

【発明の実施の形態】本発明でデータベース（たとえば関係データベース）、テーブル、レコードと言う場合、
これらの用語は概念的な観点からのみ理解すべきである。データベースという用語は、あらゆる量のデータを指す最も一般的な意味で理解すべきである。データは、
フラット・ファイルまたは実際のデータベースに記憶することができる。さらに、本教示は、データを永続的に記憶する必要はない。本教示は、インコア・メモリ内のいずれかの場所に記憶された揮発性データにも適用可能である。また、データが実際にレコードから成るテーブル構造として物理的に編成されている必要もない。本発明では、データは、論理的な観点から見て、複数の個別レコード・フィールドを持つレコードから成るテーブルに編成することができるだけでは不十分である。

【００１５】一般に、データ・マイニング技法が適用されるソース・データは、複数のレコードから成るテーブルとして提供され、これらのレコードは（テーブルの列を表す）複数のフィールドから成る。図１にそのようなテーブルの一例を示す。テーブルの個々のレコードは、
「顧客」、「ＴＡ」、「年齢」、「性別」、「州」、
「品目」という個別フィールドを含む。ほとんどのフィールドの意味は、その名前から直接わかる。フィールド「ＴＡ」には、特定の顧客が「品目」フィールドで識別されている特定の製品を注文したときの固有トランザクション識別子が入る。

【００１６】関連付け規則のマイニングまたは順次パターンのマイニングのためのアプリオリ方式のようなデータ・マイニング技法は、図１のテーブル構造のようなデータの元のソース形式には適用することができない。たとえば、アプリオリ手法は、図１の通常の複数列形式とは異なる「トランザクション形式」と呼ばれる特別な形式のデータに依存する。関連付けの場合、トランザクション形式は２つの列、すなわち「トランザクション識別子」と「項目識別子」のみから成る。順次パターンの場合、トランザクション形式は３つの列、すなわち「トランザクション・グループ識別子」、「トランザクション識別子」、および「項目識別子」から成る。図２および図３に、図１のテーブルをトランザクション形式に変換した結果を示す。図２は、関連付け規則のマイニングに適合されたトランザクション形式を示し、図３は順次パターンのマイニングに適合化されたトランザクション形式を示す。従来技術によれば、トランザクション形式表現のすべての項目値は単一の項目タイプのみに関係することを理解することが重要である。この例では、項目タイプは顧客別に配列された製品である。

【００１７】いずれの場合も、項目識別子をいわゆるカテゴリ変数として扱わなければならない。これは、項目識別子の値がストリングとして扱われることを意味する。この種の入力データが与えられたと考えると、関連付け規則のためのアプリオリ方式のアルゴリズムによって以下のような規則が見つかる。トランザクションに項目_oと項目_pと項目_qと、．．．とが含まれている場合、
そのトランザクションには項目_m 、項目_n 、．．．も含まれることになる。

【００１８】同様に、順次パターンのためのアプリオリ方式のアルゴリズムによって、以下のようなパターンが見つかる。項目_oと項目_pと．．．とを含むトランザクションの後には、項目_p ．．．を含むトランザクションが続き、その後には．．．を含むトランザクションが続き．．．というようになる。

【００１９】従来の手法では、複数の項目フィールドを使用して関連付け規則または順次パターンをマイニングするために、効率的なアプリオリ方式アルゴリズムまたはその他の同様の手法を使用することは不可能である。
したがって、アプリオリ方式の方法のような従来の技術によると、この例に適用した場合、特定の製品１（「品目」）、顧客の年齢（「年齢」）、性別（「性別」）、
居住する州（「州」）のいずれかまたは全部の配列を、
別の製品２（「品目」）の配列の確率に関連づけることができる規則を導き出すことはできない。

【００２０】複数の項目を持つデータベース・レコードを扱うことができる従来の技術で知られている唯一の解決策は、すべての項目が同じ項目タイプに関係する事例である。このような事例の一例を図３に示す。この解決策によると、項目フィールドのタイプと意味がすべて同じであるため、複数の項目フィールド３０２〜３０５があっても、データベース・テーブル３０１をトランザクション形式に変換することができる。この特殊な事例では、「ピボット」と呼ぶ方法を使用して複数フィールド入力を、図４に３１０として示す従来のトランザクション形式に変換することができる。図４からわかるように、複数列データベースのすべてのレコードが、トランザクション形式を有する複数のトランザクション・レコードに変換される。複数列テーブルの特定のレコード内のすべての項目について、個別のトランザクション・レコードが生成され、複数列データベース・テーブルの同じレコードから生成されたすべてのトランザクション・
レコードは同じトランザクション識別情報を反映する。

【００２１】複数の項目タイプを扱う基本コード化方式図１のテーブルの入力データが与えられたとすると、関連付け規則および順次パターンのための周知のマイニング技法を使用して、「「州」がＭＡの場合、「品目」は２０である」のような規則を見つけることができ、それぞれ、「「州」がＭＡで「品目」が２０の後には、
「州」がＣＡで「品目」が３０が続く」のような順次パターンを見つけることができることが望ましい。この種の結果は、規則またはパターン（ＭＡ、ＣＡ、２０、３
０）に現れるのが属性値だけではないという意味で、従来の結果とは異なる。複数列データおよび異なるタイプの項目では、この結果の一部として列名（たとえば州と品目）も有することが重要である。

【００２２】複数列テーブルは、ｎ個の列のセット｛ｃ
₁ 、ｃ ₂ ，．．．，ｃ _n ｝（ｎ＞２）である。各列ｃ _kは識別子ｉ _kとタイプｔ _kを有する。関連付け規則のための効率的なアルゴリズムは、２列のテーブル｛ｃ ₁ ，ｃ ₂ ｝のみを処理することができ、一方の列をいわゆるトランザクション識別子（またはトランザクション識別情報）として使用し、他方の列を項目識別子（またはトランザクション項目）として使用する。同様に、順次パターン・
アルゴリズムは、３列のテーブル｛ｃ ₁ ，ｃ ₂ ，ｃ ₃ ｝を使用し、１列をいわゆるトランザクション・グループ識別子として使用し、残りの２列の意味は（トランザクション識別子と項目識別子を含む）関連付け規則アルゴリズムに対応する。

【００２３】本発明の主要な目的は、複数列を項目として使用することができるようにすることであり、したがって、異なるタイプの項目間の規則を導き出す機能によって周知のマイニング方法を拡張することであるため、
項目値、すなわち項目識別子の値の抽象的観念も定義する必要がある。列ｃ _kとレコード番号ｍが与えられた場合、この特定のレコード内の列ｃ _kの値をｖａｌ（ｃ _k ，
ｍ）で示す。たとえば、図１のテーブルの最初のレコード内の列「州」の値はＣＡであり、ｖａｌ（Ｓｔａｔ
ｅ，１）＝ＣＡとなる。ｖａｌ関数はこのデータ中の元の値を返す必要はない。場合によっては、値マッピングを使用して連続値を区間にマッピングする（打ち切り）
こともできる。

【００２４】本発明の基本概念は、「コード化トランザクション項目」という新規なトランザクション項目の概念を教示することである。このコード化トランザクション項目は、トランザクション項目だけでなく項目タイプも同時にコード化する単一の値を表す。このような手法を使用すると、コード化トランザクション項目の異なる項目タイプのトランザクション項目が常に異なる値で表されるように保証される。このコード化方式は、トランザクション項目の値とは独立して、異なる項目タイプを異なるコード化トランザクション項目にマッピングするため、この新規なトランザクション形式に従ってセット・アップされたレコードを操作することによって、従来のマイニング方法が異なる項目タイプの項目を処理するように透過的に使用可能になる。以下で示すように、項目タイプとトランザクション項目の値とを単一のコード化トランザクション項目としてコード化するために、異なるマッピングを使用することができる。

【００２５】より形式的には、本発明の機構は、レコードｍの項目列の列識別情報と値とを単一の値にコード化するマッピング関数ｍａｐ（ｉ，ｖａｌ（ｉ，ｍ））を導入する。２つの追加の関数を導入して、このマッピング関数の動作を以下のように定義する。１． Column（encodedValue）は、マップ関数によって生成されたコード化値の列を返す。２． Value（encodedValue）は、マップ関数によってコード化された項目の値を返す。

【００２６】マッピング関数は、ｉとｍのすべての対について以下の２つの条件が成立するように作成しなければならない。１． Column（map（i,val（i,m）））＝i ２． Value（map（i,val（i,m）））＝val（i,m）または、言い換えると、コード化トランザクション項目は、トランザクション項目の対応する値と、対応する項目タイプとに固有にデコード可能である。

【００２７】データ・マイニング内での新規なコード化手法の使用上記で概説したように、本発明の概念は、複数列データを、元のテーブルに含まれているいかなる情報も失うことなく、既存のアルゴリズムによって扱うことができるデータ形式に変換することである。

【００２８】図５に、コード化トランザクション項目の本教示による各データベース・レコードをトランザクション形式の１つまたは複数のトランザクション・レコードに変換する前処理ステップがどのように機能するかを図示する。概括的に説明すると、ｍ個の列があり、そのうちのｎ個の列（ｃ ₁ 、ｃ ₂ 、．．．ｃ _nで示す）が項目値の入力として選択されており、項目が同じ項目タイプまたは異なる項目タイプの任意の混合を表すことができる複数列テーブルがあるとすると、この方法は以下のように機能する（図５も参照）。列ｃ ₁ 、ｃ ₂ 、．．．ｃ _n
を含む入力データ内の各レコードについて、対応する列識別情報および値を抽出する（４０１、４０２）。次にコード化ｍａｐ（ｉ _k ，ｖａｌ（ｉ _k ，ｐ））を計算する（４０３）。出力（４０４）として、この機構は関連付けの場合は２列テーブル、順次パターンの場合は３列テーブルを生成する。これらのテーブルには、それぞれ（トランザクション識別情報，コード化トランザクション項目）ペアと（トランザクション・グループ、トランザクション識別子、コード化トランザクション項目）タプルが含まれる。

【００２９】当然ながら、本発明の適用にとって、マッピング機構の出力が何らかの種類のデータベースの物理テーブルとして直接記憶されるか否かは問題ではない。
すなわち、データ・マイニング方法によって最終的に処理された出力は、揮発性コンピュータ・メモリにのみ入れることもできる。また、物理記憶なしでこの変換を行う、入力データのための特別なカーソルとして実施することもできる。

【００３０】可能なマッピング関数当然ながら、上述の条件を満たす様々なマッピング関数が可能である。

【００３１】マッピング関数の一例として、列の名前と、ストリング表現の項目タイプと、項目の「ストリング化」値、すなわちトランザクション項目の値とを単に連結する関数を導入することができる。さらに、任意選択の区切り文字「＠」を使用して、列および値関数が適切に機能するように保証することもできる。図１のデータの最初のレコードを例にとり、「州」列にこのマッピング関数を適用すると、「Ｓｔａｔｅ＠ＣＡ」が返される。図６に、項目列として「年齢」、「州」、および「品目」を選択し、トランザクション識別子列としてＴ
Ａ列を選択した場合の、この機構を適用した全結果を示す。これは関連付け規則の探索のために入力として使用される種類のデータであることは明らかである。

【００３２】マッピング関数の他の例として、以下のようなマッピングも可能である。様々な項目タイプの項目の値を共通の範囲のうちの重なり合わない部分範囲にマッピングし、異なる項目タイプに関係するコード化トランザクション項目が、コード化トランザクション値に関して常に異なるという結果を得ることができる。

【００３３】本発明は、従来技術によるデータ・マイニング技法を拡張し、多数の項目タイプの項目を含むデータ資産に基づく関連付け規則または順次パターンあるいはその両方を求めるマイニングもサポートするようになる。この技術分野における現在の活動は、新しい先進的なマイニング・アルゴリズムを求めることに集中しているが、本発明はまったく異なる意外な方向を向いた特徴によってこの目的を達成することができる。新しいマイニング・アルゴリズムを提案するのではなく、本発明は、マイニングするデータを新しいコード化方式に変換する新規な前処理ステップを提案する。データがトランザクション形式ではないため、新しいアルゴリズムを導入する必要なしに、関連付け／順次パターンを求める効率的なマイニングのための項目フィールドとして定義する複数のフィールドの使用をサポートする。したがって、きわめて効率的で最適化されていることが最近数年間で実証されているマイニング・アルゴリズムが従来通り適用可能である。

【００３４】本発明の手法は、本質的に完全に汎用的であり、したがって項目フィールドのタイプまたは意味に対する制約がまったく加えられない。したがって、マイニングのために、この前処理ステップの変換出力に基づく任意のデータに従来技術の関連付けおよび順次パターン・アルゴリズムを適用することができる。

【００３５】本発明の教示事例の他の特徴は、コンピュータ・メモリの効率的な使用である。データの追加のコピーが不要であり、さらに、本発明の手法が追加のディスク空間を必要としないことは、マイニング対象のデータが通常は大量であることを考えると重要な点である。

【００３６】さらに、コード化トランザクション項目のコード化プロセス中に、項目値の明示的なマッピングが可能である。元のデータ資産内に存在する項目の連続値または数値あるいはその両方を、区間にその場で（オン・ザ・フライで）マップすることができる。したがって、いわゆる定量的関連付け規則の探索が直接サポートされる。

【００３７】マイニング・アルゴリズムによって生成されたマイニング出力は、（項目タイプがトランザクション項目にコード化されるため）入力データとして使用された元のデータ・スキーマの列名を反映する。これにより、規則／順次パターンの解釈が格段に容易になる。

【００３８】まとめとして、本発明の構成に関して以下の事項を開示する。

【００３９】（１）複数のレコードの関連付け規則または順次パターンあるいはその両方をデータ・マイニングするコンピュータ化方法であって、レコードがトランザクション識別情報と、対応する項目タイプを備える少なくとも１つのトランザクション項目とを含み、前記複数のレコードが異なる項目タイプのトランザクション項目を含み、前記方法が各レコードをトランザクション形式の１つまたは複数のトランザクション・レコードに変換する前処理ステップを含み、前記レコード内の各トランザクション項目ごとにトランザクション・レコードが生成され、前記トランザクション・レコードが、前記レコードのトランザクション識別情報と、前記トランザクション項目とそれに対応する項目タイプとを１つの値にコード化するコード化トランザクション項目とを含み、前記方法が、関連付け規則または順次パターンあるいはその両方をデータ・マイニングするために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む方法。（２）前記データ・マイニング技法がアプリオリ技法である、上記（１）に記載の方法。（３）前記コード化トランザクション項目が前記トランザクション項目と前記項目タイプとにデコード可能である、上記（１）に記載の方法。（４）前記コード化トランザクション項目が前記項目タイプと前記トランザクション項目との並置によって生成される、上記（２）に記載の方法。（５）上記（１）ないし（４）のいずれか一項に記載の前記方法の前記ステップを実行するように適合された手段を含むシステム。（６）上記（１）ないし（４）のいずれか一項に記載の方法を実行するソフトウェア・コード部分を含む、データ処理システムにおける実行のためのデータ処理プログラムを記録したコンピュータ可読記録媒体。（７）上記（１）ないし（４）のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ可読プログラム手段を含む、コンピュータ使用可能媒体。

【図面の簡単な説明】

【図１】複数のレコードを含み、これらのレコードが（テーブルの列を表す）複数のフィールドを有する、データ・マイニング技法が適用される典型的なデータベース・テーブルの一例を示す図である。

【図２】図１のテーブルからトランザクション形式への変換結果を示し、関連付け規則をマイニングするように適合されたトランザクション形式を示す図である。

【図３】図１のテーブルからトランザクション形式への変換結果を示し、順次パターンをマイニングするように適合されたトランザクション形式を示す図である。

【図４】すべての項目が同じ項目タイプに関係する場合に限定されている、複数の項目を持つデータベース・レコードを扱うことができる従来技術で周知の唯一の解決策を示す図である。

【図５】コード化トランザクション項目に関する本発明の教示に従って各データベース・レコードをトランザクション形式の１つまたは複数のトランザクション・レコードに変換する前処理ステップがどのように機能するかを示す図である。

【図６】図１の例に基づくコード化トランザクション項目を使用した本発明の教示の完全な前処理結果を示す図である。

【符号の説明】

３０１データベース・テーブル３０２項目フィールド３１０従来のトランザクション形式

标题	发布/更新时间	阅读量
一种基于房产信息数据的智能服务防护方法及其系统	2020-05-08	939
一种基于互联网平台的数据化人才管理分析系统	2020-05-08	244
一种大数据数据中心运行监测系统	2020-05-08	505
基于海量时空数据的频繁轨迹提取方法及其挖掘系统	2020-05-08	452
基于频谱地图的卫星通信系统用户链路干扰规避方法	2020-05-11	767
一种基于数据挖掘的农作物生长预警的方法及装置	2020-05-08	755
一种声音直播用户的年龄预测方法	2020-05-11	318
基于ZORRO系统的数据挖掘任务创建方法	2020-05-11	948
一种基于负荷-电压灵敏度的配电网低电压预警方法	2020-05-11	191
一种电力系统检测数据攻击的方法、计算机设备和存储介质	2020-05-11	61

Data mining method and system

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：