首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / Data mining method and system

Data mining method and system

阅读:463发布:2023-04-20

专利汇可以提供Data mining method and system专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To computerize a data mining processing by generating a transaction record in the formats of respective transaction items in the record and coding discrimination information of the transaction record, items and item types corresponding to them into one value. SOLUTION: For example, there is a multi-column table which has (m) columns, also has (n) columns (C1C2...cn) out of them selected as inputs of item values, and can represent arbitrary mixture of items of the same or different item types. Then the table functions to extract column discrimination information and values corresponding to respective records in input data including columns c1, c2...cn (401, 402) and then calculate a coded map (403). As an output (404), this mechanism generates a two-column table for relation and a three- column table for a sequential pattern.,下面是Data mining method and system专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】複数のレコードの関連付け規則または順次パターンあるいはその両方をデータ・マイニングするコンピュータ化方法であって、 レコードがトランザクション識別情報と、対応する項目タイプを備える少なくとも1つのトランザクション項目とを含み、 前記複数のレコードが異なる項目タイプのトランザクション項目を含み、 前記方法が各レコードをトランザクション形式の1つまたは複数のトランザクション・レコードに変換する前処理ステップを含み、 前記レコード内の各トランザクション項目ごとにトランザクション・レコードが生成され、 前記トランザクション・レコードが、前記レコードのトランザクション識別情報と、前記トランザクション項目とそれに対応する項目タイプとを1つの値にコード化するコード化トランザクション項目とを含み、 前記方法が、関連付け規則または順次パターンあるいはその両方をデータ・マイニングするために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む方法。
  • 【請求項2】前記データ・マイニング技法がアプリオリ技法である、請求項1に記載の方法。
  • 【請求項3】前記コード化トランザクション項目が前記トランザクション項目と前記項目タイプとにデコード可能である、請求項1に記載の方法。
  • 【請求項4】前記コード化トランザクション項目が前記項目タイプと前記トランザクション項目との並置によって生成される、請求項2に記載の方法。
  • 【請求項5】請求項1ないし4のいずれか一項に記載の前記方法の前記ステップを実行するように適合された手段を含むシステム。
  • 【請求項6】請求項1ないし4のいずれか一項に記載の方法を実行するソフトウェア・コード部分を含む、データ処理システムにおける実行のためのデータ処理プログラムを記録したコンピュータ可読記録媒体。
  • 【請求項7】請求項1ないし4のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ可読プログラム手段を含む、コンピュータ使用可能媒体。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、データ・マイニング技法に関する。 より詳細には、本発明は、データ資産の関連付け規則または順次パターンあるいはその両方のマイニングの分野に関する。

    【0002】

    【従来の技術】ビジネス分野と科学分野においてデータベースに記憶されるデータ量とデータベース・アプリケーションの数は、最近20年間で激増している。 この電子記憶データ量の急増は、データ記憶のための関係モデルの成功と、データ検索技術と操作技術の発展および成熟によって促進された。 データ記憶技術は需要に対応するように急速に発達したが、データ分析用のソフトウェアの開発には最近までほとんどが注がれていなかった。 最近になって、各企業は、これらの大量のデータにこれまで無視されていた資源が隠されていることを認識した。 この大量の記憶データには、企業の業務の多くの局面に関する知識が含まれており、より効果的なビジネス意志決定支援のために利用されるのを待っている。 現在、これらのデータ・セットを管理するために使用される「データベース管理システム」では、ユーザはデータベース内に明示的に存在する情報、すなわちデータにアクセスすることができるに過ぎなかった。 データベースに記憶されたデータは、利用可能な情報の「氷山の一」に過ぎない。 このデータには、企業のビジネスの多くの局面に関する知識が暗黙に含まれており、より効果的なビジネス意志決定支援のための利用を待っている。
    この大規模なデータ・セットからの知識の抽出は、データベースにおける「データ・マイニング」または「データ・ディスカバリ」と呼ばれ、データから、暗示的で以前には知られていない潜在的に有用な情報を非自明的に抽出することであると定義することができる。 データ・
    マイニングのこの明白な利点により、多くの資源がその開発に向けられている。

    【0003】データ・マイニングは、大規模なデータベースを分析してそこから有用な情報を取り出すツールの開発を必要とする。 データ・マイニングの応用分野として、トランザクション・レコードの分析によって大規模な顧客トランザクション・データベースから顧客購買パターンを引き出すことができる。 このような購買習慣は、きわめて重要なマーケティング情報を提供することがある。 たとえば、小売業者は、顧客の購買パターンがわかれば、通常可能なよりも有効な店舗陳列やより有効な自己管理を行うことができる。 他の例として、カタログ販売会社は、顧客が第1の品目を購入した場合、同じ顧客がその第1の購入後の特定の期間内にある程度の確率で特定の第2の品目を購入すると予測可能であるとわかれば、より有効なダイレクト・メールの発送を行うことができる。

    【0004】データ・マイニングは、いくつかの技法を使用して、大量のデータの中からいくつかの知識を見つける。 このような2つの技法が、いわゆる関連付け規則のマイニングと、順次パターンのマイニングである。

    【0005】トランザクションの大規模データベースからの関連付け規則の特定は、データ・マイニングの重要な部分である。 「関連付け規則」は、X→Yの形の式であり、XおよびYは項目のセットである。 小売業の分野では、マイニング(探索)するデータは一般にはトランザクションから成り、各トランザクションは品目のセットによって特徴づけられる。 たとえば、データベースに靴と上着に関する顧客の販売トランザクションが含まれるとする。 可能な関連付け規則は、「上着を含むトランザクションの30パーセントが靴も含み、全トランザクションの10パーセントが靴と上着の両方を含む」というものである。 30パーセントの値を規則の信頼度と呼び、10パーセントの値は規則のサポートである。 関連付け規則をマイニングする作業では、トランザクションから、特定のユーザ指定最小サポートおよび信頼度の制約を満たすすべての関連付け規則を見つける。 概念的には、問題はレコードの関係テーブルから関連付け規則を見つけることであると見なすことができる。 各レコードは、小売業トランザクションデータベースの場合のようにトランザクションを表すか、またはデータベース内のその他のデータ項目とすることができる。 各レコードは、1つまたは複数の属性を持ち、各属性はトランザクションの項目に対応する。

    【0006】データ・マイニングのもう一つの基本的な部分は、順次パターンの特定に関する。 これは、時間データに基づく規則を必要とする。 自然災害のデータベースがあるとする。 そのようなデータベースから、ロサンゼルスに地震があれば必ず翌日にキリマンジャロ山が噴火するという結論を出した場合、そのような規則は順次規則になる。 このような規則は、市場獲得や自然災害の予防措置を行うのに有用となり得る予知を行うのに有用である。 順次規則を他の規則から区別する因子は時間因子である。

    【0007】データ・マイニングのその他の応用分野としては、カタログ設計、アドオン販売、店舗レイアウト、および購入パターンやその他多くに基づく顧客区分がある。 一般には、これらの応用分野に関与するデータベースはきわめて大規模である。 したがって、この作業には高速アルゴリズムを使うことが避けられない。

    【0008】関連付け規則を求めるマイニングと順次パターンを求めるマイニングのいくつかの方法が提案されているがいわゆる「アプリオリ(APRIORI)」手法から導き出された方法(R. Agrawal, S.Rikantの「Fast Algo
    rithms for Mining Association Rules」(第20回V
    LDB会議議事録、1994年)を参照)のみが、大量のデータを処理するのに十分な効率の高さを持つことが実証されている。

    【0009】アプリオリ手法は、「トランザクション形式」と呼ぶ特別なデータ形式に基づく。 関連付けの場合、トランザクション形式は概念的に2つの列、すなわち「トランザクション識別子」と「項目識別子」から成る。 順次パターンの場合、概念的には3つの列、すなわち「トランザクション・グループ識別子」、「トランザクション識別子」、および「項目識別子」から成る。 現況技術のアプリオリ手法のはるかに重大な欠点は、すべての「項目識別子」が同じタイプに関係する必要があることである。 その結果、アプリオリ手法は、同じタイプの項目間の関連付け規則または順序を導き出すことができるに過ぎない。 たとえば、項目識別子が特定の顧客が購入した特定の製品に関係する場合、アプリオリ技法は、「顧客が「製品1」を購入した場合、その顧客はX
    %の確率で「製品2」を購入するであろう」という形の規則しか導き出すことができない。 アプリオリ手法は、
    生成された規則に、たとえば顧客の性別、年齢、職業、
    住所、またはその他の特徴のような他のタイプの項目を含めることができない。 規則を導き出すプロセスに多くの異なる項目タイプを含めてしまえば、導き出された規則が本質的にはるかに選択的になるため、規則の重要度を大幅に高めることができる。

    【0010】

    【発明が解決しようとする課題】本発明は、異なる項目タイプのトランザクション項目を含む多数のレコードの関連付け規則または順次パターンあるいはその両方のデータ・マイニングのためのコンピュータ化された方法を提供する目的に基づく。

    【0011】

    【課題を解決するための手段】本発明の目的は、独立請求項によって解決される。 本発明のその他の有利な構成および実施形態は、それぞれの従属請求項に記載されている。

    【0012】本発明は、多数のレコードの関連付け規則または順次パターンあるいはその両方のデータ・マイニングのためのコンピュータ化された方法に関する。 本発明は、トランザクション識別情報と、対応する項目タイプを備えた少なくとも1つのトランザクション項目とを含み、多数のレコードが異なるタイプのトランザクション項目を含むレコードに適用可能である。 この提案の方法は、各レコードをトランザクション形式の1つまたは複数のトランザクション・レコードに変換する前処理ステップを含む。 前記レコード内の各トランザクション項目の前記トランザクション形式に従ってトランザクション・レコードが生成され、前記トランザクション・レコードは、前記トランザクション・レコードのトランザクション識別情報と、前記項目およびそれに対応する項目タイプを1つの値にコード化するコード化トランザクション項目とを少なくとも含む。 最後に、前記方法は、関連付け規則および順次パターンあるいはその両方のデータ・マイニングのために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む。

    【0013】本発明は、従来技術によるデータ・マイニング技法を拡張し、多数の項目タイプの項目を含むデータ資産に基づく関連付け規則または順次パターンあるいはその両方を求めるマイニングもサポートするようになる。 この技術分野における現在の活動は、新しい先進的なマイニング・アルゴリズムを求めることに集中しているが、本発明はまったく異なる意外な方向を向いた特徴によってこの目的を達成することができる。 新しいマイニング・アルゴリズムを提案するのではなく、本発明は、マイニングするデータを新しいコード化方式に変換する新規な前処理ステップを提案する。 データがトランザクション形式ではないため、新しいアルゴリズムを導入する必要なしに、関連付け/順次パターンを求める効率的なマイニングのための項目フィールドとして定義する複数のフィールドの使用をサポートする。 したがって、きわめて効率的で最適化されていることが最近数年間で実証されているマイニング・アルゴリズムが従来通り適用可能である。

    【0014】

    【発明の実施の形態】本発明でデータベース(たとえば関係データベース)、テーブル、レコードと言う場合、
    これらの用語は概念的な観点からのみ理解すべきである。 データベースという用語は、あらゆる量のデータを指す最も一般的な意味で理解すべきである。 データは、
    フラット・ファイルまたは実際のデータベースに記憶することができる。 さらに、本教示は、データを永続的に記憶する必要はない。 本教示は、インコア・メモリ内のいずれかの場所に記憶された揮発性データにも適用可能である。 また、データが実際にレコードから成るテーブル構造として物理的に編成されている必要もない。 本発明では、データは、論理的な観点から見て、複数の個別レコード・フィールドを持つレコードから成るテーブルに編成することができるだけでは不十分である。

    【0015】一般に、データ・マイニング技法が適用されるソース・データは、複数のレコードから成るテーブルとして提供され、これらのレコードは(テーブルの列を表す)複数のフィールドから成る。 図1にそのようなテーブルの一例を示す。 テーブルの個々のレコードは、
    「顧客」、「TA」、「年齢」、「性別」、「州」、
    「品目」という個別フィールドを含む。 ほとんどのフィールドの意味は、その名前から直接わかる。 フィールド「TA」には、特定の顧客が「品目」フィールドで識別されている特定の製品を注文したときの固有トランザクション識別子が入る。

    【0016】関連付け規則のマイニングまたは順次パターンのマイニングのためのアプリオリ方式のようなデータ・マイニング技法は、図1のテーブル構造のようなデータの元のソース形式には適用することができない。 たとえば、アプリオリ手法は、図1の通常の複数列形式とは異なる「トランザクション形式」と呼ばれる特別な形式のデータに依存する。 関連付けの場合、トランザクション形式は2つの列、すなわち「トランザクション識別子」と「項目識別子」のみから成る。 順次パターンの場合、トランザクション形式は3つの列、すなわち「トランザクション・グループ識別子」、「トランザクション識別子」、および「項目識別子」から成る。 図2および図3に、図1のテーブルをトランザクション形式に変換した結果を示す。 図2は、関連付け規則のマイニングに適合されたトランザクション形式を示し、図3は順次パターンのマイニングに適合化されたトランザクション形式を示す。 従来技術によれば、トランザクション形式表現のすべての項目値は単一の項目タイプのみに関係することを理解することが重要である。 この例では、項目タイプは顧客別に配列された製品である。

    【0017】いずれの場合も、項目識別子をいわゆるカテゴリ変数として扱わなければならない。 これは、項目識別子の値がストリングとして扱われることを意味する。 この種の入力データが与えられたと考えると、関連付け規則のためのアプリオリ方式のアルゴリズムによって以下のような規則が見つかる。 トランザクションに項目oと項目pと項目qと、. . . とが含まれている場合、
    そのトランザクションには項目m 、項目n 、. . . も含まれることになる。

    【0018】同様に、順次パターンのためのアプリオリ方式のアルゴリズムによって、以下のようなパターンが見つかる。 項目oと項目pと. . . とを含むトランザクションの後には、項目p . . . を含むトランザクションが続き、その後には. . . を含むトランザクションが続き. . . というようになる。

    【0019】従来の手法では、複数の項目フィールドを使用して関連付け規則または順次パターンをマイニングするために、効率的なアプリオリ方式アルゴリズムまたはその他の同様の手法を使用することは不可能である。
    したがって、アプリオリ方式の方法のような従来の技術によると、この例に適用した場合、特定の製品1(「品目」)、顧客の年齢(「年齢」)、性別(「性別」)、
    居住する州(「州」)のいずれかまたは全部の配列を、
    別の製品2(「品目」)の配列の確率に関連づけることができる規則を導き出すことはできない。

    【0020】複数の項目を持つデータベース・レコードを扱うことができる従来の技術で知られている唯一の解決策は、すべての項目が同じ項目タイプに関係する事例である。 このような事例の一例を図3に示す。 この解決策によると、項目フィールドのタイプと意味がすべて同じであるため、複数の項目フィールド302〜305があっても、データベース・テーブル301をトランザクション形式に変換することができる。 この特殊な事例では、「ピボット」と呼ぶ方法を使用して複数フィールド入力を、図4に310として示す従来のトランザクション形式に変換することができる。 図4からわかるように、複数列データベースのすべてのレコードが、トランザクション形式を有する複数のトランザクション・レコードに変換される。 複数列テーブルの特定のレコード内のすべての項目について、個別のトランザクション・レコードが生成され、複数列データベース・テーブルの同じレコードから生成されたすべてのトランザクション・
    レコードは同じトランザクション識別情報を反映する。

    【0021】複数の項目タイプを扱う基本コード化方式 図1のテーブルの入力データが与えられたとすると、関連付け規則および順次パターンのための周知のマイニング技法を使用して、「「州」がMAの場合、「品目」は20である」のような規則を見つけることができ、それぞれ、「「州」がMAで「品目」が20の後には、
    「州」がCAで「品目」が30が続く」のような順次パターンを見つけることができることが望ましい。 この種の結果は、規則またはパターン(MA、CA、20、3
    0)に現れるのが属性値だけではないという意味で、従来の結果とは異なる。 複数列データおよび異なるタイプの項目では、この結果の一部として列名(たとえば州と品目)も有することが重要である。

    【0022】複数列テーブルは、n個の列のセット{c
    1 、c 2 ,. . . ,c n }(n>2)である。 各列c kは識別子i kとタイプt kを有する。 関連付け規則のための効率的なアルゴリズムは、2列のテーブル{c 1 ,c 2 }のみを処理することができ、一方の列をいわゆるトランザクション識別子(またはトランザクション識別情報)として使用し、他方の列を項目識別子(またはトランザクション項目)として使用する。 同様に、順次パターン・
    アルゴリズムは、3列のテーブル{c 1 ,c 2 ,c 3 }を使用し、1列をいわゆるトランザクション・グループ識別子として使用し、残りの2列の意味は(トランザクション識別子と項目識別子を含む)関連付け規則アルゴリズムに対応する。

    【0023】本発明の主要な目的は、複数列を項目として使用することができるようにすることであり、したがって、異なるタイプの項目間の規則を導き出す機能によって周知のマイニング方法を拡張することであるため、
    項目値、すなわち項目識別子の値の抽象的観念も定義する必要がある。 列c kとレコード番号mが与えられた場合、この特定のレコード内の列c kの値をval(c k
    m)で示す。 たとえば、図1のテーブルの最初のレコード内の列「州」の値はCAであり、val(Stat
    e,1)=CAとなる。 val関数はこのデータ中の元の値を返す必要はない。 場合によっては、値マッピングを使用して連続値を区間にマッピングする(打ち切り)
    こともできる。

    【0024】本発明の基本概念は、「コード化トランザクション項目」という新規なトランザクション項目の概念を教示することである。 このコード化トランザクション項目は、トランザクション項目だけでなく項目タイプも同時にコード化する単一の値を表す。 このような手法を使用すると、コード化トランザクション項目の異なる項目タイプのトランザクション項目が常に異なる値で表されるように保証される。 このコード化方式は、トランザクション項目の値とは独立して、異なる項目タイプを異なるコード化トランザクション項目にマッピングするため、この新規なトランザクション形式に従ってセット・アップされたレコードを操作することによって、従来のマイニング方法が異なる項目タイプの項目を処理するように透過的に使用可能になる。 以下で示すように、項目タイプとトランザクション項目の値とを単一のコード化トランザクション項目としてコード化するために、異なるマッピングを使用することができる。

    【0025】より形式的には、本発明の機構は、レコードmの項目列の列識別情報と値とを単一の値にコード化するマッピング関数map(i,val(i,m))を導入する。 2つの追加の関数を導入して、このマッピング関数の動作を以下のように定義する。 1. Column(encodedValue)は、マップ関数によって生成されたコード化値の列を返す。 2. Value(encodedValue)は、マップ関数によってコード化された項目の値を返す。

    【0026】マッピング関数は、iとmのすべての対について以下の2つの条件が成立するように作成しなければならない。 1. Column(map(i,val(i,m)))=i 2. Value(map(i,val(i,m)))=val(i,m) または、言い換えると、コード化トランザクション項目は、トランザクション項目の対応する値と、対応する項目タイプとに固有にデコード可能である。

    【0027】データ・マイニング内での新規なコード化手法の使用上記で概説したように、本発明の概念は、複数列データを、元のテーブルに含まれているいかなる情報も失うことなく、既存のアルゴリズムによって扱うことができるデータ形式に変換することである。

    【0028】図5に、コード化トランザクション項目の本教示による各データベース・レコードをトランザクション形式の1つまたは複数のトランザクション・レコードに変換する前処理ステップがどのように機能するかを図示する。 概括的に説明すると、m個の列があり、そのうちのn個の列(c 1 、c 2 、...c nで示す)が項目値の入力として選択されており、項目が同じ項目タイプまたは異なる項目タイプの任意の混合を表すことができる複数列テーブルがあるとすると、この方法は以下のように機能する(図5も参照)。 列c 1 、c 2 、. . . c n
    を含む入力データ内の各レコードについて、対応する列識別情報および値を抽出する(401、402)。 次にコード化map(i k ,val(i k ,p))を計算する(403)。 出力(404)として、この機構は関連付けの場合は2列テーブル、順次パターンの場合は3列テーブルを生成する。 これらのテーブルには、それぞれ(トランザクション識別情報,コード化トランザクション項目)ペアと(トランザクション・グループ、トランザクション識別子、コード化トランザクション項目)タプルが含まれる。

    【0029】当然ながら、本発明の適用にとって、マッピング機構の出力が何らかの種類のデータベースの物理テーブルとして直接記憶されるか否かは問題ではない。
    すなわち、データ・マイニング方法によって最終的に処理された出力は、揮発性コンピュータ・メモリにのみ入れることもできる。 また、物理記憶なしでこの変換を行う、入力データのための特別なカーソルとして実施することもできる。

    【0030】可能なマッピング関数 当然ながら、上述の条件を満たす様々なマッピング関数が可能である。

    【0031】マッピング関数の一例として、列の名前と、ストリング表現の項目タイプと、項目の「ストリング化」値、すなわちトランザクション項目の値とを単に連結する関数を導入することができる。 さらに、任意選択の区切り文字「@」を使用して、列および値関数が適切に機能するように保証することもできる。 図1のデータの最初のレコードを例にとり、「州」列にこのマッピング関数を適用すると、「State@CA」が返される。 図6に、項目列として「年齢」、「州」、および「品目」を選択し、トランザクション識別子列としてT
    A列を選択した場合の、この機構を適用した全結果を示す。 これは関連付け規則の探索のために入力として使用される種類のデータであることは明らかである。

    【0032】マッピング関数の他の例として、以下のようなマッピングも可能である。 様々な項目タイプの項目の値を共通の範囲のうちの重なり合わない部分範囲にマッピングし、異なる項目タイプに関係するコード化トランザクション項目が、コード化トランザクション値に関して常に異なるという結果を得ることができる。

    【0033】本発明は、従来技術によるデータ・マイニング技法を拡張し、多数の項目タイプの項目を含むデータ資産に基づく関連付け規則または順次パターンあるいはその両方を求めるマイニングもサポートするようになる。 この技術分野における現在の活動は、新しい先進的なマイニング・アルゴリズムを求めることに集中しているが、本発明はまったく異なる意外な方向を向いた特徴によってこの目的を達成することができる。 新しいマイニング・アルゴリズムを提案するのではなく、本発明は、マイニングするデータを新しいコード化方式に変換する新規な前処理ステップを提案する。 データがトランザクション形式ではないため、新しいアルゴリズムを導入する必要なしに、関連付け/順次パターンを求める効率的なマイニングのための項目フィールドとして定義する複数のフィールドの使用をサポートする。 したがって、きわめて効率的で最適化されていることが最近数年間で実証されているマイニング・アルゴリズムが従来通り適用可能である。

    【0034】本発明の手法は、本質的に完全に汎用的であり、したがって項目フィールドのタイプまたは意味に対する制約がまったく加えられない。 したがって、マイニングのために、この前処理ステップの変換出力に基づく任意のデータに従来技術の関連付けおよび順次パターン・アルゴリズムを適用することができる。

    【0035】本発明の教示事例の他の特徴は、コンピュータ・メモリの効率的な使用である。 データの追加のコピーが不要であり、さらに、本発明の手法が追加のディスク空間を必要としないことは、マイニング対象のデータが通常は大量であることを考えると重要な点である。

    【0036】さらに、コード化トランザクション項目のコード化プロセス中に、項目値の明示的なマッピングが可能である。 元のデータ資産内に存在する項目の連続値または数値あるいはその両方を、区間にその場で(オン・ザ・フライで)マップすることができる。 したがって、いわゆる定量的関連付け規則の探索が直接サポートされる。

    【0037】マイニング・アルゴリズムによって生成されたマイニング出力は、(項目タイプがトランザクション項目にコード化されるため)入力データとして使用された元のデータ・スキーマの列名を反映する。 これにより、規則/順次パターンの解釈が格段に容易になる。

    【0038】まとめとして、本発明の構成に関して以下の事項を開示する。

    【0039】(1)複数のレコードの関連付け規則または順次パターンあるいはその両方をデータ・マイニングするコンピュータ化方法であって、レコードがトランザクション識別情報と、対応する項目タイプを備える少なくとも1つのトランザクション項目とを含み、前記複数のレコードが異なる項目タイプのトランザクション項目を含み、前記方法が各レコードをトランザクション形式の1つまたは複数のトランザクション・レコードに変換する前処理ステップを含み、前記レコード内の各トランザクション項目ごとにトランザクション・レコードが生成され、前記トランザクション・レコードが、前記レコードのトランザクション識別情報と、前記トランザクション項目とそれに対応する項目タイプとを1つの値にコード化するコード化トランザクション項目とを含み、前記方法が、関連付け規則または順次パターンあるいはその両方をデータ・マイニングするために前記トランザクション・レコードに従来のデータ・マイニング技法を適用するマイニング・ステップを含む方法。 (2)前記データ・マイニング技法がアプリオリ技法である、上記(1)に記載の方法。 (3)前記コード化トランザクション項目が前記トランザクション項目と前記項目タイプとにデコード可能である、上記(1)に記載の方法。 (4)前記コード化トランザクション項目が前記項目タイプと前記トランザクション項目との並置によって生成される、上記(2)に記載の方法。 (5)上記(1)ないし(4)のいずれか一項に記載の前記方法の前記ステップを実行するように適合された手段を含むシステム。 (6)上記(1)ないし(4)のいずれか一項に記載の方法を実行するソフトウェア・コード部分を含む、データ処理システムにおける実行のためのデータ処理プログラムを記録したコンピュータ可読記録媒体。 (7)上記(1)ないし(4)のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ可読プログラム手段を含む、コンピュータ使用可能媒体。

    【図面の簡単な説明】

    【図1】複数のレコードを含み、これらのレコードが(テーブルの列を表す)複数のフィールドを有する、データ・マイニング技法が適用される典型的なデータベース・テーブルの一例を示す図である。

    【図2】図1のテーブルからトランザクション形式への変換結果を示し、関連付け規則をマイニングするように適合されたトランザクション形式を示す図である。

    【図3】図1のテーブルからトランザクション形式への変換結果を示し、順次パターンをマイニングするように適合されたトランザクション形式を示す図である。

    【図4】すべての項目が同じ項目タイプに関係する場合に限定されている、複数の項目を持つデータベース・レコードを扱うことができる従来技術で周知の唯一の解決策を示す図である。

    【図5】コード化トランザクション項目に関する本発明の教示に従って各データベース・レコードをトランザクション形式の1つまたは複数のトランザクション・レコードに変換する前処理ステップがどのように機能するかを示す図である。

    【図6】図1の例に基づくコード化トランザクション項目を使用した本発明の教示の完全な前処理結果を示す図である。

    【符号の説明】

    301 データベース・テーブル 302 項目フィールド 310 従来のトランザクション形式

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈