首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / Knowledge discovery system

Knowledge discovery system

阅读:675发布:2023-06-08

专利汇可以提供Knowledge discovery system专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To automatically perform a data mining with learning target concept- related knowledge as the background knowledge of induction inference programming by automatically generating an input file provided with positive example, negative example, background knowledge, mode declaration and type information, and performing an inductive inference based on 1-st order predicate logic. SOLUTION: A DB amplifier 10 is a processing part for extracting rule from a data base 18 and storing it in a knowledge base 17 and is provided with a main amplifier for actually performing classification learning, that is a PROGOL 14, and a preamplifier 12 for automatically generating the optimum input file 13 required for the learning of the PROGOL 14 from the contents of the data base 18. The input file 13 prepared by the preamplifier 12 is provided with the positive example 13a, the negative example 13b, the background knowledge 13c, the mode declaration 13d and the type information 13e and the background knowledge 13c is provided with an element article for indicating the definition of a predicate for expressing a concept to be the target of learning as the background knowledge and pseudo raw data generated by referring to the positive example 13a.,下面是Knowledge discovery system专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 データベースに格納したデータから知識を発見し、発見した知識をエキスパートシステムが有する知識ベースに供給する知識発見システムにおいて、 正事例、負事例、背景知識、モード宣言及びタイプ情報を少なくとも有する入力ファイルを前記データベースに保持したデータから自動生成する自動生成手段と、 前記自動生成手段が生成した入力ファイルに基づいて学習を行い、一階述語論理に基づく帰納推論を行う帰納推論手段と、 を具備することを特徴とする知識発見システム。
  • 【請求項2】 前記自動生成手段は、 前記データベースに格納した個々のデータの属性間の相互関係に基づいて背景知識を生成する背景知識生成手段を具備することを特徴とする請求項1記載の知識発見システム。
  • 【請求項3】 前記自動生成手段は、 正事例が有する複数の要素から一要素を除外した条件を満たす事例のみを前記データベースから抽出して負事例を生成する負事例生成手段をさらに具備することを特徴とする請求項2記載の知識発見システム。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、データベースと帰納推論プログラミングを結合してデータベースから知識発見を行う知識発見システムに関し、特に、データベースに格納したデータからの知識発掘を自動的に行う知識発見システムに関する。

    【0002】

    【従来の技術】近年のコンピュータ技術の著しい進展とハードウエアの低価格化に伴い、各種データベースには、多種多様の膨大なデータが十分に解析されないまま格納されており、その肥大化傾向にはますます拍車がかかっている。

    【0003】しかし、かかるデータベースがいかに大量のデータを保持していたとしても、そのデータを有効な知識として利用できなければ意味がないため、データを有用化する技術が重要となる。

    【0004】このため、データベースに格納したデータからの知識発掘(以下「データマイニング(Data Minin
    g)」と言う。 )が、特にニューラルネットワーク技術分野で脚光を浴びている。

    【0005】具体的には、このニューラルネットワーク技術では、コンピュータ上の神経(シナプス)でつながった複数のニューロンにデータを学習させ、その学習結果を使って診断、認識及び予測等を行うため、かかるニューロンの学習機能をデータ分析に活用して、データマイニングを実現している。

    【0006】

    【発明が解決しようとする課題】しかしながら、このニューラルネットワーク技術には、学習結果に対して複雑な変換を施さなければ知識ベースとして利用できないという特性があるため、例えば株価の操作のような結果のみを利用するシステムには有効であるが、学習結果を知識ベースに反映してエキスパートシステムで利用することは難しい。

    【0007】また、このニューラルネットワーク技術には、各ニューロンにデータを学習させる際に人が介在しなければならないという特性を有するため、完全自動化によるデータマイニングを行うことは難しい。

    【0008】このように、かかるニューラルネットワーク技術は、データマイニングを行う上で有用である反面、知識ベースへの応用及び自動化等の面で著しく制約を受けるという問題がある。

    【0009】そこで、本発明では、上記問題点を解決し、学習目標概念に関連する知識を帰納論理プログラミングの背景知識として利用しつつ、データベースからのデータマイニングを自動的に行うことができる知識発見システムを提供することを目的とする。

    【0010】

    【課題を解決するための手段】上記目的を達成するため、第1の発明は、データベースに格納したデータから知識を発見し、発見した知識をエキスパートシステムが有する知識ベースに供給する知識発見システムにおいて、正事例、負事例、背景知識、モード宣言及びタイプ情報を少なくとも有する入ファイルを前記データベースに保持したデータから自動生成する自動生成手段と、
    前記自動生成手段が生成した入力ファイルに基づいて学習を行い、一階述語論理に基づく帰納推論を行う帰納推論手段とを具備することを特徴とする。

    【0011】また、第2の発明は、前記自動生成手段は、前記データベースに格納した個々のデータの属性間の相互関係に基づいて背景知識を生成する背景知識生成手段を具備することを特徴とする。

    【0012】また、第3の発明は、前記自動生成手段は、正事例が有する複数の要素から一要素を除外した条件を満たす事例のみを前記データベースから抽出して負事例を生成する負事例生成手段をさらに具備することを特徴とする。

    【0013】

    【発明の実施の形態】以下、本発明の実施の形態について図面を参照して説明する。

    【0014】本実施の形態では、データベースに格納したデータから有効な知識を獲得する際に、DBアンプ(DataBase Amplifier)を用いてデータベースからのデータマイニングを自動的に行っている。

    【0015】このため、本実施の形態で用いる知識発見システムの構成を説明する前に、標準的な知識獲得処理を考えた場合におけるこのDBアンプの位置づけとその概要について説明する。

    【0016】図2は、このDBアンプの知識獲得処理における位置づけを示す図である。

    【0017】図2に示すように、知識獲得の標準的な手順は、専門家等に対するインタビューによる事実のデータベース化(ステップ201)、データベースからの有効なデータの抽出(ステップ202)、データ表現をルール獲得用に変換(ステップ203)、ルールの獲得(ステップ204)、知識表現への変換(ステップ20
    5)、知識ベースへの格納(ステップ206)からなる。

    【0018】ここで、このDBアンプは、データベースからデータを抽出する段階(ステップ202)から、獲得したルールを知識表現に変換する段階(ステップ20
    5)までの処理を担うものである。

    【0019】すなわち、本実施の形態では、このDBアンプを用いることにより、データベースから直接知識獲得を行うためのインターフェース部分となるモジュールのフレームワークを構築している。

    【0020】具体的には、このDBアンプは、ルールの獲得及び知識表現への変換(ステップ204〜205)
    については機械学習システムを用いて実現することとし、この機械学習システムに対してデータベースのデータを受け渡すために、有効なデータの抽出とデータ表現の変換(ステップ202〜203)を行っている。

    【0021】したがって、このDBアンプを用いることにより、十分な量の情報を持つデータベースさえ構築できれば、知識獲得をコンピュータに実行させることが可能となる。

    【0022】図3は、図2に示すDBアンプの概略構成を示す図である。

    【0023】図3に示すように、このDBアンプでは、
    ILPシステム(Inductive LogicProgramming)をメインアンプとして採用するとともに、このILPシステムとデータベースとを直接つなぐ汎用的なフレームワークとしてプリアンプを設けた構成となる。

    【0024】ここで、このILPシステムとは、命題論理を基にするこれまでの機械学習のアプローチを発展させた一階述語論理に基づくシステムであり、正事例と負事例に加えて背景知識(background knowledge)を利用できるものである。

    【0025】このように、このILPシステムでは、背景知識を利用して個々のデータの属性間の制約や属性値の階層構造、包含関係といった制約を付加することにより閉世界を構築することができる。

    【0026】そして、このような閉世界をの構築が可能になると、知識獲得時の計算量の爆発を解決できるとともに、ノイズや誤りに対する処理を行うことも可能となる。

    【0027】なお、ここで言う正事例(positive data
    example)とは、指定された引数を全て含む事例を意味するものとし、負事例(negative data example)とは、正事例以外の事例のうちILPシステムの学習に使用する事例を意味するものとする。

    【0028】また、このILPシステムとして、CLI
    NT、RUTH及びPROGOL等の各種システムが知られているが、本実施の形態では、PROGOLをメイアンプとして採用することとする。

    【0029】このPROGOLを採用した理由は、データベースからの知識獲得を行う際に、他のILPシステムのデータベースからの知識獲得におけるいくつかの課題が既に解決されており、また、プリアンプとのデータの引き渡しを実現する仕組みがPROGOL中に既に一部実装されているためである。

    【0030】具体的には、このPROGOLは、リファインメントグラフのトップダウン検索と最特殊仮説に基づくボトムアップを組み合わせたものであり、与えられた事例を必要とする最も特殊なクローズ(clause)をモード宣言(mode declaration)で用意された言語によって行うことにより、逆解(inverse solution)を求めるものである。

    【0031】このため、本実施の形態では、このモード宣言と、扱うデータの特性を記述するタイプ情報(type
    information)とを用いてプリアンプとのデータの引き渡しを行うこととした。

    【0032】以上、本発明に係わるDBアンプの位置づけとその概要について説明した。

    【0033】次に、本実施の形態で用いる知識発見システムの構成について説明する。

    【0034】図1は、本実施の形態で用いる知識発見システムの全体構成を示すブロック図である。

    【0035】図1に示すように、この知識発見システムは、知識ベース17に基づいて問題を解決するエキスパートシステム16と、データベース18と、DBアンプ10とからなる。

    【0036】すなわち、本実施の形態で用いる知識発見システムでは、データベース18とエキスパートシステム16との間にDBアンプ10を介在させることにより、データベース18から取得した知識をエキスパートシステム16の知識ベース17にフィードバックしているのである。

    【0037】すなわち、このDBアンプ10は、データベース18からルールを抽出して知識ベース17に格納する処理部であり、実際に分類学習を行うメインアンプすなわちPROGOL14と、このPROGOL14の学習に必要な最適な入力ファイル13をデータベース1
    8の内容から自動的に生成するプリアンプ12とを有する。

    【0038】そして、このプリアンプ12では、生データ変換ルール11a、モード宣言11b、タイプ情報1
    1c及び要素定義11dからなるインデックスファイル11を参照して、データベース18のデータから入力ファイル13を作成し、この入力ファイル13をPROG
    OL14に引き渡す。

    【0039】ここで、この生データ変換ルール11aとは、後述するRERモデルの解釈に基づいてデータベース18に記憶したデータを変換するルールであり、モード宣言11b及びタイプ情報11cは、探索空間を定義するためのものであり、要素定義11dは、学習させたい概念を他のいずれの述語で表現させるかを示す定義である。

    【0040】また、上記プリアンプ12が作成する入力ファイル13は、正事例13a、負事例13b、背景知識13c、モード宣言13d及びタイプ情報13eを含み、この背景知識13cには、背景知識として学習のターゲットとなる概念を表現するための述語の定義を示す要素条項と、正事例を参照して生成された疑似生データという2つの要素が含まれる。

    【0041】なお、この背景知識13cは、本実施の形態が新たに導入したRERモデルの概念における派生属性に基づいて同定され、かかる背景知識13cを入力ファイル13に設けることにより、PROGOL14による最短時間での学習に大きな効果をもたらすことが可能となる。

    【0042】次に、本実施の形態で採用するRERデータモデルについて説明する。

    【0043】図1に示すデータベース18から帰納論理プログラミングシステムであるPROGOL14への入力データを得るためには、目標概念及び背景知識の設計が必要となる。 そして、この目標概念を同定するためには、対象概念を構成する独立変数の集合を決定しなければならない。

    【0044】例えば、構造物の設計におけるCADデータから菱形のような特定形状を認識するプログラムを学習する場合を考えると、この菱形を構成する4点がここでの独立変数になることは自明であるが、通常の4形を考えた場合と同様に、その特徴を記述するためには、
    4点の他に各点を結ぶ各辺の長さ、隣り合う2辺のなす角度などが必要となる。

    【0045】ところが、これら4点の座標が与えられると、線分の長さや隣り合う辺の角度はこの4点の座標から計算することができる。

    【0046】したがって、本実施の形態では、独立変数のみを目標概念の引数として付与し、かかる独立変数から計算できる属性については背景知識として定義することとした。

    【0047】このため、本実施の形態では、意味の記述を行うためのデータモデルであるERモデル(Entry Re
    lationship Model)の概念を拡張して、属性を基本属性(primitive property)と派生属性(derived propert
    y)に分けたRERモデル(Refined Entry Relationshi
    p Model)の概念を新たに導入した。

    【0048】図4は、本実施の形態で採用するRERモデルをCADに適用した場合の一例を示す図である。

    【0049】図4に示すように、このRERモデルは、
    2つのライン(line)が接続されている場合のモデルを示しており、具体的には、ライン41には、該ラインの端点となるノード座標を示すノード(node)42と、該ラインの長さを示すレングス(length)43とを属性として持つ。

    【0050】ここで、このノード42は、独立変数であることが明らかなため基本属性として取り扱い、レングス43は、ノード42が有する座標から算定することができるため派生属性として取り扱うことになる。

    【0051】すなわち、かかるノード42は目標概念の引数として用いられ、一方レングス43は図1に示す背景知識13cとして使用される。

    【0052】次に、このRERモデルに基づく目標概念及び背景知識の設定について説明する。

    【0053】本実施の形態では、上記RERモデルにおける全てのエンティティ(Entity)に付随する基本属性を引数とする述語として学習目標概念を定義する。

    【0054】そして、各エンティティと基本属性との間の関連を明示するために、エンティティ名をファンクタとする <Entity_Name>(PP1,…,PPn) という形式の構造体を導入する。 ただし、PPi(i=1〜
    n)はエンティティの基本属性を示すものとする。

    【0055】さらに、目標概念全体は、目標概念名を述語名とし、各エンティティに対する上記構造体を引数とする述語として定義される。

    【0056】一方、各エンティティの各派生属性に対応して、その派生属性名を述語名とする述語を導入する。
    そして、この述語の引数としては、その派生属性が依存する基本属性若しくは他の派生属性を用いる。

    【0057】各述語の定義は、その派生属性を反映するように、論理プログラムによって定義されなければならないが、この部分については人手による定義にゆだねられている。

    【0058】次に、図1に示すプリアンプ12が行う負事例の自動生成について説明する。

    【0059】従来、分類問題における負事例を生成する際には、他のクラスに属する負事例をそのクラスの負事例とするのが一般的であり、機械的にその生成を行うことが可能となる。

    【0060】しかしながら、かかる生成技術を用いて負事例を生成すると、データベース18の規模が大きくなればなるほど、これに比例して負事例の数が増加する結果となる。 したがって、かかる負事例を精査することなくPROGOL14に引き渡すと、かかる負事例を用いた学習のための計算量が爆発的に累増してしまう。

    【0061】このため、本実施の形態では、正事例でないデータの中で正事例に近いもののみを負事例として選択することによって負事例の量を必要最小限に押さえ、
    PROGOLでの処理を軽減することとした。

    【0062】具体的には、正事例の中から1つのデータを取り出したならば、このデータが持つ引数を調べ、任意の1つ引数を除いた他の引数を全て含むデータが存在すればこれを負事例として選択する。 かかる処理を全ての正事例に対して行い、出力された結果のみを負事例として採用する。

    【0063】このため、ある正事例に着目すると、該正事例が持つ全ての引数のうち、1つだけ引数が足らないデータが負事例として採用されるため、正事例に近い有用なデータのみを負事例として選択でき、その負事例数を必要最小限に押さることができたことになる。

    【0064】図5は、図1に示すプリアンプ12が行う負事例生成の一例を示す図である。

    【0065】図5に示すように、例えば正事例が、 predicate([v11,v12],[v21,v22],[v31,v32],[v41,v4
    2],…). であるとすると、とえあえず引数[v11,v12]を除いた1
    つの近似事例 predicate(…,[v21,v22],…,[v31,v32],…,[v41,v42],
    …). を作成する。

    【0066】そして、この近似事例に基づいてデータベース18を検索すると、該近似事例の全ての引数を有する predicate([v91,v92],[v21,v22],[v31,v32],[v41,v4
    2],[v221,v222]). predicate([v31,v32],[v41,v42],[v21,v22]). predicate([v51,v52],[v41,v42],[v31,v32],[v101,v10
    2],[v21,v22]). をそれぞれ得ることができる。

    【0067】その後、得られたデータの前に”:−”を付加して負事例であることを明示した後、正事例から別の1つの引数を除外して同様に近似事例を作成し、該近似事例に基づいてデータベース18から同様に負事例を検索する。

    【0068】このようにして、正事例の引数を1つだけ欠いたデータを負事例としてデータベース18から抽出することになる。

    【0069】次に、本実施の形態で行う有限探索空間の設定について説明する。

    【0070】有限時間内に効果的な学習を行うためには、効果的に探索空間を設定することが必要となるため、本実施の形態では、正事例に現れるデータのみを述語の変数のドメインとする考え方を採用し、有限領域を与えるタイプ情報を正事例中のデータのみによって定義して、正事例の引数のとる値のみに探索空間を限定することとした。

    【0071】すなわち、本実施の形態で用いるPROG
    OL14では、モード宣言で述語の引数のタイプを指定し、タイプ情報の指定によってドメインが決定されるため、このPROGOL14の仕組みを利用して探索空間を設定したのである。

    【0072】次に、図1に示すDBアンプ10を用いた場合と用いない場合の負事例及び背景知識のデータ数の関係について説明する。

    【0073】図6(a)は、図1に示すDBアンプ10
    を用いない場合の負事例及び背景知識のデータ数の関係を示す図である。

    【0074】同図に示すように、この場合には負事例数及び背景知識のデータ数がともに多くのデータ数を持つ。 このため、メイアンプであるPROGOL14が分類学習を行う際の計算量的負担は大きくなることが分かる。

    【0075】図6(b)は、図1に示すDBアンプ10
    を用いた場合の負事例及び背景知識のデータ数の関係を示す図である。

    【0076】同図に示すように、この場合には負事例数及び背景知識のデータ数がともに低減されている。 このため、PROGOL14が分類学習を行う際の計算量的負担は軽減されることが分かる。

    【0077】以上、本実施の形態が新たに導入したRE
    Rモデルの概念と、目標概念及び背景知識と、負事例の自動生成と、有限探索空間の設定とについて説明した。

    【0078】次に、この知識発見システムを実際のエキスパートシステムである応答文自動検索メールシステムに展開した場合について説明する。

    【0079】なお、ここで用いるデータベースは、インターネット(Internet)を介して入手した電子メールとその応答結果を格納する事例データベースであり、またエキスパートシステムは、過去に入手した問い合わせの事実データから典型的な質問パターンを抽出し、そのおのおのに該当する内容のメール文書を正事例とするルールの知識獲得を行うものである。

    【0080】すなわち、このエキスパートシステムは、
    新たに問い合わせメールを入手したならば、このエキスパートシステムの持つ推論エンジンが自動的に知識ベースを参照し、メールの内容がどの典型質問パターンのルールと合致するかを判定し、典型質問パターンごとに格納されている典型質問文を表示する。

    【0081】このため、ここで用いる知識発見システムは、専門家がどのような最終的な判断を下したか(エキスパートシステムが出力した結果通りに返信したか、他の回答を指示したか)を格納する事例データベースから新たなルールを学習する知識獲得をDBアンプに行わせることになる。

    【0082】なお、ルールのレビューのプロセスについては、唯一コンピュータシステム化しないこととするが、その理由は、抽出された結果を確認作業を行わずに直接知識ベースに格納することとすると、エキスパートシステムの出力結果に極端な異常値が発生するおそれがあるためである。

    【0083】次に、この知識発見システムが行う処理の流れについて説明する。

    【0084】図7は、知識発見システムをメールシステムに適用した場合の処理の流れを示す図である。

    【0085】図7に示すように、まず最初にエキスパートシステム70がメールを受信したならば(ステップ7
    01)、キーワード辞書を用いてメールからキーワードを抽出し(ステップ702〜703)、知識ベースを用いて推論エンジンによる推論を実行する(ステップ70
    4〜705)。

    【0086】そして、この推論の結果得られた候補パターンとその詳細をリスト化し(ステップ706)、最適候補を選択するとともにメール応答を行う(ステップ7
    07)。

    【0087】そして、この応答結果は、DBアンプ71
    の事例データベースに登録され(ステップ708)、入力ファイルジェネレータたるプリアンプがこの事例データベースを参照して入力ファイルを作成する(ステップ709〜710)。

    【0088】なお、このDBアンプ71はPROGOL
    をデータマイニングエンジンとして採用するため、ここで作成した入力ファイルは、図1に示す入力ファイル1
    3と同様に、正事例、負事例、背景知識、モード宣言及びタイプ情報を有することになる。

    【0089】その後、この入力ファイルを受け取ったデータマイニングエンジンすなわちPROGOLが帰納推論を行い、学習したルールを出力する(ステップ711
    〜712)。

    【0090】そして、このルールはあらためてエキスパートシステムの知識ベースに格納され(ステップ70
    5)、次回以降のメール受信時の推論エンジンによる推論に利用される。

    【0091】ここで、この事例データベースの内容は、
    過去の電子メールの応答記録であり、事務機器メーカA
    社での顧客若しくは潜在顧客を対象とした問い合わせ応対業務を蓄積したものを想定している。

    【0092】また、電子メールによる問い合わせ内容のほとんどは、A社が発売している事務機器に関する使用上の障害や要求に関するものであり、これらのメールを20の典型的な質問文として分類するとともに、新たな質問文が20のカテゴリーのいずれに属するかを判定するためのルールを学習させるものとする。

    【0093】図8は、上記事例データベースの構造を示す図である。

    【0094】図8に示すように、この事例データベースでは、問い合わせ日時を示す”QDate”、”返信アドレス”、”会社名”、”お客様名”、”住所”及び”
    電話番号”と、”質問内容”と、”Qkeyword”
    と、”該当典型質問文”というフィールドを有している。

    【0095】ここで、フィールド”質問内容”には、電子メールに記載されていた問い合わせの原文が格納され、フィールド”Qkeyword”には、概念辞書の参照によって抽出されたキーワードのリストが格納され、フィールド”該当典型質問文”には、専門家によるいずれの典型質問文に該当するかの判断結果が格納されている。 特に、フィールド”該当典型質問文”には、フォーム1〜20までに分類された結果が数値で記載されている。

    【0096】図9は、本DBアンプ71によって獲得された知識の一例を示す図である。

    【0097】図9に示すように、この獲得ルールは、
    「メールの質問文Aが'カラーコピ'と'方法'というキーワードを持ち、かつ、'切'というキーワードを持たず、かつ、リスト長が4以下のとき、典型質問文の1
    番に分類される(同様の意味の質問文と理解できる)」
    という内容を意味している。

    【0098】次に、図7に示すエキスパートシステム7
    0について説明する。

    【0099】このエキスパートシステム70への入力は、インターネット上のWWW(World Wide Web)サーバ宛の電子メールであり、サーバ上のホームページを実現するHTML(HiperText Makeup Langage)中に、C
    GIを用いて電子メール送信用のツールを実装している。

    【0100】そして、このツールで作成したファイルをA社のインターネット接続サーバ上のホームページ中に搭載するとともに、質問者からの情報はA社の一部門である「お客様相談センター」の顧客対応のエキスパートシステム宛に自動的に送信される。

    【0101】図10は、WWWのホームページに設けた電子メール送信用ツールの一例を示す図である。

    【0102】図10に示すように、この電子メール送信用ツールは、質問内容の入力枠と、インターネットアドレスの入力枠と、住所、会社名、名前及び電話番号の入力枠とがそれぞれ設けられている。

    【0103】このため、質問者は、これらの箇所に該当事項を入力した後、ツールの最下部に設けた送信枠をマウス等で指示することにより、電子メールをエキスパートシステムに自動送信することができる。

    【0104】再びエキスパートシステムの説明に戻ると、このエキスパートシステムは、入力した電子メールの問い合わせの本文を概念辞書に照らし合わせてキーワード抽出を行い、リスト形式でデータベース中の該当するフィールドに格納する。

    【0105】また、推論エンジンは、キーワードのリストを入力データとして知識ベースを参照する。 ただし、
    本実施の形態ではデータベースの内容がRERモデルに基づいて解釈するよう構成したことから、獲得されたルールは全て原始的な述語に変換され、推論の対象となる。

    【0106】このため、例えばDBアンプ71の出力結果として得られたルールが have(A,keywordX) order(keywordY,keywordZ) not_have(A,keywordW) であるときには、エキスパートシステムの推論エンジンは、この典型質問文に該当する条件を以下のように解釈する。

    【0107】すなわち、リストの要素を順に抽出してゆくと、 (1) keywordXが少なくとも1つ抽出される。

    【0108】(2) keywordYが少なくとも1
    つ抽出される。

    【0109】(3) keywordZが少なくとも1
    つ抽出される。

    【0110】(4) keywordWは決して抽出されない。

    【0111】(5) keywordYはkeywor
    dZよりも先に抽出される。

    【0112】という条件を満足するものである。

    【0113】最終的に得られる結果は、図11に示すように、「どの典型質問文にどれくらいの確からしさをもって該当するか」を上記の条件を満たす割合を該当可能性として、模範的な回答文(データベース中に典型質問文とともに一意に決定されている)とともに出力する。

    【0114】以上、本発明に係わる知識発見システムを実際のエキスパートシステムである応答文自動検索メールシステムに展開した場合について説明した。

    【0115】上述してきたように、本実施の形態では、
    プリアンプ12がインデックスファイル11に基づいてデータベース18に格納したデータから入力ファイル1
    3を自動生成し、この入力ファイル13を基にメイアンプであるPROGOL14が学習を行い、その結果得られた知識をエキスパートシステム16の知識ベース17
    に格納するよう構成したので、下記に示す効果が得られる。

    【0116】1)データベースからのデータマイニングを自動的に行うことが可能となる。

    【0117】2)データマイニングによって得られた知識をエキスパートシステムの知識ベースに反映することができる。

    【0118】また、本実施の形態では、RERモデルという新たな概念を導入し、このRERモデルに基づいてプリアンプ12がデータベース18に格納した個々のデータの属性間の相互関係に基づいて背景知識13cを作成するよう構成したので、学習目標概念に関連する知識を帰納論理プログラミングの背景知識として利用することができる。

    【0119】さらに、本実施の形態では、プリアンプ1
    2が入力ファイル13を生成する際に、正事例が有する複数の要素から一要素を除外した条件を満たす事例のみをデータベース18から抽出して負事例を生成するよう構成したので、負事例の総数を低減して、メインアンプであるPROGOL14でのデータマイニングを効率良く行うことができる。

    【0120】

    【発明の効果】以上詳細に説明したように、第1の発明では、データベースに格納したデータから正事例、負事例、背景知識、モード宣言及びタイプ情報を少なくとも有する入力ファイルを自動生成し、生成した入力ファイルに基づく学習を通じて一階述語論理に基づく帰納推論を行って知識を発見し、発見した知識をエキスパートシステムが有する知識ベースに供給するよう構成したので、下記に示す効果が得られる。

    【0121】1)データベースからのデータマイニングを自動的に行うことが可能となる。

    【0122】2)データマイニングによって得られた知識をエキスパートシステムの知識ベースに反映することができる。

    【0123】また、第2の発明では、入力ファイルを生成する際にデータベースに格納した個々のデータの属性間の相互関係に基づいて背景知識を作成するよう構成したので、学習目標概念に関連する知識を帰納論理プログラミングの背景知識として利用することが可能となる。

    【0124】さらに、第3の発明では、入力ファイルを生成する際に正事例が有する複数の要素から一要素を除外した条件を満たす事例のみをデータベースから抽出して負事例を生成するよう構成したので、負事例の総数を低減して、データマイニングを効率良く行うことが可能となる。

    【図面の簡単な説明】

    【図1】本実施の形態で用いる知識発見システムの全体構成を示すブロック図。

    【図2】DBアンプの知識獲得処理における位置づけを示す図。

    【図3】図2に示すDBアンプの概略構成を示す図。

    【図4】本実施の形態で採用するRERモデルをCAD
    に適用した場合の一例を示す図。

    【図5】図1に示すプリアンプが行う負事例生成の一例を示す図。

    【図6】図1に示すDBアンプを用いた場合と用いない場合の負事例及び背景知識のデータ数の関係を示す図。

    【図7】図1に示す知識発見システムをメールシステムに適用した場合の処理の流れを示す図。

    【図8】図7に示す事例データベースの基本構造を示す図。

    【図9】図7に示す事例データベースから抽出した獲得ルールの一例を示す図。

    【図10】WWWのホームページ上に設けたメール送信画面の一例を示す図。

    【図11】図7に示すエキスパートシステムからの出力結果の一例を示す図。

    【符号の説明】

    10…DBアンプ、 11…インデックスファイル、
    12…プリアンプ、13…入力ファイル、 14…メインアンプ(PROGOL)、15…ルール、 16…エキスパートシステム、 17…知識ベース、18…データベース、11a…生データ変換ルール、 11b…モード宣言、11c…タイプ情報、 11d…要素定義、
    13a…正事例、 13b…負事例、 13c…背景知識、13d…モード宣言、 13e…タイプ情報

    フロントページの続き (72)発明者 岡野 洋 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈