首页 / 专利库 / 人工智能 / 数据库知识发现 / Auxiliary device for discovering knowledge from database

Auxiliary device for discovering knowledge from database

阅读:582发布:2020-12-26

专利汇可以提供Auxiliary device for discovering knowledge from database专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To automatically generate significant domain knowledge of high quality to be supplied to a knowledge discovering device by extracting an important column from a statistical result according to a previously set knowledge model and regarding it as domain knowledge. SOLUTION: There are three kinds of model AHRn, THRn, and GPn as knowledge models 121, and a numeral is put in the symbol at the end of each model. Then AHRn and THRn are models wherein columns having up to (n)th acquired scores are regarded as domain knowledge. Here, the difference between AHRn and THRn is that while AHRn does not discriminate tables, THRn gives order of acquired scores in table units. Further, GPn is a model wherein columns having larger than (n) acquired points are regarded as domain knowledge. Here, a knowledge module 120 generates domain knowledge 130 according to the knowledge model 121. Consequently, domain knowledge that a person who is well acquainted with the domain of an object database generated by hand can automatically generated, so the operation man-hour can greatly be reduced.,下面是Auxiliary device for discovering knowledge from database专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】対象となるデータベースへの問い合わせの履歴から順次問い合わせ文を取り出し、該問い合わせ文から列と該列の出現する位置(「節」という)を抽出し、前記節に対して予め設定された得点をつけて統計をとり、前記統計結果から予め設定された規範に基づいて重要な列を抽出し、前記抽出された列をドメイン知識とする、ことを特徴とする知識発見補助装置。
  • 【請求項2】対象となるデータベースから、該データベースに含まれている列を予め全て取り出しておき、前記全ての列に関する統計を予めとり、ドメイン知識とする列の割合を予め指定しておくことによって、列の数を一定の率に制限する、ことを特徴とする請求項1記載の知識発見補助装置。
  • 【請求項3】前記取り出した問い合わせ文中で列の現れた節の得点が得点表に設定されていない場合、利用者から点数を獲得し、該点数と節を前記得点表に加える、ことを特徴とする請求項1記載の知識発見補助装置。
  • 【請求項4】知識発見装置が対象とするデータベースへの問い合わせの履歴を保持する問い合わせデータベースと、 前記問い合わせ文の節の種類によって加える点数を設定する得点表と、 列毎に点数を記録する統計表と、 前記問い合わせデータベースから読み出された問い合わせ文中の列の出現頻度を、前記得点表を参照して前記統計表に加える解釈手段と、 前記知識発見装置のドメイン知識に加える規範を記述した知識化規範と、 前記統計表に含まれている列から前記知識化規範に従って知識を生成する知識化手段と、 生成された知識を保持するドメイン知識記憶部と、 を備えたことを特徴とする知識発見補助装置。
  • 【請求項5】前記解釈手段が、前記対象となるデータベースに含まれる表のすべての列を予め獲得し、前記統計表に予め列を追加する処理を更に行う、ことを特徴とする請求項4記載の知識発見補助装置。
  • 【請求項6】前記知識化規範が、ドメイン知識とする割合を一定の率に制御する規範を含むことを特徴とする請求項4又は5記載の知識発見補助装置。
  • 【請求項7】節の種類による点数を利用者に質問する質問手段を更に備え、 前記解釈手段が、読み出した問い合わせ文中の列の現れた節が前記得点表にない場合に、前記質問手段を通じて前記利用者から点数を獲得し、該点数と節を前記得点表に加える、ことを特徴とする請求項4記載の知識発見補助装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、データベースからの知識を発見する装置に関し、特に、データベースの利用者が行った問い合わせの履歴を用いて、参照するデータベースの表の列を制限する知識発見補助装置に関する。

    【0002】

    【従来の技術】データベースからの知識発見技術(Kno
    wledge Discovery in Databeses,通常「KDD」
    と略記される)は、蓄積されたデータの集合から、何らかの規則性や関係を知識として抽出する技術である。 このKDDについては、文献(1) (前田章、「データベースからの知識発見技術」、システム/制御/情報、Vol.
    39、No.4、pp.185-190、1995)等の記載が参照される。

    【0003】すなわち、上記文献で説明されているように、データベースからの知識発見(KDD)において、
    発見するルール型の知識の条件になり得るテーブルの列は、ドメイン知識に規定される。 ここで「ドメイン知識」とは、ユーザにとってより有用な知識を抽出するための、知識抽出モジュールへのバイアスを与えることを目的とし、事例の特定の部分集合に着目したり、知識要素抽出アルゴリズムのパラメータを調節し、知識探索戦略を制御したり、あるいは知識要素の評価尺度を決定したりするなどのために用いられる(上記文献(1)参照)。

    【0004】例えば、ある保険会社の顧客情報のデータベースのテーブルに、「購入商品名」、「氏名」、「年齢」、「住所」、「預金残高」、「借入金残高」、「職業」などの列があるとする。 「購入商品名」は、発見するルールの結論になる。 その他の列はルールの条件になり得るが、実際には、「氏名」や「住所」などの列は、
    条件として余り意味がない。

    【0005】すなわち、「IF(もし)〜THEN(ならば)…」といったルールにおいて、例えば、「IF
    氏名の姓が山田 AND 住所が大阪府 THEN 商品Aを購入」のようなルールは利用価値が少ない。

    【0006】逆に、「預金残高」や「職業」などの列は、条件として意味をなす場合がある。 すなわち、例えば、「IF 預金残高が1000万円以上 AND 職業が公務員 THEN 商品Bを購入」のようなルールの場合である。 この場合、保険会社のセールスマンは、
    課長級以上の公務員に対しては商品Bを薦めると良いことがわかり、営業がしやすくなる。

    【0007】このように、データベースのテーブルの列を規定し、有意なルールの導出効率を上げるための知識がドメイン知識である。

    【0008】そして、このドメイン知識は、データベースに依存するため、従来、人手作業にて作成していた。

    【0009】

    【発明が解決しようとする課題】上記したように、従来、意味のある有効なルールを効率的に発見するために、ドメイン知識は、対象となるデータベースを専門家が調べて人手作業で作成していた。

    【0010】しかしながら、この方法だと、ドメイン知識の質が高く、有意なルールを効率的に導出することができるが、その反面、ドメイン知識作成作業には多大な労及び工数が必要となる。

    【0011】データベースに依存せず、ある領域に依存したドメイン知識を利用する場合もあるが、この場合、
    汎用すぎるため、無意味なルールが多数導出され、ルールの検証に多大な労力が必要となる。

    【0012】このため、対象となるデータベースに依存したドメイン知識を自動的に生成することができる知識発見補助装置の実現が望まれる。

    【0013】したがって、本発明は、上記事情に鑑みてなされたものであって、その目的は、知識発見装置に与える質が高く、有意なドメイン知識を自動的に作成する知識発見補助装置を提供することにある。

    【0014】

    【課題を解決するための手段】前記目的を達成するため、本第1発明は、対象となるデータベースへの問い合わせの履歴から、順次問い合わせ文を取り出し、この問い合わせ文から列と該列が問い合わせ文中に出現する位置(「節」という)を抽出し、節に応じて、予め設定された得点をつけて統計をとり、予め設定された知識規範に基づいて、統計結果から重要な列を抽出し、これをドメイン知識とする機能手段を備えている。 なお、問い合わせ文は、例えば「Select」、「Where」等の「節」と呼ばれる部分から構成されている。 この列の出現する位置を「節」と呼ぶ。

    【0015】本第2発明は、第1発明に加えて、予め対象データベースからそこに含まれている列を全て取り出しておき、ドメイン知識とする列の割合を記述させることによって、列の数を一定の率で制限する機能を備えている。

    【0016】本第3発明は、上記第1発明に加えて、列の出現する節が得点を設定されていない場合、利用者に、当該節に含まれている列の得点を質問することによって、得点を設定する機能を備えている。

    【0017】上記本第1発明によれば、この機能によって対象となるデータベースのドメインに精通した専門家なしにドメイン知識を生成することができる。

    【0018】上記本第2発明によれば、例えば、知識発見装置が対象データベースの全列の半分のみを参照するようなドメイン知識を生成することができる。

    【0019】上記本第3発明によれば、この機能によって、あらかじめ全ての節の種類の得点を設定する必要がなくなり、利用者の負担が減る。

    【0020】本第1発明乃至第3発明は、従来対象となるデータベースのドメインに精通した専門家が専ら手作業で作成していたドメイン知識を、自動的もしくは半自動的に生成することができる。

    【0021】そして、本第1発明乃至第3発明によって生成されたドメイン知識を用いることによって、既存の知識発見装置(例えば、代表的KDDシステムである「ID3」(文献(2) (JRQuinlan:Learning Efficie
    nt Clasification Pricedures and Their Applica
    tion to Chess End Games, Machine Learning,Ti
    oga Publising Company, pp.463-482(1982))等参照)や、「ITRULE」(文献(3) (P.Smyth and
    RMGoodman:Rule Induction Using Information T
    heory, Knowledge Discovery in Databases, AAAI
    Press, pp.159-176(1991))等参照))は、膨大な列をすべて探索することなく、ルールを発見することができる。

    【0022】また、本発明の知識発見補助装置は、意味のない列を、予め除去するため、知識発見装置が意味のないルールを発見することを抑制することができる。

    【0023】

    【発明の実施の形態】本発明の実施の形態について図面を参照して以下に詳細に説明する。

    【0024】

    【実施の形態1】図1は、本発明の第1の実施の形態の構成をブロック図にて示したものである。 図1を参照すると、本発明の第1の実施の形態においては、知識発見装置が対象とするデータベースへの問い合わせの履歴を保持している問い合わせデータベース210と、問い合わせデータベース210を管理するデータベース管理システム200と、問い合わせ文の節の種類によって加える点数を設定する得点表101と、列毎に点数を記録する統計表110と、データベース管理システム200を通じて問い合わせデータベース210の問い合わせを順次読み出し、問い合わせ文中の列の出現頻度を得点表1
    01を参照して統計表110に追加する解釈モジュール100と、知識発見装置のドメイン知識に加える規範を記述した知識化規範121と、生成される知識を保持するドメイン知識130と、統計表110に含まれている列から知識化規範121に従って知識を生成する知識化モジュール120と、を備えて構成される。

    【0025】図2は、本発明の第1の実施の形態における得点表101の具体的な内容の一例を示す図である。
    得点表101は、問い合わせ文の節によって異なる点数を保持する表である。

    【0026】図2を参照すると、この得点表101の例では、「Select」節中に現れる列には「4」点が、「Where」節中に現れる列には「2」点が、
    「Group by」節、「Having」節、「Or
    der by」節、「Compute」節中に現れる列には、それぞれ「1」点が与えられる。

    【0027】図3は、本発明の第1の実施の形態における解釈モジュールの処理フローを示す流れ図である。 図3を参照すると、まず、データベース管理システム20
    0を通じて問い合わせデータベース210から、過去の問い合わせ文を1文ずつ取り出す(ステップ100−
    1)。

    【0028】問い合わせ文がない場合(ステップ100
    −2のno)は処理を終了し、問い合わせ文がある場合には(ステップ100−2のyes)、ステップ100
    −3に進み、解釈モジュールは問い合わせ文を前から調べ、文中に列があるか否かを判定し、出現しなくなったらステップ100−1に戻る。

    【0029】そして列の問い合わせ文中での位置を調べる(ステップ100−4)。 例えば、データベースの問い合わせ文が、「Select 列1,列2 From
    表1 WWhere 列3>100」であるものとする。

    【0030】この場合は、列1と列2は「Selec
    t」節に、列3は「Where」節の位置にある。

    【0031】図3を参照して、列の出現位置がわかると、次に得点を、得点表101から調べる(ステップ1
    00−5)。 その際、得点表101の内容が図2に示したものであるとすると、列1と列2は「4」点、列3は「2」点となる。

    【0032】次に決定した得点を統計表110に加えるために、統計表110に列があるかどうかを調べる(ステップ100−6)。

    【0033】統計表110に得点を加える列がない場合には列を新しく作る(ステップ100−7)。

    【0034】図4は、本発明の第1の実施の形態における統計表110の具体的な内容の一例を示した図である。 統計表110の「列名」の表記は、「表名.列名」
    の形式である。 図4を参照して、例えば「表1.列1」
    は、表1の列1を意味する。

    【0035】図4に示す例の場合、列1と列2は統計表110に存在するが、列3は存在しないため、列3を統計表110に作る。

    【0036】再び図3を参照して、次に上記ステップ1
    00−5で決定した得点(図2に示した例では、列1と列2は「4」点、列3は「2」点)を、統計表110の点数(得点)に加える。

    【0037】図4示した統計表110と図2に示した得点表101の例の場合、統計表110の値として、列1、列2はともに「4」点が加算され、それぞれ、12
    点、8点となり、列3は「2」点となり、列4と列5はそのままである。

    【0038】解釈モジュール100は、問い合わせ文がなくなるまで(図3のステップ100−2のno)この処理を繰り返す。

    【0039】解釈モジュール100の処理が終わると次に知識化モジュール120が実行される。

    【0040】知識化モジュールは、知識化規範121にしたがってドメイン知識を生成する。 知識化規範には次の3種類の規範がある。

    【0041】(1)AHRn (2)THRn (3)GPn

    【0042】各規範の最後の記号nは数値が入る。 AH
    R(All tables High Rank)nとTHR(Table High R
    ank)nは、獲得点数が上位n番目までの列をドメイン知識とする規範である。 ここでAHRnとTHRnの違いは、AHRnが表を区別しないのに対して、THRn
    が表単位で獲得点数の順位を付ける点にある。 またGP
    (Get Point)nは、獲得点数がn点以上の列をドメイン知識とする規範である。

    【0043】図5に、本発明の第1の実施の形態における統計表110の内容の一例を示す。 図5に示した統計表110を例に、それぞれの規範の相違点を説明する。

    【0044】例えば、「AHR8」という規範の場合は、表の区別なしに、得点の上位8番目までの列をドメイン知識とするため、順に「表1.列3」、「表2.列5」、「表1.列4」、「表1.列7」、「表1.列1」、「表2.列3」、「表1.列2」、「表2.列4」の各列がドメイン知識となる。

    【0045】また「THR4」という規範の場合は、それぞれの表毎に得点の上位4番目までの列をドメイン知識とするため、表1では、「表1.列3」、「表1.列4」、「表1.列7」、「表1.列1」が、表2では、
    「表2.列5」、「表2.列3」、「表2.列4」、
    「表2.列1」、「表2.列2」の各列がドメイン知識となる。 表2では、4番目が2列、すなわち「表2.列1」、「表2.列2」、が存在するため、5列がドメイン知識となる。

    【0046】「GP15」という規範の場合は、15点以上の列をドメイン知識とするため、「表1.列3」、
    「表2.列5」、「表1.列4」、「表1.列7」の各列がドメイン知識となる。

    【0047】図5に示した統計表110の例では、「A
    HR8」と「GP10」の規範は全く同じ結果を生じる。 GPnという規範がある最も重要な理由は、「GP
    1」という規範によって問い合わせ文に出現した列すべてをドメイン知識としたい場合に用いることができることである。

    【0048】

    【実施の形態2】図6は、本発明の第2の実施の形態の構成をブロック図にて示したものである。 図6を参照すると、本発明の第2の実施の形態においては、図1を参照して説明した前記第1の実施の形態に、知識発見装置が対象とするデータベースである対象データベース22
    0が追加された構成とされており、解釈モジュール10
    0は、この対象データベース220を管理するデータベース管理システム200を通じて対象データベース22
    0の表のすべての列を獲得し、統計表110に予め列を追加する処理が追加されている。

    【0049】図7は、本発明の第2の実施の形態における解釈モジュール100の処理フローを示す流れ図である。 図7を参照すると、まず、対象データベースからすべての列を取り出す(ステップ100−9)。 取り出した列を統計表110に加える(ステップ100−1
    0)。

    【0050】統計表110にはステップ100−10によって、予めすべての列が作られているため、図3の流れ図におけるステップ100−6とステップ100−7
    の処理、すなわち統計表に列があるか否かを調べ存在しない場合には列を加えるという処理、は不要とされる。
    図7に示した流れ図において、ステップ100−1〜1
    00−5、及びステップ100−8は、前記第1の実施の形態と同様の処理であるため、説明を省略する。

    【0051】知識化規範121には次の2種類の規範が加わる。

    【0052】(4)ADRn (5)TDRn

    【0053】各規範の最後の記号nは数値が入る。 この2種類の規範は、獲得点数の上位からn%をドメイン知識とする規範である。 ADR(All tables Dividing Ra
    nk)nとTDR(Table Dividing Rank)nの差はAD
    Rnが表を区別しないのに対して、TDRnが表単位で列を絞り込むことである。

    【0054】これらの規範の意味は、対象データベース220の表のすべての列のうち、n%をドメイン知識にすることにある。 列の多少に係わらず、知識発見装置が参照する列を一定の率で制限する。

    【0055】

    【実施の形態3】図8は、本発明の第3の実施の形態の構成をブロック図にて示したものである。 図8を参照すると、本発明の第3の実施の形態は、図1を参照して説明した前記第1の実施の形態に、更に、節の種類による点数を利用者に質問する質問モジュール102が追加したものであり、解釈モジュール100には、読み出した問い合わせ文中の列の現れた節が得点表101にない場合に、質問モジュール102を通じて、点数を獲得し、
    その点数と節を得点表101に加えるという処理が追加されている。

    【0056】図9は、本発明の第3の実施の形態における解釈モジュール100の処理フローを示す流れ図である。 図9において、ステップ100−1〜100−5までは図3の流れ図を参照して説明した前記第1の実施の形態と同じように処理される。

    【0057】図9を参照すると、列の得点を得点表10
    1で調べた結果(ステップ100−11)、列の現れた節が得点表101にあれば、ステップ100−6に、なければステップ100−12進む。 ステップ100−1
    2では、質問モジュール102を通じて得点表に現れなかった節の点数を獲得する。 例えば、図2に示す得点表101に、「Having」節の点数が設定されていないものとする。

    【0058】この場合、質問モジュール102は、例えば図10にその画面表示(質問ダイアログ)の一例を示すように、「“Having”節に現れる列につける点数を教えてください。」という質問を利用者に行い、利用者から該節の点数を獲得する。

    【0059】再び図9を参照して、獲得した点数は節とともに得点表101に追加する(ステップ100−1
    3)。

    【0060】図10に示す質問画面において、利用者が「Having」節の点数を「1」点とした場合、図2
    に示すよな得点表101の内容となる。

    【0061】図9に示す流れ図において、残りのステップ100−6〜100−8では、図3を参照して説明した前記第1の実施の形態と同様の処理が行われるため、
    説明を省略する。

    【0062】

    【発明の効果】以上説明したように、本発明によれば、
    従来対象となるデータベースのドメインに精通した者が人手作業で作成していたドメイン知識を、自動的もしくは半自動的に作成することができるため、ドメイン知識作成のための作業工数を大幅に削減するという効果を奏する。

    【図面の簡単な説明】

    【図1】本発明の第1の実施の形態の構成を示すブロック図である。

    【図2】本発明の第1の実施の形態における得点表の内容の一例を示す図である。

    【図3】本発明の第1の実施の形態における解釈モジュールの処理フローを説明するための流れ図である。

    【図4】本発明の第1の実施の形態における統計表の内容の一例を示す図である。

    【図5】本発明の第1の実施の形態における統計表の内容の一例を示す図である。

    【図6】本発明の第2の実施の形態の構成を示すブロック図である。

    【図7】本発明の第2の実施の形態における解釈モジュールの処理フローを説明するための流れ図である。

    【図8】本発明の第3の実施の形態の構成を示すブロック図である。

    【図9】本発明の第3の実施の形態における解釈モジュールの処理フローを説明するための流れ図である。

    【図10】本発明の第3の実施の形態における質問モジュールの質問ダイアログの一例を示す図である。

    【符号の説明】

    100 解釈モジュール 100−1 問い合わせ文を取り出す処理 100−2 問い合わせ文があるかを判断し分岐する処理 100−3 列があるかを判断し分岐する処理 100−4 列の出現位置を調べる処理 100−5 得点を調べる処理 100−6 統計表に列があるかを判断し分岐する処理 100−7 列を加える処理 100−8 得点を加える処理 100−9 全ての列を取り出す処理 100−10 全ての列を統計表に加える処理 100−11 点数があるかを判断し分岐する処理 100−12 点数を獲得する処理 100−13 得点表に追加する処理 101 得点表 102 質問モジュール 110 統計表 120 知識化モジュール 121 知識化規範 130 ドメイン知識 200 データベース管理システム 210 問い合わせデータベース 220 対象データベース

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈