首页 / 专利库 / 软件 / 通配符 / Content extraction device

Content extraction device

阅读:226发布:2021-06-06

专利汇可以提供Content extraction device专利检索,专利查询,专利分析的服务。并且PURPOSE: To permit many unknown words still obtaining, high extraction precision by preserving u extracted content in a terminal mark string dictionary based on information designated by a dictionary registration designation table.
CONSTITUTION: The dictionary registration designation table 5, a dictionary registration means 6 and the terminal mark string dictionary 7 are provided. A fixed position collation processing means 4 is provided with a dictionary item processing means 48. In an arbitrary position collation processing means 44, a designated input mark string to the fixed position collation processing means 4 is sequentially changed and the fixed position collation processing means 4 is repetitively started. Thus, a collation start position where the mark string from the arbitrary position of the designated input mark string is matched with a designated pattern, is outputted. When collation is succeeded, a partial mark string corresponding to a wild card item is extracted. When an item during a processing is that of a dictionary registration object, it is registered in the terminal mark string dictionary 7 with a corresponding category name. When a dictionary item is used and an extracted pattern is described, information registered in the dictionary through a category can be used for an extraction processing.
COPYRIGHT: (C)1995,JPO,下面是Content extraction device专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 所定の書式に従って定義された抽出パターンを入力し解析する手段と,入力した抽出パターンに基づいて,照合対象記号列が前記抽出パターンと一致するか否かを判定し,一致した場合には前記照合対象記号列のどの部分が一致したかを出力する照合処理手段とを備えた内容抽出装置において,辞書登録の対象となる項と,該項において抽出される終端記号列が属するカテゴリとを指定する辞書登録指定手段と,終端記号列とカテゴリとの対応関係を保存する終端記号列辞書と,処理対象の項が前記辞書登録指定手段で指定された項か否かを判定し,指定された項ならば,抽出内容の終端記号列が指定されたカテゴリに属するという情報を前記終端記号列辞書に登録する辞書登録手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項がワイルドカード項である場合に,ワイルドカード項の次の項以降のパターンを指定パターンとして,任意位置からの指定入力記号列と抽出パターンとの一致を判定し,指定入力記号列と任意位置照合による結果として出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定し,該部分記号列を該ワイルドカード項の抽出内容として,前記辞書登録手段を起動するワイルドカード項処理手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項がサブパターン項である場合に,定義されたサブパターンをサブパターン項と置き換えたパターンを指定パターンとして前記照合処理手段を再起動して,指定パターンと指定入力記号列の一致を判定し,一致と判定された場合には,該サブパターン項に対応する部分記号列を該サブパターン項の抽出内容として,前記辞書登録手段を起動するサブパターン項処理手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項が辞書項である場合に,前記終端記号列辞書に保存された終端記号列に対して,該辞書項で指定されたカテゴリに属し,かつ,指定入力記号列の先頭からの部分記号列と一致する終端記号列が存在するか否かを判定し,存在する場合には,一致した終端記号列を該辞書項の抽出内容とし,該辞書項の次の項以降のパターンを指定パターンとし,一致した終端記号列の次の終端記号からの終端記号列を指定入力記号列として前記照合処理手段を再起動し,一致する終端記号列がない場合には,不一致とする辞書項処理手段とを備えることを特徴とする内容抽出装置。
  • 【請求項2】 所定の書式に従って定義された抽出パターンを入力し解析する手段と,入力した抽出パターンに基づいて,照合対象記号列が前記抽出パターンと一致するか否かを判定し,一致した場合には前記照合対象記号列のどの部分が一致したかを出力する照合処理手段とを備えた内容抽出装置において,辞書登録の対象となる項と,該項において抽出される終端記号列が属するカテゴリとを指定する辞書登録指定手段と,終端記号列とカテゴリとの対応関係を保存する終端記号列辞書と,処理対象の項が前記辞書登録指定手段で指定された項か否かを判定し,指定された項ならば,抽出内容の終端記号列が指定されたカテゴリに属するという情報を前記終端記号列辞書に登録する辞書登録手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項がワイルドカード項である場合に,ワイルドカード項の次の項以降のパターンを指定パターンとして,任意位置からの指定入力記号列と抽出パターンとの一致を判定し,指定入力記号列と任意位置照合による結果として出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定し,該部分記号列を該ワイルドカード項の抽出内容として,前記辞書登録手段を起動するワイルドカード項処理手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項がサブパターン項である場合に,定義されたサブパターンをサブパターン項と置き換えたパターンを指定パターンとして前記照合処理手段を再起動して,指定パターンと指定入力記号列の一致を判定し,一致と判定された場合には,該サブパターン項に対応する部分記号列を該サブパターン項の抽出内容として,前記辞書登録手段を起動するサブパターン項処理手段と,前記照合処理手段において,抽出パターンのうちの現在の処理対象項が辞書項である場合に,前記終端記号列辞書に保存された終端記号列に対して,該辞書項で指定されたカテゴリに属し,かつ,指定入力記号列の先頭からの部分記号列を連続して含む終端記号列が存在するか否かを判定し,存在する場合には,一致した終端記号列を該辞書項の抽出内容とし,該辞書項の次の項以降のパターンを指定パターンとし,一致した終端記号列の次の終端記号からの終端記号列を指定入力記号列として前記照合処理手段を再起動し,一致する終端記号列がない場合には,不一致とする辞書項処理手段とを備えることを特徴とする内容抽出装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は,電子化された文書中から,特定の内容を表した情報を抜き出して,データベースに保存する,検索に利用するなどの用途に使用する内容抽出装置に関する。

    【0002】

    【従来の技術】従来の内容抽出処理として,『情報処理学会論文誌,Vol.29, No.8, pp760-769, 1988 「見出し情報を用いたテキスト解析と情報抽出」』に見られるように,抽出項目を指定したフレームを用意しておき,各フレームをサブフレームで定義し,各サブフレームとして格情報や当てはまるべき用語のカテゴリ等によって照合条件を記述し,日本語辞書等を用いて,形態素解析および構文解析を行って,解析結果の格構造を参照しながら,用意したフレームとの照合を行う方法が知られている。

    【0003】しかしながら,このような方法は,解析が正しく行われることを前提としており,辞書中にない単語(未知語)がある場合などは解析に失敗することが多く,必要な情報の抽出に失敗する。

    【0004】この問題点を解決した方法として,特願平4−316706号「内容抽出装置」に見られるように,ワイルドカード項や一般項等で定義した抽出パターンに基づいて内容を抽出する装置が知られている。

    【0005】図13はこの従来の装置の主要部の構成を示した図であり,抽出パターン入手段91と,抽出パターン解析手段92と,照合処理起動手段93と,固定位置照合処理手段94とで構成され,入力記号列と抽出パターンとの照合を行う固定位置照合処理手段94が,
    個別処理選択手段94a,一般項処理手段94b,ワイルドカード項処理手段94c,任意位置照合処理手段9
    4d,サブパターン項処理手段94e,選言項処理手段94f,省略項処理手段94gを備え,ワイルドカード項処理手段94cで起動される任意位置照合処理手段9
    4dは,指定入力記号列の任意の位置から,指定パターンとの照合を行うように構成されている。

    【0006】従来装置で用いる抽出パターンの書式は,
    図14に示すように,ワイルドカード項,サブパターン項,省略項,選言項,一般項の連糸接続で定義され,サブパターン項を定義するサブパターンもまた同様に定義される。

    【0007】抽出パターン解析手段92は,抽出パターン入力手段91が入力した抽出パターンを内部構造に変換する。 照合処理起動手段93は,照合対象記号列が入力されると,照合対象記号列を固定位置照合処理手段9
    4への指定入力記号列とし,内部構造に変換された抽出パターンを固定位置照合処理手段94への指定パターンとして,固定位置照合処理手段94を起動する。

    【0008】固定位置照合処理手段94における個別処理選択手段94aは,指定パターンの連糸接続された項の先頭項が,一般項,ワイルドカード項,サブパターン項,選言項,省略項のいずれかであるかを判定し,各々の場合に応じて,一般項処理手段94b,ワイルドカード項処理手段94c,任意位置照合処理手段94d,サブパターン項処理手段94e,選言項処理手段94f,
    省略項処理手段94gを起動する。

    【0009】一般項処理手段94bは,一般項に対して,一般項を定義する終端記号列が指定入力記号列の先頭からの部分記号列と一致した場合に,一般項が一致したと見なして残りのパターンについて照合を行う。

    【0010】ワイルドカード項処理手段94cは,指定パターンの先頭項であるワイルドカード項の次の項以降のパターンを任意位置照合処理手段94dへの指定パターンとし,指定入力記号列をそのまま任意位置照合処理手段94dへの指定入力記号列として,任意位置照合処理手段94dを起動する。 これによって,指定パターンと指定入力記号列の一致を判定し,指定入力記号列と任意位置照合処理手段94dから出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定する。

    【0011】任意位置照合処理手段94dは,指定パターンを固定したまま,指定入力記号列の任意位置からの記号列を固定位置照合処理手段94への指定入力記号列として変化させて,固定位置照合処理手段94を繰り返し起動することによって,指定入力記号列の任意位置からの記号列が指定されたパターンと一致するか否かを判定し,一致した場合には,記号列の照合開始位置を出力する。

    【0012】サブパターン項処理手段94eは,指定されたサブパターンでサブパターン項が置き換わったと見なして照合を行う。 選言項処理手段94fは,選言接続されたパターン(選言子)を順次置き換えたパターンのいずれか一つが指定入力記号列と一致した場合を,選言項と指定入力記号列とが一致したと見なす照合を行う。

    【0013】また,省略項処理手段94gは,指定されたパターンを含むパターンと含まないパターンのいずれかが一致すれば,一致したとみなす照合を行う。 このような構成の基で,ワイルドカード項は任意の記号列と一致でき,その前後の項による制約により,入力記号列中に未知語が含まれていても抽出を行うことができる。

    【0014】図14は,抽象パターンの書式の例を示す。 この書式において,「“ "」で囲まれた文字列は,
    その文字列をそのまま記述することを表す。 「()」内においては,「|」で区切られた要素のいずれか一つを記述することを表す。 <トップ行>は“文”を開始記号として,<抽出パターン>で定義されたパターンと一致すべきことを表す。 <定義文1>は,<サブパターン項>が指定した<サブパターン>と一致すべきことを表す。 <パターン記述>は,複数の<項>による連糸接続であることを表し,ここで“<”と“>”は,<項>の区切り記号であることを表す。 1文字からなる一般項は区切り記号を省略してもよい。 また,選言項は,“(”
    と“)”で囲まれ,“<”と“>”は用いない。 <選言パターン>は,複数の<選言子>の選言接続であることを表し,これらの<選択子>のいずれかと一致すべきことを表す。 <一般項>は,終端記号列を表す。

    【0015】図15は,図14に示す抽出パターンの書式にしたがって記述した抽出パターンの例である。 図1
    5において,1行目の“文”は,開始記号であり,この抽出パターンは,1つの選言項で構成され,この選言項は2つの選言子の選言接続であり,各選言子は,各々,
    サブパターン項<%文1>,サブパターン項<%文2>
    で構成される。

    【0016】図15の抽出パターンに対して,図16
    (A)および図16(B)に示す入力文章を入力した場合の動作について説明する。 図16(A)は2つの文章からなり,1番目の文は「AAAは、コードレスホン『XYZ』を発売した。」,2番目の文は「XYZは、
    子機を5台まで接続できる。 」である。 図16(B)は2つの文章からなり,1番目の文は「AAAは、コードレスホン『XYZ』を発売した。」,2番目の文は「A
    AAは、この商品に社運を賭ける。 」である。

    【0017】図17は,従来装置における固定位置照合処理手段94のフローチャートを示した図である。 図1
    7において,指定パターンおよび指定入力記号列がともに空の場合には,照合結果を一致として終了する(ステップS901,S915,S917)。 指定パターンと指定入力記号列のうち一方が空で,一方が空でないときは,照合結果を不一致として終了する(ステップS90
    1,S902またはS915,S916)。 指定パターンと指定入力記号列がともに空でない場合には,ステップS903へ移る。

    【0018】ステップS903では,個別処理選択手段94aにより,指定パターンの先頭項を調べ,先頭項の種類に応じて各々の処理手段を起動する(ステップS9
    04からS913)。 そして,各処理手段の照合結果を本処理の照合結果として(ステップS914),終了する。 例えば,図15の抽出パターンの場合,最初は1行目の右辺が指定パターンとなり,選言項処理手段94f
    が起動される。

    【0019】選言項処理手段94fのフローチャートを図18に示す。 最初の選言子は,サブパターン項<%文1>であり,該選言項と連糸接続される項はないため,
    サブパターン項<%文1>を指定パターンとして(図1
    8:ステップS921),固定位置照合処理手段94を起動する(ステップS922)。

    【0020】ここで,固定位置照合処理手段94では,
    指定パターンの先頭項はサブパターン項<%文1>であるため,サブパターン項処理手段94eが起動される。
    サブパターン項処理手段94eのフローチャートを図1
    9に示す。 サブパターン項<%文1>は,2行目の右辺で示されたサブパターンと置き換えられたパターンを指定パターンとして(図19:ステップS931),固定位置照合処理手段94を起動する(ステップS93
    2)。

    【0021】こんどの先頭項は,ワイルドカード項<@
    販売元>であり,ワイルドカード項処理手段94cが起動される。 ワイルドカード項処理手段94cのフローチャートを図20に示す。 指定パターンは,先頭項のみではないので(図20:ステップS941),次の項である一般項<は>以降を指定パターンとして(ステップS
    942),任意位置照合処理手段94dを起動する(ステップS943)。

    【0022】任意位置照合処理手段94dのフローチャートを図21に示す。 指定入力記号列の先頭から,順次照合開始位置を進め,固定位置照合処理手段94を起動し,一致する箇所を見つける(図21:ステップS95
    1からS956)。

    【0023】次の先頭項は一般項<は>であるので,固定位置照合処理手段94では,一般項処理手段94bを起動する。 一般項処理手段94bのフローチャートを図22に示す。 一般項処理手段94bでは,まず,指定パターンの先頭項である一般項の記号列が指定入力記号列の先頭からの部分列と一致するかを調べる(図22:ステップS961)。 指定入力記号列は『AAAは,…』
    であるので,最初の3文字分は不一致となりステップS
    962へ進む。 任意位置照合処理手段94dのステップS962を3回繰り返した後,指定入力記号列が『は,
    コードレス…』となった時点で,ステップS961の判定が一致となり,ステップS963へ進む。 ステップS
    963では,指定入力記号列を『,コードレス…』とする。 ステップS964で,指定パターンを一般項<は>
    の次の項以降のパターン{,<@製品種別>「…}とし,固定位置照合処理手段94を起動する。

    【0024】以上のような処理を繰り返し,指定パターンおよび指定入力記号列が空になった時点で,照合が成功し(図17:ステップS901,S915,S91
    7),固定位置照合処理手段94から一致という結果が返される。

    【0025】ワイルドカード項処理手段94cにおいて,図20のステップS944で一致となり,任意位置照合処理手段94dから照合開始位置が出力され,ワイルドカード項に対する抽出内容が決定される。 このようにして,図16(A)の1番目の文の場合には,図23
    (A)に示すような結果が得られる。

    【0026】一方,図16(A)の2番目の文に対しては,図23(B)のような結果が得られ,<@製品特徴>として『子機を5台まで接続できる』が得られる。 なお,上記各処理においての照合結果の扱いは以下のとおりである。 選言項処理手段94fが図18に示すステップS922で固定位置照合処理手段94を呼び出した後,結果が一致であれば(ステップS923),照合結果を一致として(ステップS926),終了する。 不一致であれば,選言接続された次の選言子が存在するかを調べ(ステップS924),存在しなければ照合結果を不一致として(ステップS927),終了する。 次の選言子が存在すれば,次の選言子と該選言項に連糸接続された項以降とを連糸接続したパターンを指定パターンとして(ステップS925),ステップS922へ戻り,
    固定位置照合処理手段94を起動する。

    【0027】サブパターン項処理手段94eは,図19
    に示すステップS932により,固定位置照合処理手段94を起動した後,その照合結果を本処理の照合結果として(ステップS933),終了する。

    【0028】ワイルドカード項処理手段94cは,図2
    0に示すステップS943により任意位置照合処理手段94dを起動した後,結果が一致であれば(ステップS
    944),指定入力記号列と任意位置照合処理手段94
    dから出力される照合開始位置から,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定し,これをこのワイルドカード項に対する抽出内容とする(ステップS947)。 そして,照合結果を一致とし(ステップS948),終了する。 任意位置照合処理手段94
    dの結果が不一致であれば,照合結果を不一致とし(ステップS945),終了する。

    【0029】任意位置照合処理手段94dは,図21に示すステップS953により固定位置照合処理手段94
    を起動した後,結果が一致であれば(ステップS95
    4),照合結果を一致とし,照合開始位置を出力して(ステップS957),終了する。 結果が不一致であれば,照合開始位置が指定入力記号列の終端かどうかを判定し(ステップS955),終端であれば照合結果を不一致として(ステップS958),終了する。 終端でなければ,照合開始位置を1つ進めて(ステップS95
    6),ステップS952へ戻り,同様な照合を繰り返す。

    【0030】一般項処理手段94bは,図22に示すステップS965により,固定位置照合処理手段94を起動した後,その照合結果を本処理の照合結果として(ステップS966),終了する。

    【0031】以上の例では,省略項を用いてないが,省略項処理手段は図24のような処理を行う。 省略項を構成するサブパターンを指定パターンとして(図24:ステップS971),固定位置照合処理手段94を起動して(ステップS972),一致したかどうかを判定し(ステップS973),照合結果が一致ならば,照合結果を一致として終了するが(ステップS977),照合結果が不一致ならば,省略項に連糸接続されたパターンを指定パターンとして(ステップS974),固定位置照合処理手段94を起動し(ステップS975),この照合結果を本処理の照合結果として終了する(ステップS976)。

    【0032】

    【発明が解決しようとする課題】以上のような従来装置では,図16(B)に示す入力文章を入力した場合には,2番目の文に対して図23(C)のような抽出結果が得られ,<@製品特徴>として,不合理な内容である『この商品に社運を賭ける』が抽出されてしまう。 これは,<@X>の部分に,製品名を表す表現が入るという制約がないためである。

    【0033】しかし,このような制約を設けるには,製品名を表す言葉をあらかじめ抽出パターン中に記述しておく必要があり,これでは未知語を許すという本来の目的が失われてしまう。

    【0034】本発明は,前記従来の欠点を解決するため,入力文章中の言葉を学習して,学習した言葉を抽出パターンの照合上の制約として用いることができる内容抽出装置を提供することを目的とする。

    【0035】

    【課題を解決するための手段】本発明は,電子化された文書から特定の内容を表した情報を抜き出すような計算機システムの装置であって,あらかじめ定義された抽出パターンに基づいて,照合対象記号列が抽出パターンと一致するか否かを判定し,一致した場合には照合対象記号列のどの部分が一致したかを出力する内容抽出装置に関する。

    【0036】請求項1記載の発明である内容抽出装置は,例えば,抽出パターン入力手段,辞書登録指定テーブル,抽出パターン解析手段,固定位置照合処理手段,
    照合処理起動手段,辞書登録手段,終端記号列辞書を備える。 さらに,固定位置照合処理手段は,個別処理選択手段と,任意位置照合処理手段と,ワイルドカード項処理手段と,一般項処理手段と,省略項処理手段と,辞書項処理手段とを備える。 図13に示す従来装置の構成とは,辞書登録指定テーブルと,辞書登録手段と,終端記号列辞書と,辞書項処理手段とを備えている点が異なる。

    【0037】抽出パターン入力手段は,任意の終端記号列と一致可能であるワイルドカード項と,終端記号列で定義される一般項と,指定したサブパターンと一致することを表すサブパターン項と,省略可能なサブパターンで定義された省略項と,複数のパターンの選言で表される選言項と,指定されたカテゴリ名で辞書に登録された終端記号列と一致することを表す辞書項とで表される複数の項の連糸接続の記述に基づく抽出パターンおよびサブパターンを入力する処理手段である。

    【0038】辞書登録指定テーブルは,辞書登録の対象となるサブパターン項あるいはワイルドカード項と,抽出された終端記号列を登録する際のカテゴリ名とを入力する処理手段である。

    【0039】終端記号列辞書は,終端記号列とカテゴリ名との対を保存する手段であり,抽出処理の過程で獲得した知識を保存するために用いる。 抽出パターン解析手段は,抽出パターン,サブパターンを内部構造に変換する処理手段である。

    【0040】照合処理起動手段は,照合対象記号列が入力されると,照合対象記号列を固定位置照合処理手段への指定入力記号列とし,抽出パターン解析手段で内部構造に変換された抽出パターンを固定位置照合処理手段への指定パターンとして,固定位置照合処理手段を起動する処理手段である。

    【0041】固定位置照合処理手段は,抽出パターンの一部または全部である指定パターンと,照合対象記号列の一部または全部である指定入力記号列とが入力されると,指定パターン中の項間の連糸接続関係に基づいて,
    個別処理選択手段と,ワイルドカード項処理手段と,任意位置照合処理手段と,サブパターン項処理手段と,一般項処理手段と,省略項処理手段と,辞書項処理手段とによって,各項と指定入力記号列が指定パターンと一致するか否かを照合して,一致した場合には指定入力記号列のどの部分が一致したかを示す情報を出力する処理手段である。

    【0042】任意位置照合処理手段は,指定パターンを固定したまま,指定入力記号列の任意位置からの記号列を固定位置照合処理手段への指定入力記号列として変化させて,固定位置照合処理手段を繰り返し起動することによって,指定入力記号列の任意位置からの記号列が指定されたパターンと一致するか否かを判定し,一致した場合には,記号列の照合開始位置を出力する処理手段である。

    【0043】辞書項処理手段は,終端記号列辞書を参照して,指定されたカテゴリ名を有する終端記号列と一致するか否かを判定し,その照合結果を出力する処理手段であり,これにより,終端記号列辞書に保存された知識を利用できる。

    【0044】ワイルドカード項処理手段は,指定パターンの先頭項であるワイルドカード項の次の項以降のパターンを指定パターンとして,任意位置照合処理手段を起動することによって,指定パターンと指定入力記号列との一致を判定し,指定入力記号列と任意位置照合処理手段から出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列sを決定し,処理対象のワイルドカード項が辞書登録対象の項である場合には,辞書登録手段を起動する処理手段である。

    【0045】サブパターン項処理手段は,指定されたサブパターンを指定パターンとして,固定位置照合処理手段を起動し,指定されたサブパターンに対応する部分記号列sを決定し,処理対象のサブパターン項が辞書登録対象の項である場合には,辞書登録手段を起動する処理手段である。

    【0046】辞書登録手段は,ワイルドカード項処理手段あるいはサブパターン項処理手段によって得られた部分記号列sと指定されたカテゴリ名とを終端記号列辞書に登録する処理手段である。

    【0047】一般項処理手段は,指定パターンの先頭項である一般項の記号列が指定入力記号列の先頭からの部分記号列と一致するか否かを判定し,一致した場合には,前記記号列と一致した部分記号列の次の文字位置以降を固定位置照合処理手段への指定入力記号列として,
    一般項の連糸接続された次の項以降のパターンを固定位置照合処理手段への指定パターンとして,前記固定位置照合処理手段を起動することによって,指定パターンと指定入力記号列の一致を判定する処理手段である。

    【0048】省略項処理手段は,省略項のサブパターンを含むパターンを固定位置照合処理手段への指定パターンとして,指定入力記号列をそのまま固定位置照合処理手段への指定入力記号列として,固定位置照合処理手段を起動し,不一致だった場合には,省略項の次の項以降のパターンを固定位置照合処理手段への指定パターンとして,指定入力記号列をそのまま固定位置照合処理手段への指定入力記号列として,固定位置照合処理手段を起動することにより,指定パターンと指定入力記号列の一致を判定する処理手段である。

    【0049】

    【作用】本発明は,ワイルドカード項,サブパターン項,一般項,省略項,辞書項の連糸接続で定義されるパターンの組み合わせで抽出パターンを定義しておき,抽出パターン解析手段で抽出パターンを内部構造に変換し,さらに辞書登録対象となるワイルドカード項およびサブパターン項と登録するカテゴリ名とを入力し,照合対象記号列が入力されると,照合処理起動手段で固定位置照合処理手段を起動し,固定位置指照合理手段で抽出パターンの各項の種類に応じた以下の照合処理を行う。

    【0050】辞書項の場合には,辞書項処理手段が起動され,辞書項処理手段は,辞書項で指定されたカテゴリ名を持つ終端記号列を対象に終端記号列辞書を検索し,
    照合対象記号列の先頭からの部分記号列と同じ終端記号列があるかを調べ,ある場合には,次の項以降を指定パターンとし,一致した部分記号列以降を新たな照合対象記号列として固定位置照合処理手段を起動する。

    【0051】ワイルドカード項の場合には,ワイルドカード項処理手段が起動され,ワイルドカード項処理手段は次の項以降を指定パターンとして任意位置照合処理手段を起動する。

    【0052】任意位置照合処理手段では,固定位置照合処理手段への指定入力記号列を順次変化させて,固定位置照合処理手段を繰り返し起動することによって,指定入力記号列の任意位置からの記号列が指定パターンと一致する照合開始位置を出力する。

    【0053】照合が成功した場合には,ワイルドカード項に対応する部分記号列を抽出して,処理中の項が辞書登録対象の項である場合には,対応するカテゴリ名とともに終端記号列辞書に登録する。

    【0054】サブパターン項の場合には,サブパターン項処理手段が起動され,サブパターン項処理手段は指定されたサブパターンと次の項以降が連糸接続されたパターンを指定パターンとして固定位置照合処理手段を起動する。

    【0055】照合成功した場合には,ワイルドカード項と同様に,辞書登録対象項の場合には,サブパターン項に対応する部分記号列を対応するカテゴリ名とともに終端記号列辞書に登録する。

    【0056】一般項の場合には,一般項処理手段を起動して一般項を定義する終端記号列と入力記号列とが一致するか否かで照合を行う。 省略項の場合には,省略項処理手段を起動して,省略項に定義されたサブパターンを含むものとして照合を行い,照合失敗の場合には,そのサブパターンが省略されたものとみなして照合を行う。

    【0057】このように本発明によれば,サブパターン項やワイルドカード項と一致する終端記号列をカテゴリの情報とともに終端記号列辞書に登録でき,辞書項を用いて抽出パターンを記述しておけば,カテゴリを介して辞書に登録した情報を抽出処理に利用できる。

    【0058】

    【実施例】

    〔第1の実施例〕図1は本発明の実施例の構成図である。

    【0059】図1に示すように,本発明は,抽出パターン入力手段1,抽出パターン解析手段2,照合処理起動手段3,固定位置照合処理手段4,辞書登録指定テーブル5,辞書登録手段6,終端記号列辞書7で構成され,
    さらに固定位置照合処理手段4は,個別処理選択手段4
    1と,一般項処理手段42と,ワイルドカード項処理手段43と,任意位置照合処理手段44と,サブパターン項処理手段45と,選言項処理手段46と,省略項処理手段47と,辞書項処理手段48とを持つ。

    【0060】図13に示す従来装置の構成に対して,本発明の実施例である図1では,辞書登録指定テーブル5
    と,辞書登録手段6と,終端記号列辞書7とを備え,固定位置照合処理手段4に辞書項処理手段48を備えている点が異なる。

    【0061】抽出パターン入力手段1は,従来装置の図13の抽出パターン入力手段91と同様の役割を果たす手段であり,任意の終端記号列と一致可能であることを示したワイルドカード項と,定義されたサブパターンと一致すべきことを示したサブパターン項と,指定された終端記号列と一致すべきことを示した一般項と,指定されたパターンが省略可能であることを示した省略項と,
    複数のパターンの選言であることを示した選言項と,指定したカテゴリに属する終端記号列と一致すべきことを示した辞書項の,いずれかの項による複数の項の連糸接続または1個の項による記述に基づく抽出パターンおよびサブパターンを入力する。

    【0062】以下の説明では,終端記号として文字を取り上げて説明を行うが,記号として扱えるものならば,
    何でもよい。 例えば,単語,文のタイプ,音素等を終端記号として扱える。

    【0063】抽出パターンの入力は,抽出パターンを記述したファイルを読み込む,キーボードから直接入力するなどいずれの方法をとってもよい。 辞書登録指定テーブル5には,辞書登録の対象とするサブパターン項,および,辞書登録の対象とするワイルドカード項と,該項において抽出される終端記号列が属するカテゴリとの対応関係を示す情報を保存しておく。 この情報は, 1)ファイルに記述しておき,これを読み込む, 2)キーボードから直接入力する, などの方法で辞書登録指定テーブル5に保存できる。

    【0064】図2に,本実施例における抽出パターンおよび辞書登録指定の書式を示し,以降この書式にしたがって説明する。 図2に示す書式において,「“ "」で囲まれた文字列は,その文字列をそのまま記述することを表す。 「()」内においては,「|」で区切られた要素のいずれか一つを記述することを表す。

    【0065】<トップ行>は,“文”を開始記号として,<抽出パターン>で定義されたパターンと一致すべきことを表す。 <定義文1>は,<サブパターン項>が指定した<サブパターン>と一致すべきことを表す。 また,<サブパターン項>に対応する終端記号列が,<辞書登録指定記述>で指定されたカテゴリ名のカテゴリで終端記号列辞書に登録されることを表す。

    【0066】<定義文2>は,<ワイルドカード項>に対応する終端記号列が,<辞書登録指定記述>で指定されたカテゴリ名のカテゴリで終端記号列辞書に登録されることを表す。 <パターン記述>は,複数の<項>による連糸接続であることを表し,ここで“<”と“>”
    は,<項>の区切り記号であり,1文字からなる一般項は区切り記号を省略してもよい。 また,選言項は,“(”と“)”で囲まれ,“<”と“>”は用いない。 <辞書登録指定記述>は,複数の<カテゴリ名>を記述でき,その複数のカテゴリで終端記号列辞書に登録されることを表す。 <選言パターン>は,複数の<選言子>の選言接続であることを表し,これらの<選言子>
    のいずれかと一致すべきことを表す。 <一般項>は,終端記号列を表す。

    【0067】図3に,本実施例における抽出パターンおよび辞書登録指定の例を示す。 図3では,抽出パターンと辞書登録指定を同一のファイルに記述した例であるが,抽出パターンと辞書登録指定を別個のファイルに記述してもよい。 図3において,1,2,3行目が抽出パターンの記述であり,4行目以降が辞書登録指定の記述である。 従来装置の説明で用いた図15の抽出パターンとは,3行目以降が異なる。 3行目では,ワイルドカード項<@X>の代わりに,辞書項<d製品名>を使用している。

    【0068】この場合,図3の抽出パターンおよび辞書登録指定の4行目から6行目の記述により,図4の辞書登録指定テーブル5に示すような情報が保持される。 例えば,辞書登録指定テーブル5の1行目は,「ワイルドカード項<@販売元>に対する抽出内容が決定されたならば,その文字列(終端記号列に相当する)を<会社名>というカテゴリで終端記号列辞書7に登録する」ことを意味する。

    【0069】抽出パターン解析手段2は,抽出パターン入力手段1で読み込まれた抽出パターンおよびサブパターンを内部構造に変換する。 照合処理起動手段3は,照合対象記号列が入力されると,入力された記号列を指定入力記号列とし,内部構造に変換された抽出パターンを指定パターンとして,固定位置照合処理手段4を起動する。 ここでは,照合対象記号列は文字列であり,文字列の例として,日本語で書かれた文を照合対象記号列として扱う。 さらに,照合対象記号列である文が,1文単位に入力されるものとする。 1つの文章は,複数の文で記述されているが,その記述された順序で各文が入力されるものとして説明する。 以下,照合対象記号列を入力文と呼ぶ。

    【0070】固定位置照合処理手段4は,辞書項に対する処理手段が設けられている以外は従来装置における固定位置照合処理手段94と同じであり,抽出パターンの一部または全部である指定パターンと,照合対象記号列の一部または全部である指定入力記号列が入力されると,指定パターン中の項間の連糸接続関係に基づいて,
    各項と指定入力記号列が指定パターンと一致するか否かを項の種類に応じた照合により判定して,一致した場合には指定入力記号列のどの部分が一致したかを示す情報を出力する。

    【0071】図5に固定位置照合処理手段4のフローチャートを示す。 処理の流れも辞書項に対する処理ステップS9,S15が設けられている以外は従来装置における固定位置照合処理手段94と同じである。

    【0072】ステップS9では,指定パターンの連糸接続された項の先頭項が辞書項であるか否かを判定し,ステップS15では辞書項処理手段を起動する。 任意位置照合処理手段44は図21,一般項処理手段42は図2
    2,選言項処理手段46は図18,省略項処理手段47
    は図24にそれぞれ示す従来装置における同名の手段と同じ動作を行う。

    【0073】図6に示すワイルドカード項処理手段43
    と,図7に示すサブパターン項処理手段45の処理は,
    照合結果が“一致”の場合に,辞書登録手段6が起動される点(図6:ステップS29,図7:ステップS3
    5)が従来装置と異なる。

    【0074】なお,選言項,省略項,ワイルドカード項の存在により,複数の解が存在し得るが,ここでは,最初に照合成功した解のみを出力とする。 辞書登録手段6
    は,従来装置にはない処理手段である。 図8に辞書登録手段6のフローチャートを示す。 処理中の入力された項が,辞書登録指定テーブル5に指定された項の場合には,以下の登録処理を行い,それ以外の場合には,辞書登録は行わない(ステップS41)。

    【0075】(1−1)辞書登録指定テーブル5で指定されたカテゴリを登録カテゴリとする(ステップS4
    2)。 例えば,処理中の項が<@製品名>の場合には,
    <製品名>が登録カテゴリとなる。

    【0076】(1−2)処理中の項の抽出内容(入力文字列中の対応する文字列)を登録終端記号列とする(ステップS43)。 例えば,処理中の項<@製品名>に対応する文字列が「XYZ」の場合,「XYZ」が登録終端記号列となる。

    【0077】(1−3)登録終端記号列と登録カテゴリを終端記号列辞書7に登録する(ステップS44)。 前述の例の場合には,図4に示すように終端記号列「XY
    Z」と登録カテゴリ<製品名>が終端記号列辞書7に登録される。

    【0078】辞書項処理手段48は,従来装置にはない処理手段である。 図9に辞書項処理手段48のフローチャートを示す。 辞書項処理手段48では,以下の処理を行う。

    【0079】(1−1)指示パターンの先頭項である辞書項で指定されたカテゴリを指定カテゴリとする(ステップS51)。 例えば,図3のサブパターン項<%文2
    >に対するパターンが指定パターンである場合には,先頭項である辞書項<d製品名>では,カテゴリとして<
    製品名>が指定されており(ここで,接頭辞として“d”が付与されている項は,辞書項を表し,その後の文字列はカテゴリを示す書式を用いている),<製品名>が指定カテゴリとなる。

    【0080】(1−2)次に,終端記号列辞書7を検索し,指定カテゴリに属し,かつ,指定入力記号列の先頭からの部分記号列と一致する終端記号列が存在するかを判定し(ステップS52,S53),条件に合う終端記号列が存在する場合にはステップS54の処理が,存在しない場合にはステップS58の処理が実行される。

    【0081】例えば,終端記号列辞書7に図4に示すような情報が保存されている場合,指定カテゴリ<製品名>を有する終端記号列は『XYZ』であり,指定入力記号列が『XYZ…』ならば,前述の指定パターンにおいて,ステップS54へ処理が移る。 それ以外の指定入力記号列の場合には,ステップS58へ移る。

    【0082】(1−3)ステップS54では,一致した部分記号列の次の記号以降を指定入力記号列とする。 前述の例では,指定入力記号列が『XYZは,子機…』の場合,『XYZ』が一致した部分記号列となり,『は,
    子機…』が新たな指定入力記号列となる。

    【0083】(1−4)ステップS55では,先頭項の次の項以降のパターンを指定パターンとする。 前述の例の場合,{は,<@製品特徴>。 }が,新たな指定パターンとなる。

    【0084】(1−5)固定位置照合処理手段4を起動し(ステップS56),照合が成功すれば,辞書項処理手段48における照合も照合成功となる(ステップS5
    7)。

    【0085】前述の例では,指定カテゴリを有する終端記号列が1個しかない場合を示したが,指定カテゴリを有する終端記号列が複数個存在する場合も同様に行えることはいうまでもない。 終端記号列が複数個存在する場合の終端記号列辞書7の検索方法は,様々な方法を用いることができる。 例えば,登録された順に一つずつ調べる方法でもよいし,終端記号列をコード順にソートしておいて2分探索で検索する方法など,様々なデータベース検索手法を用いることは可能である。

    【0086】また,指定カテゴリを有する終端記号列が複数個存在する場合,ステップS52の条件に合う終端記号列が複数個存在することも起こり得るが,この場合,最長一致する終端記号列を一致した部分記号列とする方法や,その逆の方法など様々な方法を用いることができる。 さらに,ステップS52の条件に合う終端記号列が複数個存在する場合に,ステップS54の前の指定入力記号列および一致した他の終端記号列を記憶しておき,ステップS56で照合に失敗した場合には,他の終端記号列を元の指定入力記号列から除いた記号列を新たな指定入力記号列として,再度ステップS56を実行するよう辞書項処理手段48を構成してもよい。

    【0087】上記の構成において,図16(A)の1文目に対してはサブパターン項<%文1>と照合成功し,
    従来装置の場合と同じ抽出結果となる。 ここで,ワイルドカード項に対しては,辞書登録手段6が起動され,終端記号列辞書7に図4に示すような情報が登録される。

    【0088】一方,図16(A)の2文目に対しては,
    以下のような照合が行われる。 (2−1)サブパターン項<%文1>において,一般項<「>で照合に失敗する。

    【0089】(2−2)選言項処理手段46において,
    図18のステップS923,S924,S925と進み,次の選言子であるサブパターン項<%文2>を指定パターンとして,固定位置照合処理手段4を起動する(ステップS922)。

    【0090】(2−3)先頭項は,辞書項<d製品名>
    なので,辞書項処理手段48が起動される。 (2−4)指定入力記号列は『XYZは,子機…』なので,先に説明したように,『XYZ』が辞書項<d製品名>と一致し,『は,子機…』が新たな指定入力記号列となり,指定パターン{は,<@製品特徴>。 }で固定位置照合処理手段4が起動される(図9:ステップS5
    3からステップS56)。

    【0091】(2−5)一般項<は>と一般項<,>が指定入力記号列『は,』に一致した後,指定入力記号列を『子機を5台まで接続できる。 』,指定パターンを{<@製品特徴>。 }として固定位置照合処理手段4が起動される。

    【0092】(2−6)次にワイルドカード項処理手段43,任意位置照合処理手段44が起動され,一般項<。 >と指定入力記号列『。 』が一致し,その結果ワイルドカード項<@製品特徴>の抽出内容として,記号列『子機を5台まで接続できる』が決定される。

    【0093】以上の結果から,<@製品特徴>として『子機を5台まで接続できる』が抽出される。 一方,図16(B)における文章の場合には,次のようになる。

    【0094】(3−1)1文目は,同じであるので,先ほどの図16(A)の場合と同じ結果が得られる。 (3−2)2文目に対しては,(2−1)から(2−
    3)までは同じであるが,(2−4)において,指定入力記号列は『AAAは,この…』なので,終端記号列辞書7に保存された終端記号列と一致せず,図9のステップS53からステップS58へ進み,照合失敗となる。

    【0095】したがって,図16(B)における文章の場合には,従来装置とは異なり,<@製品特徴>として,『この商品に社運を賭ける』が抽出されない。 以上説明したように,前文までの抽出結果で得られた情報を学習し,学習した結果を利用して抽出を行うため,不合理な抽出を避けることができ,精度が高い抽出を実現することができる。

    【0096】〔第2の実施例〕次に,請求項2記載の発明に対応する第2の実施例を説明する。 図10は,第2
    の実施例で用いる辞書項処理手段48のフローチャートを示した図である。 第2の実施例では,第1の実施例で用いる図9の辞書項処理手段48のステップS52の部分の代わりに,ステップS62の処理を行う。

    【0097】ステップS62では,終端記号列辞書7を検索し,指定カテゴリに属し,かつ,指定入力記号列の先頭からの部分記号列を連続して含む終端記号列が存在するかを判定する。 例えば,図16(A)の1文目が『AAAは,コードレスホン「ハッピーXYZ」を発売する。 』であり,2文目は同じであるとする。 このとき,1文目からの抽出が終了した時点で,終端記号列辞書7には,カテゴリ「製品名」に属する『XYZ』の代わりに,カテゴリ[製品名]に属する『ハッピーXY
    Z』が登録される。 2文目の処理において,第1の実施例の場合には,『XYZ…』と『ハッピーXYZ』は照合失敗する。 これに対し,第2の実施例の場合には,
    『ハッピーXYZ』が『XYZ』を連続して含むので,
    辞書項<d製品名>での照合に成功する。

    【0098】このように,2度目以降に表れる名前に対しては,最初に記述された<名前>の完全な名前(この例では,『ハッピーXYZ』)を用いるのではなく,省略した名前(この例では,『XYZ』)を用いることがあり,このような場合に,第2の実施例が有効である。

    【0099】〔第3の実施例〕第1・第2の実施例では,照合対象記号列として文章中の各文が入力され,その1文目が入力される前は,図1の終端記号列辞書7において,何も登録されてない状態から処理が開始される構成であったが,あらかじめ,終端記号列辞書7に複数の情報を登録した状態で処理を開始できるよう構成してもよい。 このような構成の場合には,ある文書で学習して終端記号列辞書7に情報を蓄えておき,他の文書の抽出処理に用いるという使用方法も可能である。 この場合,学習で用いる抽出パターンと,学習後に用いる抽出パターンとは異なる抽出パターンを用いてもよい。

    【0100】(第4の実施例)図11は,第4の実施例で用いるワイルドカード項処理手段43のフローチャートを示した図である。 図1における抽出パターン入力手段1において,ワイルドカード項に対し,抽出パターンと同様の項で構成される詳細パターンを定義した記述を入力できるように構成する。

    【0101】図12に,詳細パターンを記述できる書式の例を示す。 ワイルドカード項処理手段43は,図11
    のように,ステップS71からステップS77までは従来装置におけるワイルドカード項処理手段と同様の処理動作である。 抽出内容Cが決定された後(ステップS7
    1からステップS77),ワイルドカード項に対し,詳細パターンPが定義されているか否かを判定し(ステップS78),定義されている場合には,詳細パターンP
    を指定パターンとし(ステップS79),抽出内容Cを指定入力記号列として(ステップS80),固定位置照合処理手段4を起動する(ステップS81)。 着目のワイルドカード項を含むパターンの照合結果は,抽出内容Cが決定された時点で一致とみなされ(ステップS8
    2),詳細パターンの照合結果とは独立である。

    【0102】したがって,この実施例の場合には,ワイルドカード項を介して,多段階での照合を行うことができ, 1)照合対象となる組み合わせの数を低く抑えることができ高速な処理を実現できる, 2)様々な情報が記述される部分に対して,特定の情報が記述された場合のみを見つけ出して内容抽出を行うことができる, などの特徴がある。

    【0103】

    【発明の効果】以上説明したように,本発明によれば,
    照合対象記号列と抽出パターンとの照合を固定位置照合処理手段で行い,照合に成功した場合,固定位置照合処理手段内のワイルドカード項処理手段およびサブパターン項処理手段から辞書登録手段を起動し,辞書登録指定テーブルで指定された情報に基づいて,抽出内容を終端記号列辞書に保存し,新たな照合対象記号列と抽出パターンとの照合を行う際に,辞書項処理手段で終端記号列辞書を参照して照合を行うため,入力文章中の言葉を学習して,学習した言葉を抽出パターンの照合上の制約として用いることができるという効果があり,多くの未知語を許容して高い抽出精度を得ることができる。

    【0104】請求項1記載の内容抽出装置の場合には,
    同じ言葉(語)を省略しないで使用する場合に有効であり,請求項2記載の内容抽出装置の場合には,2回目以降の使用する言葉は,1回目に使用した言葉を使用する場合に有効である。

    【0105】もちろん,辞書項の表現を2通り設け,請求項1と請求項2の構成を組み合わせることにより,抽出パターンの指定により2通りの照合方法を使い分けることも可能である。

    【0106】また,本発明による内容抽出装置で得られた終端記号列辞書の情報を,翻訳処理や検索処理などの自然言語処理に応用できることはいうまでもない。 一般に自然言語処理における意味解析処理では,単語の意味的な情報を利用しており,この意味的な情報を,本発明による装置で得ることが可能である。

    【図面の簡単な説明】

    【図1】本発明の実施例の構成図である。

    【図2】実施例における抽出パターンおよび辞書登録指定の書式を示す図である。

    【図3】実施例における抽出パターンと辞書登録指定の例を示す図である。

    【図4】本実施例の処理全体の流れを示す図である。

    【図5】固定位置照合処理手段のフローチャートである。

    【図6】ワイルドカード項処理手段のフローチャートである。

    【図7】サブパターン項処理手段のフローチャートである。

    【図8】辞書登録手段のフローチャートである。

    【図9】第1の実施例における辞書項処理手段のフローチャートである。

    【図10】第2の実施例における辞書項処理手段のフローチャートである。

    【図11】第4の実施例におけるワイルドカード項処理手段のフローチャートである。

    【図12】第4の実施例における詳細パターンの書式を示す図である。

    【図13】従来装置の主要部の構成図である。

    【図14】従来装置における抽出パターンの書式を示す図である。

    【図15】従来装置における抽出パターンの例を示す図である。

    【図16】入力文章例を示す図である。

    【図17】従来装置における固定位置照合処理手段のフローチャートである。

    【図18】選言項処理手段のフローチャートである。

    【図19】従来装置におけるサブパターン項処理手段のフローチャートである。

    【図20】従来装置におけるワイルドカード項処理手段のフローチャートである。

    【図21】任意位置照合処理手段のフローチャートである。

    【図22】一般項処理手段のフローチャートである。

    【図23】従来装置における抽出結果の例を示す図である。

    【図24】省略項処理手段のフローチャートである。

    【符号の説明】

    1 抽出パターン入力手段 2 抽出パターン解析手段 3 照合処理起動手段 4 固定位置照合処理手段 5 辞書登録指定テーブル 6 辞書登録手段 7 終端記号列辞書 41 個別処理選択手段 42 一般項処理手段 43 ワイルドカード項処理手段 44 任意位置照合処理手段 45 サブパターン項処理手段 46 選言項処理手段 47 省略項処理手段 48 辞書項処理手段

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈