首页 / 专利库 / 软件 / 通配符 / Contents extracting device

Contents extracting device

阅读:415发布:2021-06-11

专利汇可以提供Contents extracting device专利检索,专利查询,专利分析的服务。并且PURPOSE:To correctly extract the contents without parting a pair of parentheses, even when the pair of parentheses are described in a collation object symbol train, in the contents extracting device for executing a processing for extracting the information for showing the specific contents from in an electronic document. CONSTITUTION:In the processing of a wild card term in the case of extracting the contents, based on an extraction pattern defined by the wild card term or a general term, a scanning collation processing means 45 actuates a collation start position determining means 44, and when parentheses exist in a collation object symbol train, the collation start position determining means 44 actuates a parentheses skip means 43, and by checking a pair of parentheses registered in a parentheses pair retaining means 41 and determining a collating position, a correspondence relation of the extraction pattern and the collation object symbol train is determined.,下面是Contents extracting device专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 あらかじめ定義された抽出パターンに基づいて,照合対象記号列が前記抽出パターンと一致するか否かを判定し,一致した場合には前記照合対象記号列のどの部分が一致したかを出力する内容抽出装置において,不特定の終端記号の列と一致することを表すワイルドカード項,および終端記号列で定義される一般項が連糸接続された記述に基づく抽出パターンを入力する抽出パターン入力手段と,前記抽出パターンを内部構造に変換する抽出パターン解析手段と,前記抽出パターンの一部または全部である指定パターンと,照合対象記号列の一部または全部である指定入力記号列が入力されると,
    指定パターン中の項間の連糸接続関係に基づいて,各項と指定入力記号列が指定パターンと一致するか否かを照合して,一致した場合には指定入力記号列のどの部分が一致したかを示す情報を出力する固定位置照合処理手段と,照合対象記号列が入力されると,該照合対象記号列を前記固定位置照合処理手段への指定入力記号列とし,
    前記抽出パターン解析手段で内部構造に変換された抽出パターンを前記固定位置照合処理手段への指定パターンとして,前記固定位置照合処理手段を起動する照合処理起動手段とを備えるとともに,前記固定位置照合処理手段は,開始括弧と終了括弧からなる括弧対を保存する括弧対保存手段と,指定パターンの連糸接続された項の先頭項が,ワイルドカード項,一般項のいずれであるかを判定し,各々の場合に応じて,後記のワイルドカード項処理手段,一般項処理手段を起動する個別処理選択手段と,入力された開始括弧と対をなす指定入力記号列中の終了括弧を探し,該終了括弧に続く記号を照合開始位置とする括弧スキップ手段と,指定入力記号列の先頭が開始括弧でない場合には,2番目の記号を照合開始位置として出力し,先頭が開始括弧である場合には,前記括弧対保存手段から該開始括弧と括弧対をなす終了括弧を取り出し,該終了括弧と該開始括弧および該開始括弧に続く記号列を指定入力記号列とする記号列を前記括弧スキップ手段へ入力して,前記括弧スキップ手段で得られた照合開始位置を出力する照合開始位置決定手段と,指定パターンと指定入力記号列を前記固定位置照合処理手段へ入力して起動し,一致した場合には指定入力記号列の先頭を照合開始位置として出力し,一致しなかった場合には,指定入力記号列を前記照合開始位置決定手段へ入力して,得られた照合開始位置からの記号列を新たな指定入力記号列として本処理手段を再帰的に起動して照合処理を行う走査照合処理手段と,指定パターンの先頭項であるワイルドカード項の次の項以降のパターンを前記走査照合処理手段への指定パターンとし,指定入力記号列を前記走査照合処理手段への指定入力記号列として,
    前記走査照合処理手段を起動することによって,指定パターンと指定入力記号列の一致を判定し,指定入力記号列と前記走査照合処理手段から出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定するワイルドカード項処理手段と,
    指定パターンの先頭項である一般項の記号列が指定入力記号列の先頭からの部分記号列と一致するかを判定し,
    一致した場合には,前記記号列と一致した部分記号列の次の文字位置以降を前記固定位置照合処理手段への指定入力記号列として,前記一般項の連糸接続された次の項以降のパターンを前記固定位置照合処理手段への指定パターンとして前記固定位置照合処理手段を起動することによって,指定パターンと指定入力記号列の一致を判定する一般項処理手段とを備えることを特徴とする内容抽出装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は,電子化された文書中から,特定の内容を表した情報を抜き出して,データベースに保存する,検索に利用するなどの用途に使用する内容抽出装置に関する。

    【0002】

    【従来の技術】従来の内容抽出処理として,「情報処理学会論文誌,Vol.29, No.8, pp760-769, 1988 『見出し情報を用いたテキスト解析と情報抽出』」に見られるように,抽出項目を指定したフレームを用意しておき,各フレームをサブフレームで定義し,各サブフレームとして格情報や当てはまるべき用語のカテゴリ等によって照合条件を記述し,日本語辞書等を用いて,形態素解析および構文解析を行って,解析結果の格構造を参照しながら,用意したフレームとの照合を行う方法が知られている。 しかしながら,このような方法は,解析が正しく行われることを前提としており,辞書中にない単語(未知語)がある場合などは解析に失敗することが多く,抽出に失敗する。

    【0003】この問題点を解決した方法として,ワイルドカード項や一般項等で定義した抽出パターンに基づいて内容を抽出する装置が知られている。 図15はこの従来の装置の主要部の構成を示した図であり,抽出パターン入手段51と抽出パターン解析手段52と照合処理起動手段53と固定位置照合処理手段54とで構成され,入力記号列と抽出パターンとの照合を行う固定位置照合処理手段54が,個別処理選択手段54a,一般項処理手段54b,ワイルドカード項処理手段54c,任意位置照合処理手段54d,サブパターン項処理手段5
    4e,選言項処理手段54f,省略項処理手段54gを備え,ワイルドカード項処理手段54cで起動される任意位置照合処理手段54dは,指定入力記号列の任意の位置から,指定パターンとの照合を行うように構成されている。

    【0004】抽出パターンは,トップパターンと複数のサブパターンとサブパターン名を介した参照接続とで定義され,サブパターンおよびトップパターンは,任意の記号列と一致することを表すワイルドカード項,サブパターン名で表されるサブパターン項,いくつかのサブパターンのうちの一つが一致したときに入力記号列に一致したとみなされる選言項,一般項または省略項の連糸接続で定義され,選言項はサブパターンの選言接続で定義され,一般項は終端記号列で定義され,省略項はサブパターンで定義されるようになっている。

    【0005】抽出パターン解析手段52は,抽出パターン入力手段51が入力した抽出パターンを内部構造に変換する。 照合処理起動手段53は,照合対象記号列が入力されると,照合対象記号列を固定位置照合処理手段5
    4への指定入力記号列とし,内部構造に変換された抽出パターンを固定位置照合処理手段54への指定パターンとして,固定位置照合処理手段54を起動する。 固定位置照合処理手段54における個別処理選択手段54a
    は,指定パターンの連糸接続された項の先頭項が,一般項,ワイルドカード項,サブパターン項,選言項,省略項のいずれであるかを判定し,各々の場合に応じて,一般項処理手段54b,ワイルドカード項処理手段54
    c,サブパターン項処理手段54e,選言項処理手段5
    4f,省略項処理手段54gを起動する。

    【0006】一般項処理手段54bは,一般項に対して,一般項を定義する終端記号列が指定入力記号列と一致した場合を,一般項と指定入力記号列とが一致したとみなす照合を行う。 ワイルドカード項処理手段54c
    は,指定パターンの先頭項であるワイルドカード項の次の項以降のパターンを任意位置照合処理手段54dへの指定パターンとし,指定入力記号列をそのまま任意位置照合処理手段54dへの指定入力記号列として,任意位置照合処理手段54dを起動する。 これによって,指定パターンと指定入力記号列の一致を判定し,指定入力記号列と任意位置照合処理手段54dから出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定する。

    【0007】任意位置照合処理手段54dは,指定パターンを固定したまま,指定入力記号列の任意位置からの記号列を固定位置照合処理手段54への指定入力記号列として変化させて,固定位置照合処理手段54を繰り返し起動する。 これによって,指定入力記号列の任意位置からの記号列が指定されたパターンと一致するか否かを判定し,一致した場合には,記号列の照合開始位置を出力する。

    【0008】サブパターン項処理手段54eは,サブパターン項に対して,サブパターン名で参照接続されたサブパターンでサブパターン項が置き換わったとみなして照合を行う。 選言項処理手段54fは,選言接続されたサブパターンのいずれか一つが指定入力記号列と一致した場合を,選言項と指定入力記号列とが一致したとみなす照合を行う。 また,省略項処理手段54gは,多様な表現からの内容抽出を可能とするため,省略項で指定されたサブパターンが一致してもしなくてもよい照合を行う。 なお,以上の照合対象記号列の記号として単語を扱うように構成することもできる。

    【0009】例えばワイルドカード項,一般項の連糸接続で定義されるパターンの組み合わせで抽出パターンを定義した場合,抽出パターン解析手段52では抽出パターンを内部構造に変換し,照合対象記号列が入力されると,照合処理起動手段53で固定位置照合処理手段54
    を起動し,固定位置照合処理手段54で抽出パターンの各項の種類に応じた照合処理を行う。 これにより,抽出パターンと照合対象記号列との対応関係を決定して,必要な情報の抽出を行う。 固定位置照合処理手段54では,ワイルドカード項に対しては,任意の記号列と一致させ,一般項に対しては,一般項を定義する終端記号列が指定入力記号列と一致した場合を,一般項と指定入力記号列が一致したとみなして照合を行う。 ワイルドカード項は任意の記号列と一致するため,入力記号列中に未知語が含まれていても抽出を行うことができる。

    【0010】

    【発明が解決しようとする課題】しかし,従来装置では,ワイルドカード項と連糸接続された残りの項が一致すれば,ワイルドカード項は任意の記号列と一致するため,例えば入力記号列が「TNN(電気通信の会社)の料金」で,抽出パターンが「<ワイルドカード項1>の<ワイルドカード項2>」(これは<ワイルドカード項1>,一般項「の」,<ワイルドカード項2>が順に連糸接続されていることを表す)の場合,次のように括弧対が分断される抽出結果1の結果が出力され,抽出結果2のような括弧対の関係を保った結果が得られなかった。

    【0011】抽出結果1: ワイルドカード項1:「TNN(電気通信」 ワイルドカード項2:「会社)の料金」 抽出結果2: ワイルドカード項1:「TNN(電気通信の会社)」 ワイルドカード項2:「料金」 このように,入力記号列中に括弧が存在する場合には,
    括弧対が分断されないような抽出結果2の抽出結果を得ることが望まれるが,従来の装置では,括弧対が分断された抽出結果となるような抽出パターンと照合対象記号列の組が多く存在する。

    【0012】そこで,括弧対内の記号列をあらかじめ取り出しておいて処理を行う方法が考えられるが,抽出パターン中に括弧対を記述することが許されなくなる。 例えば,抽出パターンが「<ワイルドカード項1>(<ワイルドカード項2>)の<ワイルドカード項3>」で,
    入力記号列が「TNN(電気通信の会社)の料金」のとき,括弧内の記号列を取り出した記号列「TNNの料金」は抽出パターンと一致せず,正しい抽出が行えない。

    【0013】また,従来装置において,抽出パターン中に括弧対を陽に記述しておけば,括弧対が分断されないように抽出できるが,括弧は,補足的な説明等に用いられるため,文書中のあらゆる場所で記述される可能性があり,これらをすべて抽出パターン中に記述することはできない。

    【0014】本発明は前記従来の欠点を解決するため,
    照合対象記号列中に括弧対がある場合に,ワイルドカード項と一致する記号列中の括弧の対の関係が保たれるように抽出できる内容抽出装置を提供することを目的とする。

    【0015】

    【課題を解決するための手段】本発明は,電子化された文書から特定の内容を表した情報を抜き出すような計算機システムの装置であって,あらかじめ定義された抽出パターンに基づいて,照合対象記号列が抽出パターンと一致するか否かを判定し,一致した場合には照合対象記号列のどの部分が一致したかを出力する内容抽出装置に関する。

    【0016】請求項1記載の発明は,抽出パターン入力手段,抽出パターン解析手段,固定位置照合処理手段,
    照合処理起動手段を備える。 さらに,固定位置照合処理手段は,括弧対保存手段と,個別処理選択手段と,括弧スキップ手段と,照合開始位置決定手段と,走査照合処理手段と,ワイルドカード項処理手段と,一般項処理手段とを備え,例えば図15に示す従来装置の構成とは,
    任意位置照合処理手段の代わりに走査照合処理手段を設け,さらに括弧対保存手段と,括弧スキップ手段と,照合開始位置決定手段とを備えている点が異なる。

    【0017】抽出パターン入力手段は,不特定の終端記号の列と一致することを表すワイルドカード項,および終端記号列で定義される一般項が連糸接続された記述に基づく抽出パターンを入力する処理手段である。

    【0018】抽出パターン解析手段は,抽出パターンを内部構造に変換する処理手段である。 照合処理起動手段は,照合対象記号列が入力されると,照合対象記号列を固定位置照合処理手段への指定入力記号列とし,前記抽出パターン解析手段で内部構造に変換された抽出パターンを固定位置照合処理手段への指定パターンとして,固定位置照合処理手段を起動する処理手段である。

    【0019】固定位置照合処理手段は,抽出パターンの一部または全部である指定パターンと,照合対象記号列の一部または全部である指定入力記号列が入力されると,指定パターン中の項間の連糸接続関係に基づいて,
    括弧対保存手段と,個別処理選択手段と,括弧スキップ手段と,照合開始位置決定手段と,走査照合処理手段と,ワイルドカード項処理手段と,一般項処理手段とによって,各項と指定入力記号列が指定パターンと一致するか否かを照合して,一致した場合には指定入力記号列のどの部分が一致したかを示す情報を出力する処理手段である。

    【0020】括弧対保存手段は,開始括弧と終了括弧からなる括弧対を保存する処理手段であり,後記の照合開始位置決定手段,括弧スキップ手段から参照される。 個別処理選択手段は,指定パターンの連糸接続された項の先頭項が,ワイルドカード項,一般項のいずれであるかを判定し,各々の場合に応じて,後記のワイルドカード項処理手段,一般項処理手段を起動する処理手段である。

    【0021】ワイルドカード項処理手段は,指定パターンの先頭項であるワイルドカード項の次の項以降のパターンを走査照合処理手段への指定パターンとし,指定入力記号列を走査照合処理手段への指定入力記号列として,走査照合処理手段を起動することによって,指定パターンと指定入力記号列の一致を判定し,指定入力記号列と走査照合処理手段から出力される照合開始位置とから,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定する処理手段であり,任意位置照合処理手段の代わりに,走査照合処理手段を起動する点が従来装置と異なる。

    【0022】一般項処理手段は,指定パターンの先頭項である一般項の記号列が指定入力記号列の先頭からの部分記号列と一致するかを判定し,一致した場合には,前記記号列と一致した部分記号列の次の文字位置以降を前記固定位置照合処理手段への指定入力記号列として,前記一般項の連糸接続された次の項以降のパターンを前記固定位置照合処理手段への指定パターンとして前記固定位置照合処理手段を起動することによって,指定パターンと指定入力記号列の一致を判定する処理手段である。

    【0023】走査照合処理手段は,指定パターンと指定入力記号列を固定位置照合処理手段へ入力して起動し,
    一致した場合には指定入力記号列の先頭を照合開始位置として出力し,一致しなかった場合には,指定入力記号列を照合開始位置決定手段へ入力して,得られた照合開始位置からの記号列を新たな指定入力記号列として本処理手段を再帰的に起動して照合処理を行う処理手段であり,従来装置における任意位置照合処理手段と異なって,指定入力記号列中の括弧対の関係をチェックしながら照合を行う。

    【0024】照合開始位置決定手段は,指定入力記号列の先頭が開始括弧でない場合には,2番目の記号を照合開始位置として出力し,開始括弧である場合には,括弧対保存手段から該開始括弧と括弧対をなす終了括弧を取り出し,該終了括弧と該開始括弧および該開始括弧に続く記号列を指定入力記号列とする記号列を括弧スキップ手段へ入力して,括弧スキップ手段で得られた照合開始位置を出力する処理手段であり,指定入力記号列中の括弧対の対応関係に基づいて照合開始位置を決定する。

    【0025】括弧スキップ手段は,入力された開始括弧と対をなす指定入力記号列中の終了括弧を探し,該終了括弧に続く記号を照合開始位置とする処理手段である。

    【0026】

    【作用】本発明は,ワイルドカード項,一般項の連糸接続で定義されるパターンの組み合わせで抽出パターンを定義しておき,抽出パターン解析手段で抽出パターンを内部構造に変換し,照合対象記号列が入力されると,照合処理起動手段で固定位置照合処理手段を起動し,固定位置照合処理手段で抽出パターンの各項の種類に応じた照合処理を行う。

    【0027】固定位置照合処理手段では,抽出パターン中のワイルドカード項により,ワイルドカード項処理手段が起動され,ワイルドカード項処理手段は次の項以降を指定パターンとして走査照合処理手段を起動する。 一般項の場合には,一般項処理手段を起動して一般項を定義する記号列と入力記号列が一致するか否かで照合を行う。

    【0028】走査照合処理手段では,固定位置照合処理手段を起動して一致が得られなかった場合には,照合開始位置決定手段を起動して,括弧対が分断されないような照合開始位置を選びながら照合を行っていく。

    【0029】照合開始位置決定手段では,入力記号列中に括弧が存在する場合,括弧対保存手段に保存された括弧の対を確認しながら,括弧スキップ手段を必要に応じて起動して,対となる括弧内が分断されないように照合開始位置を決める。

    【0030】このように本装置によれば,入力記号列中に括弧対がある場合に,括弧内を分断しないように,抽出パターンと照合対象記号列との対応関係を決定して,
    必要な情報の抽出を行う。

    【0031】

    【実施例】図1は本発明の実施例の構成図であり,図2
    は抽出パターン記述の書式定義の例を示した図である。
    以下,抽出パターンは図2の書式定義に基づいて記述する。 図2において,「””」で囲まれた文字列は,その文字列をそのまま記述することを表す。 「()」内の「|」で区切られた要素は,その区切られた要素のいずれか一つを記述することを表す。

    【0032】ここでは,終端記号が全文字,照合対象記号列が全角文字列(以下,単に文字列と呼ぶ)の場合について説明する。 まず,抽出パターンについて説明する。 抽出パターンは,項の連糸接続で表される。 なお,
    ここでは,項を並べて書くことにより連糸接続を表し,
    連糸接続を表す記号は特に用いない。 項は<>で囲って記述するが,全角文字一つからなる一般項のみは,<>
    で囲わなくてもよいものとする。 また,図2の場合,ワイルドカード項をワイルドカード名で記述しているが,
    ワイルドカード名を用いずに,ワイルドカードを表す予め定めた記号を用いてもよい。 「@」で始まる文字列はワイルドカード名を表し,ワイルドカード名でワイルドカード項を表し,任意の文字列と一致させることを表す。

    【0033】例えば,図4の抽出パターン「<@X>の<@Y>」は,ワイルドカード名「X」のワイルドカード項<@X>と文字「の」からなる一般項「の」とワイルドカード名「Y」のワイルドカード項<@Y>が順に連糸接続されたパターンであることを表す。

    【0034】図1に示すように,本装置は,抽出パターン入力手段1,抽出パターン解析手段2,照合処理起動手段3,固定位置照合処理手段4で構成され,さらに固定位置照合処理手段4は,括弧対保存手段41と,個別処理選択手段42と,括弧スキップ手段43と,照合開始位置決定手段44と,走査照合処理手段45と,ワイルドカード項処理手段46と,一般項処理手段47とを持つ。 他に,従来の技術で説明したような,サブパターン項処理手段や選言項処理手段等が必要に応じて設けられる。

    【0035】図15に示す従来装置の構成に対して,本発明の実施例である図1では,任意位置照合処理手段5
    4dの代わりに走査照合処理手段45を設け,さらに括弧対保存手段41と,括弧スキップ手段43と,照合開始位置決定手段44とを備えている点が異なる。

    【0036】図3は,括弧対保存手段41に保存する括弧対の例を示した図である。 図4は,照合対象記号列と抽出パターンとその抽出結果の例を示す図である。 図5
    から図11は本実施例の処理手順を示す図であり,図5
    は全体の流れ,図6は固定位置照合処理手段4の流れ,
    図7はワイルドカード項処理手段46の流れ,図8は走査照合処理手段45の流れ,図9は照合開始位置決定手段44の流れ,図10は括弧スキップ手段43の流れ,
    図11は一般項処理手段47の流れを示す図である。

    【0037】全体の流れを図5で説明する。 抽出パターン入力手段1により,抽出パターンを入力すると(ステップ101),抽出パターンは,抽出パターン解析手段2で内部構造に変換される(ステップ102)。

    【0038】照合対象記号列が入力されると(ステップ103),照合処理起動手段3により,照合対象記号列を指定入力記号列とし(ステップ104),抽出パターンを指定パターンとして(ステップ105),固定位置照合処理手段4を起動し(ステップ106),その照合結果を出力する(ステップ107)。

    【0039】次に,固定位置照合処理手段4の動作例を説明する。 固定位置照合処理手段4では,図6に示すように,まず,個別処理選択手段42により,指定パターンの先頭項を取り出して(ステップ201),先頭項の種類に応じて各々の処理手段を起動する(ステップ20
    2から205)。 そして,各処理手段の照合結果を本処理の照合結果として(ステップ206),終了する。 例えば,図4および図12から図14の指定パターンの場合,最初にワイルドカード項処理手段46が起動される。

    【0040】ワイルドカード項処理手段46では,図7
    に示すように,指定パターンが先頭項のみかを調べ(ステップ301),指定パターンが先頭項のみの場合には,指定入力記号列をそのまま出力して(ステップ30
    2),照合結果を一致とする(ステップ308)。 先頭項の次の項がある場合には,指定パターンの次の項以降を新たな指定パターンとして(ステップ303),走査照合処理手段45を起動する(ステップ304)。 その照合結果が一致の場合には,走査照合処理手段45から出力される照合開始位置と指定入力記号列から,ワイルドカード項と一致する指定入力記号列中の部分記号列を決定し,その結果を出力し(ステップ306),照合結果を「一致」として終了する(ステップ308)。 不一致の場合には,照合結果を不一致として終了する(ステップ307)。 例えば,図4の指定パターンの場合,
    「@X」の次の項「の」以降を指定パターンとして走査照合処理手段45を起動する。

    【0041】走査照合処理手段45では,図8に示すように,まず,指定入力記号列の先頭を照合開始位置として(ステップ401),固定位置照合処理手段4を起動し(ステップ402),一致するか否かを判定する(ステップ403)。 一致した場合には,照合結果を一致とし,照合開始位置を出力する(ステップ404)。 一致しなかった場合には,指定入力記号列が終端かどうかをみて(ステップ405),終端の場合には「不一致」とする(ステップ406)。 終端でない場合には,照合開始位置決定手段44を起動し(ステップ407),得られた記号列を新たな入力記号列として(ステップ40
    8),再度,走査照合処理手段45を起動して,一致するかあるいは終端に達するまで以上の処理を繰り返す。

    【0042】照合開始位置決定手段44では,図9に示すように,指定入力記号列が開始括弧で始まるかを判定し(ステップ501),開始括弧でない場合には,2番目の記号を照合開始位置として出力し(ステップ50
    2),終了する。 開始括弧で始まる場合には,括弧対保存手段41からその開始括弧に対応する終了括弧を取り出す(ステップ503)。 次に,開始括弧に続く記号列を新たな指定入力記号列として(ステップ504),括弧スキップ手段43を起動し(ステップ505),得られた照合開始位置を出力し(ステップ506),終了する。

    【0043】括弧スキップ手段43では,図10に示すように,まず,指定入力記号列中に括弧が表れる最初の位置を探す(ステップ601)。 括弧が存在しない場合には(ステップ602),指定入力記号列の先頭を照合開始位置として出力(ステップ603)し,終了する。
    見つかった括弧が終了括弧の場合には(ステップ60
    4),その終了括弧に続く記号を照合開始位置として出力し(ステップ605),終了する。 開始括弧の場合には,この括弧に続く記号列を新たな指定入力記号列として(ステップ606),再度,括弧スキップ手段43を起動し(ステップ607),得られた照合開始位置を先頭とする記号列を指定入力記号列として(ステップ60
    8)更に以上の処理を再び行い,対応する終了括弧が見つかるか記号列がなくなるまで繰り返す。

    【0044】例えば,照合開始位置決定手段44への入力の指定入力記号列が「(ABC(DEF)GH)I
    J」の場合,括弧スキップ手段43へは「(ABC(D
    EF)GH)IJ」が入力され,最初の括弧として「C」と「D」の間の括弧「(」が検出される。この括弧は,開始括弧なので,「DEF)GH)IJ」を入力として(ステップ606),括弧スキップ手段43の2
    度目の起動(ステップ607)が行われる。 2度目の起動では,最初の括弧として,「F」と「G」の間の括弧「)」が検出される。 この括弧は,終了括弧なので,
    「GH)IJ」の先頭を照合開始位置として出力して(ステップ605),2度目の括弧スキップ手段43の処理が終了し,1度目の括弧スキップ手段43の処理へ戻る(ステップ608)。 再度,括弧を探し(ステップ601),今度は「H」と「I」の間の括弧「)」が検出される。 この括弧は終了括弧なので,「IJ」の先頭を照合開始位置として出力して(ステップ605)終了する。 このように,照合開始位置決定手段44では,入力の指定入力記号列「(ABC(DEF)GH)IJ」
    の先頭の開始括弧と対の関係にある「H)IJ」中の括弧「)」の次の記号「I」を照合開始位置とし,括弧がネスティングされていても,対応する括弧対の間をスキップすることができる。

    【0045】なお,指定入力記号列中に括弧がない場合には,照合開始位置決定手段44において常に2番目の記号を先頭とする記号列が出力される(ステップ50
    2)ため,走査照合処理手段45は,従来装置における任意位置照合処理手段と同じ処理を行うことになる。

    【0046】また,走査照合処理手段45では,最初に固定位置照合処理手段4を起動して(ステップ402)
    抽出パターンとの照合を行って,不一致のときのみ,照合開始位置決定手段44を起動する(ステップ407)
    ため,照合パターン中に括弧対を陽に記述した場合には,ステップ402で一致し,正しく照合を行うことができる。

    【0047】一般項処理手段47では,図11に示すように,指定パターンの先頭項である一般項の記号列が指定入力記号列の先頭からの部分記号列と一致するかを調べ(ステップ701),一致してない場合には,照合結果を「不一致」として(ステップ702)終了する。 一致している場合には,「指定入力記号列において,一致した部分記号列の後にまだ記号が存在するか?」(ステップ703),および「指定パターンにおいて,連糸接続された次の項が存在するか?」(ステップ704またはステップ706)を調べ,ともに存在する場合には,
    ステップ705へ進み,両方とも存在しない場合には,
    照合結果を「一致」として(ステップ707)終了し,
    どちらか一方が存在しない場合には,照合結果を「不一致」として(ステップ702)終了する。

    【0048】例えば,指定パターンが「<社長><@社長名>氏)…」で,指定入力記号列が「社長田島仁氏…」の場合,指定パターンの「<社長>」と指定入力記号列の「社長」が一致する。 この場合,次の項「<@社長名>」および次の記号「田」が存在するので,ステップ705へ進む。

    【0049】ステップ705に進んだ場合には,一致した部分記号列の次の記号以降を指定入力記号列とし(ステップ705),連糸接続された次の項以降のパターンを指定パターンとし(ステップ708),固定位置照合処理手段4を起動する(ステップ709)。 そして,固定位置照合処理手段4の照合結果を本処理の照合結果として終了する(ステップ710)。 上記の例の場合には,「田島仁氏…」を指定入力記号列,「<@社長名>
    氏)…」を指定パターンとして,固定位置照合処理手段4が起動される(ステップ709)。

    【0050】次に,固定位置照合処理手段4で括弧対が分断されずに抽出されることを,図4の照合対象記号列と抽出パターンが入力された場合について説明する。 [1−1]抽出パターンの先頭項はワイルドカード項「@X」なので,個別処理選択手段42によりワイルドカード項処理手段46が起動される(ステップ20
    4)。

    【0051】[1−2]ワイルドカード項処理手段46
    では,指定パターンが「の<@Y>」となり,走査照合処理手段45が起動される(ステップ304)。 [1−3]走査照合処理手段45では,まず,固定位置照合処理手段4を起動する(ステップ402)。 このときの指定パターンの先頭項は一般項「の」であり,指定入力記号列は「TNN…」なので,不一致となる。

    【0052】[1−4]照合開始位置は終端でないので,照合開始位置決定手段44を起動する(ステップ4
    07)。 [1−5]照合開始位置決定手段44では,開始括弧で始まるかを調べる(ステップ501)が,開始括弧でないので,2番目の記号,すなわち,「NN(…」の先頭が照合開始位置となり(ステップ502),走査照合処理手段45に処理が戻る(ステップ408)。

    【0053】[1−6]走査照合処理手段45では,
    「NN(…」をあらたな指定入力記号列として(ステップ408),走査照合処理手段45を再帰的に起動する。 [1−7]上記[1−3]から[1−6]と同様の処理が繰り返され,指定入力記号列が「(電気通信の…」となり,走査照合処理手段45が起動されたとき,先頭項が不一致となるので,続いて,照合開始位置決定手段4
    4が起動される(ステップ407)。

    【0054】[1−8]照合開始位置決定手段44において,今度は,開始括弧「(」で始まるので,括弧対保存手段41から対となる終了括弧「)」を取り出す(ステップ503)。

    【0055】[1−9]指定入力記号列を「電気通信の会社)…」とする(ステップ504)。 [1−10]括弧スキップ手段43を起動する(ステップ505)。

    【0056】[1−11]括弧スキップ手段43では,括弧が表れる最初の位置を探し(ステップ601),「電気通信の会社」の後の「)」が見つかる。 [1−12]この括弧は終了括弧なので,その終了括弧に続く記号,すなわち,「の料金」の先頭が照合開始位置として出力され(ステップ605),照合開始位置決定手段44(ステップ506),走査照合処理手段45
    (ステップ408)へ処理が戻る。

    【0057】[1−13]再び固定位置照合処理手段4が起動される(ステップ402)。 [1−14]一般項処理手段47が起動される(ステップ205)。 指定パターンの先頭項「の」がまず,一致し,指定パターンを「@Y」(ステップ705),指定入力記号列を「料金」として(ステップ708),再び,固定位置照合処理手段4を起動する(ステップ70
    9)。

    【0058】[1−15]「@Y」が「料金」となり,照合が成功する(ステップ204,301,302,20
    6,710,404,305)。 [1−16]その結果,「の料金」が「の<@Y>」と照合成功し,「TNN(電気通信の会社)」が「@X」の抽出結果となる(ステップ306)。

    【0059】以上述べたように,処理(1−11)で括弧対の記号列がスキップされるので,括弧対が分断されずに抽出が行われる。 これに対し,従来装置の場合には,上記の処理[1−2]において,任意位置照合処理手段が起動されるため,一般項「の」と指定入力記号列中の記号列「電気通信の会社」の中の「の」と一致し,
    「@X」=「TNN(電気通信」,「@Y」=「会社)
    の料金」と抽出され,括弧対が分断されてしまう。

    【0060】図12は,照合対象記号列中に括弧を含まない場合の抽出結果であり,本実施例,従来装置とも,
    同じ抽出結果となる。 また,図13は,抽出パターン中に括弧対を陽に記述した場合の例であり,この場合は以下のような処理が行われ,正しく抽出される。

    【0061】[2−1]上記[1−1]と同じ処理。 [2−2]ワイルドカード項処理手段46では,指定パターンが「(<@Y>…」となり,走査照合処理手段4
    5が起動される(ステップ304)。

    【0062】[2−3]走査照合処理手段45では,まず,固定位置照合処理手段4を起動する(ステップ40
    2)。 このときの指定パターンの先頭項は一般項「(」
    であり,指定入力記号列は「TNN…」なので,不一致となる。

    【0063】[2−4]照合開始位置は終端でないので,照合開始位置決定手段44を起動する(ステップ4
    07)。 [2−5]照合開始位置決定手段44では,開始括弧で始まるかを調べる(ステップ501)が,開始括弧でないので,2番目の記号,すなわち,「NN(…」の先頭が照合開始位置となり(ステップ502),走査照合処理手段45に処理が戻る(ステップ408)。

    【0064】[2−6]走査照合処理手段45では,
    「NN(…」をあらたな指定入力記号列として(ステップ408),走査照合処理手段45を再帰的に起動する。 [2−7]上記[2−3]から[2−6]と同様の処理が繰り返され,指定入力記号列が「(電気通信の…」となり,走査照合処理手段45が起動されると,今度は先頭項「(」が一致するので(ステップ402,201,
    203,205,701から704),[1−7]の処理と異なり,一般項処理手段47において,指定パターンを「<@Y>)…」(ステップ705),指定入力記号列を「電気通信の…」として(ステップ708),再び,固定位置照合処理手段4を起動する(ステップ70
    9)。

    【0065】[2−8]同様の処理を繰り返し,「)」
    の箇所で一致し,さらに「)の料金」の「の」が抽出パターン「)の<@Z>」の「の」と一致し,その結果,
    「@X」=「TNN」,「@Y」=「電気通信の会社」,「@Z」=「料金」の抽出結果が得られる。

    【0066】このように,走査照合処理手段45では,
    抽出パターンと一致するかを見るためにまず固定位置照合手段4を起動し,一致しなかった場合に照合開始位置決定手段44を起動するよう構成しているため,抽出パターン中に陽に括弧対を記述した場合でも,入力記号列中の括弧と一致し,抽出が正しく行われる。

    【0067】また,図14は,開始括弧と終了括弧が同じ記号「”」である場合の抽出結果の例であり,「”」
    は開始括弧,終了括弧のどちらにも解釈し得るが,照合開始位置決定手段44のステップ501で最初の「”」
    は開始括弧と解釈され,括弧スキップ手段43では,2
    番目の「”」が見つかり(ステップ601),この括弧は終了括弧でもあるのでステップ604からステップ6
    05へ進み,図14に示すような抽出結果が得られる。

    【0068】なお,従来の技術で説明したようなサブパターン項,選言項,省略項の記述を可能とし,図1に示す固定位置照合処理手段4中に,サブパターン項処理手段,選言項処理手段,省略項処理手段などを備えた構成としてもよい。

    【0069】

    【発明の効果】以上説明したように,本発明によれば,
    固定位置照合処理手段に,括弧対保存手段,括弧スキップ手段,照合開始位置決定手段,ワイルドカード項で起動される走査照合処理手段を備え,ワイルドカード項の処理において,走査照合処理手段が照合開始位置決定手段を起動し,照合対象記号列中に括弧が存在すれば,照合開始位置決定手段が括弧スキップ手段を起動し,括弧対保存手段に登録した括弧対をチェックして,照合位置を決定しながら処理を行うため,ワイルドカード項と一致する記号列中の括弧の対の関係が保たれるように内容を抽出できるという効果が得られる。

    【図面の簡単な説明】

    【図1】本発明の実施例の構成図である。

    【図2】抽出パターン記述の書式定義の例を示す図である。

    【図3】括弧対保存手段に保存する括弧対の例を示す図である。

    【図4】照合対象記号列と抽出パターンとその抽出結果の例を示す図である。

    【図5】本実施例の全体の流れを示すフローチャートである。

    【図6】固定位置照合処理手段のフローチャートである。

    【図7】ワイルドカード項処理手段のフローチャートである。

    【図8】走査照合処理手段のフローチャートである。

    【図9】照合開始位置決定手段のフローチャートである。

    【図10】括弧スキップ手段のフローチャートである。

    【図11】一般項処理手段のフローチャートである。

    【図12】本発明の実施例を説明するための照合対象記号列と抽出パターンとその抽出結果の例を示す図である。

    【図13】本発明の実施例を説明するための照合対象記号列と抽出パターンとその抽出結果の例を示す図である。

    【図14】本発明の実施例を説明するための照合対象記号列と抽出パターンとその抽出結果の例を示す図である。

    【図15】従来装置の主要部の構成図である。

    【符号の説明】

    1 抽出パターン入力手段 2 抽出パターン解析手段 3 照合処理起動手段 4 固定位置照合処理手段 41 括弧対保存手段 42 個別処理選択手段 43 括弧スキップ手段 44 照合開始位置決定手段 45 走査照合処理手段 46 ワイルドカード項処理手段 47 一般項処理手段

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈