首页 / 专利库 / 软件 / 通配符 / Word attribute estimating system

Word attribute estimating system

阅读:303发布:2021-06-02

专利汇可以提供Word attribute estimating system专利检索,专利查询,专利分析的服务。并且PURPOSE: To provide a robust analysis function which is efficient, which can deal with all undefined words and whose tuning is facile by registering a character string including a wild card character in a dictionary and statistically processing it without discriminating it from a general word. CONSTITUTION: An analysis means 3 judges the matching of the character string including the wild card character, which is stored in an occurrence probability storage means, with an input character string when the word attribute of the input character string cannot be decided by using the dictionary 1. When they match with each other, the character string and/or the occurrence probability of the word attribute, which are stored in the occurrence probability storage means 2, are read out and they are outputted to a word attribute estimation means 5 together with information stored in the dictionary 1. The word attribute estimation means 5 receiving the candidate of the word attribute and the occurrence probability selects the word attribute having the occurrence of more than a prescribed number, makes it a pair with the corresponding input character string and sets it to be the output of a text analysis device.,下面是Word attribute estimating system专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 電子化文字列を解析・加工する機能を有するテキスト解析装置において、文字列と属性付き単語との対応情報をもつ辞書を備え、辞書の内部もしくは外部に、ワイルドカード文字を含む文字列と単語属性の確率付き対応情報を格納した生起確率格納手段を備え、入力された電子化文字列または読み込んだ電子化文字列に対して前記辞書を用いて文字列解析を行って属性付き単語列を出力する解析手段を備え、前記解析手段に付属して、入力された文字列と前記生起確率格納手段に登録されたワイルドカード文字を含む文字列とを照合して一致したエントリーを部分文字列および/または単語属性の生起確率とともに出力するワイルドカード照合手段を備え、前記解析手段は、前記辞書のみを用いて入力文字列の単語属性を決定できない場合に、前記ワイルドカード照合手段を用いて前記生起確率格納手段に格納されたワイルドカード文字を含む文字列と該入力文字列との一致を判定し、一致した場合に前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率を読み出して前記辞書に格納されていた情報とともに単語属性推定手段に出力すると共に、これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、一定以上の生起確率をもつ単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする単語属性推定方式。
  • 【請求項2】 請求項1記載のテキスト解析装置に加えて、辞書の内部もしくは連接確率格納手段は外部に、ワイルドカード文字を含む文字列と単語属性の組が複数互いに連接する確率を格納した連接確率格納手段を備え、
    前記解析手段が前記ワイルドカード照合手段を用いて当該入力文字列と一致した前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率を読み出した際に、前記連接確率格納手段に格納されたワイルドカード文字を含む文字列と当該入力文字列および当該入力文字列の前後の文字列との一致をも前記ワイルドカード照合手段を用いて判定すると共に、当該の前後の文字列をも含むすべての文字列が一致と判定されたエントリーが前記連接確率格納手段の中に存在した場合、前記解析手段は当該エントリーに記述された連接確率を読み出して、前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率および前記辞書に格納されていた情報とともに単語属性推定手段に出力し、これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、当該の生起確率と連接確率をパラメータとする単調な関数の関数値を計算し、その関数値の大小によって単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする単語属性推定方式。
  • 【請求項3】 請求項2記載のテキスト解析装置に加えて、前記単語属性推定手段の出力する属性付き単語列および当該の生起確率、連接確率を受け取って、前記生起確率格納手段および前記連接確率格納手段にエントリーを追加する、もしくは既存のエントリーの確率値を更新する確率情報更新手段を備え、該テキスト解析装置が逐次入力文字列を解析していく際に、前記確率情報更新手段が前記生起確率格納手段および前記連接確率格納手段の内容を逐次更新していくことを特徴とする単語属性推定方式。
  • 【請求項4】 請求項3記載のテキスト解析装置に加えて、前記確率情報更新手段が出力する文字列を前記生起確率格納手段および前記連接確率格納手段のエントリーと比較することによって新たにワイルドカードを含む部分文字列を設定するワイルドカード化判定手段を備え、
    前記確率情報更新手段の出力を受け取った前記ワイルドカード化判定手段が当該の新たなワイルドカードを含む部分文字列を設定した際に、当該の新たなワイルドカードを含む部分文字列に一致するすべてのエントリーの確率値の合計を各々前記生起確率格納手段および前記連接確率格納手段において計算し、その合計値と当該の新たなワイルドカードを含む部分文字列との組を各々前記生起確率格納手段および前記連接確率格納手段の新たなエントリーとして追加することを特徴とする単語属性推定方式。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、OA、研究開発、教育、出版等をはじめとする産業分野で広く利用される文書処理、および情報検索、情報要約、さらに機械翻訳、
    文字認識、音声認識・合成の応用システムに関する。

    【0002】

    【従来の技術】電子ネットワークおよび、ワードプロセッサをはじめとする電子化テキスト作成・編集・閲覧ツールの急速な発達と普及により、大量の電子化テキストを随時入手できる環境が現実のものとなっている。 この「大量さ」は、多くの現場で既に人間が全文を読める分量をはるかに超えているため、テキスト解析による情報検索、情報要約への要求が高まっている。 また、解析の結果を、編集中の文書に適切に引用したり、索引を作成したりして利用できるようにする技術への期待も高い。
    これらの応用を支えるのは自由テキストを解析し、その結果に基づいて情報の重要度の評価をしたり、入テキストから構造情報を取り出したりするのに必要な属性を高速に一様に抽出する技術である。 そのための汎用の解析器を構成するためには、自然言語の単語辞書を用意し、そのエントリーに必要な属性ラベルを付与しておく必要がある。 属性ラベルの中でも、品詞の情報は、解析そのものの精度を高めるために自己参照される重要な情報である。

    【0003】一方、オフィスワークや情報サービスがマルチメディア化/個別サービス化するのに伴い、音声認識・合成への期待も急速に高まっている。 音声合成のためのテキスト解析の出力の中で最重要の単語属性は言うまでもなく「読み」の情報である。 しかし、アクセントや抑揚の自然さに代表される「読みの自然さ」の向上のための技術開発によって、単語の品詞情報が正しく得られることが、フレーズや文の単位の「読みの自然さ」の改善に大きく役立つことが指摘されるようになった(たとえば、山崎95p.15−16)。 音声認識においても、品詞列の確率的予測を行なう言語モデルによって精度を改善する試みがなされているため、品詞情報を正しく推定する技術の役割がますます大きく期待されるようになっている。

    【0004】これらの応用をもつ品詞推定、もしくはより一般的な単語属性推定の技術であるが、従来は、スペルチェッカーやOCR後処理などに直接的な応用をもつ綴り誤りの復回処理にくらべると、報告例が少ない。 その中で、山階88は複合語の意味属性をその構成語(既知語)の情報によって求める方法を提案し、特開平04
    −112268「辞書コンパクト方式」は辞書容量の削減を目的として未定義語を常に名詞と判定する枠組を示し、特開平03−263266「未語の品詞選択装置」
    ではバックプロパゲーション型ニューラルネットワークを用いた品詞推定方法を示している。 これらは、いずれも、次のうち1つ以上の問題点を抱えている。

    【0005】問題:1)特別な未定義語処理を必要とする。

    【0006】2)推定機能が部分的である。

    【0007】3)トレーニングコストが大き過ぎて実用規模のシステム構築に適さない。

    【0008】まず、特開平03−263266を除く、
    どの従来技術も、1)未定義語処理のための特別な仕掛けを必要とし、未定義語であった場合には品詞等の推定の処理の時間コストが加算される。 これは、逐次入力されるテキストを実時間処理しなければならない場合に、
    ユーザーに予測できない事情によりレスポンス速度が上下してしまう、という欠陥につながる。

    【0009】次に、山階88の方法は、日本語の複合語に限った規則ベースの方法であり、しかも構成語が既知語であるときにのみ有効である。 さらに、このような長単位の複合語はほとんどが名詞であるため、もともと概念カテゴリの推定をうたっているように、品詞の推定には有効な方法とはいえない。 すなわち2)推定機能が部分的、という問題点に典型的に該当する。

    【0010】特開平04−112268「辞書コンパクト方式」では、名詞のみを対象とした未知語の品詞推定について述べられているが、そもそも、世の中のほとんど全ての語彙をカバーした既存の大容量の辞書の存在を前提としている。 この大容量辞書から名詞を削除して辞書容量の低減をはかることが本来の目的であることからもわかるように、この方式は、未定義語を名詞としか推定できない。 したがって、もしも元の大容量辞書に動詞や形容詞の採録洩れがあった場合、それらは誤って名詞と推定されることになる。 この意味で推定機能が部分的である。 新造語は、サ変動詞を含めて日々登場してきており、特開平04−112268の方式の前提は適切とは言い難い。

    【0011】次に、特開平03−263266「未知語の品詞選択装置」では、バックプロパゲーション型ニューラルネットワークを用いて、構成文字の種類、順序、
    出現位置を入力層のノードに割り当て、出力層のノードに品詞を割り当てるという構成を示している。 ここで問題になるのは、トレーニングコストであるが、このコストについては厳密解は得られていないものの、“Per
    ceptrons Rev. 2”by Marvin
    Minsky & Seymor Papartによれば、一般にバックプロパゲーション型のニューラルネットのトレーニングに要する時間コストが、入出力ノード数の指数関数オーダーとなることが強く示唆されている。 すなわち、実用になるのは、ノード数が高々数10
    0にとどまるケースについてのみであり、これは、19
    84年以来多数のアプリケーションの実験報告の規模がほとんどノード数が数10のオーダーであったことと符号する。

    【0012】「未知語の品詞選択」というアプリケーションにおいては、自然言語の語彙の規模を数万とし、その特徴的な部分文字列の単語内部での組合せのヴァリエーションを数千程度と低めに見積もったとしても、前段落によれば、トレーニング時間がボトルネックとなって、実用規模のシステムが構成できる見込みはないことになる。 個々の単語を特徴付ける文字列パターンのバリエーションの他に、これらの単語の隣接の組合せを入力層のノードに対応させるならば、隣接2単語のみの関係を表現するにとどめてもノードの規模は数百万となり、
    さらに非現実的なトレーニングコストとなることが見積もられる。 仮に単語の並びによる品詞推定は全く別の原理(たとえば本発明にて提案する方式)で行なうとしても、数千のノードで指数関数オーダーのトレーニングを行なわせるには大きな時間コストがかかる。

    【0013】これに対し、以下に説明する本発明の方式によれば、既知の単語に対する品詞推定およびそのためのトレーニングと同じ処理によって推定が行なわれる。
    また、推定に要する時間コストは入力単語数に対して線形であり、部分文字列を生成しながら一般化しながらトレーニングを行なう際の時間コストは、高々O(c *
    * n)である(但しcは単語の文字列の最長値、mは辞書に登録された語彙数、nは入力単語数)。 すなわち、
    推定の際には、部分文字列項目の増加を語彙数mの増加とみなしたならば、未知語処理専用にかかるコストはゼロである。 参考文献: 山階88:未知語の概念カテゴリ推定法の検討 情報処理学会第37回全国大会予稿集 特開平03−263266「未知語の品詞選択装置」 特開平04−112268「辞書コンパクト方式」 山崎95:山崎信英:「最近のテキスト音声合成とその技術」Bit,1995,3月号p. 15−16

    【0014】

    【発明が解決しようとする課題】本発明は、品詞推定/
    単語属性に関する従来の技術の主要な問題点1)特別な未定義語処理を必要とすること、2)推定機能が部分的であること、3)トレーニングコストが大きいこと、の3点を解決し、実時間応用を含む幅広い応用に実用できる単語属性推定の機能を提供することめざす。

    【0015】

    【課題を解決するための手段】上記問題点を解決するため本発明の単語属性推定方式は、それぞれ以下の特徴を有する。

    【0016】第1の発明は、電子化文字列を解析・加工する機能を有するテキスト解析装置において、文字列と属性付き単語との対応情報をもつ辞書を備え、辞書の内部もしくは外部は、ワイルドカード文字を含む文字列と単語属性の確率付き対応情報を格納した生起確率格納手段を備え、入力された電子化文字列または読み込んだ電子化文字列に対して前記辞書を用いて文字列解析を行って属性付き単語列を出力する解析手段を備え、前記解析手段に付属して、入力された文字列と前記生起確率格納手段に登録されたワイルドカード文字を含む文字列とを照合して一致したエントリーを部分文字列および/または単語属性の生起確率とともに出力するワイルドカード照合手段を備え、前記解析手段は、前記辞書のみを用いて入力文字列の単語属性を決定できない場合に、前記ワイルドカード照合手段を用いて前記生起確率格納手段に格納されたワイルドカード文字を含む文字列と該入力文字列との一致を判定し、一致した場合に前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率を読み出して前記辞書に格納されていた情報とともに単語属性推定手段に出力する。 これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、一定以上の生起確率をもつ単語属性を選択し、
    対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする。

    【0017】第2の発明は、第1の発明のテキスト解析装置に加えて、辞書の内部もしくは連接確率格納手段は外部に、ワイルドカード文字を含む文字列と単語属性の組が複数互いに連接する確率を格納した連接確率格納手段を備え、前記解析手段が前記ワイルドカード照合手段を用いて当該入力文字列と一致した前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率を読み出した際に、前記連接確率格納手段に格納されたワイルドカード文字を含む文字列と当該入力文字列および当該入力文字列の前後の文字列との一致をも前記ワイルドカード照合手段を用いて判定する。 当該の前後の文字列をも含むすべての文字列が一致と判定されたエントリーが前記連接確率格納手段の中に存在した場合、前記解析手段は当該エントリーに記述された連接確率を読み出して、前記生起確率格納手段に格納された当該文字列および/または単語属性の生起確率および前記辞書に格納されていた情報とともに単語属性推定手段に出力する。 これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、当該の生起確率と連接確率をパラメータとする単調な関数の関数値を計算し、その関数値の大小によって単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする。

    【0018】第3の発明は、第2の発明に加えて、前記単語属性推定手段の出力する属性付き単語列および当該の生起確率、連接確率を受け取って、前記生起確率格納手段および前記連接確率格納手段にエントリーを追加する、もしくは既存のエントリーの確率値を更新する確率情報更新手段を備え、該テキスト解析装置が逐次入力文字列を解析していく際に、前記確率情報更新手段が前記生起確率格納手段および前記連接確率格納手段の内容を逐次更新していくことを特徴とする。

    【0019】第4の発明は、第3の発明に加えて、前記確率情報更新手段が出力する文字列を前記生起確率格納手段および前記連接確率格納手段のエントリーと比較することによって新たにワイルドカードを含む部分文字列を設定するワイルドカード化判定手段を備え、前記確率情報更新手段の出力を受け取った前記ワイルドカード化判定手段が当該の新たなワイルドカードを含む部分文字列を設定した際に、当該の新たなワイルドカードを含む部分文字列に一致するすべてのエントリーの確率値の合計を各々前記生起確率格納手段および前記連接確率格納手段において計算し、その合計値と当該の新たなワイルドカードを含む部分文字列との組を各々前記生起確率格納手段および前記連接確率格納手段の新たなエントリーとして追加することを特徴とする。

    【0020】

    【作用】本発明によれば、上記各手段を組合せて機能させることにより、未定義語検出のための特別な手段を設けることなく少ない計算量で、単語属性の推定のために必要なトレーニングを行い、そして、完全な綴りが辞書に登録されていない単語の品詞/属性を推定することができる。 推定の精度は、未登録語が特徴的な部分文字列を多量に含むほど単調に向上する。 また請求項3および4の発明では、より多くのトレーニングデータを用いれば用いるほど、平均的精度が向上する。 請求項4の発明では、トレーニングの際にワイルドカードの文字数を増やして一般化することにより、特徴的な部分文字列が少量であっても正しい品詞・属性を推定できる可能性が請求項3の発明に比べて高くなる。

    【0021】

    【実施例】次に本発明の実施例について、図面を参照して説明する。

    【0022】図1は第1の請求項の単語属性推定方式が動作する装置の構成例を示す概念図であり、図2は第2
    の請求項の単語属性推定方式が動作する装置の構成例を示す概念図、図3は、第3の請求項の単語属性推定方式が動作する装置の構成例を示す概念図、図4は、第4の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

    【0023】図5は辞書1の内容例、図6は生起確率格納手段2の内容例を示す。 図7は解析手段3が入力文字列を辞書1の内容と照合する手順の例を示す流れ図であり、図8は、ワイルドカード照合手段4が解析手段3に入力された入力文字列と、生起確率格納手段2の内容とを照合する手順の例を示す流れ図である。 図9は、単語属性推定手段5が解析手段3から受け取った、辞書1の内容および生起確率格納手段2の内容の付属する単語列に対して、個々の単語の単語属性を推定して属性付き単語列を出力する手順の例を示す流れ図である。 図10
    は、連接確率格納手段6の内容例を示す。

    【0024】図11は、確率情報更新手段7の動作後の生起確率格納手段2の内容例であり、図12は、ワイルドカード化判定手段8が機能した場合の確率情報更新手段7の動作後の生起確率格納手段2の内容例である。 図13は、確率情報更新手段7の動作後の連接確率格納手段6の内容例であり、図14は、ワイルドカード化判定手段8が機能した場合の確率情報更新手段7の動作後の連接確率格納手段6の内容例である。

    【0025】図1の装置に、たとえば次の入力文字列が逐次入力されたときの動作を以下に説明する。 [入力文字列A]:The suspect is t
    o be adjudicated for the
    abduction today afterthe
    severe admonition by the
    court last week. 入力文字列Aは、解析手段3に1字ずつ入力され、空白コード等を手がかりに単語の単位に分割され、単語候補の列として解析手段3の内部の入力バッファに蓄えられる。 解析手段3は、入力バッファ中の単語候補を単語と同定し、その属性を調べるために信号線を介して辞書1
    にアクセスし、図7の手順による前方一致の文字列マッチングにより、辞書1および生起確率格納手段2に格納されている全ての単語属性を取り出す。

    【0026】たとえば、ここで[入力文字列A]の先頭2単語The suspectが解析手段3の内蔵する入力バッファに存在していた状態で、図7の流れ図の開始部分に処理が渡されたとする。 開始直後に解析手段3
    の内蔵する入力バッファに単語候補が存在しているか否かを調べ存在しているのでYesとなる。 次に入力バッファの先頭にある1語の単語候補“the”をとり、ワイルドカード照合手段4により辞書1の登録後と前方一致マッチングを行う。

    【0027】図5に示すように辞書1には“the”という登録語が存在するので、このときワイルドカード照合手段4は図8の上で常に「(鍵文字列中の文字を指す)ポインタ1が“ * ”か?」が“No”となり、その文字は照合対象単語候補中の文字を指すポインタ2の文字と一致する。 これは、文字列が終わるまで3回繰り返され、「「ずらし照合中」フラグをOFFにし、ポインタ1、2を共にインクリメント」の処理を含むループを3回まわる。 文字列の終端に達したところで「インクリメントできたか?」が“No”となり、このときは「両ポインタとも同時にインクリメント不能?」が“Ye
    s”となるので、「“登録語の文字列と一致”という戻り値とともに照合を終了する。

    【0028】このように、単語候補の文字列と一致するので、活用語尾エントリーとの再帰的なマッチングを行うことなく、図5中の辞書1の単語属性「冠詞;定冠詞」および、図6中の生起確率格納手段2に格納された単語属性、「生起確率[冠詞]=1」を単語属性推定手段5へ出力する。 こうして、図9の第一の処理手順に基づいて、解析手段3からすべての単語属性の候補と確率値を受け取った単語属性推定手段5は、図9の第二の処理手順に従って、次の関数値を計算する。

    【0029】 Max a (Wo×Oa+Wc×Ca+Woc×Ca) (各単語属性aの生起確率Oaおよび連接確率Ca;W
    o,Wc,Wocは各項の重み係数) ここで、単語属性の候補aは一組しかなく、連接確率は存在しないため、「生起確率[冠詞]=Oa=1」による値が最大となるため、単語属性「冠詞;定冠詞」およびそれと組となる単語属性「生起確率[冠詞]=1」が単語属性Aをとして選択され、Aを当該単語の単語属性として単語属性推定手段5から出力される。

    【0030】次に、入力バッファに1つ残った単語候補文字列suspectに対する解析手段3、ワイルドカード照合手段4、単語属性推定手段5の動作を説明する。 図7の最初の判断「入力バッファ中にまだ単語候補が存在している?」でYesとなり、次の処理手順でワイルドカード照合手段4を起動し、図8の流れ図に従って、単語候補文字列suspectと図5の辞書内容の個々のエントリーとの照合を行う。 ここではまず、照合の結果”一致せず”となる辞書エントリーの代表として
    * nessをとりあげ、その照合動作を説明する。 照合の開始直後は、辞書中の鍵文字列* nessの先頭文字
    *にポインタ1があるため、「ポインタ1がワイルドカードか?」は“Yes”となる。 流れ図にしたがって、
    「「ずらし照合中」フラグをONにし、ポインタ1を1
    インクリメント」を実行すると、インクリメントできて(“Yes”)、2番目の文字nにポインタ1がくる。
    今度は、「ポインタ1がワイルドカードか?」は“N
    o”となる。そして次の「ポインタ2の文字とポインタ1の文字が一致するか?」は、sとnで異なるため“N
    o”となる。さきほどの処理で「ずらし照合中」フラグはONになっているため、「「ずらし照合中」フラグはONか? 」は“Yes”となり、「ポインタ2を1インクリメントする」と、インクリメントできて(“Ye
    s”)ポインタ2は、suspectの2番目の文字u
    を指示するようになる。 ここで流れ図の左端をループバッグして再び「ポインタ2の文字とポインタ1の文字が一致するか?」の判断となるが、uとnで異なるため“No”となる。

    【0031】以下、ポインタ2を1インクリメントしながらこのループを5回まわり、順にs,p,e,c,t
    とnとを比較して「ポインタ2の文字とポインタ1の文字が一致するか?」の判断を行うが、これらは異なるため毎回“No”となる。 この時点でインクリメントできなくなり(“No”)、流れ図を下へ抜けて、「“登録語の文字列と一致せず”を関数の戻り値とし」、ワイルドカード照合手段4の動作を終了する。

    【0032】制御を戻された解析手段3は、別の辞書エントリー* pectに対してワイルドカード照合手段4
    を起動する。 照合の開始直後は、辞書中の鍵文字列*
    ectの先頭文字*にポインタ1があるため、「ポインタ1がワイルドカードか?」は“Yes”となる。 図8
    の流れ図にしたがって、「「ずらし照合中」フラグをO
    Nにし、ポインタ1を1インクリメント」を実行すると、インクリメントできて(“Yes”)、2番目の文字pにポインタ1がくる。 今度は、「ポインタ1がワイルドカードか?」は“No”となる。 そして次の「ポインタ2の文字とポインタ1の文字が一致するか?」は、
    sとnで異なるため“No”となる。 さきほどの処理で「ずらし照合中」フラグはONになっているため、
    「「ずらし照合中」フラグはONか? 」は“Yes”となり、「ポインタ2を1インクリメントする」と、インクリメントできて(“Yes”)ポインタ2は、sus
    pectの2番目の文字uを指示するようになる。 ここで流れ図の左端をループバックして再び「ポインタ2の文字とポインタ1の文字が一致するか?」の判断となるが、uとnで異なるため“No”となる。

    【0033】ポインタ2を1インクリメントしながらこのループをもう1回まわり、sとpとを比較するまでは、「ポインタ2の文字とポインタ1の文字が一致するか?」の判断は“No”となる。 その次のループでは、
    ポインタ2の指示する先はsuspectの中の4番目の文字pとなるため、「ポインタ2の文字とポインタ1
    の文字が一致するか? 」の判断は“Yes”となる。 流れ図に従って、「「ずらし照合中」フラグをOFFにし、ポインタ1、2を共に1インクリメント」すると、
    ポインタ2はsuspectの中の5番目の文字eを指示し、ポインタ1は、 * pectの中の3番目の文字e
    を指示するようになる。 この結果は、インクリメント成功(“Yes”)であり、流れ図の右方をループバックする。 「ポインタ1がワイルドカードか?」は“No”
    となり、「ポインタ2の文字とポインタ1の文字が一致するか?」の判断は共にeで“Yes”となる。 以下、
    c,tの文字についても同じループをまわり、両ポインタの指す文字が共にtで一致した後、両ポインタは同時にインクリメントできなくなる。 この結果、「両ポインタともインクリメントできなかったか、あるいはインクリメント後のポインタ1の文字が“ * ”か?」は“Ye
    s”となり、流れ図を下へ抜けて、「“登録語の文字列と一致”を関数の戻り値とし」た後、ワイルドカード照合手段4の動作を終了する。

    【0034】制御は解析手段3に戻り、「辞書1の登録語と前方マッチング」の結果、「前方一致する登録語*
    pectが存在し」て“Yes”、この結果、ワイルドカード照合手段4により全文字列が一致したことになるので、「登録語の文字列と一致?」も“Yes”となる。 この結果、「当該の単語に対応に対応する単語属性を単語属性推定手段5へ出力」の処理を行って、図5に記載の辞書1に格納された* pectの単語属性「動詞原形/名詞」、および図6に記載の生起確率格納手段2
    に格納された* pectの単語属性「 * pect「動詞;原形」/0.7「名詞」0.3」が単語属性推定手段5へと出力される。 後者は、「生起確率[動詞]=O
    a=0.7;生起確率[名詞]=Ob=0.3」と同等である。

    【0035】こうして、図9の第一の処理手順に基づいて、解析手段3からすべての単語属性の候補と確率値を受け取った単語属性推定手段5は、図9の上から2番目の処理に従って、次の関数値を計算する。

    【0036】Max a (Wo×Oa+Wc×Ca+Wo
    c×Oa×Ca) (ここで各単語属性aの生起確率Oaおよび連接確率C
    a;Wo,Wc,Wocは各項の重み係数) ここで、単語属性の候補aは一組しかなく、連接確率は存在しないため、「生起確率[動詞]=Oa=0.7」
    による値0.7Woが最大となる。 この結果、単語属性「動詞;原形」およびそれと組となる単語属性「生起確率[動詞]=0.7」が単語属性Aをとして選択され、
    Aを当該単語の単語属性として単語属性推定手段5から出力される。

    【0037】同様にして、入力文字列Aの中の全ての単語候補文字列が、互いに独立に処理された結果、次の属性付き単語列が、第1の請求項の方式による解析結果として出力される。

    【0038】The:単語属性={「冠詞;定冠詞」,
    「生起確率[冠詞]=1」} suspect:単語属性={「動詞;原形」,「生起確率[動詞]=0.7」} is:単語属性={「BE動詞」,「生起確率[BE動詞]=1」} to:単語属性={「不定詞マーカ」,「生起確率[不定詞マーカ]=0.6」} be:単語属性={「BE動詞」,「生起確率[BE動詞]=1」} adjudicated:単語属性={「動詞;過去分詞形」,「生起確率[動詞]=1」} for:単語属性={「前置詞;FOR」,「生起確率[ ]=1」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} abduction:単語属性={「名詞」,「生起確率[名詞]=1」} today:単語属性={「名詞的副詞」,「生起確率[名詞的副詞]=0.6」} after:単語属性={「前置詞;AFTER」,
    「生起確率[前置詞]=0.5」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} severe:単語属性={「形容詞」,「生起確率[形容詞]=1」} admonition:単語属性={「名詞」,「生起確率[名詞]=1」} by:単語属性={「前置詞」,「生起確率[前置詞]
    =0.9」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} court:単語属性={「名詞」,「生起確率[名詞]=1」} last:単語属性={「形容詞」,「生起確率[形容詞]=0.6」} week:単語属性={「名詞」,「生起確率[名詞]
    =1」} 次に、第2の請求項の実施例における動作を説明する。

    【0039】図2の装置に、第1の請求項の場合と同じ入力文字列Aが入力されるものとする。 [入力文字列A]:The suspect is t
    o be adjudicated for the
    abduction today afterthe
    severe admonition by the
    court last week. 入力文字列Aは、解析手段3に1字ずつ入力され、空白コード等を手がかりに単語の単位に分割され、単語候補の列として解析手段3の内部の入力バッファに蓄えられる。 解析手段3は、入力バッファ中の単語候補を単語と同定し、その属性を調べるために信号線を介して辞書1
    にアクセスし、図7の手順による前方一致の文字列マッチングにより、辞書1および生起確率格納手段2に格納されている全ての単語属性を取り出す。

    【0040】たとえば、ここで[入力文字列A]の先頭3単語The suspectisが解析手段3の内蔵する入力バッファに存在していた状態で、図7の流れ図の開始部分に処理が渡されたとする。 最初の単語候補文字列theについては、左側に隣接する単語が存在しないため、第1の請求項の場合と同じに動作する。

    【0041】第2の単語候補文字列suspectについては、右側に隣接する単語候補文字列isに対して、
    辞書1の内容を参照した上で、解析手段3が連接確率格納手段6に格納された条件を満たすすべての連接確率を取り出すという処理が加わる。 単語候補文字列isを辞書1に照合する手順は、前述の図7、図8による手順と同じである。 照合の過程では、解析手段3は、ワイルドカード照合手段4を起動し、図8の流れ図に従って、と図5の辞書内容の個々のエントリーとの照合を行う。 ここで、図5より、照合の結果”一致する”辞書エントリーは、同一の文字列からなるis”のみである。この照合動作の詳細は、同一の文字列theの単語候補文字列と辞書エントリーとを照合した上述の動作と基本的に同じ動作となるため、説明を省略する(違いが生ずるのは文字数が3に対して2と少ないことからループの回数が減ることのみ)。

    【0042】右側に隣接する単語候補文字列isに対する辞書1の内容が得られたら、解析手段3は、前回処理した左側単語分の単語文字列とそれらの単語属性、今回処理した単語文字列とそれらの単語属性、これらの組み合わせ条件に合致するエントリーが連接確率情報格納手段6に存在しないかどうか条件検索し、条件に合致するエントリーをすべて取り出して、単語属性推定手段5へ出力する。 この条件検索は、単語文字列については、ワイルドカード照合手段4によって、単語属性については、属性の集合間の包含関係を調べる集合演算によって行われる。 ここではまず、図10の最上行にある、Ri
    ght文字列=isをもつ連接確率の条件「Left文字列=the,Left品詞=定冠詞,Center文字列= * ,Center品詞=名詞,Right文字列=is,Right品詞=BE動詞,連接確率Caは0.041」が条件を満たすことが以下のように検査される。 前回解析手段3が処理した左側隣接単語theは「Left文字列=the,Left品詞=定冠詞」の条件を満たしている。 また今回解析手段3が処理した単語suspectは、「Center文字列= * ,Ce
    nter品詞=名詞」の条件を満たしている。 また、右側に隣接する単語isについては、辞書1からBE動詞という単語属性が得られているため、「Right文字列=is,Right品詞=BE動詞」の条件も満足される。 この結果、この連接確率の条件は全て満たされ、
    単語suspectに付随する単語属性として、連接確率=0.041が単語属性推定手段5へ出力される。

    【0043】図10の中には、他に条件に適合する連接確率のエントリーがないため、a=名詞の場合の連接確率Ca=0.041のみが単語属性推定手段5へ出力された連接確率となる。 ここで、単語属性推定手段5は図9の第2の処理手順において、関数値を最大とする単語属性の組み合わせを計算する。 まず、第一の請求項の方式と同様にして、図6に記載の生起確率格納手段2に格納された* pectの単語属性「 * pect「動詞;原形」/0.7「名詞」0.3」が単語属性推定手段5へと出力され、「生起確率[動詞]=Oa=0.7;生起確率[名詞]=Ob=0.3」が得られる。

    【0044】こうして、図9の第一の処理手順に基づいて、解析手段3からすべての単語属性の候補と確率値を受け取った単語属性推定手段5は、図9の上から2番目の処理に従って、次の関数値を計算する。

    【0045】Max a (Wo×Oa+Wc×Ca+Wo
    c×Oa×Ca) (ここで各単語属性aの生起確率Oaおよび連接確率C
    a;Wo,Wc,Wocは各項の重み係数) ここで、1>Oa>0,1>Ca>0,1>>O×Ca
    >0という性質から妥当な重み係数として、Wo=1,
    Wc=1,Woc=50とする。 a=動詞のときは、O
    a=0.7,Ca=0であるから、関数値は1×0.7
    =0.7となる。 a=名詞のときは、Oa=0.3,C
    a=0.041であるから、関数値は、1×0.3+
    0.041+50 * 0.3×0.041=0.956となる。 この結果、 Max a (Wo×Oa+Wc×Ca+Woc×Oa×
    C)=0.956 (a=名詞)となる。

    【0046】この結果、単語属性の「名詞」およびそれと組となる単語属性「生起確率[名詞]=0.3」「連接確率=0.041」が単語属性Aをとして選択され、
    Aを当該単語の単語属性として単語属性推定手段5から出力される。

    【0047】同様にして、入力文字列Aの中の全ての単語候補文字列が、互いに独立に処理された結果、次の属性付き単語列が、第2の請求項の方式による解析結果として出力される。

    【0048】The:単語属性={「冠詞;定冠詞」,
    「生起確率[冠詞]=1」} suspect:単語属性={「名詞」,「生起確率[名詞]=0.3」,「連接確率=0.041」} is:単語属性={「BE動詞」,「生起確率[BE動詞]=1」} to:単語属性={「不定詞マーカ」,「生起確率[不定詞マーカ]=0.6」} be:単語属性={「BE動詞」,「生起確率[BE動詞]=1」} adjudicated:単語属性={「動詞;過去分詞形」,「生起確率[動詞]=1」} for:単語属性={「前置詞;FOR」,「生起確率[ ]=1」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} abduction:単語属性={「名詞」,「生起確率[名詞]=1」} today:単語属性={「名詞的副詞」,「生起確率[名詞的副詞]=0.6」} after:単語属性={「前置詞;AFTER」,
    「生起確率[前置詞]=0.5」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} severe:単語属性={「形容詞」,「生起確率[形容詞]=1」} admonition:単語属性={「名詞」,「生起確率[名詞]=1」} by:単語属性={「前置詞」,「生起確率[前置詞]
    =0.9」} the:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」} court:単語属性={「名詞」,「生起確率[名詞]=1」} last:単語属性={「形容詞」,「生起確率[形容詞]=0.6」} week:単語属性={「名詞」,「生起確率[名詞]
    =1」} 次に、第3の請求項の実施例における動作を説明する。

    【0049】図3の装置に、第1の請求項の場合と同じ入力文字列Aが入力されるものとする。 [入力文字列A]:The suspect is t
    o be adjudicated for the
    abduction today afterthe
    severe admonition by the
    court last week. この入力文字列Aが入力されてから、図3の装置は、第2の請求項の場合と全く同じ動作を経て、単語属性推定手段5から第2の請求項の場合と全く同じ属性付き単語列を出力する。 第3の請求項の方式に特有の動作は、この属性付き単語列が、確率情報更新手段7に渡され、それが、生起確率格納手段2の内容、そして連接確率格納手段6の内容を更新する部分であり、以下この動作を説明する。

    【0050】確率情報更新手段7は、まず、図6に示された生起確率格納手段2の内容を図11に示す内容に更新する。 すなわち、The:単語属性={「冠詞;定冠詞」,「生起確率[冠詞]=1」}からweek:単語属性={「名詞」,「生起確率[名詞]=1」}にいたる単語とその単語属性を逐次受け取って、図6中の当該の単語における出現回数を1インクリメントする。 さらに以下のようにして各生起確率の値を更新する。

    【0051】単語属性推論手段5によって選択された属性(品詞名)aの場合: 新生起確率={旧生起確率×(旧出現回数+1)}/
    (旧出現回数+1) 単語属性推論手段5によって選択されなかった属性(品詞名)の場合: 新生起確率={旧生起確率×(旧出現回数)}/(旧出現回数+1) このようにして、単語属性推定手段5が出力した全ての属性付き単語について、上式による生起確率の更新を行った結果を示したのが図11である。

    【0052】次に連接確率格納手段6の内容であるが、
    これも同様に更新処理を行った結果、図10の内容が図12の内容へと変化する。 従来存在しなかった連接の組み合わせが生じたときは、属性付き単語列の情報を用いて新たなエントリーを連接確率格納手段6に追加する。
    属性付き単語列が連接確率の情報を含んでいたのは、単語列Aの中では単語suspectのみであり、これが更新処理に該当する。 他の単語で左右に隣接語をもつものは、新たなエントリーを追加する処理に該当する。

    【0053】確率情報更新手段7は、単語suspec
    tをCenter文字列にもつ図10のエントリーに対して出現回数を1インクリメントして42とする。 そして、新連接確率=={旧連接確率×(旧出現回数+
    1)}/(旧出現回数+1)により、新連接確率=0.
    042として、このエントリーを図12に示す内容に更新する。 他の単語、{is to be adjudi
    cated for the abduction t
    oday after the severeadmo
    nition by the court last}
    については、左隣接語、自身、右隣接語の文字列を各々、Left文字列、Center文字列、Right
    文字列とし、それぞれの単語属性の内、品詞の情報をL
    eft品詞、Center品詞、Right品詞としたエントリーを追加する。 連接確率は、他のエントリーから求められる全エントリーの延べ出現回数S(図10でS=1000)を用いて、連接確率=1/{S+1}=
    0.001(有効数字2桁)と求められる。 図12では煩雑さを避けるため、新たに追加される16エントリーのうち、最初の3エントリーのみを記述している。

    【0054】次回以降の解析では、確率情報更新手段7
    によって更新された生起確率格納手段2および連接確率格納手段6の内容が使用される。 このように、解析処理を行うと同時に、解析対象となった実データを反映するように生起確率格納手段2および連接確率格納手段6の内容が逐次更新されていくのが第3の請求項の方式の特徴である。

    【0055】次に、第4の請求項の実施例における動作を説明する。

    【0056】図4の装置に、第1の請求項の場合と同じ入力文字列Aが入力されるものとする。 [入力文字列A]:The suspect is t
    o be adjudicated for the
    abduction today afterthe
    severe admonition by the
    court last week. この入力文字列Aが入力されてから、図4の装置は、第2の請求項の場合と全く同じ動作を経て、単語属性推定手段5から第2の請求項の場合と全く同じ属性付き単語列を出力する。 第4の請求項の方式に特有の動作は、この属性付き単語列が、確率情報更新手段7に渡され、それがワイルドカード化判定手段8による処理を経て、生起確率格納手段2の内容、そして連接確率格納手段6の内容を更新する部分である。 以下この動作を説明する。

    【0057】ワイルドカード化判定手段8は、さまざまな文字列の一部をワイルドカード化して新たな部分文字列を生成することができるが、ここでは次の制御を例に取り上げて説明する: 基準1:「m文字以上の名詞(m=8)を確率情報更新手段7から受け取った際に生起確率格納手段2の中にn
    文字以上(n=4)の文字列が後方一致するエントリーを検出し、これらを統合する。 」 基準2:「前置詞と名詞は文字列全体をワイルドカード
    *とし、他は文字列そのままとして、隣接3単語の品詞、文字列がワイルドカード照合により一致するエントリーを連接確率格納手段6の中で逐次検出し、これらを統合する。 統合の対象とならなかったエントリーは、それが前置詞と名詞を含んでいてもそれらの文字列をワイルドカード化しないままで残す。 」 確率情報更新手段7から単語列、The suspec
    t is to beadjudicated for
    the abduction todayafter
    the severe admonition by
    thecourt last week. にそれぞれ対応する素性付き単語列を受け取ったワイルドカード化判定手段8は、上記の基準1に合致する8文字以上の名詞abduction、admonitionを受け取った時点で、図6に示した生起確率格納手段2の中に4
    文字以上の文字列が後方一致するエントリーを検出しにいく。 図6によれば、abductionの後方4文字tionに一致する別のエントリーは、admonit
    ionのみであり、ワイルドカード化判定手段8は基準1によりこれらを統合する。 統合の際には、請求項に記したように、出現回数を合計し、各品詞の生起確率を新たに合計された出現回数によって再計算すればよい。 この結果、出現回数が、元々図6に格納されていた1+1
    =2に加え、新たに確率情報更新手段7から受け取ったabductionの分をカウントして2+1=3となる。 品詞の生起確率については、すべての元のエントリーで名詞=1のみであったため、統合されたエントリーの中でも、名詞=1となる。 さらに、admoniti
    onを確率情報更新手段7から受け取った時点で、出現回数を3+1=4とし、品詞の生起確率は、計算の結果、名詞=1としたことにより、当該の新しくワイルドカードを含むエントリー* tionが図12のように更新される。 図12では、元の図6にあってabduct
    ion、admonitionに対応するエントリーは、ワイルドカード化判定手段8によって削除される。

    【0058】次に、ワイルドカード化判定手段8は、確率情報更新手段7から受け取った連接情報を基準2によって次のように逐次ワイルドカード化する。 the−* −is;* −is−to;is−to−b
    e;to−be−adjudicated;be−ad
    judicated−* ;adjudicated−*
    −the;* −the−* ;the−* −today;
    * −today−*;today−* −the;* −t
    he−severe;the−severe−* ;se
    vere−* −* ;* −* −the;* −the−* ;
    the−* −last;* −last−* ;これらのうち、図10のエントリーまたは、先行する新エントリーと一致し、且つ対応する品詞の組も全て一致するのは、
    新エントリーの[for theabduction]
    が出現した後の新エントリー[by the cour
    t]が出現したときだけである。 よって、この時点で、
    ワイルドカード化判定手段8は、基準2に従って出現数2、連接確率=2/{1000+2}=0.002をもつワイルドカード付きのエントリー[ *前置詞−the
    定冠詞− *名詞]を図14の中に生成する。

    【0059】このように第4の請求項の方式では、解析対象となった実データを反映するように生起確率格納手段2および連接確率格納手段6の内容を逐次更新していく際に、確率を指定する条件の数が個別にいたずらに拡大の一途をたどることを、一定の基準により防止することができる。

    【0060】なお、各請求項に対応する上実施例では、
    簡単のために、辞書1に接続カテゴリーをはじめとする、他種の曖昧性解消に有用な情報や、発音・アクセント、訳語などの各種応用に必要な情報の記述は省略したが、これらは、いずれも単語属性として、図5に記載の文字列情報・品詞情報に対応させて記述可能である。 そして、図7の流れ図において解析手段3が「当該の単語に対応する単語属性を単語属性推定手段5へ出力」する処理の中で出力され、ひきつづき単語属性推定手段5において、必要に応じて推定に利用することができる。

    【0061】また、請求項に記載した通り、図8に記載の生起確率格納手段2の内容は、辞書1の内部に格納することもできる。 この場合は、登録語の文字列情報を鍵として、図7に記載された内容と図8に記載された内容とを組み合わせて1まとまりとしたものが、各登録語の内容として辞書1に記載されることになる。

    【0062】

    【発明の効果】本発明によれば、ワイルドカード文字を含む文字列を辞書に登録できるようにし、それらを一般の語と区別なくN−gramモデルで統計的に処理することにより、効率がよく、全ての未定義語に対処でき、
    かつチューニングの容易な頑健な解析機能を提供することが可能となる。

    【図面の簡単な説明】

    【図1】第1の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

    【図2】第2の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

    【図3】第3の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

    【図4】第4の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

    【図5】辞書1の内容例を示す。

    【図6】生起確率格納手段2の内容例を示す。

    【図7】解析手段3が入力文字列を辞書1の内容と照合する手順の例を示す流れ図である。

    【図8】ワイルドカード照合手段4が解析手段3に入力された入力文字列と、生起確率格納手段2の内容とを照合する手順の例を示す流れ図である。

    【図9】単語属性推定手段5が解析手段3から受け取った、辞書1の内容および生起確率格納手段2の内容の付属する単語列に対して、個々の単語の単語属性を推定して属性付き単語列を出力する手順の例を示す流れ図である。

    【図10】連接確率格納手段6の内容例を示す。

    【図11】確率情報更新手段7の動作後の生起確率格納手段2の内容例である。

    【図12】ワイルドカード化判定手段8が機能した場合の確率情報更新手段7の動作後の生起確率格納手段2の内容例である。

    【図13】確率情報更新手段7の動作後の連接確率格納手段6の内容例である。

    【図14】ワイルドカード化判定手段8が機能した場合の確率情報更新手段7の動作後の連接確率格納手段6の内容例である。

    【符号の説明】

    1 辞書 2 生起確率格納手段 3 解析手段 4 ワイルドカード照合手段 5 単語属性推定手段 6 連接確率格納手段 7 確率情報更新手段 8 ワイルドカード化判定手段

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈