Word attribute estimating system专利检索-通配符软件专利检索查询-专利查询网

Word attribute estimating system

阅读：303发布：2021-06-02

专利汇可以提供Word attribute estimating system专利检索，专利查询，专利分析的服务。并且PURPOSE: To provide a robust analysis function which is efficient, which can deal with all undefined words and whose tuning is facile by registering a character string including a wild card character in a dictionary and statistically processing it without discriminating it from a general word. CONSTITUTION: An analysis means 3 judges the matching of the character string including the wild card character, which is stored in an occurrence probability storage means, with an input character string when the word attribute of the input character string cannot be decided by using the dictionary 1. When they match with each other, the character string and/or the occurrence probability of the word attribute, which are stored in the occurrence probability storage means 2, are read out and they are outputted to a word attribute estimation means 5 together with information stored in the dictionary 1. The word attribute estimation means 5 receiving the candidate of the word attribute and the occurrence probability selects the word attribute having the occurrence of more than a prescribed number, makes it a pair with the corresponding input character string and sets it to be the output of a text analysis device.，下面是Word attribute estimating system专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】電子化文字列を解析・加工する機能を有するテキスト解析装置において、文字列と属性付き単語との対応情報をもつ辞書を備え、辞書の内部もしくは外部に、ワイルドカード文字を含む文字列と単語属性の確率付き対応情報を格納した生起確率格納手段を備え、入力された電子化文字列または読み込んだ電子化文字列に対して前記辞書を用いて文字列解析を行って属性付き単語列を出力する解析手段を備え、前記解析手段に付属して、入力された文字列と前記生起確率格納手段に登録されたワイルドカード文字を含む文字列とを照合して一致したエントリーを部分文字列および／または単語属性の生起確率とともに出力するワイルドカード照合手段を備え、前記解析手段は、前記辞書のみを用いて入力文字列の単語属性を決定できない場合に、前記ワイルドカード照合手段を用いて前記生起確率格納手段に格納されたワイルドカード文字を含む文字列と該入力文字列との一致を判定し、一致した場合に前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率を読み出して前記辞書に格納されていた情報とともに単語属性推定手段に出力すると共に、これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、一定以上の生起確率をもつ単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする単語属性推定方式。

【請求項２】請求項１記載のテキスト解析装置に加えて、辞書の内部もしくは連接確率格納手段は外部に、ワイルドカード文字を含む文字列と単語属性の組が複数互いに連接する確率を格納した連接確率格納手段を備え、
前記解析手段が前記ワイルドカード照合手段を用いて当該入力文字列と一致した前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率を読み出した際に、前記連接確率格納手段に格納されたワイルドカード文字を含む文字列と当該入力文字列および当該入力文字列の前後の文字列との一致をも前記ワイルドカード照合手段を用いて判定すると共に、当該の前後の文字列をも含むすべての文字列が一致と判定されたエントリーが前記連接確率格納手段の中に存在した場合、前記解析手段は当該エントリーに記述された連接確率を読み出して、前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率および前記辞書に格納されていた情報とともに単語属性推定手段に出力し、これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、当該の生起確率と連接確率をパラメータとする単調な関数の関数値を計算し、その関数値の大小によって単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする単語属性推定方式。

【請求項３】請求項２記載のテキスト解析装置に加えて、前記単語属性推定手段の出力する属性付き単語列および当該の生起確率、連接確率を受け取って、前記生起確率格納手段および前記連接確率格納手段にエントリーを追加する、もしくは既存のエントリーの確率値を更新する確率情報更新手段を備え、該テキスト解析装置が逐次入力文字列を解析していく際に、前記確率情報更新手段が前記生起確率格納手段および前記連接確率格納手段の内容を逐次更新していくことを特徴とする単語属性推定方式。

【請求項４】請求項３記載のテキスト解析装置に加えて、前記確率情報更新手段が出力する文字列を前記生起確率格納手段および前記連接確率格納手段のエントリーと比較することによって新たにワイルドカードを含む部分文字列を設定するワイルドカード化判定手段を備え、
前記確率情報更新手段の出力を受け取った前記ワイルドカード化判定手段が当該の新たなワイルドカードを含む部分文字列を設定した際に、当該の新たなワイルドカードを含む部分文字列に一致するすべてのエントリーの確率値の合計を各々前記生起確率格納手段および前記連接確率格納手段において計算し、その合計値と当該の新たなワイルドカードを含む部分文字列との組を各々前記生起確率格納手段および前記連接確率格納手段の新たなエントリーとして追加することを特徴とする単語属性推定方式。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＯＡ、研究開発、教育、出版等をはじめとする産業分野で広く利用される文書処理、および情報検索、情報要約、さらに機械翻訳、
文字認識、音声認識・合成の応用システムに関する。

【０００２】

【従来の技術】電子ネットワークおよび、ワードプロセッサをはじめとする電子化テキスト作成・編集・閲覧ツールの急速な発達と普及により、大量の電子化テキストを随時入手できる環境が現実のものとなっている。この「大量さ」は、多くの現場で既に人間が全文を読める分量をはるかに超えているため、テキスト解析による情報検索、情報要約への要求が高まっている。また、解析の結果を、編集中の文書に適切に引用したり、索引を作成したりして利用できるようにする技術への期待も高い。
これらの応用を支えるのは自由テキストを解析し、その結果に基づいて情報の重要度の評価をしたり、入力テキストから構造情報を取り出したりするのに必要な属性を高速に一様に抽出する技術である。そのための汎用の解析器を構成するためには、自然言語の単語辞書を用意し、そのエントリーに必要な属性ラベルを付与しておく必要がある。属性ラベルの中でも、品詞の情報は、解析そのものの精度を高めるために自己参照される重要な情報である。

【０００３】一方、オフィスワークや情報サービスがマルチメディア化／個別サービス化するのに伴い、音声認識・合成への期待も急速に高まっている。音声合成のためのテキスト解析の出力の中で最重要の単語属性は言うまでもなく「読み」の情報である。しかし、アクセントや抑揚の自然さに代表される「読みの自然さ」の向上のための技術開発によって、単語の品詞情報が正しく得られることが、フレーズや文の単位の「読みの自然さ」の改善に大きく役立つことが指摘されるようになった（たとえば、山崎９５ｐ．１５−１６）。音声認識においても、品詞列の確率的予測を行なう言語モデルによって精度を改善する試みがなされているため、品詞情報を正しく推定する技術の役割がますます大きく期待されるようになっている。

【０００４】これらの応用をもつ品詞推定、もしくはより一般的な単語属性推定の技術であるが、従来は、スペルチェッカーやＯＣＲ後処理などに直接的な応用をもつ綴り誤りの復回処理にくらべると、報告例が少ない。その中で、山階８８は複合語の意味属性をその構成語（既知語）の情報によって求める方法を提案し、特開平０４
−１１２２６８「辞書コンパクト方式」は辞書容量の削減を目的として未定義語を常に名詞と判定する枠組を示し、特開平０３−２６３２６６「未語の品詞選択装置」
ではバックプロパゲーション型ニューラルネットワークを用いた品詞推定方法を示している。これらは、いずれも、次のうち１つ以上の問題点を抱えている。

【０００５】問題：１）特別な未定義語処理を必要とする。

【０００６】２）推定機能が部分的である。

【０００７】３）トレーニングコストが大き過ぎて実用規模のシステム構築に適さない。

【０００８】まず、特開平０３−２６３２６６を除く、
どの従来技術も、１）未定義語処理のための特別な仕掛けを必要とし、未定義語であった場合には品詞等の推定の処理の時間コストが加算される。これは、逐次入力されるテキストを実時間処理しなければならない場合に、
ユーザーに予測できない事情によりレスポンス速度が上下してしまう、という欠陥につながる。

【０００９】次に、山階８８の方法は、日本語の複合語に限った規則ベースの方法であり、しかも構成語が既知語であるときにのみ有効である。さらに、このような長単位の複合語はほとんどが名詞であるため、もともと概念カテゴリの推定をうたっているように、品詞の推定には有効な方法とはいえない。すなわち２）推定機能が部分的、という問題点に典型的に該当する。

【００１０】特開平０４−１１２２６８「辞書コンパクト方式」では、名詞のみを対象とした未知語の品詞推定について述べられているが、そもそも、世の中のほとんど全ての語彙をカバーした既存の大容量の辞書の存在を前提としている。この大容量辞書から名詞を削除して辞書容量の低減をはかることが本来の目的であることからもわかるように、この方式は、未定義語を名詞としか推定できない。したがって、もしも元の大容量辞書に動詞や形容詞の採録洩れがあった場合、それらは誤って名詞と推定されることになる。この意味で推定機能が部分的である。新造語は、サ変動詞を含めて日々登場してきており、特開平０４−１１２２６８の方式の前提は適切とは言い難い。

【００１１】次に、特開平０３−２６３２６６「未知語の品詞選択装置」では、バックプロパゲーション型ニューラルネットワークを用いて、構成文字の種類、順序、
出現位置を入力層のノードに割り当て、出力層のノードに品詞を割り当てるという構成を示している。ここで問題になるのは、トレーニングコストであるが、このコストについては厳密解は得られていないものの、“Ｐｅｒ
ｃｅｐｔｒｏｎｓＲｅｖ．２”ｂｙＭａｒｖｉｎ
Ｍｉｎｓｋｙ＆ＳｅｙｍｏｒＰａｐａｒｔによれば、一般にバックプロパゲーション型のニューラルネットのトレーニングに要する時間コストが、入出力ノード数の指数関数オーダーとなることが強く示唆されている。すなわち、実用になるのは、ノード数が高々数１０
０にとどまるケースについてのみであり、これは、１９
８４年以来多数のアプリケーションの実験報告の規模がほとんどノード数が数１０のオーダーであったことと符号する。

【００１２】「未知語の品詞選択」というアプリケーションにおいては、自然言語の語彙の規模を数万とし、その特徴的な部分文字列の単語内部での組合せのヴァリエーションを数千程度と低めに見積もったとしても、前段落によれば、トレーニング時間がボトルネックとなって、実用規模のシステムが構成できる見込みはないことになる。個々の単語を特徴付ける文字列パターンのバリエーションの他に、これらの単語の隣接の組合せを入力層のノードに対応させるならば、隣接２単語のみの関係を表現するにとどめてもノードの規模は数百万となり、
さらに非現実的なトレーニングコストとなることが見積もられる。仮に単語の並びによる品詞推定は全く別の原理（たとえば本発明にて提案する方式）で行なうとしても、数千のノードで指数関数オーダーのトレーニングを行なわせるには大きな時間コストがかかる。

【００１３】これに対し、以下に説明する本発明の方式によれば、既知の単語に対する品詞推定およびそのためのトレーニングと同じ処理によって推定が行なわれる。
また、推定に要する時間コストは入力単語数に対して線形であり、部分文字列を生成しながら一般化しながらトレーニングを行なう際の時間コストは、高々Ｏ（ｃ ^* ｍ
^* ｎ）である（但しｃは単語の文字列の最長値、ｍは辞書に登録された語彙数、ｎは入力単語数）。すなわち、
推定の際には、部分文字列項目の増加を語彙数ｍの増加とみなしたならば、未知語処理専用にかかるコストはゼロである。参考文献：山階８８：未知語の概念カテゴリ推定法の検討情報処理学会第３７回全国大会予稿集特開平０３−２６３２６６「未知語の品詞選択装置」特開平０４−１１２２６８「辞書コンパクト方式」山崎９５：山崎信英：「最近のテキスト音声合成とその技術」Ｂｉｔ，１９９５，３月号ｐ．１５−１６

【００１４】

【発明が解決しようとする課題】本発明は、品詞推定／
単語属性に関する従来の技術の主要な問題点１）特別な未定義語処理を必要とすること、２）推定機能が部分的であること、３）トレーニングコストが大きいこと、の３点を解決し、実時間応用を含む幅広い応用に実用できる単語属性推定の機能を提供することめざす。

【００１５】

【課題を解決するための手段】上記問題点を解決するため本発明の単語属性推定方式は、それぞれ以下の特徴を有する。

【００１６】第１の発明は、電子化文字列を解析・加工する機能を有するテキスト解析装置において、文字列と属性付き単語との対応情報をもつ辞書を備え、辞書の内部もしくは外部は、ワイルドカード文字を含む文字列と単語属性の確率付き対応情報を格納した生起確率格納手段を備え、入力された電子化文字列または読み込んだ電子化文字列に対して前記辞書を用いて文字列解析を行って属性付き単語列を出力する解析手段を備え、前記解析手段に付属して、入力された文字列と前記生起確率格納手段に登録されたワイルドカード文字を含む文字列とを照合して一致したエントリーを部分文字列および／または単語属性の生起確率とともに出力するワイルドカード照合手段を備え、前記解析手段は、前記辞書のみを用いて入力文字列の単語属性を決定できない場合に、前記ワイルドカード照合手段を用いて前記生起確率格納手段に格納されたワイルドカード文字を含む文字列と該入力文字列との一致を判定し、一致した場合に前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率を読み出して前記辞書に格納されていた情報とともに単語属性推定手段に出力する。これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、一定以上の生起確率をもつ単語属性を選択し、
対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする。

【００１７】第２の発明は、第１の発明のテキスト解析装置に加えて、辞書の内部もしくは連接確率格納手段は外部に、ワイルドカード文字を含む文字列と単語属性の組が複数互いに連接する確率を格納した連接確率格納手段を備え、前記解析手段が前記ワイルドカード照合手段を用いて当該入力文字列と一致した前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率を読み出した際に、前記連接確率格納手段に格納されたワイルドカード文字を含む文字列と当該入力文字列および当該入力文字列の前後の文字列との一致をも前記ワイルドカード照合手段を用いて判定する。当該の前後の文字列をも含むすべての文字列が一致と判定されたエントリーが前記連接確率格納手段の中に存在した場合、前記解析手段は当該エントリーに記述された連接確率を読み出して、前記生起確率格納手段に格納された当該文字列および／または単語属性の生起確率および前記辞書に格納されていた情報とともに単語属性推定手段に出力する。これらの単語属性の候補とその生起確率を受け取った前記単語属性推定手段が、当該の生起確率と連接確率をパラメータとする単調な関数の関数値を計算し、その関数値の大小によって単語属性を選択し、対応する入力文字列と組にして、テキスト解析装置の出力とすることを特徴とする。

【００１８】第３の発明は、第２の発明に加えて、前記単語属性推定手段の出力する属性付き単語列および当該の生起確率、連接確率を受け取って、前記生起確率格納手段および前記連接確率格納手段にエントリーを追加する、もしくは既存のエントリーの確率値を更新する確率情報更新手段を備え、該テキスト解析装置が逐次入力文字列を解析していく際に、前記確率情報更新手段が前記生起確率格納手段および前記連接確率格納手段の内容を逐次更新していくことを特徴とする。

【００１９】第４の発明は、第３の発明に加えて、前記確率情報更新手段が出力する文字列を前記生起確率格納手段および前記連接確率格納手段のエントリーと比較することによって新たにワイルドカードを含む部分文字列を設定するワイルドカード化判定手段を備え、前記確率情報更新手段の出力を受け取った前記ワイルドカード化判定手段が当該の新たなワイルドカードを含む部分文字列を設定した際に、当該の新たなワイルドカードを含む部分文字列に一致するすべてのエントリーの確率値の合計を各々前記生起確率格納手段および前記連接確率格納手段において計算し、その合計値と当該の新たなワイルドカードを含む部分文字列との組を各々前記生起確率格納手段および前記連接確率格納手段の新たなエントリーとして追加することを特徴とする。

【００２０】

【作用】本発明によれば、上記各手段を組合せて機能させることにより、未定義語検出のための特別な手段を設けることなく少ない計算量で、単語属性の推定のために必要なトレーニングを行い、そして、完全な綴りが辞書に登録されていない単語の品詞／属性を推定することができる。推定の精度は、未登録語が特徴的な部分文字列を多量に含むほど単調に向上する。また請求項３および４の発明では、より多くのトレーニングデータを用いれば用いるほど、平均的精度が向上する。請求項４の発明では、トレーニングの際にワイルドカードの文字数を増やして一般化することにより、特徴的な部分文字列が少量であっても正しい品詞・属性を推定できる可能性が請求項３の発明に比べて高くなる。

【００２１】

【実施例】次に本発明の実施例について、図面を参照して説明する。

【００２２】図１は第１の請求項の単語属性推定方式が動作する装置の構成例を示す概念図であり、図２は第２
の請求項の単語属性推定方式が動作する装置の構成例を示す概念図、図３は、第３の請求項の単語属性推定方式が動作する装置の構成例を示す概念図、図４は、第４の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

【００２３】図５は辞書１の内容例、図６は生起確率格納手段２の内容例を示す。図７は解析手段３が入力文字列を辞書１の内容と照合する手順の例を示す流れ図であり、図８は、ワイルドカード照合手段４が解析手段３に入力された入力文字列と、生起確率格納手段２の内容とを照合する手順の例を示す流れ図である。図９は、単語属性推定手段５が解析手段３から受け取った、辞書１の内容および生起確率格納手段２の内容の付属する単語列に対して、個々の単語の単語属性を推定して属性付き単語列を出力する手順の例を示す流れ図である。図１０
は、連接確率格納手段６の内容例を示す。

【００２４】図１１は、確率情報更新手段７の動作後の生起確率格納手段２の内容例であり、図１２は、ワイルドカード化判定手段８が機能した場合の確率情報更新手段７の動作後の生起確率格納手段２の内容例である。図１３は、確率情報更新手段７の動作後の連接確率格納手段６の内容例であり、図１４は、ワイルドカード化判定手段８が機能した場合の確率情報更新手段７の動作後の連接確率格納手段６の内容例である。

【００２５】図１の装置に、たとえば次の入力文字列が逐次入力されたときの動作を以下に説明する。［入力文字列Ａ］：Ｔｈｅｓｕｓｐｅｃｔｉｓｔ
ｏｂｅａｄｊｕｄｉｃａｔｅｄｆｏｒｔｈｅ
ａｂｄｕｃｔｉｏｎｔｏｄａｙａｆｔｅｒｔｈｅ
ｓｅｖｅｒｅａｄｍｏｎｉｔｉｏｎｂｙｔｈｅ
ｃｏｕｒｔｌａｓｔｗｅｅｋ．入力文字列Ａは、解析手段３に１字ずつ入力され、空白コード等を手がかりに単語の単位に分割され、単語候補の列として解析手段３の内部の入力バッファに蓄えられる。解析手段３は、入力バッファ中の単語候補を単語と同定し、その属性を調べるために信号線を介して辞書１
にアクセスし、図７の手順による前方一致の文字列マッチングにより、辞書１および生起確率格納手段２に格納されている全ての単語属性を取り出す。

【００２６】たとえば、ここで［入力文字列Ａ］の先頭２単語Ｔｈｅｓｕｓｐｅｃｔが解析手段３の内蔵する入力バッファに存在していた状態で、図７の流れ図の開始部分に処理が渡されたとする。開始直後に解析手段３
の内蔵する入力バッファに単語候補が存在しているか否かを調べ存在しているのでＹｅｓとなる。次に入力バッファの先頭にある１語の単語候補“ｔｈｅ”をとり、ワイルドカード照合手段４により辞書１の登録後と前方一致マッチングを行う。

【００２７】図５に示すように辞書１には“ｔｈｅ”という登録語が存在するので、このときワイルドカード照合手段４は図８の上で常に「（鍵文字列中の文字を指す）ポインタ１が“ ^* ”か？」が“Ｎｏ”となり、その文字は照合対象単語候補中の文字を指すポインタ２の文字と一致する。これは、文字列が終わるまで３回繰り返され、「「ずらし照合中」フラグをＯＦＦにし、ポインタ１、２を共にインクリメント」の処理を含むループを３回まわる。文字列の終端に達したところで「インクリメントできたか？」が“Ｎｏ”となり、このときは「両ポインタとも同時にインクリメント不能？」が“Ｙｅ
ｓ”となるので、「“登録語の文字列と一致”という戻り値とともに照合を終了する。

【００２８】このように、単語候補の文字列と一致するので、活用語尾エントリーとの再帰的なマッチングを行うことなく、図５中の辞書１の単語属性「冠詞；定冠詞」および、図６中の生起確率格納手段２に格納された単語属性、「生起確率［冠詞］＝１」を単語属性推定手段５へ出力する。こうして、図９の第一の処理手順に基づいて、解析手段３からすべての単語属性の候補と確率値を受け取った単語属性推定手段５は、図９の第二の処理手順に従って、次の関数値を計算する。

【００２９】Ｍａｘ _a （Ｗｏ×Ｏａ＋Ｗｃ×Ｃａ＋Ｗｏｃ×Ｃａ）（各単語属性ａの生起確率Ｏａおよび連接確率Ｃａ；Ｗ
ｏ，Ｗｃ，Ｗｏｃは各項の重み係数）ここで、単語属性の候補ａは一組しかなく、連接確率は存在しないため、「生起確率［冠詞］＝Ｏａ＝１」による値が最大となるため、単語属性「冠詞；定冠詞」およびそれと組となる単語属性「生起確率［冠詞］＝１」が単語属性Ａをとして選択され、Ａを当該単語の単語属性として単語属性推定手段５から出力される。

【００３０】次に、入力バッファに１つ残った単語候補文字列ｓｕｓｐｅｃｔに対する解析手段３、ワイルドカード照合手段４、単語属性推定手段５の動作を説明する。図７の最初の判断「入力バッファ中にまだ単語候補が存在している？」でＹｅｓとなり、次の処理手順でワイルドカード照合手段４を起動し、図８の流れ図に従って、単語候補文字列ｓｕｓｐｅｃｔと図５の辞書内容の個々のエントリーとの照合を行う。ここではまず、照合の結果”一致せず”となる辞書エントリーの代表として
^* ｎｅｓｓをとりあげ、その照合動作を説明する。照合の開始直後は、辞書中の鍵文字列^* ｎｅｓｓの先頭文字
^*にポインタ１があるため、「ポインタ１がワイルドカードか？」は“Ｙｅｓ”となる。流れ図にしたがって、
「「ずらし照合中」フラグをＯＮにし、ポインタ１を１
インクリメント」を実行すると、インクリメントできて（“Ｙｅｓ”）、２番目の文字ｎにポインタ１がくる。
今度は、「ポインタ１がワイルドカードか？」は“Ｎ
ｏ”となる。そして次の「ポインタ２の文字とポインタ１の文字が一致するか？」は、ｓとｎで異なるため“Ｎ
ｏ”となる。さきほどの処理で「ずらし照合中」フラグはＯＮになっているため、「「ずらし照合中」フラグはＯＮか？」は“Ｙｅｓ”となり、「ポインタ２を１インクリメントする」と、インクリメントできて（“Ｙｅ
ｓ”）ポインタ２は、ｓｕｓｐｅｃｔの２番目の文字ｕ
を指示するようになる。ここで流れ図の左端をループバッグして再び「ポインタ２の文字とポインタ１の文字が一致するか？」の判断となるが、ｕとｎで異なるため“Ｎｏ”となる。

【００３１】以下、ポインタ２を１インクリメントしながらこのループを５回まわり、順にｓ，ｐ，ｅ，ｃ，ｔ
とｎとを比較して「ポインタ２の文字とポインタ１の文字が一致するか？」の判断を行うが、これらは異なるため毎回“Ｎｏ”となる。この時点でインクリメントできなくなり（“Ｎｏ”）、流れ図を下へ抜けて、「“登録語の文字列と一致せず”を関数の戻り値とし」、ワイルドカード照合手段４の動作を終了する。

【００３２】制御を戻された解析手段３は、別の辞書エントリー^* ｐｅｃｔに対してワイルドカード照合手段４
を起動する。照合の開始直後は、辞書中の鍵文字列^* ｐ
ｅｃｔの先頭文字^*にポインタ１があるため、「ポインタ１がワイルドカードか？」は“Ｙｅｓ”となる。図８
の流れ図にしたがって、「「ずらし照合中」フラグをＯ
Ｎにし、ポインタ１を１インクリメント」を実行すると、インクリメントできて（“Ｙｅｓ”）、２番目の文字ｐにポインタ１がくる。今度は、「ポインタ１がワイルドカードか？」は“Ｎｏ”となる。そして次の「ポインタ２の文字とポインタ１の文字が一致するか？」は、
ｓとｎで異なるため“Ｎｏ”となる。さきほどの処理で「ずらし照合中」フラグはＯＮになっているため、
「「ずらし照合中」フラグはＯＮか？」は“Ｙｅｓ”となり、「ポインタ２を１インクリメントする」と、インクリメントできて（“Ｙｅｓ”）ポインタ２は、ｓｕｓ
ｐｅｃｔの２番目の文字ｕを指示するようになる。ここで流れ図の左端をループバックして再び「ポインタ２の文字とポインタ１の文字が一致するか？」の判断となるが、ｕとｎで異なるため“Ｎｏ”となる。

【００３３】ポインタ２を１インクリメントしながらこのループをもう１回まわり、ｓとｐとを比較するまでは、「ポインタ２の文字とポインタ１の文字が一致するか？」の判断は“Ｎｏ”となる。その次のループでは、
ポインタ２の指示する先はｓｕｓｐｅｃｔの中の４番目の文字ｐとなるため、「ポインタ２の文字とポインタ１
の文字が一致するか？」の判断は“Ｙｅｓ”となる。流れ図に従って、「「ずらし照合中」フラグをＯＦＦにし、ポインタ１、２を共に１インクリメント」すると、
ポインタ２はｓｕｓｐｅｃｔの中の５番目の文字ｅを指示し、ポインタ１は、 ^* ｐｅｃｔの中の３番目の文字ｅ
を指示するようになる。この結果は、インクリメント成功（“Ｙｅｓ”）であり、流れ図の右方をループバックする。「ポインタ１がワイルドカードか？」は“Ｎｏ”
となり、「ポインタ２の文字とポインタ１の文字が一致するか？」の判断は共にｅで“Ｙｅｓ”となる。以下、
ｃ，ｔの文字についても同じループをまわり、両ポインタの指す文字が共にｔで一致した後、両ポインタは同時にインクリメントできなくなる。この結果、「両ポインタともインクリメントできなかったか、あるいはインクリメント後のポインタ１の文字が“ ^* ”か？」は“Ｙｅ
ｓ”となり、流れ図を下へ抜けて、「“登録語の文字列と一致”を関数の戻り値とし」た後、ワイルドカード照合手段４の動作を終了する。

【００３４】制御は解析手段３に戻り、「辞書１の登録語と前方マッチング」の結果、「前方一致する登録語^*
ｐｅｃｔが存在し」て“Ｙｅｓ”、この結果、ワイルドカード照合手段４により全文字列が一致したことになるので、「登録語の文字列と一致？」も“Ｙｅｓ”となる。この結果、「当該の単語に対応に対応する単語属性を単語属性推定手段５へ出力」の処理を行って、図５に記載の辞書１に格納された^* ｐｅｃｔの単語属性「動詞原形／名詞」、および図６に記載の生起確率格納手段２
に格納された^* ｐｅｃｔの単語属性「 ^* ｐｅｃｔ「動詞；原形」／０．７「名詞」０．３」が単語属性推定手段５へと出力される。後者は、「生起確率［動詞］＝Ｏ
ａ＝０．７；生起確率［名詞］＝Ｏｂ＝０．３」と同等である。

【００３５】こうして、図９の第一の処理手順に基づいて、解析手段３からすべての単語属性の候補と確率値を受け取った単語属性推定手段５は、図９の上から２番目の処理に従って、次の関数値を計算する。

【００３６】Ｍａｘ _a （Ｗｏ×Ｏａ＋Ｗｃ×Ｃａ＋Ｗｏ
ｃ×Ｏａ×Ｃａ）（ここで各単語属性ａの生起確率Ｏａおよび連接確率Ｃ
ａ；Ｗｏ，Ｗｃ，Ｗｏｃは各項の重み係数）ここで、単語属性の候補ａは一組しかなく、連接確率は存在しないため、「生起確率［動詞］＝Ｏａ＝０．７」
による値０．７Ｗｏが最大となる。この結果、単語属性「動詞；原形」およびそれと組となる単語属性「生起確率［動詞］＝０．７」が単語属性Ａをとして選択され、
Ａを当該単語の単語属性として単語属性推定手段５から出力される。

【００３７】同様にして、入力文字列Ａの中の全ての単語候補文字列が、互いに独立に処理された結果、次の属性付き単語列が、第１の請求項の方式による解析結果として出力される。

【００３８】Ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，
「生起確率［冠詞］＝１」｝ｓｕｓｐｅｃｔ：単語属性＝｛「動詞；原形」，「生起確率［動詞］=0.7」｝ｉｓ：単語属性＝｛「ＢＥ動詞」，「生起確率［ＢＥ動詞］＝１」｝ｔｏ：単語属性＝｛「不定詞マーカ」，「生起確率［不定詞マーカ］=0.6」｝ｂｅ：単語属性＝｛「ＢＥ動詞」，「生起確率［ＢＥ動詞］＝１」｝ａｄｊｕｄｉｃａｔｅｄ：単語属性＝｛「動詞；過去分詞形」，「生起確率［動詞］＝１」｝ｆｏｒ：単語属性＝｛「前置詞；ＦＯＲ」，「生起確率［］＝１」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ａｂｄｕｃｔｉｏｎ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝ｔｏｄａｙ：単語属性＝｛「名詞的副詞」，「生起確率［名詞的副詞］＝０．６」｝ａｆｔｅｒ：単語属性＝｛「前置詞；ＡＦＴＥＲ」，
「生起確率［前置詞］＝０．５」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ｓｅｖｅｒｅ：単語属性＝｛「形容詞」，「生起確率［形容詞］＝１」｝ａｄｍｏｎｉｔｉｏｎ：単語属性＝｛「名詞」，「生起確率［名詞］=1」｝ｂｙ：単語属性＝｛「前置詞」，「生起確率［前置詞］
＝０．９」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ｃｏｕｒｔ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝ｌａｓｔ：単語属性＝｛「形容詞」，「生起確率［形容詞］＝０．６」｝ｗｅｅｋ：単語属性＝｛「名詞」，「生起確率［名詞］
＝１」｝次に、第２の請求項の実施例における動作を説明する。

【００３９】図２の装置に、第１の請求項の場合と同じ入力文字列Ａが入力されるものとする。［入力文字列Ａ］：Ｔｈｅｓｕｓｐｅｃｔｉｓｔ
ｏｂｅａｄｊｕｄｉｃａｔｅｄｆｏｒｔｈｅ
ａｂｄｕｃｔｉｏｎｔｏｄａｙａｆｔｅｒｔｈｅ
ｓｅｖｅｒｅａｄｍｏｎｉｔｉｏｎｂｙｔｈｅ
ｃｏｕｒｔｌａｓｔｗｅｅｋ．入力文字列Ａは、解析手段３に１字ずつ入力され、空白コード等を手がかりに単語の単位に分割され、単語候補の列として解析手段３の内部の入力バッファに蓄えられる。解析手段３は、入力バッファ中の単語候補を単語と同定し、その属性を調べるために信号線を介して辞書１
にアクセスし、図７の手順による前方一致の文字列マッチングにより、辞書１および生起確率格納手段２に格納されている全ての単語属性を取り出す。

【００４０】たとえば、ここで［入力文字列Ａ］の先頭３単語Ｔｈｅｓｕｓｐｅｃｔｉｓが解析手段３の内蔵する入力バッファに存在していた状態で、図７の流れ図の開始部分に処理が渡されたとする。最初の単語候補文字列ｔｈｅについては、左側に隣接する単語が存在しないため、第１の請求項の場合と同じに動作する。

【００４１】第２の単語候補文字列ｓｕｓｐｅｃｔについては、右側に隣接する単語候補文字列ｉｓに対して、
辞書１の内容を参照した上で、解析手段３が連接確率格納手段６に格納された条件を満たすすべての連接確率を取り出すという処理が加わる。単語候補文字列ｉｓを辞書１に照合する手順は、前述の図７、図８による手順と同じである。照合の過程では、解析手段３は、ワイルドカード照合手段４を起動し、図８の流れ図に従って、と図５の辞書内容の個々のエントリーとの照合を行う。ここで、図５より、照合の結果”一致する”辞書エントリーは、同一の文字列からなるｉｓ”のみである。この照合動作の詳細は、同一の文字列ｔｈｅの単語候補文字列と辞書エントリーとを照合した上述の動作と基本的に同じ動作となるため、説明を省略する（違いが生ずるのは文字数が３に対して２と少ないことからループの回数が減ることのみ）。

【００４２】右側に隣接する単語候補文字列ｉｓに対する辞書１の内容が得られたら、解析手段３は、前回処理した左側単語分の単語文字列とそれらの単語属性、今回処理した単語文字列とそれらの単語属性、これらの組み合わせ条件に合致するエントリーが連接確率情報格納手段６に存在しないかどうか条件検索し、条件に合致するエントリーをすべて取り出して、単語属性推定手段５へ出力する。この条件検索は、単語文字列については、ワイルドカード照合手段４によって、単語属性については、属性の集合間の包含関係を調べる集合演算によって行われる。ここではまず、図１０の最上行にある、Ｒｉ
ｇｈｔ文字列＝ｉｓをもつ連接確率の条件「Ｌｅｆｔ文字列＝ｔｈｅ，Ｌｅｆｔ品詞＝定冠詞，Ｃｅｎｔｅｒ文字列＝ ^* ，Ｃｅｎｔｅｒ品詞＝名詞，Ｒｉｇｈｔ文字列＝ｉｓ，Ｒｉｇｈｔ品詞＝ＢＥ動詞，連接確率Ｃａは０．０４１」が条件を満たすことが以下のように検査される。前回解析手段３が処理した左側隣接単語ｔｈｅは「Ｌｅｆｔ文字列＝ｔｈｅ，Ｌｅｆｔ品詞＝定冠詞」の条件を満たしている。また今回解析手段３が処理した単語ｓｕｓｐｅｃｔは、「Ｃｅｎｔｅｒ文字列＝ ^* ，Ｃｅ
ｎｔｅｒ品詞＝名詞」の条件を満たしている。また、右側に隣接する単語ｉｓについては、辞書１からＢＥ動詞という単語属性が得られているため、「Ｒｉｇｈｔ文字列＝ｉｓ，Ｒｉｇｈｔ品詞＝ＢＥ動詞」の条件も満足される。この結果、この連接確率の条件は全て満たされ、
単語ｓｕｓｐｅｃｔに付随する単語属性として、連接確率＝０．０４１が単語属性推定手段５へ出力される。

【００４３】図１０の中には、他に条件に適合する連接確率のエントリーがないため、ａ＝名詞の場合の連接確率Ｃａ＝０．０４１のみが単語属性推定手段５へ出力された連接確率となる。ここで、単語属性推定手段５は図９の第２の処理手順において、関数値を最大とする単語属性の組み合わせを計算する。まず、第一の請求項の方式と同様にして、図６に記載の生起確率格納手段２に格納された^* ｐｅｃｔの単語属性「 ^* ｐｅｃｔ「動詞；原形」／０．７「名詞」０．３」が単語属性推定手段５へと出力され、「生起確率［動詞］＝Ｏａ＝０．７；生起確率［名詞］＝Ｏｂ＝０．３」が得られる。

【００４４】こうして、図９の第一の処理手順に基づいて、解析手段３からすべての単語属性の候補と確率値を受け取った単語属性推定手段５は、図９の上から２番目の処理に従って、次の関数値を計算する。

【００４５】Ｍａｘ _a （Ｗｏ×Ｏａ＋Ｗｃ×Ｃａ＋Ｗｏ
ｃ×Ｏａ×Ｃａ）（ここで各単語属性ａの生起確率Ｏａおよび連接確率Ｃ
ａ；Ｗｏ，Ｗｃ，Ｗｏｃは各項の重み係数）ここで、１＞Ｏａ＞０，１＞Ｃａ＞０，１＞＞Ｏ×Ｃａ
＞０という性質から妥当な重み係数として、Ｗｏ＝１，
Ｗｃ＝１，Ｗｏｃ＝５０とする。ａ＝動詞のときは、Ｏ
ａ＝０．７，Ｃａ＝０であるから、関数値は１×０．７
＝０．７となる。ａ＝名詞のときは、Ｏａ＝０．３，Ｃ
ａ＝０．０４１であるから、関数値は、１×０．３＋
０．０４１＋５０ ^* ０．３×０．０４１＝０．９５６となる。この結果、Ｍａｘ _a （Ｗｏ×Ｏａ＋Ｗｃ×Ｃａ＋Ｗｏｃ×Ｏａ×
Ｃ）＝０．９５６（ａ＝名詞）となる。

【００４６】この結果、単語属性の「名詞」およびそれと組となる単語属性「生起確率［名詞］＝０．３」「連接確率＝０．０４１」が単語属性Ａをとして選択され、
Ａを当該単語の単語属性として単語属性推定手段５から出力される。

【００４７】同様にして、入力文字列Ａの中の全ての単語候補文字列が、互いに独立に処理された結果、次の属性付き単語列が、第２の請求項の方式による解析結果として出力される。

【００４８】Ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，
「生起確率［冠詞］＝１」｝ｓｕｓｐｅｃｔ：単語属性＝｛「名詞」，「生起確率［名詞］＝０．３」，「連接確率＝０．０４１」｝ｉｓ：単語属性＝｛「ＢＥ動詞」，「生起確率［ＢＥ動詞］＝１」｝ｔｏ：単語属性＝｛「不定詞マーカ」，「生起確率［不定詞マーカ］＝０．６」｝ｂｅ：単語属性＝｛「ＢＥ動詞」，「生起確率［ＢＥ動詞］＝１」｝ａｄｊｕｄｉｃａｔｅｄ：単語属性＝｛「動詞；過去分詞形」，「生起確率［動詞］＝１」｝ｆｏｒ：単語属性＝｛「前置詞；ＦＯＲ」，「生起確率［］＝１」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ａｂｄｕｃｔｉｏｎ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝ｔｏｄａｙ：単語属性＝｛「名詞的副詞」，「生起確率［名詞的副詞］＝０．６」｝ａｆｔｅｒ：単語属性＝｛「前置詞；ＡＦＴＥＲ」，
「生起確率［前置詞］＝０．５」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ｓｅｖｅｒｅ：単語属性＝｛「形容詞」，「生起確率［形容詞］＝１」｝ａｄｍｏｎｉｔｉｏｎ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝ｂｙ：単語属性＝｛「前置詞」，「生起確率［前置詞］
＝０．９」｝ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝ｃｏｕｒｔ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝ｌａｓｔ：単語属性＝｛「形容詞」，「生起確率［形容詞］＝０．６」｝ｗｅｅｋ：単語属性＝｛「名詞」，「生起確率［名詞］
＝１」｝次に、第３の請求項の実施例における動作を説明する。

【００４９】図３の装置に、第１の請求項の場合と同じ入力文字列Ａが入力されるものとする。［入力文字列Ａ］：Ｔｈｅｓｕｓｐｅｃｔｉｓｔ
ｏｂｅａｄｊｕｄｉｃａｔｅｄｆｏｒｔｈｅ
ａｂｄｕｃｔｉｏｎｔｏｄａｙａｆｔｅｒｔｈｅ
ｓｅｖｅｒｅａｄｍｏｎｉｔｉｏｎｂｙｔｈｅ
ｃｏｕｒｔｌａｓｔｗｅｅｋ．この入力文字列Ａが入力されてから、図３の装置は、第２の請求項の場合と全く同じ動作を経て、単語属性推定手段５から第２の請求項の場合と全く同じ属性付き単語列を出力する。第３の請求項の方式に特有の動作は、この属性付き単語列が、確率情報更新手段７に渡され、それが、生起確率格納手段２の内容、そして連接確率格納手段６の内容を更新する部分であり、以下この動作を説明する。

【００５０】確率情報更新手段７は、まず、図６に示された生起確率格納手段２の内容を図１１に示す内容に更新する。すなわち、Ｔｈｅ：単語属性＝｛「冠詞；定冠詞」，「生起確率［冠詞］＝１」｝からｗｅｅｋ：単語属性＝｛「名詞」，「生起確率［名詞］＝１」｝にいたる単語とその単語属性を逐次受け取って、図６中の当該の単語における出現回数を１インクリメントする。さらに以下のようにして各生起確率の値を更新する。

【００５１】単語属性推論手段５によって選択された属性（品詞名）ａの場合：新生起確率＝｛旧生起確率×（旧出現回数＋１）｝／
（旧出現回数＋１）単語属性推論手段５によって選択されなかった属性（品詞名）の場合：新生起確率＝｛旧生起確率×（旧出現回数）｝／（旧出現回数＋１）このようにして、単語属性推定手段５が出力した全ての属性付き単語について、上式による生起確率の更新を行った結果を示したのが図１１である。

【００５２】次に連接確率格納手段６の内容であるが、
これも同様に更新処理を行った結果、図１０の内容が図１２の内容へと変化する。従来存在しなかった連接の組み合わせが生じたときは、属性付き単語列の情報を用いて新たなエントリーを連接確率格納手段６に追加する。
属性付き単語列が連接確率の情報を含んでいたのは、単語列Ａの中では単語ｓｕｓｐｅｃｔのみであり、これが更新処理に該当する。他の単語で左右に隣接語をもつものは、新たなエントリーを追加する処理に該当する。

【００５３】確率情報更新手段７は、単語ｓｕｓｐｅｃ
ｔをＣｅｎｔｅｒ文字列にもつ図１０のエントリーに対して出現回数を１インクリメントして４２とする。そして、新連接確率＝＝｛旧連接確率×（旧出現回数＋
１）｝／（旧出現回数＋１）により、新連接確率＝０．
０４２として、このエントリーを図１２に示す内容に更新する。他の単語、｛ｉｓｔｏｂｅａｄｊｕｄｉ
ｃａｔｅｄｆｏｒｔｈｅａｂｄｕｃｔｉｏｎｔ
ｏｄａｙａｆｔｅｒｔｈｅｓｅｖｅｒｅａｄｍｏ
ｎｉｔｉｏｎｂｙｔｈｅｃｏｕｒｔｌａｓｔ｝
については、左隣接語、自身、右隣接語の文字列を各々、Ｌｅｆｔ文字列、Ｃｅｎｔｅｒ文字列、Ｒｉｇｈｔ
文字列とし、それぞれの単語属性の内、品詞の情報をＬ
ｅｆｔ品詞、Ｃｅｎｔｅｒ品詞、Ｒｉｇｈｔ品詞としたエントリーを追加する。連接確率は、他のエントリーから求められる全エントリーの延べ出現回数Ｓ（図１０でＳ＝１０００）を用いて、連接確率＝１／｛Ｓ＋１｝＝
０．００１（有効数字２桁）と求められる。図１２では煩雑さを避けるため、新たに追加される１６エントリーのうち、最初の３エントリーのみを記述している。

【００５４】次回以降の解析では、確率情報更新手段７
によって更新された生起確率格納手段２および連接確率格納手段６の内容が使用される。このように、解析処理を行うと同時に、解析対象となった実データを反映するように生起確率格納手段２および連接確率格納手段６の内容が逐次更新されていくのが第３の請求項の方式の特徴である。

【００５５】次に、第４の請求項の実施例における動作を説明する。

【００５６】図４の装置に、第１の請求項の場合と同じ入力文字列Ａが入力されるものとする。［入力文字列Ａ］：Ｔｈｅｓｕｓｐｅｃｔｉｓｔ
ｏｂｅａｄｊｕｄｉｃａｔｅｄｆｏｒｔｈｅ
ａｂｄｕｃｔｉｏｎｔｏｄａｙａｆｔｅｒｔｈｅ
ｓｅｖｅｒｅａｄｍｏｎｉｔｉｏｎｂｙｔｈｅ
ｃｏｕｒｔｌａｓｔｗｅｅｋ．この入力文字列Ａが入力されてから、図４の装置は、第２の請求項の場合と全く同じ動作を経て、単語属性推定手段５から第２の請求項の場合と全く同じ属性付き単語列を出力する。第４の請求項の方式に特有の動作は、この属性付き単語列が、確率情報更新手段７に渡され、それがワイルドカード化判定手段８による処理を経て、生起確率格納手段２の内容、そして連接確率格納手段６の内容を更新する部分である。以下この動作を説明する。

【００５７】ワイルドカード化判定手段８は、さまざまな文字列の一部をワイルドカード化して新たな部分文字列を生成することができるが、ここでは次の制御を例に取り上げて説明する：基準１：「ｍ文字以上の名詞（ｍ＝８）を確率情報更新手段７から受け取った際に生起確率格納手段２の中にｎ
文字以上（ｎ＝４）の文字列が後方一致するエントリーを検出し、これらを統合する。」基準２：「前置詞と名詞は文字列全体をワイルドカード
^*とし、他は文字列そのままとして、隣接３単語の品詞、文字列がワイルドカード照合により一致するエントリーを連接確率格納手段６の中で逐次検出し、これらを統合する。統合の対象とならなかったエントリーは、それが前置詞と名詞を含んでいてもそれらの文字列をワイルドカード化しないままで残す。」確率情報更新手段７から単語列、Ｔｈｅｓｕｓｐｅｃ
ｔｉｓｔｏｂｅａｄｊｕｄｉｃａｔｅｄｆｏｒ
ｔｈｅａｂｄｕｃｔｉｏｎｔｏｄａｙａｆｔｅｒ
ｔｈｅｓｅｖｅｒｅａｄｍｏｎｉｔｉｏｎｂｙ
ｔｈｅｃｏｕｒｔｌａｓｔｗｅｅｋ．にそれぞれ対応する素性付き単語列を受け取ったワイルドカード化判定手段８は、上記の基準１に合致する８文字以上の名詞ａｂｄｕｃｔｉｏｎ、ａｄｍｏｎｉｔｉｏｎを受け取った時点で、図６に示した生起確率格納手段２の中に４
文字以上の文字列が後方一致するエントリーを検出しにいく。図６によれば、ａｂｄｕｃｔｉｏｎの後方４文字ｔｉｏｎに一致する別のエントリーは、ａｄｍｏｎｉｔ
ｉｏｎのみであり、ワイルドカード化判定手段８は基準１によりこれらを統合する。統合の際には、請求項に記したように、出現回数を合計し、各品詞の生起確率を新たに合計された出現回数によって再計算すればよい。この結果、出現回数が、元々図６に格納されていた１＋１
＝２に加え、新たに確率情報更新手段７から受け取ったａｂｄｕｃｔｉｏｎの分をカウントして２＋１＝３となる。品詞の生起確率については、すべての元のエントリーで名詞＝１のみであったため、統合されたエントリーの中でも、名詞＝１となる。さらに、ａｄｍｏｎｉｔｉ
ｏｎを確率情報更新手段７から受け取った時点で、出現回数を３＋１＝４とし、品詞の生起確率は、計算の結果、名詞＝１としたことにより、当該の新しくワイルドカードを含むエントリー^* ｔｉｏｎが図１２のように更新される。図１２では、元の図６にあってａｂｄｕｃｔ
ｉｏｎ、ａｄｍｏｎｉｔｉｏｎに対応するエントリーは、ワイルドカード化判定手段８によって削除される。

【００５８】次に、ワイルドカード化判定手段８は、確率情報更新手段７から受け取った連接情報を基準２によって次のように逐次ワイルドカード化する。ｔｈｅ−* −ｉｓ；* −ｉｓ−ｔｏ；ｉｓ−ｔｏ−ｂ
ｅ；ｔｏ−ｂｅ−ａｄｊｕｄｉｃａｔｅｄ；ｂｅ−ａｄ
ｊｕｄｉｃａｔｅｄ−* ；ａｄｊｕｄｉｃａｔｅｄ−*
−ｔｈｅ；* −ｔｈｅ−* ；ｔｈｅ−* −ｔｏｄａｙ；
* −ｔｏｄａｙ−*；ｔｏｄａｙ−* −ｔｈｅ；* −ｔ
ｈｅ−ｓｅｖｅｒｅ；ｔｈｅ−ｓｅｖｅｒｅ−* ；ｓｅ
ｖｅｒｅ−* −* ；* −* −ｔｈｅ；* −ｔｈｅ−* ；
ｔｈｅ−* −ｌａｓｔ；* −ｌａｓｔ−* ；これらのうち、図１０のエントリーまたは、先行する新エントリーと一致し、且つ対応する品詞の組も全て一致するのは、
新エントリーの［ｆｏｒｔｈｅａｂｄｕｃｔｉｏｎ］
が出現した後の新エントリー［ｂｙｔｈｅｃｏｕｒ
ｔ］が出現したときだけである。よって、この時点で、
ワイルドカード化判定手段８は、基準２に従って出現数２、連接確率＝２／｛１０００＋２｝＝０．００２をもつワイルドカード付きのエントリー［ ^*前置詞−ｔｈｅ
定冠詞− ^*名詞］を図１４の中に生成する。

【００５９】このように第４の請求項の方式では、解析対象となった実データを反映するように生起確率格納手段２および連接確率格納手段６の内容を逐次更新していく際に、確率を指定する条件の数が個別にいたずらに拡大の一途をたどることを、一定の基準により防止することができる。

【００６０】なお、各請求項に対応する上実施例では、
簡単のために、辞書１に接続カテゴリーをはじめとする、他種の曖昧性解消に有用な情報や、発音・アクセント、訳語などの各種応用に必要な情報の記述は省略したが、これらは、いずれも単語属性として、図５に記載の文字列情報・品詞情報に対応させて記述可能である。そして、図７の流れ図において解析手段３が「当該の単語に対応する単語属性を単語属性推定手段５へ出力」する処理の中で出力され、ひきつづき単語属性推定手段５において、必要に応じて推定に利用することができる。

【００６１】また、請求項に記載した通り、図８に記載の生起確率格納手段２の内容は、辞書１の内部に格納することもできる。この場合は、登録語の文字列情報を鍵として、図７に記載された内容と図８に記載された内容とを組み合わせて１まとまりとしたものが、各登録語の内容として辞書１に記載されることになる。

【００６２】

【発明の効果】本発明によれば、ワイルドカード文字を含む文字列を辞書に登録できるようにし、それらを一般の語と区別なくＮ−ｇｒａｍモデルで統計的に処理することにより、効率がよく、全ての未定義語に対処でき、
かつチューニングの容易な頑健な解析機能を提供することが可能となる。

【図面の簡単な説明】

【図１】第１の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

【図２】第２の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

【図３】第３の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

【図４】第４の請求項の単語属性推定方式が動作する装置の構成例を示す概念図である。

【図５】辞書１の内容例を示す。

【図６】生起確率格納手段２の内容例を示す。

【図７】解析手段３が入力文字列を辞書１の内容と照合する手順の例を示す流れ図である。

【図８】ワイルドカード照合手段４が解析手段３に入力された入力文字列と、生起確率格納手段２の内容とを照合する手順の例を示す流れ図である。

【図９】単語属性推定手段５が解析手段３から受け取った、辞書１の内容および生起確率格納手段２の内容の付属する単語列に対して、個々の単語の単語属性を推定して属性付き単語列を出力する手順の例を示す流れ図である。

【図１０】連接確率格納手段６の内容例を示す。

【図１１】確率情報更新手段７の動作後の生起確率格納手段２の内容例である。

【図１２】ワイルドカード化判定手段８が機能した場合の確率情報更新手段７の動作後の生起確率格納手段２の内容例である。

【図１３】確率情報更新手段７の動作後の連接確率格納手段６の内容例である。

【図１４】ワイルドカード化判定手段８が機能した場合の確率情報更新手段７の動作後の連接確率格納手段６の内容例である。

【符号の説明】

１辞書２生起確率格納手段３解析手段４ワイルドカード照合手段５単語属性推定手段６連接確率格納手段７確率情報更新手段８ワイルドカード化判定手段

标题	发布/更新时间	阅读量
一种在线日志解析方法、系统及其电子终端设备	2020-05-11	581
一种基于私有云的骚扰电话拦截方法	2020-05-12	536
一种加密文件的检索方法、系统、终端设备及存储介质	2020-05-12	410
一种基于可视化流程图的智能问答多轮交互方法和系统	2020-05-12	943
一种可自定义的dex分包的方法	2020-05-12	841
日志异常检测方法	2020-05-13	440
用于双向链接的区块链的哈希值	2020-05-15	37
一种工作流中条件配置的方法和装置	2020-05-15	778
一种终端设备存储器件过度编程快速定位方法	2020-05-12	650
一种基于代码注释自动生成开发文档的方法及系统	2020-05-12	814

Word attribute estimating system

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：