Grammar checking system专利检索-正确标注人工智能专利检索查询-专利查询网

Grammar checking system

阅读：748发布：2021-09-25

专利汇可以提供Grammar checking system专利检索，专利查询，专利分析的服务。并且PURPOSE: To correct a homonym with different spelling by tagging a sentence relating to a part of speech first and then checking the sentence of incorrect grammar.
CONSTITUTION: An input sentence S1 is connected to a part of speech tagging module 52 and the generation module 54 of a candidate sentence S2 provided with a confusing word list 56. The module 52 analyzes the input sentence S1 to a most appropriate part of speech string T1 and the possibility P1 (58). Also, the output of the module 54 is supplied to the module 52 and the most appropriate part of speech string T2 and the possibility P2 are generated again (60). After the possibility P1 and the possibility P2 of the input sentence S1 and the candidate sentence S2 are obtained, which part of-speech string is most likely to be correct is decided. The possibility P2 is compared with the possibility P1 so as to decide the appropriate sentence to be selected (62), the candidate sentence S2 is presented instead of the input sentence S1 when P2-P1 is larger than a certain threshold value (e) and nothing is presented in the case of P2-P1≤(e).
COPYRIGHT: (C)1995,JPO，下面是Grammar checking system专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】入力文が最初に品詞に関してタグ付けされる文法チェックシステムにおいて、訂正すべき前記入力文の候補単語の品詞の可能性を確認する確認手段と、所定しきい値以下である前記可能性に基づいて訂正した単語を提示する提示手段とを備えた文法チェックシステム。

【請求項２】前記確認手段は、前記入力文内の品詞を表すタグで前記入力文内の各単語にタグ付けするタグ付け手段を含む請求項１記載の文法チェックシステム。

【請求項３】前記確認手段は、前記入力文内の単語の品詞列の訂正の可能性を確認する品詞列確認手段を含む請求項１記載の文法チェックシステム。

【請求項４】前記品詞列確認手段は、連続した３つの品詞列を解析する解析手段を含む請求項３記載の文法チェックシステム。

【請求項５】前記提示手段は、混同しやすい単語を集めた混同単語リストと、前記候補単語と前記混同単語リストからの混同単語とを含む少なくとも一つ以上の候補文を生成する候補文生成手段と、対応する品詞列の可能性の高さに基づいて前記入力文又は前記候補文のいずれかを選択する選択手段とを含む請求項３記載の文法チェックシステム。

【請求項６】前記選択手段は、前記入力文と前記候補文の品詞列の可能性の相乗平均に基づくものである請求項５記載の文法チェックシステム。

【請求項７】前記混同単語リストは、少なくともｔｏ、ｔｏｏ、ｔｗｏと、Ｉ、ｍｅと、ｉｔｓ、ｉｔ'ｓと、ｔｈｅｎ、ｔｈａｎと、ｗｈｏｓｅ、ｗｈｏ'ｓと、ｏｕｒ、ａｒｅと、ｈｅａｒ、ｈｅｒｅと、ｐａｓｔ、ｐａｓｓｅｄと、ａｃｃｅｐｔ、ｅｘｃｅｐｔと、ａｄｖｉｓｅ、ａｄｉｃｅと、ｌｏｓｅ、ｌｏｏｓｅと、ｗｒｉｔｅ、ｒｉｇｈｔと、ｙｏｕｒ、ｙｏｕ'ｒｅと、ａｆｆｅｃｔ，ｅｆｆｅｃｔと、ｍａｙｂｅ、ｍａｙｂｅとを含む請求項５記載の文法チェックシステム。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、多種の文法チェックモジュールで品詞列の可能性を利用するシステムに関するもので、特に、スペルが異なる同音語等の混同単語を訂正できる文法チェックシステムに関するものである。

【０００２】

【従来の技術】ＨｅｎｒｙＫｕｃｅｒａ氏その外に発行された米国特許第４、８６８、７５０号公報で説明されるように、口語体の文法チェックシステムは、自然言語で構成されたデジタル符号化テキストを受け取り、そして単語と解析を蓄積した辞書と、解析プログラムとを用いて符号化テキストを解析して、エラーを識別するためのコンピューターを介した自動化言語分析を必要とする。特に、そのようなシステムは文法エラーを検出するためのマイクロソフトワードのプログラムで利用される。

【０００３】そのようなシステムに関連する最も厄介な問題の一つは、そのシステムが正しい使用法を提示する時の非常に高いエラー率である。不合理に高いエラー率の理由は、文に関するシステムの不適当な解析に由来する。また、文についての正しい解析と仮定すると、マイクロソフトシステムはしばしば不適当な単語を提示する。

【０００４】全文が正しいという可能性に基づいて文を解析しようと試みる種類のシステムもある。そのようなシステムにまつわる最も大きい問題は、それらが現在のパーソナルコンピュータと関連メモリとの能力を超えた蓄積と処理の能力を要求することである。

【０００５】他のシステムは、トレーニングコーパスに基づく文を解析することによって不適当な文法を検出しようと試みる。但し、高速処理だけでなく大容量の蓄積装置が要求されるシステムの制約が、この種のシステムをパーソナルコンピュータ環境での使用を妨げる。

【０００６】実例として、先の文法チェックシステムは、「ａ」と「ａｎ」などの不定冠詞を挿入するのに常に失敗する。それはそのシステムにより提示される自然言語に翻訳しようとする時に外国語を話す個人にとってはとりわけ大問題となる。

【０００７】また、非常に重要なことは、文が、文法規則、或いは「ｔｈｅ」、または「ａ」などの口語的使用法のいずれにも不慣れなこれらの人々により構成される時に、そのような適切な冠詞を挿入する能力がないことである。更に、従来技術の文法チェックシステムによる共通の誤りは、複合動詞が使用される不適切な動詞列のいかなる認識も含まないことである。複合動詞は文内で正しく使用できるが、ほとんどの外国語を話す個人は「Ｈｅｈａｓｒｅｃｏｇｎｉｚｅｔｈａｔｓｏｍ
ｅｔｈｉｎｇｅｘｉｓｔｓ．」などの誤りを常におかす。ここで「ｈａｓ」は動詞であり、そして「ｒｅｃｏ
ｇｎｉｚｅ」も動詞である。複合動詞の明らかな不正な使用が在ることが分かる。

【０００８】最も重要なことに、問題はいわゆる限定詞で起こる。依って例えば文「Ｉｈａｖｅｃｉｇａｒ
ｅｔｔｅ．」は明らかに限定詞「ａ」を欠いている。同様に、「ｓｏｍｅ」または「ａｆｅｗ」などの欠けている限定詞も在る。従って、正しい文は「Ｉｈａｖｅ
ａｆｅｗｃｉｇａｒｅｔｔｅｓ．」と解釈される。同文は複数形の名詞、例えば「Ｉｈａｖｅａ
ｆｅｗｃｉｇａｒｅｔｔｅｓ．」、或いは「Ｉｈａ
ｖｅｃｉｇａｒｅｔｔｅｓ．」とすることにより正しく構成されることに留意すべきである。

【０００９】スペルチェッカー、または先の文法システムのいずれによっても訂正されない更なる典型的な文法の誤りは、不適当な単語活用を訂正しないことを含む。
例えば、不適当な動詞活用に関して、そのようなシステムは、「Ｉｄｒｉｖｅｄｔｏｔｈｅｍａｒｋｅ
ｔ．」などの文を滅多に訂正しない。

【００１０】上記問題は、その言語のイディオムや規則の両方に不慣れな非ネイティブスピーカーの観点から取り上げられる時には最大の壁となる。特に英語では、その言語を利用するこれらのネイティブスピーカーにも良く知られていないイディオム、または規則によりしばしば決定される正しい「文法」を有するので、その規則は、思うほど単純であるとは限らない。

【００１１】故に、特定の国籍の非ネイティブスピーカーによる最も頻繁になされる誤りを考慮する文法チェックシステムを提供することが重要である。それで、例えば予測可能、故に訂正可能である方法で英語に翻訳される日本語のネイティブスピーカーにより通常なされる誤りの体系が在る。同様に、例えばフランス語、或いはロマンス語のいずれかに対して、検出されて、訂正できる英語に翻訳する時になされる一定の特徴的誤りが在る。

【００１２】構文認識システムは一般に、小さくて、十分に定義された語彙を有するテキストでの動作に、または限定された範囲の構文的特徴を扱う、より一般的なテキストでの動作に限定されていた。語彙、または構文的範囲のいずれの拡張も、益々複雑な構造と増えてくる多数の特別の認識規則とを必要とし、それはシステムを一般に利用できるコンピューターシステム上での商業的実施を過大にするか、或いは扱いにくくする。

【００１３】テキスト処理システムで文脈上の誤りを検出して、そして訂正するための他の一般システムは、Ｆ
ｒｅｄｅｒｉｃｋＢ．Ｌａｎｇ氏その外に発行された米国特許第４、６７４、０６５号公報で説明される。そこで単語使用確証のための文書を校正し、そしてテキスト処理するためのシステムが、異形同音異義語と混同する単語とのセットの専門辞書を、それから単語の正しい使用法が統計学的に決定できるダイグラム（di-gra
m）とｎグラム（n-gram）条件のセットを連結することにより達成される。前述のように、品詞に対立するものとして単語に統計学的処理を行うには例外的に大きいトレーニングコーパスと高速計算とを必要とし、そのシステムをパーソナルコンピューター用途にとっては幾分扱いにくいものにする。更に、同音語に関して混同する単語を検出する時、このシステムは、一般的使用法においては混同するが、似ているとは思われないこれらの単語の訂正を提供するには十分ではない。

【００１４】最後に、米国特許第４、８３０、５２１号は、スペルチェック機能と固有名詞認識とを備えた電子タイプライターに関する特許である。名詞認識での問題は、固有名詞の認識において正確であるか、またはそうではないかの大文字化シナリオに集中することが理解されよう。最も重要なことに、この特許は、大文字化の機能を決定するために、単語が文の最初の単語であるかどうかを見つけるためにしか語を試験しないのに対して、
大文字化は文内のどこの語に対しても明らかに可能である。

【００１５】更なる背景の多数の特許により、最初スペル訂正の使用を通してその文法問題に着手する。そのような特許は、米国特許第５、２１８、５３６号、第５、
２１５、３８８号、第５、２０３、７０５号、第５、１
６１、２４５号、第５、１４８、３６７号、第４、９９
５、７４０号、第４、９８０、８５５号、第４、９１
５、５４６号、第４、９１２、６７１号、第４、９０
３、２０６号、第４、８８７、９２０号、第４、８８
７、２１２号、第４、８７３、６３４号、第４、８６
２、４０８号、第４、８５２、００３号、第４、８４
２、４２８号、第４、８２９、４７２号、第４、７９
９、１９１号、第４、７９９、１８８号、第４、７９
７、８５５号、そして第４、６８９、７６８号を含む。

【００１６】米国特許第５、２２４、０３８号、第５、
２２０、５０３号、第５、２００、８９３号、第５、１
６４、８９９号、第５、１１１、３８９号、第５、０２
９、０８５号、第５、０８３、２６８号、第５、０６
８、７８９号、第５、００７、０１９号、第４、９９
４、９６６号、第４、９７４、１９５号、第４、９５
８、２８５号、第４、９３３、８９６号、第４、９１
４、５９０号、第４、８１６、９９４号、そして第４、
７７３、００９号などのテキスト解析を扱う多数の特許もまた在る。これらの特許の全ては、与えられた自然言語で書かれた文書を提供することを強制されるこれらの非ネイティブスピーカーにより特に要求されるレベルにまでは文法をチェックする目的のために実際には実施できないシステムに関するものであることは理解されよう。これらの特許は、非ネイティブスピーカーのための文法訂正や英語の使用法に特に向けられていない一般的なシステムに関することもまた理解されよう。

【００１７】最後に、いかに効率的に辞書を符号化することが出来るかに関する多数の特許が存在する。これらの特許は米国特許第５、１８９、６１０号、第５、０６
０、１５４号、第４、９５９、７８５号そして第４、７
８２、４６４号である。辞書の符号化は、文法を十分にチェックできるシステムを構築する１ステップを除いたものであることは理解されよう。

【００１８】文法のチェックにおける特有の重要性については、品詞が与えられた文内に存在するとき、その品詞列を検出する能力である。正しい文は、正常な順序で続く品詞を持っているので、品詞列を解析することにより、その文がその文法に関して正しいという可能性を検出することが出来る。従来技術のシステムは品詞のために文にタグ付けして、上記可能性に対して品詞列を解析したが、これらの可能性は文法のチェック、訂正システムでは決して利用されなかった。

【００１９】

【発明が解決しようとする課題】従来の文法チェックシステムでは、そのシステムが正しい使用法を提示する時の非常に高いエラー率である。不合理に高いエラー率の理由は、文に関するシステムの不適当な解析に由来する。また、文の解析が正しくなされたとしても、マイクロソフトシステムはしばしば不適当な単語を提示する。
また、現在のパーソナルコンピュータと関連メモリとの能力を超えた蓄積と処理の能力を要求する。

【００２０】この発明は、前述した問題点を解決するためになされたもので、スペルが異なる同音語を訂正できる文法チェックシステムを得ることを目的とする。

【００２１】

【課題を解決するための手段】先のスペルチェックや、
文法チェックシステムで主要問題を解決するために、主たる文法チェックシステムは、品詞に関して文に最初タグ付けすることに続いて、正しくない文法の文をチェックすることを含む。このシステムは訂正すべき全文の可能性に基づかないで、むしろ正しい順序列を有する品詞の可能性に基づいた語の使用法を訂正する。

【００２２】より特定的に、正しい文を解析、構築するために、品詞列が正しい単語列に対応するという可能性を確認することが重要である。入力された文列の可能性を得るために、解析、またはタグ付け装置の出力が品詞列可能性決定モジュールに連結される。このモジュールの出力は入力文の解析において種々のモジュールにより利用できる。

【００２３】一つの形態において、モジュールの一つは、対応する品詞列の可能性に基づく混同しやすい単語、または文のセットの間で選択する品詞照合モジュールである。正しい単語、または文の選択は、一つの形態において、所定のしきい値を超える可能性により決定される。正しい文の選択は、モジュールにより達成される、それへの入力は入力文だけでなく種々の文の可能性のものである。このモジュールは、混同しやすい単語リストを備えている。

【００２４】

【作用】品詞列可能性は、後に説明されるように、語幹（ｕｎｄｅｒｌｙｉｎｇ）のスペル訂正、助動詞訂正、
限定詞訂正、連語辞書引きに有効に働く。これらの文法チェックモジュールの各々において、解析された各単語の品詞は正確に確認されなければならない。これは品詞列可能性により提供される確率的メカニズムを通じて達成される。

【００２５】要約すると、文が最初品詞に関してタグ付けされる文法チェックシステムにおいて、厄介な単語の不正な使用、特にそれらのスペルが異なる同音語を訂正するために正しい品詞列の可能性が利用される。そのシステムは、訂正すべき文全体の可能性からではなく、訂正すべき品詞列の可能性から単語の使用法を訂正する。
主たる発明の部分として、品詞列可能性が、品詞列照合、語幹（ｕｎｄｅｒｌｙｉｎｇ）のスペル訂正、助動詞訂正、限定詞訂正、連語辞書引きで利用される。

【００２６】

【実施例】

実施例１．モジュラー文法チェックシステム本発明は品詞解析モジュールの使用、品詞列可能性モジュール、そして文法チェックシステムの種々の他のモジュールとのその使用に関するが、今説明されることは、
種々のモジュールが品詞可能性に頼る全体の文法チェックシステムについてである。

【００２７】本発明によるシステムに係る品詞列可能性検出と使用の説明は、図１、図２、図３、図７、図８、
図９、図１０、図１１、図１３、図１５、図１６、図１
７、図１８、図１９、図２０及び図２１と関連して説明される。

【００２８】図１において、特に外国語を綴る人にとって、特にコンピューターの知識のないこれらの人々にとっても正確で、且つ容易に使用できる入力された文に対して即座の文法チェックを提供することは重要である。
文法チェックを達成するために、入力文１０はキーボード１２により単語処理システム１６のＣＰＵ１４内に入力される。なお、符号１８はプリンタである。

【００２９】入力文の品詞が正確に決定されることが信頼できる文法照合にとって重要である。先の文法チェックシステムは入力文を直接に使用していたが、品詞列を提供することが出来るように入力文が品詞に分解されることがこの発明の特徴である。これは、Ａｐｐｌｉｅｄ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓ
ｉｎｇ、Ａｕｓｔｉｎ、Ｔｅｘａｓ、１９８８での第二会議の議事録の「ＡＳｔｏｃｈａｓｔｉｃＰａｒｔｓ
ＰｒｏｇｒａｍａｎｄＮｏｕｎＰｈｒａｓｅ
ＰａｒｓｅｒｆｏｒＵｎｒｅｓｔｒｉｃｔｅｄＴ
ｅｘｔ（非限定テキストのための確率学的品詞プログラムと名詞句パーサー）」として出版されたＫｅｎｎｅｔ
ｈＣｈｕｒｃｈ氏のＳｔｏｃｈａｓｔｉｃＰａｒｔ
ｓＰｒｏｇｒａｍ（確率学的品詞プログラム）の実施として利用できる品詞解析モジュール２０により達成される。得られた品詞の結果は、たとえば、「Ｉｈｅａ
ｒｄｔｈｉｓｂａｎｄｐｌａｙ．」という文を品詞分けした品詞列は、「代名詞（ＰＲＯＮＯＵＮ）、動詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥＲ）、名詞（ＮＯＵＮ）、動詞（ＶＥＲＢ）」となる。上記品詞解析モジュール２０は、与えられた単語がある品詞をとる確率である語彙確率と、３単語品詞列の出現頻度を示す文脈確率を用いて文中の各単語の品詞を決定するものである。すなわち、先ず、語彙確率検索部は、入力文中の各単語の語彙確率を語彙確率辞書から読み込む。この語彙確率辞書は、例えば単語「Ｉ」の品詞の種類とその確率、具体的には単語「Ｉ」が名詞である確率（０．０
０）と、単語「Ｉ」が人称代名詞である確率（１．０
０）を記憶し、アルファベット順に全ての単語が品詞の種類毎の出現確率として格納されている。次に、品詞列作成部は、例えば入力文の後から連続した３単語づつの３単語品詞列を作成する。文脈確率検索部は、文脈確率テーブルから上記作成した３単語品詞列の文脈確率を取り出す。この文脈確率テーブルには、３個の品詞の組合せになるあらゆるパターンについての出現確率が文脈確率として格納されている。それぞれの品詞列の組合せがとり得る確率は、大量の文を基にしてそのとり得る確率を統計的に求めたものである。次に、評価値算出部は、
３単語品詞列の文脈確率と語彙確率とを乗算して評価値とする。さらに、評価値算出部は、他の品詞列の文脈確率と語彙確率とそれまでの対応する累積評価値を乗算して評価値を算出する。以下、同様の処理を繰り返し、５
個の品詞列である、入力文「Ｉｈｅａｒｄｔｈｉｓ
ｂａｎｄｐｌａｙ．」がとりうる全ての品詞列に対する最終評価値が求まる。そして、それら最終評価値の最も高いものを品詞列として選択する。この場合に、選択される品詞列は、「人称代名詞（ＰＲＯＮＯＵＮ）、
動詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥＲ）、
名詞（ＮＯＵＮ）、動詞（ＶＥＲＢ）」である。

【００３０】単に単語の品詞を求めただけでは、それぞれの品詞が適切な文を反映するよう、正しく求められたかどうかの信頼性が高く確実とは言えない。

【００３１】文を解析して正しい文を構成するためには、品詞列が正しい単語列に対応する可能性を確認することが重要である。入力文列の可能性を得るために、品詞解析モジュール、つまり品詞タグ付けモジュール２０
の出力は品詞列可能性決定モジュール２２に連結される。このモジュールの出力は入力文１０の解析での種々のモジュールにより利用される。

【００３２】最初のモジュールは、対応する品詞列の可能性に基づいて混同しやすい単語、つまり文のセット間で選択する品詞列照合モジュール２４である。正しい単語、つまり文の選択は、一つの形態において、所定しきい値を超える可能性により決定される。正しい文の選択は、モジュール２６により達成される。それへの入力は、入力文だけでなく種々の文の可能性のものである。
ここと、後にも説明されるように、モジュール２６は混同しやすい単語のリストを備えている。

【００３３】混同しやすい文は上述の方法で訂正されるが、別のモジュール２８は単語の語幹のスペルを決定するために利用される。従来のスペルチェッカーはスペル照合のためのルックアップテーブルを利用するが、それらはスペルエラーの厄介な指示となる大文字化を考慮していない。更に、適当なスペルに頼るこれらの文法チェックシステムは、単語、文、または頭字語の始めのいずれかの大文字化された単語によりしばしば騙される。

【００３４】より信頼できるスペルチェックと文法訂正とを提供するために、語幹のスペル訂正モジュール２８
は大文字化された単語を「混同する」単語として扱う。
そうすることで、上記技術は、Ｂｒｏｗｎのコーパスなどのトレーニングコーパスに基づく一方のカテゴリーか、または他方のものにある大文字化された単語の可能性を提供するために使用される。

【００３５】従って、伝統的言語処理システムは、単語は普通名詞か、または固有名詞のいずれかであり、その両方ではないという限定を課すことにより単語の語幹のスペルを訂正したが、この訂正モジュールは文脈と可能性とを利用して、各単語を分類する。これは、どちらがより高い可能性を有するかを確認するために大文字化と非大文字化形式の単語を有する文を解析することにより達成される。その後、スペルのために解析された単語は、より高い可能性文内の単語の形式のものである。最も適当なスペルを訂正して、その訂正モジュール２８の出力が屈折チェック訂正モジュール３０に連結される。
このスペル訂正モジュールは従来のスペルチェックの変種であるか、または特定の外国を話す人のために調整されたものかのいずれであっても良い。

【００３６】別のモジュールとして、助動詞訂正モジュール３２は品詞列可能性決定モジュール２２から得られる正しい品詞をもまた必要とする。助動詞訂正問題は、
幾つかの不適当な複合動詞が文内に在るときに存在する。これは、不適当な時制が使用される時に複合助動詞列において見いだされる。例えば、文「ｈｅｗｏｕｌ
ｄｌｉｖｉｎｇ」は二つの動詞「ｗｏｕｌｄ」と「ｌ
ｉｖｉｎｇ」とを含む。その文の一つの正しい形式は「ｈｅｗｏｕｌｄｌｉｖｅ」となる。従って、動詞「ｌｉｖｅ」の時制は訂正される必要がある。

【００３７】これを達成するために、助動詞訂正モジュール３２はいかなる不適当な助動詞列も検出して、訂正を提示する。これは最初、動詞列の有限セットを説明する有向非循環グラフを利用することにより達成される。
正しい動詞列を確立する前に、上述のようにモジュール２２により達成される正しい品詞を正しく識別することが重要であることが理解されよう。

【００３８】助動詞訂正モジュール３２の出力は適切な代わりの文を提案するための正しい文選択モジュール３
４に連結される。

【００３９】品詞を利用する別のモジュールは限定詞訂正モジュール３６である。名詞句の指示対象を決定するこれらの単語を訂正することがこのモジュールの目的である。限定詞の例では、「ｔｈｅ」、「ａ」、そして「ｓｏｍｅ」などの単語である。このモジュールにより検出されて、訂正される三種類の誤りが在る、即ち、限定詞欠如、不用の限定詞、そして限定詞と名詞との間の数の不一致である。

【００４０】限定詞欠如の例は、「Ｊｏｈｎｒｅａｄ
ｂｏｏｋ」であり、その中で「ｔｈｅ」が欠落している。不用の限定詞の例は、「Ｊｏｈｎｗｅｎｔｔｏ
ｔｈｅＮｅｗＹｏｒｋ」であり、削除されるべき「ｔｈｅ」を有する。数の不一致は、文「Ｊｏｈｎｒ
ｅａｄｍａｎｙｂｏｏｋ」で明白であり、ここで名詞「ｂｏｏｋ」は限定詞「ｍａｎｙ」と一致するように複数化されなければならない。不適当な限定詞を検出するために、品詞タグが識別されるので、名詞句を識別することが出来る。そのシステムは、品詞タグのどの列が有効名詞句を構成するかを定義する規則的表現と最大限に一致することにより名詞句を識別する。

【００４１】それでそのシステムは、各名詞句を試験して、それが限定詞を逸しているかどうかを見る。このプロセスの一部として、主要名詞が最初に検出され、続いてこの主要名詞が質量名詞、質量タイトル名詞、イディオムであるか、または限定詞を逸しているかどうかが決定される。それでそのシステムは、各名詞句を試験して、それが不用の限定詞を有するかどうかを見る。最後に、そのシステムは名詞句の限定詞と主要名詞との数が一致するかどうかを試験する。その結果は、モジュール３８に示されるように単語の挿入、削除、または置換の何れかとなる。

【００４２】更に、モジュール４２は入力文１０に基づいて不定冠詞「ａ」と「ａｎ」の使用法を訂正する。

【００４３】最後に、品詞列により提供される精度は連語辞書引きモジュール４０に役立つ。典型的に与えられた単語は、各々が辞書内のサブエントリーに対応する多数の品詞を文脈外で有する。連語辞書引きモジュール４
０は辞書にアクセスして、品詞解析モジュール２０により得られた単語の品詞に基づいて適切な定義を選択する。例えば、単語「ｌｏｖｅ」は名詞、または動詞であり、そして名詞「ｌｏｖｅ」は、動詞「ｌｏｖｅ」に比べて、辞書内に多数の異なるエントリーを有する。入力文が「Ｓｈｅｗａｓｍｙｆｉｒｓｔｌｏｖｅ」
であると仮定すると、単語「ｌｏｖｅ」は品詞解析モジュールにより名詞として識別される、そして連語辞書引きモジュールは名詞「ｌｏｖｅ」に対する辞書のエントリーと動詞「ｌｏｖｅ」に対するこれらのみを選択する。

【００４４】単語の語幹のスペルが一度、モジュール２
８により訂正されると、これはモジュール３０による活用訂正のために使用されるだけでなく、従来のスペルチェックモジュール４４においてもまた使用されることが理解されよう。従って、従来のスペルチェックシステムが、スペルチェックの過程で、頭字語を不適切な配列として示さずに、頭字語のスペルをチェックすることができる。

【００４５】ａ）品詞可能性に基づく文法訂正過去において、幾つかの前述の文法チェックシステムは、幾つかの厄介な単語の不正使用を訂正、特にスペルが異なる同音語を訂正することにより英語使用法を訂正することを試みてきた。例えば、「ｔｏｏ」と「ｔｏ」
と「ｔｗｏ」や、「ｔｈｅｉｒ」と「ｔｈｅｙ'ｒｅ」
と「ｔｈｅｒｅ」である。他の共通の誤りは、単語が、
「ｍａｙｂｅ」や「ｍａｙｂｅ」など一語か、または二語であるべきかに思案する。同音ではないが、「ｗｈ
ｉｃｈ」や「ｗｈｏｓｅ」などしばしば誤用される単語もある。

【００４６】過去において、適当な使用法を突き止めるために、文の文法性は、英語の文の出現頻度として計算された。そのような統計的アプローチは、文法的に正しい文には高い確率を、そして非文法的文には低い確率を割り当てる。その統計は、英語の文の収集、つまりトレーニングコーパス（training corpus）を準備することにより得られる。そのコーパスは、語の正しい使用法を定義する。結果として、文がそのような文法チェックシステム内にタイプ入力されると、そのコーパスと関連する全文の可能性つまり出現頻度が計算される。約６万語の全英語の語彙を受け入れるために、数百兆語のコーパスが使用されなければならないことが理解されよう。更に、多数の可能性がコンピューター内に蓄積されなければならない。従って、全文を解析するのは、計算と蓄積との両面において重い負荷となる。

【００４７】本発明のシステムでは、語の正しい使用法を確立するために、品詞列の出現頻度が必要である。この目的のため、システムがどれだけ洗練されているべきかにより１００から４００の可能品詞が在ると見なすことが出来る。これは、数百兆に対して数百万語のトレーニングコーパスに相当する。このタイプの解析は、単語処理に使用されるものを含む標準計算プラットフォームで容易に実行できる。

【００４８】従って、本発明によるシステムにおいて、
文は最初に品詞に分解される。例えば、文「Ｉｈｅａ
ｒｄｔｈｉｓｂａｎｄｐｌａｙ」は、以下のように解析される。各単語は、人称代名詞（ＰＲＯＮＯＵ
Ｎ）、動詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥ
Ｒ）、名詞（ＮＯＵＮ）、及び動詞（ＶＥＲＢ）として解析される。この品詞列の可能性、つまり品詞列の出現頻度を示す文脈確率は、その品詞列をコーパスと比較することにより決定される。これはまた、いわゆるトリグラム（tri-grams：三重字）、つまり３単語品詞列を考慮に入れないならば実行可能でない。トリグラムは、入力文内で隣接した品詞の三つの要素からなる。三つの隣接品詞の解析は、正しさを立証するのに通常十分であり、そして特有の文が正しい使用法を必要とすることを立証するために使用されるこれらのトリグラムの可能性、つまり文脈確率である。従って、全文をチェックするよりもむしろ、三つの隣接品詞の可能性がトレーニングコーパスから計算される。

【００４９】ある文と、その文が混同された他方の文の二つの文を仮定すると、どちらが正しい使用法であるかを決定することは上記技術で可能となる。上記システムは低エラー率でこれを決定することが出来るので、二つの利点が在る。その第一の利点は二つの文のどちらが正しいかを明白に突き止める。第二の利点は、正しい文を構築した後、その品詞は他の処理のための他の文法チェックモジュールにより使用できることである。

【００５０】図２において、符号５０に示されるように入力文Ｓ１は、品詞タグ付けモジュール５２と、また符号５４で示されるように入力として混同単語リスト５６
を有する候補文Ｓ２の生成モジュールとに連結される。
品詞タグ付けモジュール５２は、符号５８に示されるように、入力文Ｓ１を最も適当な品詞列Ｔ１とその可能性Ｐ１とに解析する。これは、最も適当な品詞列が全ての品詞の有りえる３単語品詞列の可能性の最も適当な積を計算することにより得られる上記Ｃｈｕｒｃｈにより説明されたようなアルゴリズムにより達成される。

【００５１】入力文Ｓ１内の単語は混同単語リスト５６
の一部であるかも知れない。何れの場合でも、入力文Ｓ
１に対する全ての可能な候補文Ｓ２は混同単語リスト５
６から生成される。候補文生成モジュール５４の出力は品詞タグ付けモジュール５２に供給されて、再度、符号６０に示されるように最も適当な品詞列Ｔ２と、その可能性Ｐ２とを生成する。

【００５２】符号５８と符号６０で入力文Ｓ１と候補文Ｓ２の可能性Ｐ１と可能性Ｐ２を得てから、どの品詞列が最も正しそうであるかを決定することが重要となる。
選択されるべき適当な文を決定するために、そして符号６２に示されるように、可能性Ｐ２は可能性Ｐ１と比較され、そしてＰ２−Ｐ１があるしきい値ｅよりも大きければ、符号６４に示されるように、入力文Ｓ１の代わりに候補文Ｓ２が提示される。もしＰ２−Ｐ１＜＝ｅならば、符号６６に示されるように何の提示もなされない。

【００５３】例えば、入力文が「Ｉｗａｎｔｔｏ
ｈｅｒｅｔｈｉｓｂａｎｄ」であるとすると、ここで「ｈｅｒｅ」が正しい単語「ｈｅａｒ」の代わりに誤用されており、入力文Ｓ１「Ｉｗａｎｔｔｏｈｅ
ｒｅｔｈｉｓｂａｎｄ」と候補文Ｓ２「Ｉｗａｎ
ｔｔｏｈｅａｒｔｈｉｓｂａｎｄ」とを比較する必要がある。

【００５４】これらの二つの文を比較するために、英語の文の与えられたある統計モデルを文の全体の可能性と比較することが出来る。「ＩｎｆｏｒｍａｔｉｏｎＰ
ｒｏｃｅｓｓｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ」
で２７（５）：５１７ー４２２、１９９１にタイトル名「ＣｏｎｔｅｘｔＢａｓｅｄＳｐｅｌｌｉｎｇＣｏ
ｒｒｅｃｔｉｏｎ」で出版されたＥｒｉｃＭａｙｓ、
ＦｒｅｄＤａｍｅｒｅａｕ、そしてＲｏｂｅｒｔＭ
ｅｒｃｅｒ等による記事で検討された、このアプローチは、計算機的に非常に高価であるので、４万語以上の語彙を有する自由なテキストを扱う時には標準コンピューターでは非実用的となる。文可能性を直接計算することができることは、大量のトレーニングデータ、例えば最小限４億のトレーニング単語と、大量の記憶容量とが必要となる。

【００５５】それとは対照的に、図２に示されるように本発明によるシステムは、与えられた入力文と混同しそうな候補文とに対する最も適当な品詞列の可能性を比較する。例えば、文「Ｉｗａｎｔｔｏｈｅｒｅｔ
ｈｉｓｂａｎｄ」全体の可能性を計算する代わりに、
本発明によるシステムはその文に対して最も適当な品詞列、例えば「ＰＲＯＮＯＵＮ（人称代名詞）ＶＥＲＢ
（動詞）ＴＯＡＤＶＥＲＢ（副詞）ＤＥＴＥＲＭ
ＩＮＥＲ（限定詞）ＮＯＵＮ（名詞）」を得る。そして入力文に対して品詞列の可能性を計算する。同様に、
本発明によるシステムは、候補文「Ｉｗａｎｔｔｏ
ｈｅａｒｔｈｉｓｂａｎｄ」に対する最も適当な品詞列、例えば「ＰＲＯＮＯＵＮ（人称代名詞）ＶＥ
ＲＢ（動詞）ＴＯＶＥＲＢ（動詞）ＤＥＴＥＲＭ
ＩＮＥＲ（限定詞）ＮＯＵＮ（名詞）」を得る。そしてその候補文に対するその品詞列の可能性を計算する。
それで、本発明によるシステムはそれらの可能性を比較することにより「ｈｅｒｅ」又は「ｈｅａｒ」の使用を決定する。

【００５６】上述の可能性を比較するよりもむしろ、別の例においては、本発明によるシステムは文の語長を考慮することにより、即ちＰ１の対数を入力文Ｓ１内の語数で除した値とＰ２の対数を候補文Ｓ２内の語数で除した値とを比較することにより、これらの可能性の幾何学的平均値を計算する。これは、単語が「ｍａｙｂｅ」や「ｍａｙｂｅ」などの単語の列と混同するかも知れない場合に重要である。品詞列の可能性を直接的に比較するのは、長文の代わりに短文が好適であり、統計的言語モデルはより低い可能性をより長い文に割り当てるので、必ずしも正しい結果とはならない。上記は図３に例示される。

【００５７】混同単語リスト５６は典型的に以下のものを含む。ｔｏ、ｔｏｏ、ｔｗｏと、Ｉ、ｍｅと、ｉｔ
ｓ、ｉｔ'ｓと、ｔｈｅｉｒ、ｔｈｅｙ'ｒｅ、ｔｈｅ
ｒｅと、ｗｈｏｓｅ、ｗｈｉｃｈと、ｔｈｅｎ、ｔｈａ
ｎとｗｈｏｓｅ、ｗｈｏ'ｓとｏｕｒ、ａｒｅと、ｈｅ
ａｒ、ｈｅｒｅと、ｐａｓｔ、ｐａｓｓｅｄと、ａｃｃ
ｅｐｔ、ｅｘｃｅｐｔと、ａｄｖｉｃｅ、ａｄｖｉｓｅ
と、ｌｏｓｅ、ｌｏｏｓｅと、ｗｒｉｔｅ、ｒｉｇｈｔ
と、ｙｏｕｒ、ｙｏｕ'ｒｅと、ａｆｆｅｃｔ、ｅｆｆ
ｅｃｔと、そしてｍａｙｂｅ、ｍａｙｂｅとである。

【００５８】本発明によるシステムは他の混同単語と、
フランス語、イタリア語、そしてスペイン語などの他の言語の混同単語にも適用できることに留意すべきである。その方法は一般に、品詞タグ付けまで、上記Ｃｈｕ
ｒｃｈで説明された方法、即ちトリグラムモデル（３単語品詞列）を用いて実行できることに留意すべきである。

【００５９】要約すると、より可能性のある正しい文の選択に加えて、図２と図３のシステムは、文の文法性についての他の判断を確認するのに重要である。上記は、
文を品詞に分解するためのより良好で、信頼出来る方式を提供する。

【００６０】文を訂正するために、最初に文を品詞に分解できることが重要である。この文法チェックシステムがどれだけ正確に動作するかは、決定的にこの分解の精度に依存する。より信頼できる品詞生成を提供することにより、文法チェックの最終結果は、より信頼できるものにすることが出来る。

【００６１】ｂ）「ａ」と「ａｎ」の訂正外国語を話す個人にとって最も頻繁におかす間違いの一つは、不定冠詞「ａ」と「ａｎ」の正しい使用法であることは理解されよう。英語の規則は、不定冠詞「ａ」
が、最初に子音で発音される語の前に使用されるべきであり、そして「ａｎ」は最初に母音で発音される語の前に使用されるべきであることを指定する。英語のこれらの規則の単純で、正しくない実施は、次の語の最初の文字が母音であるか、または子音であるかどうかを試す。
最初、子音（母音）で発音される大抵の語は最初、子音（母音）で実際に綴られるが、以下の例ではそれは常にそうなるとは限らない。例えば、単語「ｈｏｕｒ」は初めに子音（ｈ）を有するが、母音（例えばｏｗ）に相当する初めの音で発音される。同様に、単語「Ｅｕｒｏｐ
ｅａｎ」は初めに母音（文字「Ｅ」）で始まるが、子音（例えば「ｙｅ」）に相当する初めの音で発音される。

【００６２】この問題に対する先の解決案は、全英単語の発音の辞書を蓄積することに本質がある。これらの解決案は正しいが、英語の全単語に対する大量の蓄積容量を必要とする。

【００６３】英語の全単語に対して辞書ルックアップテーブルを使用することよりもむしろ、主たるシステムは、規則に対して何の例外も見つけられない時には単純な規則を適用する。規則に対する例外は、母音で始まるが、子音で最初に発音されない規則により扱われない語と、そして子音で始まるが、母音で最初に発音される規則により扱われない語とに各々対応する二つの小さな表に蓄積される。これらの語に対立するものとしてそのルックアップテーブルは、６万語から生成された辞書ベースのシステムと比べて３００語以下の単語ですむ。

【００６４】図４及び図５と、図６は、英語の例外である単語のリスト１及び２である。

【００６５】上記から、主たる発明の部分は、不定冠詞の正しい使用法を決定するのに重要なのは単語を発音する時に発せられる最初の音であることを認識することに集中することが分かる。

【００６６】最初に例外の限られたリストを構築して、
次の三つの規則が適用される。不定冠詞「ａ」、または「ａｎ」に続く単語が文字「ｅｕ」で始まる時に最初の規則を適用する。何れの場合でも、不定冠詞「ａ」が使用されるべきである。不定冠詞「ａ」、または「ａｎ」
に続く単語が母音の文字「ａ」、「ｅ」、「ｉ」、
「ｏ」、または「ｕ」で始まる時に第二の規則を適用する。何れの場合でも、不定冠詞「ａｎ」が使用されるべきである。不定冠詞「ａ」、または「ａｎ」に続く単語が子音の文字で始まる時に第三の規則を適用する。何れの場合でも、不定冠詞「ａ」が使用されるべきである。

【００６７】図７において、ステップ３００で入力された文の各単語ｗ１とそれに続く単語ｗ２とはステップ３
０２、３０４、３０６により決定される時に入力文内の現在の単語の位置ｉの跡を辿ることにより構築される。
もし現在の単語がステップ３０８により構築される時に「ａ」、または「ａｎ」でないならば、そのアルゴリズムはステップ３０４、３０６を通じて次の単語に進む。
もし現在の単語ｗ１が「ａ」、または「ａｎ」の何れかであり、そして次の単語ｗ２がステップ３１０により構築された時に図４及び図５のリスト１内で発見されるならば、その現在の単語ｗ１はステップ３１２により指定された時に必要ならば、「ａ」に訂正されなければならない。もし次の単語ｗ２がリスト１内で発見されないが、ステップ３１４により構築された時に図６のリスト２内で発見されるならば、現在の単語ｗ１はステップ３
１６により指定された時に必要ならば「ａｎ」に訂正されなければならない。さもなければ、もし次の単語Ｗ２
がステップ３１８により構築される時に文字「ｅｕ」で始まるならば、現在の単語ｗ１はステップ３２０により指定されるときに必要ならば「ａ」に訂正されなければならない。さもなければ、もし次の単語ｗ２がステップ３２２により構築された時に「ａ」、「ｅ」、「ｉ」、
「ｏ」、または「ｕ」で始まるならば、現在の単語ｗ１
はステップ３２４により指定される時に必要ならば「ａ
ｎ」に訂正されなければならない。さもなければ、現在の単語ｗ１はステップ３２６により指定される時に必要ならば「ａ」に訂正されなければならない。

【００６８】ｃ）不適当な助動詞列の訂正前述のように、非ネイティブスピーカーが英語の文を書こうとする時に、彼等は複雑な助動詞列において不適当な時制をしばしば使用する。一例は「ｈｅｈａｓｃ
ｏｎｓｉｄｅｒ」である。ここで、不正な使用法は動詞「ｃｏｎｓｉｄｅｒ」の時制である。助動詞列を認識するのが明らかに困難であるためと、品詞タグが通常計算されないという事実とのため、従来の文法チェックシステムのどれもそのような助動詞列に対するチェックを行わない。

【００６９】本発明によるシステムにおいて、そして図８において、文４１０は品詞タグ付けモジュール４１２
により解析されて、符号４１４で示されるように関係する文の品詞を得る。

【００７０】誤りを検出するために、不適当な助動詞列の終了点と開始点との両方を検出しなければならない。
例えば、文「Ｈｅｈａｓｂｅｅｎｃｏｎｓｉｄｅ
ｒｔｈｉｓｆａｃｔ」において、文の四番目の単語である誤りの終わり、即ち「ｃｏｎｓｉｄｅｒ」を検出することが重要である。「ｃｏｎｓｉｄｅｒ」の後の全単語、即ち「ｔｈｉｓｆａｃｔ」は助動詞列の正しさに影響を及ぼさない。同様に、誤りの開始点、即ち文の二番目の単語である「ｈａｓ」を検出することが重要である。「ｈａｓ」の前の全単語は助動詞列の正しさの決定に無関係である。

【００７１】文の品詞を生成して、終了点検出モジュール４２４が不適当な助動詞列の終了位置を計算するために使用される。不適当な動詞列の終了を検出するために、そしてステップ４２０で示され、図９内で示されるように、全助動詞列の全ての正しい品詞列が後述される図１０に示される有向非循環グラフ内に蓄積される。

【００７２】全ての正しい助動詞列の有向非循環グラフから、全ての可能不適当助動詞列に対応する他の有向非循環グラフがステップ４２２で生成される。そのグラフをステップ４２２に対応させて、このグラフは、不適当な助動詞列「ｈａｖｅ／三人称／動詞／不定詞」を含む。これは不適当な助動詞列「ｈａｓｃｏｎｓｉｄｅ
ｒ」に対応する。誤りの終了点を検出するために、グラフは、終了状態に及ぶまで左から右に横断されると同時に、その入力ストリングは左から右に読まれる。入力文品詞が不適当な助動詞列グラフ内に読まれると品詞は入力文内の単語に対応するので、そのグラフが最終状態に達すると、これは問題の助動詞列の終わりにその単語を識別する。文内のその位置に関してこの単語の識別子は終了点検出モジュール４２４により指示される。

【００７３】同様に、開始点検出モジュール４２６は問題の助動詞列の開始点に対応する単語を検出する。これは、誤りの終了点を検出して、グラフの開始状態に達するまでグラフの右から左まで後方に働くことにより達成される。例えば、左から右に進むと、そのシステムはｈ
ａｓをｈａｖｅ／三人称／単数として識別して、動詞／
不定詞と見なす。システムは、この点で誤りが在ることを検出して、不適当な助動詞列内の最後の単語であるとして単語「ｃｏｎｓｉｄｅｒ」を識別した。それで、グラフ内で後方に移動して、入力ストリング内で、「ｃｏ
ｎｓｉｄｅｒ」を通過して、そして「ｈａｓ」を通過して進む。これはこの特別のグラフの初めに到達するので、助動詞列内の最初の単語であるとして語「ｈａｓ」
を識別する。

【００７４】図８に戻って、助動詞列の終了点を決定してから、この不適当な列の終了位置が入力文の不適当列内の最後の単語の位置としてステップ４２８で決定される。同様に、不適当列の開始位置は入力文内のその位置を反映する数として不適当列を開始する単語の位置としてステップ４３０で決定される。ステップ４３２で例示されるように、図１１で例示される他の有向非循環グラフは、各々の不適当助動詞列の可能な正しい列のセットを指定する。それで、ステップ４３２は不適当助動詞列を通じて図１１に例示された有向非循環グラフ内に進み、そしてステップ４３４で例示されるようにユーザーが見るための可能な正しい助動詞列のセットを出力する。

【００７５】図１０において、正しい助動詞列のセットを説明する有向非循環グラフが全ての可能助動詞列に対して次のように構成される。図１０に示されるように、
そのグラフの左側におけるその開始点４４０から、「ｂ
ｅ」、「ｗｅｒｅ」、「ｗａｓ」、「ｉｓ」、「ａ
ｍ」、「ａｒｅ」、「ｂｅｅｎ」、「ｈａｄ」、「ｈａ
ｖｅ」、「ｈａｓ」、「ｃｏｕｌｄ」、「ｓｈｏｕｌ
ｄ」、「ｍｉｇｈｔ」、「ｍａｙ」、「ｃａｎ」、「ｍ
ｕｓｔ」、「ｗｏｕｌｄ」、「ｓｈａｌｌ」、「ｗｉｌ
ｌ」、「ｄｏ」、「ｄｏｅｓ」、「ｄｏｅｓｎ'ｔ」、
そして「ｄｉｄ」などの英語における助動詞の全てを含むボックス４４２が在る。語「ｂｅ」から「ｂｅｅｎ」
までノード４４４と関係することが理解されよう。一般に、ノードは、これらの助動詞に続くことが出来る動詞は同じであることを指定する。例えば、「ｉｓ」は、単語「ｗｅｒｅ」が例えば「ｗｅｒｅｂｅｉｎｇ」となるように、単語「ｂｅｉｎｇ」で続くことが出来る。従って、ノード４４４は、後続する動詞が同じである助動詞のセットが在ることを指定する。例えば、単語「ｈａ
ｄ」、「ｈａｖｅ」、そして「ｈａｓ」のセットと関連したノード４４６は、単語「ｂｅｅｎ」が後続することが出来る。同様に、ノード４４８に対しても、単語「ｃ
ｏｕｌｄ」から「ｗｉｌｌ」までは単語「ｈａｖｅ」が後続することが出来る。また、これらの単語は単語「ｄ
ｏ」が後続できる。最後に、ノード４５０は、単語「ｄ
ｏｅｓ」、「ｄｏ」、「ｄｏｅｓｎ'ｔ」が「ｈａｖ
ｅ」により後続されるが、「ｄｏ」によってではないことを指定する。

【００７６】事実このような英語の語法グラフを用いることによって、全規則をコンパクトなグラフ上の表現に展開できるので、助動詞列の誤りの訂正を得ることが出来る。

【００７７】見られる通り、前記ノードに続く「？？
？」とラベル付けされたボックスが在る。例えば、ボックス４５２がある。このグラフへの入力は、品詞が後続する単語の列であることを思い出されよう。本当はこれは、二つの変数でその入力にタグ付けする。そのグラフをコンパクトのままにするために、そのシンボル「？？
？」はこのノードで説明されない何かを主張する。ノード４５４において、ボックス４５６は何かを示すが、
「ｂｅｅｎ」と「ｈａｄ」とはノード４５８に進むことが出来る。従って、「？？？」ボックスの使用は状態の出力で説明されない何かのシンボルを次のノードに連結する能力を主張することが分かる。

【００７８】単語に加えて、その入力文はまた、品詞を必要とする。例えば、システムが列「ｈａｖｅｃｏｎ
ｓｉｄｅｒｅｄ」を解析する時、このグラフは列「ｈａ
ｖｅｈａｖｅｃｏｎｓｉｄｅｒｅｄｖｂｎ」と比較される、ここで「ｖｂｎ」は過去完了形を表す。グラフの左側から開始して、ボックス４６１で例示されるように単語「ｈａｖｅ」を発見する。そこから、ノード４４
６を過ぎて、上述のように、ノード４５４へのこの単語の通過を可能にするボックス４６２に向かって右に移動する。ノード４５４からの可能性はボックス４６４での「ｂｅｅｎ」、またはボックス４６６での「ｈａｄ」であり、そのどちらも入力文と一致しない。他の代わりは、ノード４５８への右への通過を可能にするボックス４５６に行き、それから過去完了形を表す「ｖｂｎ」を指定するボックス４６０に行くことである。これはノード４７０への通過を可能にする。単語「ｃｏｎｓｉｄｅ
ｒｅｄ」は、その解析がボックス４５６を通過しているので、許容されるべきであると考えられる、それで列「ｈａｖｅｃｏｎｓｉｄｅｒｅｄ」はグラフの終了点４７２に進むことが許される。中間ノード４７０と終了点４７２との間に、空語を示すシンボル＜Ｅ＞を有するブロック４７４が在る。＜Ｅ＞で示されたボックスの使用は、次の単語、または次の品詞などのことを考慮することなく一つのノードから次のノードに通過できることを示す。

【００７９】ボックス４４２で見つけられない単語に対しては、ボックス４７６とノード４８０を通じて品詞ボックス４８２に、その後ノード４８４に通すことにより解析できる。ボックス４８６は適していれば終了点４７
２への弧を与える、そうでなければノード４８４を通過して、ボックス４８８を通じてノード４９０に、その後終了点４７２に達する前に品詞ボックス４９２、または４９４を通る。最後に、ノード４８４は、「ｈａｖｉｎ
ｇ」を有する単語と連結するならば、ノード４９６とボックス４９８とを通過して、ノード５００に、ボックス５０２はノード５０４を介して品詞ボックス５０６に、
それから適していれば終了点４７２にノード４８４を通す。もし４８４における単語が「ｈａｖｉｎｇ」と「ｂ
ｅｅｎ」との両方に連結されるべきであるならば、それはノード５０８に、ボックス５１０を通じてノード５１
２に、そしてボックス５１４を通じてノード５１６に渡される。その後、それは品詞５１８から終了点４７２
か、ボックス５２０のいずれかとなる。従って、入力単語「ｈａｖｉｎｇ」、「ｂｅｅｎ」の正しい使用法は、
もし前述された原形を通じて終了点４７２に到達すれば正しいとして決定される。但し、もし単語「ｂｅｉｎ
ｇ」がこの列に追加されるべきであるならば、ノード５
１２の出力はノード５２２とボックス５２４に渡されてノード５１６に至る。

【００８０】要約すると、有向非循環グラフは、全ての正しい助動詞使用法を指定する。その結果、同様のグラフが全ての不適当な助動詞列について構成できる。故に、全ての正しい使用法を表すグラフを構成すると、全ての不適当な使用法を表すグラフを直ちに有する。このアプローチの密度の高さは、文の解析に例外的に効果的である。

【００８１】図１１において、有向非循環グラフの形の有限状態変換モジュールは、上記生成された不適当な動詞列の有向非循環グラフにより決定される時、不適当な助動詞列の訂正を提示するために使用される。適切な訂正を提示するために、助動詞はペアーにされる。よって各ペアーの左側の語は不適当なものとして識別され、そして右側の語は正しいものとなる。例えば、ｈａｖｉｎ
ｇは、助動詞列「ｗｉｌｌｈａｄ」は不適当であることを識別し、図１１のグラフが正しい列を指定するために使用される。入力ノード５３０から開始して、ボックス５３２を通過することが出来る、このボックスの左手は入力の第一単語と同じである。ノード５３４とボックス５３６とを通過して、ノード５３８に達する、ここで考慮される単語は単語「ｈａｄ」である。ボックス５４
０は、「ｈａｄ」が「ｈａｖｅ」に変更されるべきであることを示す、その事実はノード５４２に出力され、その後ボックス５４４を通じて終了点５４６に至る。この通路により終了点５４６に到達して、提案される正しい列は「ｗｉｌｌｈａｖｅ」となる。

【００８２】より複雑な場合は、不適当な列「ｗｏｕｌ
ｄｃｏｎｓｉｄｅｒｅｄ」を考える場合である。対応する品詞タグは「ｗｏｕｌｄｗｏｕｌｄｃｏｎｓｉ
ｄｅｒｅｄｖｂｎ」である。この場合、「ｗｏｕｌ
ｄ；ｗｏｕｌｄ」を示すボックス５５０を通過することにより最初ノード５３４に到達して、ボックス５３６を通じてボックス５３８に達する。ここで、ボックス５４
０、５５２、５５４、５５６、５５８、または５６０の何れも適用しない。これは、これらのどのボックスもその中に単語「ｃｏｎｓｉｄｅｒ」を持たないからである。ボックス５６２を経て、品詞解析ボックス５６４を経た適切で、正しい提案は「ｗｏｕｌｄｃｏｎｓｉｄ
ｅｒ」であることに留意すること。これは、グラフが、
「ｃｏｎｓｉｄｅｒｅｄ」は単語「ｃｏｎｓｉｄｅｒ」
の過去時制であることを検出するので、到達した。このボックスは現在時制が使用されることを提案するので、
単語「ｃｏｎｓｉｄｅｒ」を提案する。その解析は「ｖ
ｂｄ：／ｖｂｄ／ｖｂ」で示される。ｖｂｄは過去時制を意味し、そしてｖｂは現在時制を意味することに留意すること。入力に他の正しい変更を提供するノード５３
８からの交代的ノードが在る。例えば、提案される列は「ｗｏｕｌｄｈａｖｅｃｏｎｓｉｄｅｒｅｄ」であるかも知れない。ここで、ボックス５６６は、単語「ｈ
ａｖｅ」が付加されるべきであることを指定する。ボックス５６８は、「ｈａｖｅ」の品詞、ｈｖが、セットにもまたタグならば付加されるべきであることを指定する。ボックス５７０を通過して進んだ後、ボックス５７
２は、過去時制形が過去分詞形に変換されるべきであることを指定する。その場合、単語「ｃｏｎｓｉｄｅｒｅ
ｄ」は、過去時制と過去分詞との両方であるので、不変である。もし入力された単語が「ｃｏｎｓｉｄｅｒｅ
ｄ」に対立するものとして「ｋｎｅｗ」であったならば、ボックス５７２は過去時制である「ｋｎｅｗ」から過去分詞である「ｋｎｏｗｎ」への変更を指定していたであろう。

【００８３】図１１の図式の残りは自己説明的であり、
一度不適当であると決定された不適当動詞列への種々の提案された変更を提供する。

【００８４】ｄ）非ネイティブスピーカーのための活用訂正良く知られるように、スペルチェックシステムは典型的に辞書引きアルゴリズムを介してスペル誤りの単語を検出する。これは、典型的に不注意なタイプ打か、文字転置のためによるスペル誤りを検出するのに成功するが、
これらのシステムは他の種類のスペル誤りに対しては効果がない。最も顕著に、非ネイティブスピーカーのスペル誤り、単語の文字についての大抵不注意な転置、不注意な文字挿入、または省略、それらは主に文法問題のためである。例えば、文「Ｈｅｄｒｉｖｅｄｈｉｓ
ｃａｒｙｅｓｔｅｒｄａｙ」をとると、その誤りは不注意でも、特別のスペルに関する知識の不足の何れでもないが、この場合はむしろ動詞「ｄｒｉｖｅ」の過去時制に関する不確かさによるものである。

【００８５】典型的に、スペルチェッカーは、ミスタイプされた単語と辞書の単語との間の距離に基づいて適当なスペルを提案する。その距離は、典型的に置換、挿入、転置、または削除されなければならない文字数に基づく。その結果は、しばしば奇妙である。例えば、上記例では、正しい提案は「ｄｒｉｖｅ」の過去時制、即ち「ｄｒｏｖｅ」であろうが、従来のスペルチェッカーは「ｄｒｉｅｄ」や、「ｄｒｉｐｐｅｄ」を提案する。正しい語「ｄｒｏｖｅ」が提案されないということに留意することは興味深い。これは、従来のスペルチェックシステムが検出されたスペル誤りを文法に関して解析しないからである。

【００８６】従来のシステムが正しいスペルの提案において有する難しさの他の例は、不適当な比較形容詞を含む。例えば、非ネイティブスピーカーが「ｇｏｏｄ」に対する比較級を選択するのに、しばしば比較形容詞を形成するための通常規則に基づいてｇｏｏｄｅｒを選択する。更なる例として、名詞「ｃｈｉｌｄ」を複数形にしたい時、非ネイティブスピーカーは、単数名詞に「ｓ」
の付加を必要とする通常の複数規則に再び基づいて「ｃ
ｈｉｌｄｒｅｎ」に対立するものとして語「ｃｈｉｌｄ
ｓ」を選択するかも知れない。

【００８７】上記例で適切な語を提案することを従来のスペルチェッカーが出来ないことを示すために、典型的スペルチェッカーは次の語を提案する。そのどれもが文脈において正しくない。つまり、「ｃｈｉｌｌｓ」、
「ｃｈｉｌｄ'ｓ」、「ｃｈｉｌｌ'ｓ」、「ｃｈｉｌ
ｄ」、「ｔｉｄｌｅｓ」である。従来のスペルチェッカーによる更に不十分な提案は、いかに「ｇｏｏｄｅｓ
ｔ」を正しく綴るかの提案である、即ち：「ｇｏｏｉｅ
ｓｔ」や、「ｇｏｏｓｅｄ」である。

【００８８】これらのタイプの誤りは、スペルチェック機能を使用するのを拒絶させるほど個々の非ネイティブスピーカーにとっては煩わしいだけでなく、彼等の欲求不満のレベルも、文脈内外で知らない語の中から選択するよう強制されるときには更に高くなる。

【００８９】本発明の図１２において、複数、過去時制、過去分詞、比較形、最上形に関して何れの通常規則にも従わない語の典型例を識別することが重要である。
主たるシステムがより適当な置換語を提案するのは、文法を基礎として生成される不適当な単語のこの特有のリストからである。主たるスペルチェックシステムは辞書引きシステムによりスペル誤りを検出するように正常に働く。その後、正しい単語が、以下で説明されるように典型的な不適当な単語の大要や、原形、および形態素的特徴との両方に基づいて提案される。

【００９０】図１２において、英単語訂正モジュール６
００は、英単語辞書６０２と、英単語形成の正常規則により生成された辞書６０８とからの単語をステップ６０
６で比較することにより生成された不適当な英単語６０
４のリストを含む。比較の結果は、スペルの誤りからではなく、むしろ不適当な文法に基づく誤りやすい単語の特別なリストとなる。

【００９１】図１３において、検出された不適当な単語を実際に訂正するプロセスにおいて、英単語辞書６０２
が、図１２との関連で説明されたように前に生成された不適当な英単語のリスト６０４に沿って使用される。検出された不適当な単語はステップ６１０で利用可能であり、従来の辞書引きを通じて得られる。検出された不適当な単語と不適当な英単語のリストの両方とも、不適当な単語の原形や時制、数、比較形、．．．最上形などのその形態素的特徴を決定するモジュール６１２に適用される。例えば、不適当な単語「ｄｒｉｖｅｄ」の場合、
この単語の原形は「ｄｒｉｖｅ」であり、そしてその形態素的特徴は「過去時制、または過去分詞」である。その原形と形態素的特徴は、その原形と形態素的特徴とを英語辞書６０２内の対応する英単語と関連させるモジュール６１４に提供されて、提案された訂正単語を提供し、それにより文法とその例外との両規則を考慮に入れることが出来る。

【００９２】本質において、典型的に不適当な使用法に基づく原形と形態素的特徴と得ているシステムはこれらの未訂正の使用法と関連付けられた適切な単語を提案することが出来る。そのシステムは、単純なスペルの誤りに対立するものとして文法のために問題である問題単語を識別している洗練されたルックアップを提供する。

【００９３】品詞タグ付けモジュールは、システムにより提案される単語の精度を改善するのに有益であることが理解されよう。例えば、スペルを誤った単語が過去時制であるか、または過去分詞かの何れかである場合である。上記の例は、「ｄｒｏｖｅ」、または「ｄｒｉｖｅ
ｎ」に導く「ｄｒｉｖｅｄ」の訂正である。「不適当な」単語が文内で使用される方法を知ることは、品詞に基づいた正しい選択となる。

【００９４】ｅ）限定詞の不正使用法の検出と訂正非ネイティブスピーカーに対する最も難しい問題の一つは、限定詞の使用法の問題である。限定詞は、名詞句の指示対象を決定する「ｔｈｅ」、「ａ」、そして「ｓｏ
ｍｅ」などの単語である。限定詞を含む３種類の誤りが在る。その第一は限定詞欠如である。例えば、文「Ｊｏ
ｈｎｒｅａｄｂｏｏｋ」は名詞句「ｂｏｏｋ」の限定詞が欠けている。限定詞の誤りの第２は、不用の限定詞の使用である。例は、「Ｊｏｈｎｗｅｎｔｔｏ
ｔｈｅＮｅｗＹｏｒｋ」である。ここで、限定詞「ｔｈｅ」は不適当であり、削除されるべきである。限定詞誤りの第３は、限定詞と関連名詞との間の一致の欠如である。例えば、「Ｊｏｈｎｒｅａｄｍａｎｙ
ｂｏｏｋ」は「ｍａｎｙ」と「ｂｏｏｋ」との間の数の一致の欠如を例示する。

【００９５】限定詞の不正使用を検出するために、品詞タグが解析に使用される。品詞タグ付けモジュールは、
図３、図８、図１８、図１９、図２１と関連して説明される。タグ付けされた文の例として、「Ｊｏｈｎｒｅ
ａｄｌｏｎｇｎｏｖｅｌ」を考える。ここで、「Ｊ
ｏｈｎ」のタグは「固有名詞」である。「ｒｅａｄ」のタグは「過去動詞」である。「ｌｏｎｇ」のタグは「形容詞」である。そして「ｎｏｖｅｌ」のタグは「単数名詞」である。

【００９６】図１４に示されるように、システムは決定ブロック７００で例示されるように名詞句を識別する。
それは品詞タグのどの列が有効名詞句を構成するかを定義するパターンと最大限一致させることにより文内の名詞句を識別する。名詞句のパターンは以下により与えられる。［ＤＥＴ］（ＭＯＤＳＮＯＵＮＡＮＤ）*ＭＯＤＳ
ＮＯＵＮｈｅａｄそして、ＭＯＤＳのパターンは以下により与えられる。（ＭＯＤ ⁺ ＡＮＤ）*ＭＯＤここで、ＤＥＴ、ＭＯＤ、ＮＯＵＮ、ＡＮＤは各々限定詞、修飾語句、名詞、等位接続詞の品詞タグのセットとして定義される。表記法［Ｘ］は囲まれた式Ｘのゼロか、または一回の発生を意味する。表記方（Ｘ）*は囲まれた式Ｘのゼロ回か、またはそれ以上の発生を意味する。Ｘ ⁺におけるように、プラスの上付き記号は式Ｘの一回か、またはそれ以上の発生を意味する。

【００９７】上記の目的は名詞句を識別するためである。例えば、上記文においては、名詞句は、品詞列「固有名詞」に対応する、「Ｊｏｈｎ」と、品詞列「形容単数名詞」に対応する、「ｌｏｎｇｎｏｖｅｌ」とである。上記は比類無く、名詞句の初めとその終わりを識別することにより名詞句を識別する。限定詞欠如、不用の限定詞、または名詞句の構成のための数の一致の欠落のいずれであるかをチェックするために名詞句が識別されるのは主な重要性に関してである。

【００９８】ステップ７０２に示されるように、一度名詞句が発見されると、そのシステムはその名詞句が限定詞欠如であるかどうかを試験する。その試験は全名詞句、つまりＮＰを調べ、そして主要名詞、つまりＮＯＵ
Ｎｈｅａｄをもまた調べる。それは名詞句内の最後の単語である。主要名詞はその句内の最重要名詞を示し、大抵の場合最後の単語であるのが分かっている。限定詞欠如の試験は名詞句の限定詞、ＤＥＴをも調べる、それは名詞句の最初の単語であるか、または全く見いだされないかの何れかである。図１５のステップ７０４と７０６
で決定されるように、もしその主要名詞が単数、非固有名詞で、そしてＤＥＴは存在しないならば、その名詞句は、それがタイトルであるかどうかを見るためにステップ７０８で試験される。タイトルは、固有名詞以外のいかなる大文字使用句であっても良い。例えば、「Ｔｈｅ
ＡｔｌａｎｔａＰｏｌｉｃｅＤｅｐａｒｔｍｅｎ
ｔ」や、「ＧｒａｄｙＨｏｓｐｉｔａｌ」はタイトルである。もしその名詞句がタイトルであることが分からなければ、主要名詞は、それが質量名詞かどうかを見るためにステップ７１０で試験される。質量名詞は、例えば、「ｒｉｃｅ」、「ｆｉｓｈ」、または「ｃａｒｂｏ
ｎ」などの特に指定しない量の物質を表す名詞である。
質量名詞は、複数名詞として効果的に機能するので限定詞を必要としないことが理解されよう。

【００９９】もし名詞句がタイトルであるならば、解析が、ステップ７１２で示されるように、主要名詞が質量名詞であるかどうかを確認するために行われる。質量タイトル名詞は質量名詞に類似しているが、タイトル内に見出される。例えば、文「Ｓｈｅａｔｔｅｎｄｅｄ
ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」内で、名詞句「ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」はタイトルであり、そして「Ｕｎｉｖｅｒｓｉｔｙ」は質量タイトル名詞である。故に、「Ｕｎｉｖｅｒｓｉｔｙ」は限定詞を付けないで現れることに留意するすべきである。質量タイトル名詞は質量名詞と同じではないこともまた観察される。例えば、「Ｕｎｉｖｅｒｓｉｔｙ」は質量タイトル名詞であるが、それは質量名詞ではない。これは、文「Ｓｈｅａｔｔｅｎｄｅｄａｆｉｎｅｕ
ｎｉｖｅｒｓｉｔｙ」からも分かる。ここで名詞「ｕｎ
ｉｖｅｒｓｉｔｙ」には限定詞「ａ」が与えられる。従って、質量タイトル名詞を持っていることが決定されるならば、何の提案もされないことが理解されよう。

【０１００】但し、慣用語法に対する問題が在る。ステップ７１４に例示されるように、名詞句は、それがイディオムの一部であるかどうかを見るために解析される。
これはイディオム辞書内のルックアップを通して行われる。もし名詞句がイディオムの一部分であるならば、再びどんな提案もされない。例えば、文「Ｔｈｅｅｖｅ
ｎｔｔｏｏｋｐｌａｃｅ」内で、名詞句「ｐｌａｃ
ｅ」に対して何の提案もなされないが、それはイディオム「ｔｏｔａｋｅｐｌａｃｅ」の一部であるので、
限定詞を欠いている。

【０１０１】限定詞を持たない単数非固有名詞に対しては、もし主要名詞が質量名詞でも、質量タイトル名詞でもなければ、そしてもし名詞句がイディオムの一部でなければ、そのシステムは、ステップ７１６で示されるように、限定詞欠如が在ることを示唆する。

【０１０２】図１６において、システムは不用の限定詞に対する名詞句をチェックする。これは次のように達成される。主要名詞が固有名詞であるかどうかが名詞句を導入し、そして限定詞がステップ７２４で例示されるように存在するかどうかを確認することとによりステップ７２２で決定される。もし上記条件が一致すれば、ステップ７２６で示されるように、異質の限定詞を有すると決定される。例えば、「Ｊｏｈｎｗｅｎｔｔｏｔ
ｈｅＮｅｗＹｏｒｋ」は、名詞句「ｔｈｅＮｅｗ
Ｙｏｒｋ」が固有名詞である主要名詞を含むので、そしてその名詞句内に限定詞、つまり単語「ｔｈｅ」が在るので、異質の限定詞を有するとして示される。固有名詞は、可能性と文脈とに基づいて固有名詞の存在を決定するタグ付けモジュールにより識別される。

【０１０３】図１４に戻って、ステップ７３０で示されるように、主たるシステムは数の不一致に対する名詞句をチェックする。いかにこれが達成されるかが図１７で示される。数の一致の決定は、ステップ７３２で示されるように、名詞句内の主要名詞が固有名詞であるかどうかを決定する検出モジュールに名詞句を導入することにより達成される。もしそうであるならば、数の不一致はない。これは、もし固有名詞句が限定詞を含むならば、
それはもうすでに異質の限定詞の誤りとして報告されていたであろうからである。ステップ７３４で示されるように、主要名詞が固有名詞でないと仮定すると、システムは名詞句が限定詞を含むかどうかを決定する。もし含まなければ、数の不一致の問題は無い。

【０１０４】ステップ７３６で示されるように、もし限定詞が在れば、限定詞の数が主要名詞の数、即ち単数、
または複数に対してチェックされる。もしそれらが一致すれば、何の誤りも知らされないが、もしそれらが一致しなければ、主要名詞の数を変更して、限定詞の数と一致するように提案がなされる。従って、文「Ｊｏｈｎｒ
ｅａｄｏｎｅｂｏｏｋｓ」に対して、その主要名詞「ｂｏｏｋｓ」は限定詞と一致するように変更されるように提案され、そして単数にされる。同様に、文「Ｊｏ
ｈｎｒｅａｄｍａｎｙｂｏｏｋ」に対して、主たるシステムは限定詞と一致させるために主要名詞を複数に変更することを提案する。択一的に、システムは主要名詞に対立するものとして限定詞を変更するように適応されるかも知れない。但し、これは可能性の少ない動作行程である。何が適当な限定詞であるべきかを確認することの難しさのために、前者がより良好な結果を与える。故に、個人は数に関して正しい限定詞を適切に入力していると見なされる。

【０１０５】要約すると、本発明によるシステムは、タグ付けされた文の使用や、名詞句、主要名詞、固有名詞、質量名詞、質量タイトル名詞、そしてイディオムの検出を通じて、限定詞の不適当な使用法を検出して、訂正するための多数の技術を使用する。限定詞誤用の適切な決定に対して重大であるのは、図１４と関連して上述されたパターンの一致の使用を通しての名詞句の検出である。

【０１０６】ｆ）固有名詞と他の本質的に大文字が使用される単語との認識固有名詞は他の名詞の全てに対して独特の識別可能的に扱われるので、単語が固有名詞であることを認識できることは文の解析において重要である。固有名詞だけでなく、「ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」など、
タイトルで見出されるこれらなど、他の本質的に大文字が使用される単語も認識する能力を有することにより、
文が文法的に説明されて、理解されるので、文法が解析される。

【０１０７】単語は、二つの理由のため英語の文で大文字として現れるかも知れない。第一は、それは固有名詞か、または他の本質的に大文字が使用される単語かのいずれかである。第二に、それは文の初め、または一定の句読点後に見いだされる、そうでなければ大文字化されないだろう。例として、文「Ｗｅｌｌｓｗａｓａｎ
Ｅｎｇｌｉｓｈｎｏｖｅｌｉｓｔ」を考えると、
「Ｗｅｌｌｓ」は、固有名詞であるので大文字化されることは理解されよう。文「Ｗｅｌｌｓｗｅｒｅｄｕｇ
ｔｏｐｒｏｖｉｄｅｄｒｉｎｋｉｎｇｗａｔｅ
ｒ」を考えると、「ｗｅｌｌｓ」は、文の最初の単語であるので大文字化される。

【０１０８】従って、第一文において、文法チェックシステムは、「Ｗｅｌｌｓ」が本質的に大文字化されるので、固有名詞であることを認識しなければならない。第二文において、文法チェックシステムは、「ｗｅｌｌ
ｓ」は本質的に大文字化されないので、普通の複数名詞であることを認識しなければならない。

【０１０９】名詞が固有名詞であるかどうかを決定するための先のアプローチにおいて、システムは比較的限られた技術を本質的に大文字が使用される単語の認識に適用した。１つのアプローチは、文の最初の単語が決して本質的に大文字化されないと見なすことであった。これは、第一文により示されるように、固有名詞で始まるいかなる文に対しても失敗する。

【０１１０】他のアプローチは、固有名詞、または普通の単語、しかし両方ではない、その何れかとして全ての単語を分類することであった。「Ｗｅｌｌｓ」は、この種の分類法を失敗させる固有名詞と普通の単語との両方であることは上記の二つの文から明白となる。

【０１１１】その単語が固有名詞であるかどうかを適切に識別するのを失敗する明白な問題は、辞書引きにおいて、間違った定義が検索されることである。単純な文法チェックにおいては、定義が必要とされないが、正しい使用法を決定するときに指導的、または情報的データを提供する洗練された単語処理や文法チェックシステムは固有名詞や他の本質的に大文字が使用される単語の正しい識別を必要とする。たとえ辞書引き機能が文法チェックシステムの一部でなくとも、固有名詞や他の本質的に大文字が使用される単語の認識は重要である。

【０１１２】単語が固有名詞であるかないかを識別する重要性は、トリグラム可能性の使用を通して文内の各単語の品詞を正確に決定しなければならない品詞タグ付けモジュールの動作に影響を及ぼす。単語の大文字化と非大文字化バージョンとは異なるトリグラム可能性を有するので、正しいトリグラム可能性を適用するために単語のどのバージョンが文内に存在するかを知ることはタグ付けモジュールには重要である。例えば、固有名詞「Ｗ
ｅｌｌｓ」のトリグラム可能性は普通名詞「ｗｅｌｌ
ｓ」のトリグラム可能性と異なる。従って、タグ付けモジュールは、文「ＷｅｌｌｓｗａｓａｎＥｎｇｌ
ｉｓｈｎｏｖｅｌｉｓｔ」内で、単語「Ｗｅｌｌｓ」
は固有名詞であることを理解しなければならない、それでそれは「Ｗｅｌｌｓ」の大文字化バージョンのトリグラム可能性を適用すべきである。

【０１１３】固有名詞、または他の本質的に大文字が使用される単語に対立するものとして、単語が普通の単語であるかどうかを立証するために、本発明によるシステムは各単語の二つの解釈、つまり固有名詞としての単語の解釈、または普通名詞としての解釈のうちどちらが最良のものであるかを決定する。それは、一方はその名詞は固有であると仮定し、他方はそれは普通であると仮定する文の二つのバージョンを生成することによりこれを行う。それで、それは二つの文のトリグラム可能性を比較する。もしその単語が固有名詞であると仮定する文がより高い可能性を有するならば、その単語は固有名詞であると考えられる。さもなければ、その単語は普通名詞であると考えられる。

【０１１４】図１８において、名詞が固有名詞であるかどうかを確認するために、意志決定プロセスのために二つのステップが在る。ステップ８００で示されるように、第一ステップは、８０２で示されるように、タグ付けされたトレーニングコーパスで始まる前処理である。
これは、各文章の単語がそれらの品詞タグで注釈付けされる文章のセットを示す。次に、トレーニングコーパス８０２がステップ８０４で示されるように改訂されて、
固有名詞でない、または、一般に、本質的に大文字化されない単語を非大文字化する。単語は、もしその単語が固有名詞、またはタイトルとしてタグ付けされたならば、またはそれが頭字語であるならば、またはそれが代名詞「Ｉ」であるならば本質的に大文字化されると考えられる。更に、もし単語が文の初めに、または引用符の前半、またはコロンの後に見いだされるならばそれらの単語は非大文字化される。

【０１１５】特に、図１９に例示されるように、タグ付けされたトレーニングコーパス８０８はステップ８１０
で解析され、もし必要ならば、そのコーパスから次の語／タグを得る。１つが見付けられれば、その単語は、それが大文字化されるかどうかを見るためにステップ８１
２で解析される。もしその単語が大文字化されるならば、ステップ８１４で示されるように、その単語が文の最初の単語であるかどうか、またはそれが引用符の前半、またはコロンに続くかが確認される。もしそうであれば、ステップ８１６で示されるように、その単語が固有名詞、またはタイトルとしてタグ付けされたか、またはそれが頭字語か、または代名詞「Ｉ」であるかどうかを見るためにその単語は試験される。もしそうでなければ、その単語はステップ８１８で示されるように改訂されたトレーニングコーパス内で大文字化されることとなる。

【０１１６】図１８に戻って、改訂されたトレーニングコーパスはステップ８２０で解析されて、単語のトリグラム可能性モデルを得る。これは、普通名詞を固有名詞と、またはその逆に単語を誤って識別することに関連した誤りを除去するために修正されたトリグラムモデルを提供する。誤りを除去するためにタグ付けされたトレーニングコーパスを前処理した後、そのトリグラムモデルは、問題のその単語が本質的に大文字化されるかどうかを決定するための意志決定においてステップ８２２で使用される。これは、文内の単語を入力として必要とし、
その出力はその単語の語幹のスペルである。

【０１１７】図２０に見られるように、単語が本質的に大文字化されるかどうかを決定するためのステップ８２
２で説明される意志決定プロセスは、ステップ８５０で示されるように、文内の単語で開始する。この単語は、
その初めの文字が頭文字であることでそれが大文字化されるかどうかを決定するために解析される。もしそうでなければ、ステップ８５１で示されるように、その単語の解釈は、その文により文字通り与えられるものである。つまり、もしそれが文内で大文字化されて現れるならば、それは固有名詞として解釈される。もしそれが文内で非大文字化されて現れるならば、それは普通名詞として解釈される。従って、もしその単語が大文字化されないならば、特別なアクションは何も起こさない。

【０１１８】その単語が大文字化されると仮定すると、
ステップ８５４に見られるように、その単語が文の最初の単語であるかどうか、またはそれは引用符の前半、またはコロンに続くかどうかが決定される。もしそうでなければ、更にアクションは何も起こさない。もしそうであれば、ステップ８５６で示されるように、その単語は更に処理されて、それが頭字語であるかどうかを確認する。頭字語は、大文字化されているその英字の全て、または頭字語辞書内のその存在を特徴とする。もしその単語が頭字語であることと決定されるならば、再び更に何の処理もなされない。

【０１１９】もしその単語が頭字語でないならば、ステップ８５８で示されるように、そのシステムは、符号８
５９で例示されるようにトリグラムモデルに従って、一方が固有名詞として扱われる問題の単語を有し、それは大文字化され、そして他方は普通名詞として扱われる問題の単語を有し、それは非大文字化される、文の二つのバージョンの可能性を計算する。その計算は、前述の品詞タグ付けモジュールに従って説明された通りである。

【０１２０】ステップ８６０で例示されるように、もし非大文字化された単語を有する文の可能性が、大文字化された単語を有する文のそれを超えるならば、そのシステムは最も可能性のある語幹のスペルとして単語の非大文字化されたスペルを戻すので、このスペルは更なる文法チェックのために使用できる。さもなければ、ステップ８６４で示されるように、そのシステムは最も可能性のある語幹のスペルとしてその単語の大文字化されたスペルを戻す。

【０１２１】理解されることは、単語の語幹のスペルを訂正することにより、文法チェックシステムがより正確に、かつより効果的なものとして作成可能であることである。語幹のスペルの訂正は二つのステップを必要とする。その第一ステップは、その単語が固有名詞であるかどうかについての誤った特徴付けを通して引き起こされた誤りのためのトレーニングコーパスの品詞タグを訂正する。第二のステップは、一連の解析が、大文字化されるか、または非大文字化されるその単語のスペルがより適切であるかどうかを確認するために実行される。これは、前処理ステップで得られる改訂されたトリグラム可能性モデルを用いてその単語が本質的に大文字化されるかどうかを決定する意志決定要素を通して達成される。

【０１２２】ｇ）文脈に基づいた辞書引きテキストを書いている時、非ネイティブスピーカーは単言語辞書か、または二言語辞書の有効性に頼る。辞書は、非ネイティブスピーカーが頼る言語についての情報の最も有用なソースの一つである。辞書の使用は、文法チェックの問題に限定されないが、一般に文を書く時に有用であることは理解される。たとえネイティブスピーカーでも、文を書く時にはかなり辞書や、シソーラスの使用に頼ることもまた理解される。

【０１２３】辞書エントリーへのアクセスは、文脈外の単語は、それらの統語上の性質やそれらの意味との両方において、非常に曖昧であるので、思われるほど単純ではない。辞書内に与えられた単語は典型的に、２０、３
０、またはそれ以上のエントリーを有するかも知れないことは理解される。この多数のエントリーは、辞書の使用を非常に時間を消費させるものにする。

【０１２４】例えば、文脈外で単語「ｌｅｆｔ」は英語の辞書内に多数のエントリーを有する。文「Ｈｉｓｌ
ｅｆｔａｒｍ」内で形容詞「ｌｅｆｔ」のエントリーがある。文「ｈｅｍｏｖｅｄｌｅｆｔｏｎｅｎ
ｔｅｒｉｎｇｔｈｅｒｏｏｍ」内で副詞「ｌｅｆ
ｔ」のエントリーがある。「Ｍａｋｅａｌｅｆｔａ
ｔｔｈｅｎｅｘｔｃｏｒｎｅｒ」として名詞「ｌ
ｅｆｔ」のエントリーがある。そして文「Ｈｅｌｅｆ
ｔａｍｉｎｕｔｅａｇｏ」内で動詞「ｌｅａｖ
ｅ」の過去時制のエントリーがある。但し、単語「ｌｅ
ｆｔ」が英文で見いだされる時、このエントリーの一つのみがその文脈と関係がある。現在、文脈に基づいて単語の正しいエントリーにアクセスする能力を提供する辞書はない。

【０１２５】本発明によるシステムにおいて、辞書のエントリーは文脈で与えられた単語に割り当てられた品詞に基づいて選択されて、位置付けされる。文脈内の単語に対応するエントリーが最初に選択される。現在の文脈に関係の無い他のエントリーはユーザーの要望により尚利用可能である。文脈で与えられた単語の品詞は上述された品詞タグ付けモジュールで明確にされる。

【０１２６】例示により、文「Ｈｅｌｅｆｔａｍ
ｉｎｕｔｅａｇｏ」内の単語「ｌｅｆｔ」を考えると、品詞タグ付けモジュールはその文内の単語「ｌｅｆ
ｔ」に対してタグ「動詞過去時制」を割り当てる。この場合、主たるシステムはその文脈内の「ｌｅｆｔ」の使用法に対応する動詞「ｌｅａｖｅ」のエントリーを選択し、それからその文脈内で使用されない「ｌｅｆｔ」のエントリー、特に形容詞として、副詞として、そして名詞としての「ｌｅｆｔ」のものを選択する。

【０１２７】文「Ｉｔｈａｓｓｅｖｅｒａｌｂａ
ｓｅｓ」内の単語「ｂａｓｅｓ」を考えると、品詞タグ付けモジュールは、文内の単語「ｂａｓｅｓ」に対して二つのタグ「複数名詞」を割り当てる。文脈外で、その単語「ｂａｓｅｓ」は、動詞「ｂａｓｅ」の第三人称だけでなく、名詞「ｂａｓｉｓ」の複数、そして名詞「ｂ
ａｓｅ」の複数でもあることが理解される。「Ｉｔｈ
ａｓｓｅｖｅｒａｌｂａｓｅｓ」の文脈に対して、主たるシステムは名詞「ｂａｓｅ」とその文脈における単語「ｂａｓｅｓ」に対応する「ｂａｓｉｓ」とのエントリーを選択する。それからその文脈で使用されない「ｂ
ａｓｅｓ」のエントリー、特に動詞「ｂａｓｅ」のものを選択する。

【０１２８】図２１のステップ９００において、文脈に基づいて辞書から文内で見いだされる単語のエントリーを選択するために、その単語は、原形と文脈から独立した単語に対応する品詞とのペアーのセットを計算する形態素解析モジュール９１０により解析される。例として、単語「ｌｅｆｔ」に対して、形態素解析モジュール９１０は原形と品詞のペアーの以下のセットを出力する。つまり、（「ｌｅｆｔ」、「形容詞」）、（「ｌｅ
ｆｔ」、「副詞」）、（「ｌｅｆｔ」、「単数名詞」）、（「ｌｅａｖｅ」、「動詞過去時制」）である。形態素解析モジュール９１０は、英語の全ての単語の全ての活用により指示された表を調べることにより動作する。そしてそのエントリーは原形と品詞のペアーのセットである。その単語はまた、文脈上の単語に対応する唯一の品詞タグＴ９４０を生成するために文脈上で品詞タグ付けモジュール９３０により解析される。これは、ＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇ
ｅＰｒｏｃｅｓｓｉｎｇ、Ａｕｓｔｉｎ、Ｔｅｘａ
ｓ、１９８８での第二会議の議事録の「ＡＳｔｏｃｈ
ａｓｔｉｃＰａｒｔｓＰｒｏｇｒａｍａｎｄＮｏ
ｕｎＰｈｒａｓｅＰａｒｓｅｒｆｏｒＵｎｒｅｓ
ｔｒｉｃｔｅｄＴｅｘｔ（非限定テキストのための確率学的品詞プログラムと名詞句パーサー）」で説明されたＫｅｎｎｅｔｈＣｈｕｒｃｈ氏のＳｔｏｃｈａｓｔ
ｉｃＰａｒｔｓＰｒｏｇｒａｍ（確率学的品詞プログラム）の実施として利用できる品詞タグ付けモジュールにより達成される。

【０１２９】例えば、もし単語が「Ｈｅｌｅｆｔａ
ｍｉｎｕｔｅａｇｏ」の文脈で「ｌｅｆｔ」であるならば、品詞タグ付けモジュールは品詞タグ「動詞過去時制」を出力する。文脈に対応する形態学的原形を文脈に対応しないものから分離するために、ステップ９２０
では原形と品詞のペアーのセット９２０を二つのセット、品詞タグ９４０に対応するセット９５０と、品詞タグ９４０に対応しないセット９６０とに分割する。先の例において、文脈に対応する原形と品詞のペアーのセットは、「ｌｅａｖｅ」、「動詞過去時制」である。文脈に対応しない原形と品詞のペアーのセットは、（「ｌｅ
ｆｔ」、「形容詞」）、（「ｌｅｆｔ」、「副詞」）、
（「ｌｅｆｔ」、「単数名詞」）である。文脈に対応する辞書からエントリーを表示するために、文脈に対応する原形と品詞のペアーのセット内で発見された原形に対応する辞書９７０内の全エントリーが、ステップ９８０
で表示される。上記例で、動詞「ｌｅａｖｅ」の全エントリーは文脈に関連するエントリーとして表示される。
文脈に対応しない辞書からエントリーを表示するために、文脈に対応しない原形と品詞のペアーのセット内で発見された原形に対応する辞書９７０内の全エントリーが、ステップ９９０で表示される。上記例で、形容詞として、副詞として、そして単数名詞としての語「ｌｅｆ
ｔ」の全エントリーが文脈と関係のないエントリーとして表示される。

【０１３０】文脈に基づいて辞書からエントリーを選択する能力はネイティブ、または非ネイティブスピーカーのための、二言語辞書だけでなく単言語辞書にも使用できることが理解される。主たるシステムは、文脈に関連したこれらのエントリーを選択できるので、ユーザーが読まなければならないエントリー数を徹底的に低減することが出来る。

【０１３１】本発明によるシステムの幾つかの形態を示してきたが、修正や代わりが本発明の範囲内で実施可能であることは当業者には明白である。依って、それは特許請求の範囲で指示される時にのみ本発明の範囲を限定するよう意図される。

【０１３２】

【発明の効果】この発明に係る文法チェックシステムは、以上説明したとおり、ある文と、その文が混同された他方の文の二つの文を仮定すると、どちらが正しい使用法であるかを決定することが可能である。低エラー率でこれを決定することが出来るので、二つの利点が在る。その第一の利点は二つの文のどちらが正しいかを明白に突き止めることである。第二の利点は、正しい文を構築した後、その品詞は他の処理のための他の文法チェックモジュールにより使用できることである。

【図面の簡単な説明】

【図１】この発明の実施例１に係る完全な文法チェックのために利用される種々のモジュールを示す完全な文法チェックシステムの全体を示すブロック図である。

【図２】この発明の実施例１に係る品詞列の可能性を利用する混同しやすい単語を訂正するモジュールを示すブロック図である。

【図３】図２の可能性決定構成要素のための混同しやすい単語の訂正のための確率的しきい値を決定するために平均する文長さを使用するモジュールを示すブロック図である。

【図４】不定冠詞「ａ」を使用すべき単語を示す図である。

【図５】不定冠詞「ａ」を使用すべき単語を示す図である。

【図６】不定冠詞「ａｎ」を使用すべき単語を示す図である。

【図７】この発明の実施例１に係る単語が冠詞の正しい使用法を得るために綴られる方法と対立するものとして単語が発音される方法に基づく英語の例外に関して詳説した図４、図５、図６を利用して、不定冠詞「ａ」や「ａｎ」を訂正するモジュールを示すフローチャートである。

【図８】この発明の実施例１に係る訂正された文を達成するために開始点と終了点検出モジュールの利用を通じて不適当な助動詞列を訂正するモジュールを示すブロック図である。

【図９】正しい動詞列を表す有向非循環グラフを利用する図８の開始点と終了点検出モジュールの構成を示すブロック図である。

【図１０】英語の正しい助動詞列のセットを表す有向非循環グラフを示す図である。

【図１１】不適当な助動詞列に対する訂正を提示するための有限状態変換モジュールを表す有向非循環グラフを示す図である。

【図１２】この発明の実施例１に係る本当でない英単語辞書に対応する不適当な単語のリストが全ての英単語に組織的に適用される英単語形成の正常規則に基づいて計算される非ネイティブスピーカーのための改良スペルチェッカーを示すブロック図である。

【図１３】原形と形態論的特徴が前に見いだされた不正英単語のリストに関して検出された不適当単語の解析に利用される、英単語辞書だけでなく図１２のシステムから得られる不適当単語辞書を利用して正しく検出された不適当単語のプロセスを示すブロック図である。

【図１４】この発明の実施例１に係る名詞句がどの品詞タグ列が、不明の限定詞、異質の限定詞、または数の不一致を確認するためのチェックを含む有効名詞句を構成するかを定義するパターンと最大限に一致させることにより識別される、限定詞の不正の使用を検出して、訂正するモジュールを示すフローチャートである。

【図１５】名詞句がタイトル名であるかどうか、それが限定詞を含むかどうか、不明の限定詞の報告を可能にするためにそれが質量タイトル名詞、質量名詞、或いはイディオムの一部であるかどうかについての名詞句に対する決定をするモジュールを示すフローチャートである。

【図１６】主要名詞が固有名詞であるかどうかの決定、それで異質の限定詞を報告することが出来るようにその名詞句が限定詞を含むかどうかを確認することを通して異質の限定詞に対する名詞句のチェックをするモジュールを示すフローチャートである。

【図１７】主要名詞が固有名詞であるかどうか、もしそうでなければ、限定詞が存在するかどうかを、そして数の不一致を報告するためにその限定詞が主要名詞の数と一致するかどうかを検出することによりその決定が達成される数の不一致に対する名詞句のチェックをするモジュールを示すフローチャートである。

【図１８】この発明の実施例１に係る改訂されたコーパスでトレーニングされたトリグラムモデルで、固有名詞ではないか、または本質的に大文字化されない非大文字化単語に改訂されたトレーニングコーパスを利用して名詞が固有名詞であるかどうかを確認するために前処理モジュールが利用される、語幹（ｕｎｄｅｒｌｙｉｎ
ｇ）のスペルを訂正するために固有名詞や他の本質的に大文字化される単語の認識のためのシステムを示すブロック図である。

【図１９】次の単語／タグペアーを得て、その単語が大文字化されるかどうか、そして文の最初の単語であるか、または引用符の前半、またはコロンに続くかどうかを見るために利用される図１８のトレーニングコーパスのタグ付け、またその単語が固有名詞、またはタイトルとしてタグ付けされているかどうか、またはそれが頭文字語、または代名詞「Ｉ」かどうかを見て、それによりその単語が非大文字化されるかどうかを確認するための検査をするモジュールを示すフローチャートである。

【図２０】単語が大文字化されるかどうか、それは文の最初の単語であるか、または引用符の前半、またはコロンに続くか、その単語は頭字語であるか、そしてそうでなければ、非大文字化された単語を有する文の可能性が決定されて、それが大文字化された単語を有する文の可能性を超えるかどうかを見るために解析することにより図１８で示されたように本質的に大文字化されるかどうかを決定するための決定プロセスを示すフローチャートである。

【図２１】この発明の実施例１に係る単語が文脈で使用されるときに辞書のどのエントリーがその単語に対応するか、そしてそれが文脈で使用されるときに辞書のどのエントリーがその単語に対応しないかを決定するために品詞タグ付けモジュールと形態学的解析モジュールとの両方が利用される、文脈に基づいた辞書へのアクセスをするモジュールを示すブロック図である。

【符号の説明】

１２キーボード、１４ＣＰＵ、１６単語処理システム（文法チェックシステム）、１８プリンタ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アンドリュー・アール・ゴールディングアメリカ合衆国、マサチューセッツ州、ケンブリッジ、ファイブ・フロスト・ストリート、アパートメント１

标题	发布/更新时间	阅读量
一种开启听写检测的方法及电子设备	2020-05-08	630
一种基于脑-机接口系统辅助评估视觉定位的方法	2020-05-11	191
一种针对电力巡检文本的错误识别方法	2020-05-13	874
一种听写检测方法及电子设备	2020-05-08	573
一种基于物联网的医学影像检查训练系统及方法	2020-05-11	596
基于深度学习的无监督视频分割方法	2020-05-12	1019
一种用于戒毒人员神经系统数据采集的装置及方法	2020-05-12	260
模型预测能力优化方法、装置、设备及可读存储介质	2020-05-12	699
一种公司形象提升系统的社交网络数据提取方法及系统	2020-05-14	668
一种提升人机交互对话语料质量与多样性的对话语料库生成方法	2020-05-12	296

Grammar checking system

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：