首页 / 专利库 / 人工智能 / 正确标注 / Grammar checking system

Grammar checking system

阅读:748发布:2021-09-25

专利汇可以提供Grammar checking system专利检索,专利查询,专利分析的服务。并且PURPOSE: To correct a homonym with different spelling by tagging a sentence relating to a part of speech first and then checking the sentence of incorrect grammar.
CONSTITUTION: An input sentence S1 is connected to a part of speech tagging module 52 and the generation module 54 of a candidate sentence S2 provided with a confusing word list 56. The module 52 analyzes the input sentence S1 to a most appropriate part of speech string T1 and the possibility P1 (58). Also, the output of the module 54 is supplied to the module 52 and the most appropriate part of speech string T2 and the possibility P2 are generated again (60). After the possibility P1 and the possibility P2 of the input sentence S1 and the candidate sentence S2 are obtained, which part of-speech string is most likely to be correct is decided. The possibility P2 is compared with the possibility P1 so as to decide the appropriate sentence to be selected (62), the candidate sentence S2 is presented instead of the input sentence S1 when P2-P1 is larger than a certain threshold value (e) and nothing is presented in the case of P2-P1≤(e).
COPYRIGHT: (C)1995,JPO,下面是Grammar checking system专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 入力文が最初に品詞に関してタグ付けされる文法チェックシステムにおいて、 訂正すべき前記入力文の候補単語の品詞の可能性を確認する確認手段と、 所定しきい値以下である前記可能性に基づいて訂正した単語を提示する提示手段とを備えた文法チェックシステム。
  • 【請求項2】 前記確認手段は、 前記入力文内の品詞を表すタグで前記入力文内の各単語にタグ付けするタグ付け手段を含む請求項1記載の文法チェックシステム。
  • 【請求項3】 前記確認手段は、 前記入力文内の単語の品詞列の訂正の可能性を確認する品詞列確認手段を含む請求項1記載の文法チェックシステム。
  • 【請求項4】 前記品詞列確認手段は、 連続した3つの品詞列を解析する解析手段を含む請求項3記載の文法チェックシステム。
  • 【請求項5】 前記提示手段は、 混同しやすい単語を集めた混同単語リストと、 前記候補単語と前記混同単語リストからの混同単語とを含む少なくとも一つ以上の候補文を生成する候補文生成手段と、 対応する品詞列の可能性の高さに基づいて前記入力文又は前記候補文のいずれかを選択する選択手段とを含む請求項3記載の文法チェックシステム。
  • 【請求項6】 前記選択手段は、 前記入力文と前記候補文の品詞列の可能性の相乗平均に基づくものである請求項5記載の文法チェックシステム。
  • 【請求項7】 前記混同単語リストは、少なくとも to、too、twoと、 I、meと、 its、it'sと、 then、thanと、 whose、who'sと、 our、areと、 hear、hereと、 past、passedと、 accept、exceptと、 advise、adiceと、 lose、looseと、 write、rightと、 your、you'reと、 affect,effectと、 maybe、may beとを含む請求項5記載の文法チェックシステム。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、多種の文法チェックモジュールで品詞列の可能性を利用するシステムに関するもので、特に、スペルが異なる同音語等の混同単語を訂正できる文法チェックシステムに関するものである。

    【0002】

    【従来の技術】Henry Kucera氏その外に発行された米国特許第4、868、750号公報で説明されるように、口語体の文法チェックシステムは、自然言語で構成されたデジタル符号化テキストを受け取り、そして単語と解析を蓄積した辞書と、解析プログラムとを用いて符号化テキストを解析して、エラーを識別するためのコンピューターを介した自動化言語分析を必要とする。 特に、そのようなシステムは文法エラーを検出するためのマイクロソフトワードのプログラムで利用される。

    【0003】そのようなシステムに関連する最も厄介な問題の一つは、そのシステムが正しい使用法を提示する時の非常に高いエラー率である。 不合理に高いエラー率の理由は、文に関するシステムの不適当な解析に由来する。 また、文についての正しい解析と仮定すると、マイクロソフトシステムはしばしば不適当な単語を提示する。

    【0004】全文が正しいという可能性に基づいて文を解析しようと試みる種類のシステムもある。 そのようなシステムにまつわる最も大きい問題は、それらが現在のパーソナルコンピュータと関連メモリとの能を超えた蓄積と処理の能力を要求することである。

    【0005】他のシステムは、トレーニングコーパスに基づく文を解析することによって不適当な文法を検出しようと試みる。 但し、高速処理だけでなく大容量の蓄積装置が要求されるシステムの制約が、この種のシステムをパーソナルコンピュータ環境での使用を妨げる。

    【0006】実例として、先の文法チェックシステムは、「a」と「an」などの不定冠詞を挿入するのに常に失敗する。 それはそのシステムにより提示される自然言語に翻訳しようとする時に外国語を話す個人にとってはとりわけ大問題となる。

    【0007】また、非常に重要なことは、文が、文法規則、或いは「the」、または「a」などの口語的使用法のいずれにも不慣れなこれらの人々により構成される時に、そのような適切な冠詞を挿入する能力がないことである。 更に、従来技術の文法チェックシステムによる共通の誤りは、複合動詞が使用される不適切な動詞列のいかなる認識も含まないことである。 複合動詞は文内で正しく使用できるが、ほとんどの外国語を話す個人は「He has recognize thatsom
    ething exists. 」などの誤りを常におかす。 ここで「has」は動詞であり、そして「reco
    gnize」も動詞である。 複合動詞の明らかな不正な使用が在ることが分かる。

    【0008】最も重要なことに、問題はいわゆる限定詞で起こる。 依って例えば文「I have cigar
    ette. 」は明らかに限定詞「a」を欠いている。 同様に、「some」または「a few」などの欠けている限定詞も在る。 従って、正しい文は「I have
    a few cigarettes. 」と解釈される。 同文は複数形の名詞、例えば「I have a
    few cigarettes. 」、或いは「I ha
    ve cigarettes. 」とすることにより正しく構成されることに留意すべきである。

    【0009】スペルチェッカー、または先の文法システムのいずれによっても訂正されない更なる典型的な文法の誤りは、不適当な単語活用を訂正しないことを含む。
    例えば、不適当な動詞活用に関して、そのようなシステムは、「I drivedto the marke
    t. 」などの文を滅多に訂正しない。

    【0010】上記問題は、その言語のイディオムや規則の両方に不慣れな非ネイティブスピーカーの観点から取り上げられる時には最大の壁となる。 特に英語では、その言語を利用するこれらのネイティブスピーカーにも良く知られていないイディオム、または規則によりしばしば決定される正しい「文法」を有するので、その規則は、思うほど単純であるとは限らない。

    【0011】故に、特定の国籍の非ネイティブスピーカーによる最も頻繁になされる誤りを考慮する文法チェックシステムを提供することが重要である。 それで、例えば予測可能、故に訂正可能である方法で英語に翻訳される日本語のネイティブスピーカーにより通常なされる誤りの体系が在る。 同様に、例えばフランス語、或いはロマンス語のいずれかに対して、検出されて、訂正できる英語に翻訳する時になされる一定の特徴的誤りが在る。

    【0012】構文認識システムは一般に、小さくて、十分に定義された語彙を有するテキストでの動作に、または限定された範囲の構文的特徴を扱う、より一般的なテキストでの動作に限定されていた。 語彙、または構文的範囲のいずれの拡張も、益々複雑な構造と増えてくる多数の特別の認識規則とを必要とし、それはシステムを一般に利用できるコンピューターシステム上での商業的実施を過大にするか、或いは扱いにくくする。

    【0013】テキスト処理システムで文脈上の誤りを検出して、そして訂正するための他の一般システムは、F
    rederick B. Lang氏その外に発行された米国特許第4、674、065号公報で説明される。 そこで 単語使用確証のための文書を校正し、そしてテキスト処理するためのシステムが、異形同音異義語と混同する単語とのセットの専門辞書を、それから単語の正しい使用法が統計学的に決定できるダイグラム(di-gra
    m)とnグラム(n-gram)条件のセットを連結することにより達成される。 前述のように、品詞に対立するものとして単語に統計学的処理を行うには例外的に大きいトレーニングコーパスと高速計算とを必要とし、そのシステムをパーソナルコンピューター用途にとっては幾分扱いにくいものにする。 更に、同音語に関して混同する単語を検出する時、このシステムは、一般的使用法においては混同するが、似ているとは思われないこれらの単語の訂正を提供するには十分ではない。

    【0014】最後に、米国特許第4、830、521号は、スペルチェック機能と固有名詞認識とを備えた電子タイプライターに関する特許である。 名詞認識での問題は、固有名詞の認識において正確であるか、またはそうではないかの大文字化シナリオに集中することが理解されよう。 最も重要なことに、この特許は、大文字化の機能を決定するために、単語が文の最初の単語であるかどうかを見つけるためにしか語を試験しないのに対して、
    大文字化は文内のどこの語に対しても明らかに可能である。

    【0015】更なる背景の多数の特許により、最初スペル訂正の使用を通してその文法問題に着手する。 そのような特許は、米国特許第5、218、536号、第5、
    215、388号、第5、203、705号、第5、1
    61、245号、第5、148、367号、第4、99
    5、740号、第4、980、855号、第4、91
    5、546号、第4、912、671号、第4、90
    3、206号、第4、887、920号、第4、88
    7、212号、第4、873、634号、第4、86
    2、408号、第4、852、003号、第4、84
    2、428号、第4、829、472号、第4、79
    9、191号、第4、799、188号、第4、79
    7、855号、そして第4、689、768号を含む。

    【0016】米国特許第5、224、038号、第5、
    220、503号、第5、200、893号、第5、1
    64、899号、第5、111、389号、第5、02
    9、085号、第5、083、268号、第5、06
    8、789号、第5、007、019号、第4、99
    4、966号、第4、974、195号、第4、95
    8、285号、第4、933、896号、第4、91
    4、590号、第4、816、994号、そして第4、
    773、009号などのテキスト解析を扱う多数の特許もまた在る。 これらの特許の全ては、与えられた自然言語で書かれた文書を提供することを強制されるこれらの非ネイティブスピーカーにより特に要求されるレベルにまでは文法をチェックする目的のために実際には実施できないシステムに関するものであることは理解されよう。 これらの特許は、非ネイティブスピーカーのための文法訂正や英語の使用法に特に向けられていない一般的なシステムに関することもまた理解されよう。

    【0017】最後に、いかに効率的に辞書を符号化することが出来るかに関する多数の特許が存在する。 これらの特許は米国特許第5、189、610号、第5、06
    0、154号、第4、959、785号そして第4、7
    82、464号である。 辞書の符号化は、文法を十分にチェックできるシステムを構築する1ステップを除いたものであることは理解されよう。

    【0018】文法のチェックにおける特有の重要性については、品詞が与えられた文内に存在するとき、その品詞列を検出する能力である。 正しい文は、正常な順序で続く品詞を持っているので、品詞列を解析することにより、その文がその文法に関して正しいという可能性を検出することが出来る。 従来技術のシステムは品詞のために文にタグ付けして、上記可能性に対して品詞列を解析したが、これらの可能性は文法のチェック、訂正システムでは決して利用されなかった。

    【0019】

    【発明が解決しようとする課題】従来の文法チェックシステムでは、そのシステムが正しい使用法を提示する時の非常に高いエラー率である。 不合理に高いエラー率の理由は、文に関するシステムの不適当な解析に由来する。 また、文の解析が正しくなされたとしても、マイクロソフトシステムはしばしば不適当な単語を提示する。
    また、現在のパーソナルコンピュータと関連メモリとの能力を超えた蓄積と処理の能力を要求する。

    【0020】この発明は、前述した問題点を解決するためになされたもので、スペルが異なる同音語を訂正できる文法チェックシステムを得ることを目的とする。

    【0021】

    【課題を解決するための手段】先のスペルチェックや、
    文法チェックシステムで主要問題を解決するために、主たる文法チェックシステムは、品詞に関して文に最初タグ付けすることに続いて、正しくない文法の文をチェックすることを含む。 このシステムは訂正すべき全文の可能性に基づかないで、むしろ正しい順序列を有する品詞の可能性に基づいた語の使用法を訂正する。

    【0022】より特定的に、正しい文を解析、構築するために、品詞列が正しい単語列に対応するという可能性を確認することが重要である。 入力された文列の可能性を得るために、解析、またはタグ付け装置の出力が品詞列可能性決定モジュールに連結される。 このモジュールの出力は入力文の解析において種々のモジュールにより利用できる。

    【0023】一つの形態において、モジュールの一つは、対応する品詞列の可能性に基づく混同しやすい単語、または文のセットの間で選択する品詞照合モジュールである。 正しい単語、または文の選択は、一つの形態において、所定のしきい値を超える可能性により決定される。 正しい文の選択は、モジュールにより達成される、それへの入力は入力文だけでなく種々の文の可能性のものである。 このモジュールは、混同しやすい単語リストを備えている。

    【0024】

    【作用】品詞列可能性は、後に説明されるように、語幹(underlying)のスペル訂正、助動詞訂正、
    限定詞訂正、連語辞書引きに有効に働く。 これらの文法チェックモジュールの各々において、解析された各単語の品詞は正確に確認されなければならない。 これは品詞列可能性により提供される確率的メカニズムを通じて達成される。

    【0025】要約すると、文が最初品詞に関してタグ付けされる文法チェックシステムにおいて、厄介な単語の不正な使用、特にそれらのスペルが異なる同音語を訂正するために正しい品詞列の可能性が利用される。 そのシステムは、訂正すべき文全体の可能性からではなく、訂正すべき品詞列の可能性から単語の使用法を訂正する。
    主たる発明の部分として、品詞列可能性が、品詞列照合、語幹(underlying)のスペル訂正、助動詞訂正、限定詞訂正、連語辞書引きで利用される。

    【0026】

    【実施例】

    実施例1. モジュラー文法チェックシステム 本発明は品詞解析モジュールの使用、品詞列可能性モジュール、そして文法チェックシステムの種々の他のモジュールとのその使用に関するが、今説明されることは、
    種々のモジュールが品詞可能性に頼る全体の文法チェックシステムについてである。

    【0027】本発明によるシステムに係る品詞列可能性検出と使用の説明は、図1、図2、図3、図7、図8、
    図9、図10、図11、図13、図15、図16、図1
    7、図18、図19、図20及び図21と関連して説明される。

    【0028】図1において、特に外国語を綴る人にとって、特にコンピューターの知識のないこれらの人々にとっても正確で、且つ容易に使用できる入力された文に対して即座の文法チェックを提供することは重要である。
    文法チェックを達成するために、入力文10はキーボード12により単語処理システム16のCPU14内に入力される。 なお、符号18はプリンタである。

    【0029】入力文の品詞が正確に決定されることが信頼できる文法照合にとって重要である。 先の文法チェックシステムは入力文を直接に使用していたが、品詞列を提供することが出来るように入力文が品詞に分解されることがこの発明の特徴である。 これは、Applied
    Natural Language Process
    ing、Austin、Texas、1988での第二会議の議事録の「AStochastic Parts
    Program and Noun Phrase
    Parser for Unrestricted T
    ext(非限定テキストのための確率学的品詞プログラムと名詞句パーサー)」として出版されたKennet
    h Church氏のStochastic Part
    s Program(確率学的品詞プログラム)の実施として利用できる品詞解析モジュール20により達成される。 得られた品詞の結果は、たとえば、「I hea
    rd this band play. 」という文を品詞分けした品詞列は、「代名詞(PRONOUN)、動詞(VERB)、限定詞(DETERMINER)、名詞(NOUN)、動詞(VERB)」となる。 上記品詞解析モジュール20は、与えられた単語がある品詞をとる確率である語彙確率と、3単語品詞列の出現頻度を示す文脈確率を用いて文中の各単語の品詞を決定するものである。 すなわち、先ず、語彙確率検索部は、入力文中の各単語の語彙確率を語彙確率辞書から読み込む。 この語彙確率辞書は、例えば単語「I」の品詞の種類とその確率、具体的には単語「I」が名詞である確率(0.0
    0)と、単語「I」が人称代名詞である確率(1.0
    0)を記憶し、アルファベット順に全ての単語が品詞の種類毎の出現確率として格納されている。 次に、品詞列作成部は、例えば入力文の後から連続した3単語づつの3単語品詞列を作成する。 文脈確率検索部は、文脈確率テーブルから上記作成した3単語品詞列の文脈確率を取り出す。 この文脈確率テーブルには、3個の品詞の組合せになるあらゆるパターンについての出現確率が文脈確率として格納されている。 それぞれの品詞列の組合せがとり得る確率は、大量の文を基にしてそのとり得る確率を統計的に求めたものである。 次に、評価値算出部は、
    3単語品詞列の文脈確率と語彙確率とを乗算して評価値とする。 さらに、評価値算出部は、他の品詞列の文脈確率と語彙確率とそれまでの対応する累積評価値を乗算して評価値を算出する。 以下、同様の処理を繰り返し、5
    個の品詞列である、入力文「I heard this
    band play. 」がとりうる全ての品詞列に対する最終評価値が求まる。 そして、それら最終評価値の最も高いものを品詞列として選択する。 この場合に、選択される品詞列は、「人称代名詞(PRONOUN)、
    動詞(VERB)、限定詞(DETERMINER)、
    名詞(NOUN)、動詞(VERB)」である。

    【0030】単に単語の品詞を求めただけでは、それぞれの品詞が適切な文を反映するよう、正しく求められたかどうかの信頼性が高く確実とは言えない。

    【0031】文を解析して正しい文を構成するためには、品詞列が正しい単語列に対応する可能性を確認することが重要である。 入力文列の可能性を得るために、品詞解析モジュール、つまり品詞タグ付けモジュール20
    の出力は品詞列可能性決定モジュール22に連結される。 このモジュールの出力は入力文10の解析での種々のモジュールにより利用される。

    【0032】最初のモジュールは、対応する品詞列の可能性に基づいて混同しやすい単語、つまり文のセット間で選択する品詞列照合モジュール24である。 正しい単語、つまり文の選択は、一つの形態において、所定しきい値を超える可能性により決定される。 正しい文の選択は、モジュール26により達成される。 それへの入力は、入力文だけでなく種々の文の可能性のものである。
    ここと、後にも説明されるように、モジュール26は混同しやすい単語のリストを備えている。

    【0033】混同しやすい文は上述の方法で訂正されるが、別のモジュール28は単語の語幹のスペルを決定するために利用される。 従来のスペルチェッカーはスペル照合のためのルックアップテーブルを利用するが、それらはスペルエラーの厄介な指示となる大文字化を考慮していない。 更に、適当なスペルに頼るこれらの文法チェックシステムは、単語、文、または頭字語の始めのいずれかの大文字化された単語によりしばしば騙される。

    【0034】より信頼できるスペルチェックと文法訂正とを提供するために、語幹のスペル訂正モジュール28
    は大文字化された単語を「混同する」単語として扱う。
    そうすることで、上記技術は、Brownのコーパスなどのトレーニングコーパスに基づく一方のカテゴリーか、または他方のものにある大文字化された単語の可能性を提供するために使用される。

    【0035】従って、伝統的言語処理システムは、単語は普通名詞か、または固有名詞のいずれかであり、その両方ではないという限定を課すことにより単語の語幹のスペルを訂正したが、この訂正モジュールは文脈と可能性とを利用して、各単語を分類する。 これは、どちらがより高い可能性を有するかを確認するために大文字化と非大文字化形式の単語を有する文を解析することにより達成される。 その後、スペルのために解析された単語は、より高い可能性文内の単語の形式のものである。 最も適当なスペルを訂正して、その訂正モジュール28の出力が屈折チェック訂正モジュール30に連結される。
    このスペル訂正モジュールは従来のスペルチェックの変種であるか、または特定の外国を話す人のために調整されたものかのいずれであっても良い。

    【0036】別のモジュールとして、助動詞訂正モジュール32は品詞列可能性決定モジュール22から得られる正しい品詞をもまた必要とする。 助動詞訂正問題は、
    幾つかの不適当な複合動詞が文内に在るときに存在する。 これは、不適当な時制が使用される時に複合助動詞列において見いだされる。 例えば、文「he woul
    d living」は二つの動詞「would」と「l
    iving」とを含む。 その文の一つの正しい形式は「he would live」となる。 従って、動詞「live」の時制は訂正される必要がある。

    【0037】これを達成するために、助動詞訂正モジュール32はいかなる不適当な助動詞列も検出して、訂正を提示する。 これは最初、動詞列の有限セットを説明する有向非循環グラフを利用することにより達成される。
    正しい動詞列を確立する前に、上述のようにモジュール22により達成される正しい品詞を正しく識別することが重要であることが理解されよう。

    【0038】助動詞訂正モジュール32の出力は適切な代わりの文を提案するための正しい文選択モジュール3
    4に連結される。

    【0039】品詞を利用する別のモジュールは限定詞訂正モジュール36である。 名詞句の指示対象を決定するこれらの単語を訂正することがこのモジュールの目的である。 限定詞の例では、「the」、「a」、そして「some」などの単語である。 このモジュールにより検出されて、訂正される三種類の誤りが在る、即ち、限定詞欠如、不用の限定詞、そして限定詞と名詞との間の数の不一致である。

    【0040】限定詞欠如の例は、「John read
    book」であり、その中で「the」が欠落している。 不用の限定詞の例は、「John went to
    the New York」であり、削除されるべき「the」を有する。 数の不一致は、文「John r
    ead many book」で明白であり、ここで名詞「book」は限定詞「many」と一致するように複数化されなければならない。 不適当な限定詞を検出するために、品詞タグが識別されるので、名詞句を識別することが出来る。 そのシステムは、品詞タグのどの列が有効名詞句を構成するかを定義する規則的表現と最大限に一致することにより名詞句を識別する。

    【0041】それでそのシステムは、各名詞句を試験して、それが限定詞を逸しているかどうかを見る。 このプロセスの一部として、主要名詞が最初に検出され、続いてこの主要名詞が質量名詞、質量タイトル名詞、イディオムであるか、または限定詞を逸しているかどうかが決定される。 それでそのシステムは、各名詞句を試験して、それが不用の限定詞を有するかどうかを見る。 最後に、そのシステムは名詞句の限定詞と主要名詞との数が一致するかどうかを試験する。 その結果は、モジュール38に示されるように単語の挿入、削除、または置換の何れかとなる。

    【0042】更に、モジュール42は入力文10に基づいて不定冠詞「a」と「an」の使用法を訂正する。

    【0043】最後に、品詞列により提供される精度は連語辞書引きモジュール40に役立つ。 典型的に与えられた単語は、各々が辞書内のサブエントリーに対応する多数の品詞を文脈外で有する。 連語辞書引きモジュール4
    0は辞書にアクセスして、品詞解析モジュール20により得られた単語の品詞に基づいて適切な定義を選択する。 例えば、単語「love」は名詞、または動詞であり、そして名詞「love」は、動詞「love」に比べて、辞書内に多数の異なるエントリーを有する。 入力文が「She was my first love」
    であると仮定すると、単語「love」は品詞解析モジュールにより名詞として識別される、そして連語辞書引きモジュールは名詞「love」に対する辞書のエントリーと動詞「love」に対するこれらのみを選択する。

    【0044】単語の語幹のスペルが一度、モジュール2
    8により訂正されると、これはモジュール30による活用訂正のために使用されるだけでなく、従来のスペルチェックモジュール44においてもまた使用されることが理解されよう。 従って、従来のスペルチェックシステムが、スペルチェックの過程で、頭字語を不適切な配列として示さずに、頭字語のスペルをチェックすることができる。

    【0045】a)品詞可能性に基づく文法訂正 過去において、幾つかの前述の文法チェックシステムは、幾つかの厄介な単語の不正使用を訂正、特にスペルが異なる同音語を訂正することにより英語使用法を訂正することを試みてきた。 例えば、「too」と「to」
    と「two」や、「their」と「they're」
    と「there」である。 他の共通の誤りは、単語が、
    「maybe」や「may be」など一語か、または二語であるべきかに思案する。 同音ではないが、「wh
    ich」や「whose」などしばしば誤用される単語もある。

    【0046】過去において、適当な使用法を突き止めるために、文の文法性は、英語の文の出現頻度として計算された。 そのような統計的アプローチは、文法的に正しい文には高い確率を、そして非文法的文には低い確率を割り当てる。 その統計は、英語の文の収集、つまりトレーニングコーパス(training corpus)を準備することにより得られる。 そのコーパスは、語の正しい使用法を定義する。 結果として、文がそのような文法チェックシステム内にタイプ入力されると、そのコーパスと関連する全文の可能性つまり出現頻度が計算される。 約6万語の全英語の語彙を受け入れるために、数百兆語のコーパスが使用されなければならないことが理解されよう。 更に、多数の可能性がコンピューター内に蓄積されなければならない。 従って、全文を解析するのは、計算と蓄積との両面において重い負荷となる。

    【0047】本発明のシステムでは、語の正しい使用法を確立するために、品詞列の出現頻度が必要である。 この目的のため、システムがどれだけ洗練されているべきかにより100から400の可能品詞が在ると見なすことが出来る。 これは、数百兆に対して数百万語のトレーニングコーパスに相当する。 このタイプの解析は、単語処理に使用されるものを含む標準計算プラットフォームで容易に実行できる。

    【0048】従って、本発明によるシステムにおいて、
    文は最初に品詞に分解される。 例えば、文「I hea
    rd this band play」は、以下のように解析される。 各単語は、人称代名詞(PRONOU
    N)、動詞(VERB)、限定詞(DETERMINE
    R)、名詞(NOUN)、及び動詞(VERB)として解析される。 この品詞列の可能性、つまり品詞列の出現頻度を示す文脈確率は、その品詞列をコーパスと比較することにより決定される。 これはまた、いわゆるトリグラム(tri-grams:三重字)、つまり3単語品詞列を考慮に入れないならば実行可能でない。 トリグラムは、入力文内で隣接した品詞の三つの要素からなる。 三つの隣接品詞の解析は、正しさを立証するのに通常十分であり、そして特有の文が正しい使用法を必要とすることを立証するために使用されるこれらのトリグラムの可能性、つまり文脈確率である。 従って、全文をチェックするよりもむしろ、三つの隣接品詞の可能性がトレーニングコーパスから計算される。

    【0049】ある文と、その文が混同された他方の文の二つの文を仮定すると、どちらが正しい使用法であるかを決定することは上記技術で可能となる。 上記システムは低エラー率でこれを決定することが出来るので、二つの利点が在る。 その第一の利点は二つの文のどちらが正しいかを明白に突き止める。 第二の利点は、正しい文を構築した後、その品詞は他の処理のための他の文法チェックモジュールにより使用できることである。

    【0050】図2において、符号50に示されるように入力文S1は、品詞タグ付けモジュール52と、また符号54で示されるように入力として混同単語リスト56
    を有する候補文S2の生成モジュールとに連結される。
    品詞タグ付けモジュール52は、符号58に示されるように、入力文S1を最も適当な品詞列T1とその可能性P1とに解析する。 これは、最も適当な品詞列が全ての品詞の有りえる3単語品詞列の可能性の最も適当な積を計算することにより得られる上記Churchにより説明されたようなアルゴリズムにより達成される。

    【0051】入力文S1内の単語は混同単語リスト56
    の一部であるかも知れない。 何れの場合でも、入力文S
    1に対する全ての可能な候補文S2は混同単語リスト5
    6から生成される。 候補文生成モジュール54の出力は品詞タグ付けモジュール52に供給されて、再度、符号60に示されるように最も適当な品詞列T2と、その可能性P2とを生成する。

    【0052】符号58と符号60で入力文S1と候補文S2の可能性P1と可能性P2を得てから、どの品詞列が最も正しそうであるかを決定することが重要となる。
    選択されるべき適当な文を決定するために、そして符号62に示されるように、可能性P2は可能性P1と比較され、そしてP2−P1があるしきい値eよりも大きければ、符号64に示されるように、入力文S1の代わりに候補文S2が提示される。 もしP2−P1<=eならば、符号66に示されるように何の提示もなされない。

    【0053】例えば、入力文が「I want to
    here this band」であるとすると、ここで「here」が正しい単語「hear」の代わりに誤用されており、入力文S1「I want to he
    re this band」と候補文S2「I wan
    t to hear this band」とを比較する必要がある。

    【0054】これらの二つの文を比較するために、英語の文の与えられたある統計モデルを文の全体の可能性と比較することが出来る。 「Information P
    rocessing and Management」
    で27(5):517ー422、1991にタイトル名「Context Based SpellingCo
    rrection」で出版されたEric Mays、
    Fred Damereau、そしてRobert M
    ercer等による記事で検討された、このアプローチは、計算機的に非常に高価であるので、4万語以上の語彙を有する自由なテキストを扱う時には標準コンピューターでは非実用的となる。 文可能性を直接計算することができることは、大量のトレーニングデータ、例えば最小限4億のトレーニング単語と、大量の記憶容量とが必要となる。

    【0055】それとは対照的に、図2に示されるように本発明によるシステムは、与えられた入力文と混同しそうな候補文とに対する最も適当な品詞列の可能性を比較する。 例えば、文「I want to here t
    his band」全体の可能性を計算する代わりに、
    本発明によるシステムはその文に対して最も適当な品詞列、例えば「PRONOUN(人称代名詞) VERB
    (動詞) TO ADVERB(副詞) DETERM
    INER(限定詞) NOUN(名詞)」を得る。 そして入力文に対して品詞列の可能性を計算する。 同様に、
    本発明によるシステムは、候補文「I want to
    hear this band」に対する最も適当な品詞列、例えば「PRONOUN(人称代名詞) VE
    RB(動詞) TO VERB(動詞) DETERM
    INER(限定詞) NOUN(名詞)」を得る。 そしてその候補文に対するその品詞列の可能性を計算する。
    それで、本発明によるシステムはそれらの可能性を比較することにより「here」又は「hear」の使用を決定する。

    【0056】上述の可能性を比較するよりもむしろ、別の例においては、本発明によるシステムは文の語長を考慮することにより、即ちP1の対数を入力文S1内の語数で除した値とP2の対数を候補文S2内の語数で除した値とを比較することにより、これらの可能性の幾何学的平均値を計算する。 これは、単語が「maybe」や「may be」などの単語の列と混同するかも知れない場合に重要である。 品詞列の可能性を直接的に比較するのは、長文の代わりに短文が好適であり、統計的言語モデルはより低い可能性をより長い文に割り当てるので、必ずしも正しい結果とはならない。 上記は図3に例示される。

    【0057】混同単語リスト56は典型的に以下のものを含む。 to、too、twoと、I、meと、it
    s、it'sと、their、they're、the
    reと、whose、whichと、then、tha
    nとwhose、who'sとour、areと、he
    ar、hereと、past、passedと、acc
    ept、exceptと、advice、advise
    と、lose、looseと、write、right
    と、your、you'reと、affect、eff
    ectと、そしてmaybe、may beとである。

    【0058】本発明によるシステムは他の混同単語と、
    フランス語、イタリア語、そしてスペイン語などの他の言語の混同単語にも適用できることに留意すべきである。 その方法は一般に、品詞タグ付けまで、上記Chu
    rchで説明された方法、即ちトリグラムモデル(3単語品詞列)を用いて実行できることに留意すべきである。

    【0059】要約すると、より可能性のある正しい文の選択に加えて、図2と図3のシステムは、文の文法性についての他の判断を確認するのに重要である。 上記は、
    文を品詞に分解するためのより良好で、信頼出来る方式を提供する。

    【0060】文を訂正するために、最初に文を品詞に分解できることが重要である。 この文法チェックシステムがどれだけ正確に動作するかは、決定的にこの分解の精度に依存する。 より信頼できる品詞生成を提供することにより、文法チェックの最終結果は、より信頼できるものにすることが出来る。

    【0061】b)「a」と「an」の訂正 外国語を話す個人にとって最も頻繁におかす間違いの一つは、不定冠詞「a」と「an」の正しい使用法であることは理解されよう。 英語の規則は、不定冠詞「a」
    が、最初に子音で発音される語の前に使用されるべきであり、そして「an」は最初に母音で発音される語の前に使用されるべきであることを指定する。 英語のこれらの規則の単純で、正しくない実施は、次の語の最初の文字が母音であるか、または子音であるかどうかを試す。
    最初、子音(母音)で発音される大抵の語は最初、子音(母音)で実際に綴られるが、以下の例ではそれは常にそうなるとは限らない。 例えば、単語「hour」は初めに子音(h)を有するが、母音(例えばow)に相当する初めの音で発音される。 同様に、単語「Europ
    ean」は初めに母音(文字「E」)で始まるが、子音(例えば「ye」)に相当する初めの音で発音される。

    【0062】この問題に対する先の解決案は、全英単語の発音の辞書を蓄積することに本質がある。 これらの解決案は正しいが、英語の全単語に対する大量の蓄積容量を必要とする。

    【0063】英語の全単語に対して辞書ルックアップテーブルを使用することよりもむしろ、主たるシステムは、規則に対して何の例外も見つけられない時には単純な規則を適用する。 規則に対する例外は、母音で始まるが、子音で最初に発音されない規則により扱われない語と、そして子音で始まるが、母音で最初に発音される規則により扱われない語とに各々対応する二つの小さな表に蓄積される。 これらの語に対立するものとしてそのルックアップテーブルは、6万語から生成された辞書ベースのシステムと比べて300語以下の単語ですむ。

    【0064】図4及び図5と、図6は、英語の例外である単語のリスト1及び2である。

    【0065】上記から、主たる発明の部分は、不定冠詞の正しい使用法を決定するのに重要なのは単語を発音する時に発せられる最初の音であることを認識することに集中することが分かる。

    【0066】最初に例外の限られたリストを構築して、
    次の三つの規則が適用される。 不定冠詞「a」、または「an」に続く単語が文字「eu」で始まる時に最初の規則を適用する。 何れの場合でも、不定冠詞「a」が使用されるべきである。 不定冠詞「a」、または「an」
    に続く単語が母音の文字「a」、「e」、「i」、
    「o」、または「u」で始まる時に第二の規則を適用する。 何れの場合でも、不定冠詞「an」が使用されるべきである。 不定冠詞「a」、または「an」に続く単語が子音の文字で始まる時に第三の規則を適用する。 何れの場合でも、不定冠詞「a」が使用されるべきである。

    【0067】図7において、ステップ300で入力された文の各単語w1とそれに続く単語w2とはステップ3
    02、304、306により決定される時に入力文内の現在の単語の位置iの跡を辿ることにより構築される。
    もし現在の単語がステップ308により構築される時に「a」、または「an」でないならば、そのアルゴリズムはステップ304、306を通じて次の単語に進む。
    もし現在の単語w1が「a」、または「an」の何れかであり、そして次の単語w2がステップ310により構築された時に図4及び図5のリスト1内で発見されるならば、その現在の単語w1はステップ312により指定された時に必要ならば、「a」に訂正されなければならない。 もし次の単語w2がリスト1内で発見されないが、ステップ314により構築された時に図6のリスト2内で発見されるならば、現在の単語w1はステップ3
    16により指定された時に必要ならば「an」に訂正されなければならない。 さもなければ、もし次の単語W2
    がステップ318により構築される時に文字「eu」で始まるならば、現在の単語w1はステップ320により指定されるときに必要ならば「a」に訂正されなければならない。 さもなければ、もし次の単語w2がステップ322により構築された時に「a」、「e」、「i」、
    「o」、または「u」で始まるならば、現在の単語w1
    はステップ324により指定される時に必要ならば「a
    n」に訂正されなければならない。 さもなければ、現在の単語w1はステップ326により指定される時に必要ならば「a」に訂正されなければならない。

    【0068】c)不適当な助動詞列の訂正 前述のように、非ネイティブスピーカーが英語の文を書こうとする時に、彼等は複雑な助動詞列において不適当な時制をしばしば使用する。 一例は「he has c
    onsider」である。 ここで、不正な使用法は動詞「consider」の時制である。 助動詞列を認識するのが明らかに困難であるためと、品詞タグが通常計算されないという事実とのため、従来の文法チェックシステムのどれもそのような助動詞列に対するチェックを行わない。

    【0069】本発明によるシステムにおいて、そして図8において、文410は品詞タグ付けモジュール412
    により解析されて、符号414で示されるように関係する文の品詞を得る。

    【0070】誤りを検出するために、不適当な助動詞列の終了点と開始点との両方を検出しなければならない。
    例えば、文「He has been conside
    rthis fact」において、文の四番目の単語である誤りの終わり、即ち「consider」を検出することが重要である。 「consider」の後の全単語、即ち「this fact」は助動詞列の正しさに影響を及ぼさない。 同様に、誤りの開始点、即ち文の二番目の単語である「has」を検出することが重要である。 「has」の前の全単語は助動詞列の正しさの決定に無関係である。

    【0071】文の品詞を生成して、終了点検出モジュール424が不適当な助動詞列の終了位置を計算するために使用される。 不適当な動詞列の終了を検出するために、そしてステップ420で示され、図9内で示されるように、全助動詞列の全ての正しい品詞列が後述される図10に示される有向非循環グラフ内に蓄積される。

    【0072】全ての正しい助動詞列の有向非循環グラフから、全ての可能不適当助動詞列に対応する他の有向非循環グラフがステップ422で生成される。 そのグラフをステップ422に対応させて、このグラフは、不適当な助動詞列「have/三人称/動詞/不定詞」を含む。 これは不適当な助動詞列「has conside
    r」に対応する。 誤りの終了点を検出するために、グラフは、終了状態に及ぶまで左から右に横断されると同時に、その入力ストリングは左から右に読まれる。 入力文品詞が不適当な助動詞列グラフ内に読まれると品詞は入力文内の単語に対応するので、そのグラフが最終状態に達すると、これは問題の助動詞列の終わりにその単語を識別する。 文内のその位置に関してこの単語の識別子は終了点検出モジュール424により指示される。

    【0073】同様に、開始点検出モジュール426は問題の助動詞列の開始点に対応する単語を検出する。 これは、誤りの終了点を検出して、グラフの開始状態に達するまでグラフの右から左まで後方に働くことにより達成される。 例えば、左から右に進むと、そのシステムはh
    asをhave/三人称/単数として識別して、動詞/
    不定詞と見なす。 システムは、この点で誤りが在ることを検出して、不適当な助動詞列内の最後の単語であるとして単語「consider」を識別した。 それで、グラフ内で後方に移動して、入力ストリング内で、「co
    nsider」を通過して、そして「has」を通過して進む。 これはこの特別のグラフの初めに到達するので、助動詞列内の最初の単語であるとして語「has」
    を識別する。

    【0074】図8に戻って、助動詞列の終了点を決定してから、この不適当な列の終了位置が入力文の不適当列内の最後の単語の位置としてステップ428で決定される。 同様に、不適当列の開始位置は入力文内のその位置を反映する数として不適当列を開始する単語の位置としてステップ430で決定される。 ステップ432で例示されるように、図11で例示される他の有向非循環グラフは、各々の不適当助動詞列の可能な正しい列のセットを指定する。 それで、ステップ432は不適当助動詞列を通じて図11に例示された有向非循環グラフ内に進み、そしてステップ434で例示されるようにユーザーが見るための可能な正しい助動詞列のセットを出力する。

    【0075】図10において、正しい助動詞列のセットを説明する有向非循環グラフが全ての可能助動詞列に対して次のように構成される。 図10に示されるように、
    そのグラフの左側におけるその開始点440から、「b
    e」、「were」、「was」、「is」、「a
    m」、「are」、「been」、「had」、「ha
    ve」、「has」、「could」、「shoul
    d」、「might」、「may」、「can」、「m
    ust」、「would」、「shall」、「wil
    l」、「do」、「does」、「doesn't」、
    そして「did」などの英語における助動詞の全てを含むボックス442が在る。 語「be」から「been」
    までノード444と関係することが理解されよう。 一般に、ノードは、これらの助動詞に続くことが出来る動詞は同じであることを指定する。 例えば、「is」は、単語「were」が例えば「were being」となるように、単語「being」で続くことが出来る。 従って、ノード444は、後続する動詞が同じである助動詞のセットが在ることを指定する。 例えば、単語「ha
    d」、「have」、そして「has」のセットと関連したノード446は、単語「been」が後続することが出来る。 同様に、ノード448に対しても、単語「c
    ould」から「will」までは単語「have」が後続することが出来る。 また、これらの単語は単語「d
    o」が後続できる。 最後に、ノード450は、単語「d
    oes」、「do」、「doesn't」が「hav
    e」により後続されるが、「do」によってではないことを指定する。

    【0076】事実このような英語の語法グラフを用いることによって、全規則をコンパクトなグラフ上の表現に展開できるので、助動詞列の誤りの訂正を得ることが出来る。

    【0077】見られる通り、前記ノードに続く「??
    ? 」とラベル付けされたボックスが在る。 例えば、ボックス452がある。 このグラフへの入力は、品詞が後続する単語の列であることを思い出されよう。 本当はこれは、二つの変数でその入力にタグ付けする。 そのグラフをコンパクトのままにするために、そのシンボル「??
    ? 」はこのノードで説明されない何かを主張する。 ノード454において、ボックス456は何かを示すが、
    「been」と「had」とはノード458に進むことが出来る。 従って、「???」ボックスの使用は状態の出力で説明されない何かのシンボルを次のノードに連結する能力を主張することが分かる。

    【0078】単語に加えて、その入力文はまた、品詞を必要とする。 例えば、システムが列「have con
    sidered」を解析する時、このグラフは列「ha
    vehave considered vbn」と比較される、ここで「vbn」は過去完了形を表す。 グラフの左側から開始して、ボックス461で例示されるように単語「have」を発見する。 そこから、ノード44
    6を過ぎて、上述のように、ノード454へのこの単語の通過を可能にするボックス462に向かって右に移動する。 ノード454からの可能性はボックス464での「been」、またはボックス466での「had」であり、そのどちらも入力文と一致しない。 他の代わりは、ノード458への右への通過を可能にするボックス456に行き、それから過去完了形を表す「vbn」を指定するボックス460に行くことである。 これはノード470への通過を可能にする。 単語「conside
    red」は、その解析がボックス456を通過しているので、許容されるべきであると考えられる、それで列「have considered」はグラフの終了点472に進むことが許される。 中間ノード470と終了点472との間に、空語を示すシンボル<E>を有するブロック474が在る。 <E>で示されたボックスの使用は、次の単語、または次の品詞などのことを考慮することなく一つのノードから次のノードに通過できることを示す。

    【0079】ボックス442で見つけられない単語に対しては、ボックス476とノード480を通じて品詞ボックス482に、その後ノード484に通すことにより解析できる。 ボックス486は適していれば終了点47
    2への弧を与える、そうでなければノード484を通過して、ボックス488を通じてノード490に、その後終了点472に達する前に品詞ボックス492、または494を通る。 最後に、ノード484は、「havin
    g」を有する単語と連結するならば、ノード496とボックス498とを通過して、ノード500に、ボックス502はノード504を介して品詞ボックス506に、
    それから適していれば終了点472にノード484を通す。 もし484における単語が「having」と「b
    een」との両方に連結されるべきであるならば、それはノード508に、ボックス510を通じてノード51
    2に、そしてボックス514を通じてノード516に渡される。 その後、それは品詞518から終了点472
    か、ボックス520のいずれかとなる。 従って、入力単語「having」、「been」の正しい使用法は、
    もし前述された原形を通じて終了点472に到達すれば正しいとして決定される。 但し、もし単語「bein
    g」がこの列に追加されるべきであるならば、ノード5
    12の出力はノード522とボックス524に渡されてノード516に至る。

    【0080】要約すると、有向非循環グラフは、全ての正しい助動詞使用法を指定する。 その結果、同様のグラフが全ての不適当な助動詞列について構成できる。 故に、全ての正しい使用法を表すグラフを構成すると、全ての不適当な使用法を表すグラフを直ちに有する。 このアプローチの密度の高さは、文の解析に例外的に効果的である。

    【0081】図11において、有向非循環グラフの形の有限状態変換モジュールは、上記生成された不適当な動詞列の有向非循環グラフにより決定される時、不適当な助動詞列の訂正を提示するために使用される。 適切な訂正を提示するために、助動詞はペアーにされる。 よって各ペアーの左側の語は不適当なものとして識別され、そして右側の語は正しいものとなる。 例えば、havin
    gは、助動詞列「will had」は不適当であることを識別し、図11のグラフが正しい列を指定するために使用される。 入力ノード530から開始して、ボックス532を通過することが出来る、このボックスの左手は入力の第一単語と同じである。 ノード534とボックス536とを通過して、ノード538に達する、ここで考慮される単語は単語「had」である。 ボックス54
    0は、「had」が「have」に変更されるべきであることを示す、その事実はノード542に出力され、その後ボックス544を通じて終了点546に至る。 この通路により終了点546に到達して、提案される正しい列は「will have」となる。

    【0082】より複雑な場合は、不適当な列「woul
    d considered」を考える場合である。 対応する品詞タグは「would would consi
    dered vbn」である。 この場合、「woul
    d;would」を示すボックス550を通過することにより最初ノード534に到達して、ボックス536を通じてボックス538に達する。 ここで、ボックス54
    0、552、554、556、558、または560の何れも適用しない。 これは、これらのどのボックスもその中に単語「consider」を持たないからである。 ボックス562を経て、品詞解析ボックス564を経た適切で、正しい提案は「would consid
    er」であることに留意すること。 これは、グラフが、
    「considered」は単語「consider」
    の過去時制であることを検出するので、到達した。 このボックスは現在時制が使用されることを提案するので、
    単語「consider」を提案する。 その解析は「v
    bd:/vbd/vb」で示される。 vbdは過去時制を意味し、そしてvbは現在時制を意味することに留意すること。 入力に他の正しい変更を提供するノード53
    8からの交代的ノードが在る。 例えば、提案される列は「would have considered」であるかも知れない。 ここで、ボックス566は、単語「h
    ave」が付加されるべきであることを指定する。 ボックス568は、「have」の品詞、hvが、セットにもまたタグならば付加されるべきであることを指定する。 ボックス570を通過して進んだ後、ボックス57
    2は、過去時制形が過去分詞形に変換されるべきであることを指定する。 その場合、単語「considere
    d」は、過去時制と過去分詞との両方であるので、不変である。 もし入力された単語が「considere
    d」に対立するものとして「knew」であったならば、ボックス572は過去時制である「knew」から過去分詞である「known」への変更を指定していたであろう。

    【0083】図11の図式の残りは自己説明的であり、
    一度不適当であると決定された不適当動詞列への種々の提案された変更を提供する。

    【0084】d)非ネイティブスピーカーのための活用訂正 良く知られるように、スペルチェックシステムは典型的に辞書引きアルゴリズムを介してスペル誤りの単語を検出する。 これは、典型的に不注意なタイプ打か、文字転置のためによるスペル誤りを検出するのに成功するが、
    これらのシステムは他の種類のスペル誤りに対しては効果がない。 最も顕著に、非ネイティブスピーカーのスペル誤り、単語の文字についての大抵不注意な転置、不注意な文字挿入、または省略、それらは主に文法問題のためである。 例えば、文「He drived his
    car yesterday」をとると、その誤りは不注意でも、特別のスペルに関する知識の不足の何れでもないが、この場合はむしろ動詞「drive」の過去時制に関する不確かさによるものである。

    【0085】典型的に、スペルチェッカーは、ミスタイプされた単語と辞書の単語との間の距離に基づいて適当なスペルを提案する。 その距離は、典型的に置換、挿入、転置、または削除されなければならない文字数に基づく。 その結果は、しばしば奇妙である。 例えば、上記例では、正しい提案は「drive」の過去時制、即ち「drove」であろうが、従来のスペルチェッカーは「dried」や、「dripped」を提案する。 正しい語「drove」が提案されないということに留意することは興味深い。 これは、従来のスペルチェックシステムが検出されたスペル誤りを文法に関して解析しないからである。

    【0086】従来のシステムが正しいスペルの提案において有する難しさの他の例は、不適当な比較形容詞を含む。 例えば、非ネイティブスピーカーが「good」に対する比較級を選択するのに、しばしば比較形容詞を形成するための通常規則に基づいてgooderを選択する。 更なる例として、名詞「child」を複数形にしたい時、非ネイティブスピーカーは、単数名詞に「s」
    の付加を必要とする通常の複数規則に再び基づいて「c
    hildren」に対立するものとして語「child
    s」を選択するかも知れない。

    【0087】上記例で適切な語を提案することを従来のスペルチェッカーが出来ないことを示すために、典型的スペルチェッカーは次の語を提案する。 そのどれもが文脈において正しくない。 つまり、「chills」、
    「child's」、「chill's」、「chil
    d」、「tidles」である。 従来のスペルチェッカーによる更に不十分な提案は、いかに「goodes
    t」を正しく綴るかの提案である、即ち:「gooie
    st」や、「goosed」である。

    【0088】これらのタイプの誤りは、スペルチェック機能を使用するのを拒絶させるほど個々の非ネイティブスピーカーにとっては煩わしいだけでなく、彼等の欲求不満のレベルも、文脈内外で知らない語の中から選択するよう強制されるときには更に高くなる。

    【0089】本発明の図12において、複数、過去時制、過去分詞、比較形、最上形に関して何れの通常規則にも従わない語の典型例を識別することが重要である。
    主たるシステムがより適当な置換語を提案するのは、文法を基礎として生成される不適当な単語のこの特有のリストからである。 主たるスペルチェックシステムは辞書引きシステムによりスペル誤りを検出するように正常に働く。 その後、正しい単語が、以下で説明されるように典型的な不適当な単語の大要や、原形、および形態素的特徴との両方に基づいて提案される。

    【0090】図12において、英単語訂正モジュール6
    00は、英単語辞書602と、英単語形成の正常規則により生成された辞書608とからの単語をステップ60
    6で比較することにより生成された不適当な英単語60
    4のリストを含む。 比較の結果は、スペルの誤りからではなく、むしろ不適当な文法に基づく誤りやすい単語の特別なリストとなる。

    【0091】図13において、検出された不適当な単語を実際に訂正するプロセスにおいて、英単語辞書602
    が、図12との関連で説明されたように前に生成された不適当な英単語のリスト604に沿って使用される。 検出された不適当な単語はステップ610で利用可能であり、従来の辞書引きを通じて得られる。 検出された不適当な単語と不適当な英単語のリストの両方とも、不適当な単語の原形や時制、数、比較形、. . . 最上形などのその形態素的特徴を決定するモジュール612に適用される。 例えば、不適当な単語「drived」の場合、
    この単語の原形は「drive」であり、そしてその形態素的特徴は「過去時制、または過去分詞」である。 その原形と形態素的特徴は、その原形と形態素的特徴とを英語辞書602内の対応する英単語と関連させるモジュール614に提供されて、提案された訂正単語を提供し、それにより文法とその例外との両規則を考慮に入れることが出来る。

    【0092】本質において、典型的に不適当な使用法に基づく原形と形態素的特徴と得ているシステムはこれらの未訂正の使用法と関連付けられた適切な単語を提案することが出来る。 そのシステムは、単純なスペルの誤りに対立するものとして文法のために問題である問題単語を識別している洗練されたルックアップを提供する。

    【0093】品詞タグ付けモジュールは、システムにより提案される単語の精度を改善するのに有益であることが理解されよう。 例えば、スペルを誤った単語が過去時制であるか、または過去分詞かの何れかである場合である。 上記の例は、「drove」、または「drive
    n」に導く「drived」の訂正である。 「不適当な」単語が文内で使用される方法を知ることは、品詞に基づいた正しい選択となる。

    【0094】e)限定詞の不正使用法の検出と訂正 非ネイティブスピーカーに対する最も難しい問題の一つは、限定詞の使用法の問題である。 限定詞は、名詞句の指示対象を決定する「the」、「a」、そして「so
    me」などの単語である。 限定詞を含む3種類の誤りが在る。 その第一は限定詞欠如である。 例えば、文「Jo
    hn read book」は名詞句「book」の限定詞が欠けている。 限定詞の誤りの第2は、不用の限定詞の使用である。 例は、「John went to
    the New York」である。 ここで、限定詞「the」は不適当であり、削除されるべきである。 限定詞誤りの第3は、限定詞と関連名詞との間の一致の欠如である。 例えば、「John read many
    book」は「many」と「book」との間の数の一致の欠如を例示する。

    【0095】限定詞の不正使用を検出するために、品詞タグが解析に使用される。 品詞タグ付けモジュールは、
    図3、図8、図18、図19、図21と関連して説明される。 タグ付けされた文の例として、「John re
    ad long novel」を考える。 ここで、「J
    ohn」のタグは「固有名詞」である。 「read」のタグは「過去動詞」である。 「long」のタグは「形容詞」である。 そして「novel」のタグは「単数名詞」である。

    【0096】図14に示されるように、システムは決定ブロック700で例示されるように名詞句を識別する。
    それは品詞タグのどの列が有効名詞句を構成するかを定義するパターンと最大限一致させることにより文内の名詞句を識別する。 名詞句のパターンは以下により与えられる。 [DET](MODS NOUN AND)*MODS
    NOUNhead そして、MODSのパターンは以下により与えられる。 (MOD + AND)*MOD ここで、DET、MOD、NOUN、ANDは各々限定詞、修飾語句、名詞、等位接続詞の品詞タグのセットとして定義される。 表記法[X]は囲まれた式Xのゼロか、または一回の発生を意味する。 表記方(X)*は囲まれた式Xのゼロ回か、またはそれ以上の発生を意味する。 X +におけるように、プラスの上付き記号は式Xの一回か、またはそれ以上の発生を意味する。

    【0097】上記の目的は名詞句を識別するためである。 例えば、上記文においては、名詞句は、品詞列「固有名詞」に対応する、「John」と、品詞列「形容単数名詞」に対応する、「long novel」とである。 上記は比類無く、名詞句の初めとその終わりを識別することにより名詞句を識別する。 限定詞欠如、不用の限定詞、または名詞句の構成のための数の一致の欠落のいずれであるかをチェックするために名詞句が識別されるのは主な重要性に関してである。

    【0098】ステップ702に示されるように、一度名詞句が発見されると、そのシステムはその名詞句が限定詞欠如であるかどうかを試験する。 その試験は全名詞句、つまりNPを調べ、そして主要名詞、つまりNOU
    Nheadをもまた調べる。 それは名詞句内の最後の単語である。 主要名詞はその句内の最重要名詞を示し、大抵の場合最後の単語であるのが分かっている。 限定詞欠如の試験は名詞句の限定詞、DETをも調べる、それは名詞句の最初の単語であるか、または全く見いだされないかの何れかである。 図15のステップ704と706
    で決定されるように、もしその主要名詞が単数、非固有名詞で、そしてDETは存在しないならば、その名詞句は、それがタイトルであるかどうかを見るためにステップ708で試験される。 タイトルは、固有名詞以外のいかなる大文字使用句であっても良い。 例えば、「The
    Atlanta Police Departmen
    t」や、「Grady Hospital」はタイトルである。 もしその名詞句がタイトルであることが分からなければ、主要名詞は、それが質量名詞かどうかを見るためにステップ710で試験される。 質量名詞は、例えば、「rice」、「fish」、または「carbo
    n」などの特に指定しない量の物質を表す名詞である。
    質量名詞は、複数名詞として効果的に機能するので限定詞を必要としないことが理解されよう。

    【0099】もし名詞句がタイトルであるならば、解析が、ステップ712で示されるように、主要名詞が質量名詞であるかどうかを確認するために行われる。 質量タイトル名詞は質量名詞に類似しているが、タイトル内に見出される。 例えば、文「She attended
    Harvard University」内で、名詞句「Harvard University」はタイトルであり、そして「University」は質量タイトル名詞である。 故に、「University」は限定詞を付けないで現れることに留意するすべきである。 質量タイトル名詞は質量名詞と同じではないこともまた観察される。 例えば、「University」は質量タイトル名詞であるが、それは質量名詞ではない。 これは、文「She attended a fine u
    niversity」からも分かる。 ここで名詞「un
    iversity」には限定詞「a」が与えられる。 従って、質量タイトル名詞を持っていることが決定されるならば、何の提案もされないことが理解されよう。

    【0100】但し、慣用語法に対する問題が在る。 ステップ714に例示されるように、名詞句は、それがイディオムの一部であるかどうかを見るために解析される。
    これはイディオム辞書内のルックアップを通して行われる。 もし名詞句がイディオムの一部分であるならば、再びどんな提案もされない。 例えば、文「The eve
    nt took place」内で、名詞句「plac
    e」に対して何の提案もなされないが、それはイディオム「to take place」の一部であるので、
    限定詞を欠いている。

    【0101】限定詞を持たない単数非固有名詞に対しては、もし主要名詞が質量名詞でも、質量タイトル名詞でもなければ、そしてもし名詞句がイディオムの一部でなければ、そのシステムは、ステップ716で示されるように、限定詞欠如が在ることを示唆する。

    【0102】図16において、システムは不用の限定詞に対する名詞句をチェックする。 これは次のように達成される。 主要名詞が固有名詞であるかどうかが名詞句を導入し、そして限定詞がステップ724で例示されるように存在するかどうかを確認することとによりステップ722で決定される。 もし上記条件が一致すれば、ステップ726で示されるように、異質の限定詞を有すると決定される。 例えば、「John went to t
    he New York」は、名詞句「theNew
    York」が固有名詞である主要名詞を含むので、そしてその名詞句内に限定詞、つまり単語「the」が在るので、異質の限定詞を有するとして示される。 固有名詞は、可能性と文脈とに基づいて固有名詞の存在を決定するタグ付けモジュールにより識別される。

    【0103】図14に戻って、ステップ730で示されるように、主たるシステムは数の不一致に対する名詞句をチェックする。 いかにこれが達成されるかが図17で示される。 数の一致の決定は、ステップ732で示されるように、名詞句内の主要名詞が固有名詞であるかどうかを決定する検出モジュールに名詞句を導入することにより達成される。 もしそうであるならば、数の不一致はない。 これは、もし固有名詞句が限定詞を含むならば、
    それはもうすでに異質の限定詞の誤りとして報告されていたであろうからである。 ステップ734で示されるように、主要名詞が固有名詞でないと仮定すると、システムは名詞句が限定詞を含むかどうかを決定する。 もし含まなければ、数の不一致の問題は無い。

    【0104】ステップ736で示されるように、もし限定詞が在れば、限定詞の数が主要名詞の数、即ち単数、
    または複数に対してチェックされる。 もしそれらが一致すれば、何の誤りも知らされないが、もしそれらが一致しなければ、主要名詞の数を変更して、限定詞の数と一致するように提案がなされる。 従って、文「Johnr
    ead one books」に対して、その主要名詞「books」は限定詞と一致するように変更されるように提案され、そして単数にされる。 同様に、文「Jo
    hn read many book」に対して、主たるシステムは限定詞と一致させるために主要名詞を複数に変更することを提案する。 択一的に、システムは主要名詞に対立するものとして限定詞を変更するように適応されるかも知れない。 但し、これは可能性の少ない動作行程である。 何が適当な限定詞であるべきかを確認することの難しさのために、前者がより良好な結果を与える。 故に、個人は数に関して正しい限定詞を適切に入力していると見なされる。

    【0105】要約すると、本発明によるシステムは、タグ付けされた文の使用や、名詞句、主要名詞、固有名詞、質量名詞、質量タイトル名詞、そしてイディオムの検出を通じて、限定詞の不適当な使用法を検出して、訂正するための多数の技術を使用する。 限定詞誤用の適切な決定に対して重大であるのは、図14と関連して上述されたパターンの一致の使用を通しての名詞句の検出である。

    【0106】f)固有名詞と他の本質的に大文字が使用される単語との認識 固有名詞は他の名詞の全てに対して独特の識別可能的に扱われるので、単語が固有名詞であることを認識できることは文の解析において重要である。 固有名詞だけでなく、「Harvard University」など、
    タイトルで見出されるこれらなど、他の本質的に大文字が使用される単語も認識する能力を有することにより、
    文が文法的に説明されて、理解されるので、文法が解析される。

    【0107】単語は、二つの理由のため英語の文で大文字として現れるかも知れない。 第一は、それは固有名詞か、または他の本質的に大文字が使用される単語かのいずれかである。 第二に、それは文の初め、または一定の句読点後に見いだされる、そうでなければ大文字化されないだろう。 例として、文「Wells was an
    English novelist」を考えると、
    「Wells」は、固有名詞であるので大文字化されることは理解されよう。 文「Wells weredug
    to provide drinking wate
    r」を考えると、「wells」は、文の最初の単語であるので大文字化される。

    【0108】従って、第一文において、文法チェックシステムは、「Wells」が本質的に大文字化されるので、固有名詞であることを認識しなければならない。 第二文において、文法チェックシステムは、「well
    s」は本質的に大文字化されないので、普通の複数名詞であることを認識しなければならない。

    【0109】名詞が固有名詞であるかどうかを決定するための先のアプローチにおいて、システムは比較的限られた技術を本質的に大文字が使用される単語の認識に適用した。 1つのアプローチは、文の最初の単語が決して本質的に大文字化されないと見なすことであった。 これは、第一文により示されるように、固有名詞で始まるいかなる文に対しても失敗する。

    【0110】他のアプローチは、固有名詞、または普通の単語、しかし両方ではない、その何れかとして全ての単語を分類することであった。 「Wells」は、この種の分類法を失敗させる固有名詞と普通の単語との両方であることは上記の二つの文から明白となる。

    【0111】その単語が固有名詞であるかどうかを適切に識別するのを失敗する明白な問題は、辞書引きにおいて、間違った定義が検索されることである。 単純な文法チェックにおいては、定義が必要とされないが、正しい使用法を決定するときに指導的、または情報的データを提供する洗練された単語処理や文法チェックシステムは固有名詞や他の本質的に大文字が使用される単語の正しい識別を必要とする。 たとえ辞書引き機能が文法チェックシステムの一部でなくとも、固有名詞や他の本質的に大文字が使用される単語の認識は重要である。

    【0112】単語が固有名詞であるかないかを識別する重要性は、トリグラム可能性の使用を通して文内の各単語の品詞を正確に決定しなければならない品詞タグ付けモジュールの動作に影響を及ぼす。 単語の大文字化と非大文字化バージョンとは異なるトリグラム可能性を有するので、正しいトリグラム可能性を適用するために単語のどのバージョンが文内に存在するかを知ることはタグ付けモジュールには重要である。 例えば、固有名詞「W
    ells」のトリグラム可能性は普通名詞「well
    s」のトリグラム可能性と異なる。 従って、タグ付けモジュールは、文「Wells was an Engl
    ish novelist」内で、単語「Wells」
    は固有名詞であることを理解しなければならない、それでそれは「Wells」の大文字化バージョンのトリグラム可能性を適用すべきである。

    【0113】固有名詞、または他の本質的に大文字が使用される単語に対立するものとして、単語が普通の単語であるかどうかを立証するために、本発明によるシステムは各単語の二つの解釈、つまり固有名詞としての単語の解釈、または普通名詞としての解釈のうちどちらが最良のものであるかを決定する。 それは、一方はその名詞は固有であると仮定し、他方はそれは普通であると仮定する文の二つのバージョンを生成することによりこれを行う。 それで、それは二つの文のトリグラム可能性を比較する。 もしその単語が固有名詞であると仮定する文がより高い可能性を有するならば、その単語は固有名詞であると考えられる。 さもなければ、その単語は普通名詞であると考えられる。

    【0114】図18において、名詞が固有名詞であるかどうかを確認するために、意志決定プロセスのために二つのステップが在る。 ステップ800で示されるように、第一ステップは、802で示されるように、タグ付けされたトレーニングコーパスで始まる前処理である。
    これは、各文章の単語がそれらの品詞タグで注釈付けされる文章のセットを示す。 次に、トレーニングコーパス802がステップ804で示されるように改訂されて、
    固有名詞でない、または、一般に、本質的に大文字化されない単語を非大文字化する。 単語は、もしその単語が固有名詞、またはタイトルとしてタグ付けされたならば、またはそれが頭字語であるならば、またはそれが代名詞「I」であるならば本質的に大文字化されると考えられる。 更に、もし単語が文の初めに、または引用符の前半、またはコロンの後に見いだされるならばそれらの単語は非大文字化される。

    【0115】特に、図19に例示されるように、タグ付けされたトレーニングコーパス808はステップ810
    で解析され、もし必要ならば、そのコーパスから次の語/タグを得る。 1つが見付けられれば、その単語は、それが大文字化されるかどうかを見るためにステップ81
    2で解析される。 もしその単語が大文字化されるならば、ステップ814で示されるように、その単語が文の最初の単語であるかどうか、またはそれが引用符の前半、またはコロンに続くかが確認される。 もしそうであれば、ステップ816で示されるように、その単語が固有名詞、またはタイトルとしてタグ付けされたか、またはそれが頭字語か、または代名詞「I」であるかどうかを見るためにその単語は試験される。 もしそうでなければ、その単語はステップ818で示されるように改訂されたトレーニングコーパス内で大文字化されることとなる。

    【0116】図18に戻って、改訂されたトレーニングコーパスはステップ820で解析されて、単語のトリグラム可能性モデルを得る。 これは、普通名詞を固有名詞と、またはその逆に単語を誤って識別することに関連した誤りを除去するために修正されたトリグラムモデルを提供する。 誤りを除去するためにタグ付けされたトレーニングコーパスを前処理した後、そのトリグラムモデルは、問題のその単語が本質的に大文字化されるかどうかを決定するための意志決定においてステップ822で使用される。 これは、文内の単語を入力として必要とし、
    その出力はその単語の語幹のスペルである。

    【0117】図20に見られるように、単語が本質的に大文字化されるかどうかを決定するためのステップ82
    2で説明される意志決定プロセスは、ステップ850で示されるように、文内の単語で開始する。 この単語は、
    その初めの文字が頭文字であることでそれが大文字化されるかどうかを決定するために解析される。 もしそうでなければ、ステップ851で示されるように、その単語の解釈は、その文により文字通り与えられるものである。 つまり、もしそれが文内で大文字化されて現れるならば、それは固有名詞として解釈される。 もしそれが文内で非大文字化されて現れるならば、それは普通名詞として解釈される。 従って、もしその単語が大文字化されないならば、特別なアクションは何も起こさない。

    【0118】その単語が大文字化されると仮定すると、
    ステップ854に見られるように、その単語が文の最初の単語であるかどうか、またはそれは引用符の前半、またはコロンに続くかどうかが決定される。 もしそうでなければ、更にアクションは何も起こさない。 もしそうであれば、ステップ856で示されるように、その単語は更に処理されて、それが頭字語であるかどうかを確認する。 頭字語は、大文字化されているその英字の全て、または頭字語辞書内のその存在を特徴とする。 もしその単語が頭字語であることと決定されるならば、再び更に何の処理もなされない。

    【0119】もしその単語が頭字語でないならば、ステップ858で示されるように、そのシステムは、符号8
    59で例示されるようにトリグラムモデルに従って、一方が固有名詞として扱われる問題の単語を有し、それは大文字化され、そして他方は普通名詞として扱われる問題の単語を有し、それは非大文字化される、文の二つのバージョンの可能性を計算する。 その計算は、前述の品詞タグ付けモジュールに従って説明された通りである。

    【0120】ステップ860で例示されるように、もし非大文字化された単語を有する文の可能性が、大文字化された単語を有する文のそれを超えるならば、そのシステムは最も可能性のある語幹のスペルとして単語の非大文字化されたスペルを戻すので、このスペルは更なる文法チェックのために使用できる。 さもなければ、ステップ864で示されるように、そのシステムは最も可能性のある語幹のスペルとしてその単語の大文字化されたスペルを戻す。

    【0121】理解されることは、単語の語幹のスペルを訂正することにより、文法チェックシステムがより正確に、かつより効果的なものとして作成可能であることである。 語幹のスペルの訂正は二つのステップを必要とする。 その第一ステップは、その単語が固有名詞であるかどうかについての誤った特徴付けを通して引き起こされた誤りのためのトレーニングコーパスの品詞タグを訂正する。 第二のステップは、一連の解析が、大文字化されるか、または非大文字化されるその単語のスペルがより適切であるかどうかを確認するために実行される。 これは、前処理ステップで得られる改訂されたトリグラム可能性モデルを用いてその単語が本質的に大文字化されるかどうかを決定する意志決定要素を通して達成される。

    【0122】g)文脈に基づいた辞書引き テキストを書いている時、非ネイティブスピーカーは単言語辞書か、または二言語辞書の有効性に頼る。 辞書は、非ネイティブスピーカーが頼る言語についての情報の最も有用なソースの一つである。 辞書の使用は、文法チェックの問題に限定されないが、一般に文を書く時に有用であることは理解される。 たとえネイティブスピーカーでも、文を書く時にはかなり辞書や、シソーラスの使用に頼ることもまた理解される。

    【0123】辞書エントリーへのアクセスは、文脈外の単語は、それらの統語上の性質やそれらの意味との両方において、非常に曖昧であるので、思われるほど単純ではない。 辞書内に与えられた単語は典型的に、20、3
    0、またはそれ以上のエントリーを有するかも知れないことは理解される。 この多数のエントリーは、辞書の使用を非常に時間を消費させるものにする。

    【0124】例えば、文脈外で単語「left」は英語の辞書内に多数のエントリーを有する。 文「His l
    eft arm」内で形容詞「left」のエントリーがある。 文「he moved left on en
    tering the room」内で副詞「lef
    t」のエントリーがある。 「Make a lefta
    t the next corner」として名詞「l
    eft」のエントリーがある。 そして文「He lef
    t a minute ago」内で動詞「leav
    e」の過去時制のエントリーがある。 但し、単語「le
    ft」が英文で見いだされる時、このエントリーの一つのみがその文脈と関係がある。 現在、文脈に基づいて単語の正しいエントリーにアクセスする能力を提供する辞書はない。

    【0125】本発明によるシステムにおいて、辞書のエントリーは文脈で与えられた単語に割り当てられた品詞に基づいて選択されて、位置付けされる。 文脈内の単語に対応するエントリーが最初に選択される。 現在の文脈に関係の無い他のエントリーはユーザーの要望により尚利用可能である。 文脈で与えられた単語の品詞は上述された品詞タグ付けモジュールで明確にされる。

    【0126】例示により、文「He left a m
    inute ago」内の単語「left」を考えると、品詞タグ付けモジュールはその文内の単語「lef
    t」に対してタグ「動詞過去時制」を割り当てる。 この場合、主たるシステムはその文脈内の「left」の使用法に対応する動詞「leave」のエントリーを選択し、それからその文脈内で使用されない「left」のエントリー、特に形容詞として、副詞として、そして名詞としての「left」のものを選択する。

    【0127】文「It has several ba
    ses」内の単語「bases」を考えると、品詞タグ付けモジュールは、文内の単語「bases」に対して二つのタグ「複数名詞」を割り当てる。 文脈外で、その単語「bases」は、動詞「base」の第三人称だけでなく、名詞「basis」の複数、そして名詞「b
    ase」の複数でもあることが理解される。 「It h
    as severalbases」の文脈に対して、主たるシステムは名詞「base」とその文脈における単語「bases」に対応する「basis」とのエントリーを選択する。 それからその文脈で使用されない「b
    ases」のエントリー、特に動詞「base」のものを選択する。

    【0128】図21のステップ900において、文脈に基づいて辞書から文内で見いだされる単語のエントリーを選択するために、その単語は、原形と文脈から独立した単語に対応する品詞とのペアーのセットを計算する形態素解析モジュール910により解析される。 例として、単語「left」に対して、形態素解析モジュール910は原形と品詞のペアーの以下のセットを出力する。 つまり、(「left」、「形容詞」)、(「le
    ft」、「副詞」)、(「left」、「単数名詞」)、(「leave」、「動詞過去時制」)である。 形態素解析モジュール910は、英語の全ての単語の全ての活用により指示された表を調べることにより動作する。 そしてそのエントリーは原形と品詞のペアーのセットである。 その単語はまた、文脈上の単語に対応する唯一の品詞タグT940を生成するために文脈上で品詞タグ付けモジュール930により解析される。 これは、Applied Natural Languag
    e Processing、Austin、Texa
    s、1988での第二会議の議事録の「A Stoch
    asticParts Program and No
    un Phrase Parserfor Unres
    tricted Text(非限定テキストのための確率学的品詞プログラムと名詞句パーサー)」で説明されたKenneth Church氏のStochast
    ic Parts Program(確率学的品詞プログラム)の実施として利用できる品詞タグ付けモジュールにより達成される。

    【0129】例えば、もし単語が「He left a
    minute ago」の文脈で「left」であるならば、品詞タグ付けモジュールは品詞タグ「動詞過去時制」を出力する。 文脈に対応する形態学的原形を文脈に対応しないものから分離するために、ステップ920
    では原形と品詞のペアーのセット920を二つのセット、品詞タグ940に対応するセット950と、品詞タグ940に対応しないセット960とに分割する。 先の例において、文脈に対応する原形と品詞のペアーのセットは、「leave」、「動詞過去時制」である。 文脈に対応しない原形と品詞のペアーのセットは、(「le
    ft」、「形容詞」)、(「left」、「副詞」)、
    (「left」、「単数名詞」)である。 文脈に対応する辞書からエントリーを表示するために、文脈に対応する原形と品詞のペアーのセット内で発見された原形に対応する辞書970内の全エントリーが、ステップ980
    で表示される。 上記例で、動詞「leave」の全エントリーは文脈に関連するエントリーとして表示される。
    文脈に対応しない辞書からエントリーを表示するために、文脈に対応しない原形と品詞のペアーのセット内で発見された原形に対応する辞書970内の全エントリーが、ステップ990で表示される。 上記例で、形容詞として、副詞として、そして単数名詞としての語「lef
    t」の全エントリーが文脈と関係のないエントリーとして表示される。

    【0130】文脈に基づいて辞書からエントリーを選択する能力はネイティブ、または非ネイティブスピーカーのための、二言語辞書だけでなく単言語辞書にも使用できることが理解される。 主たるシステムは、文脈に関連したこれらのエントリーを選択できるので、ユーザーが読まなければならないエントリー数を徹底的に低減することが出来る。

    【0131】本発明によるシステムの幾つかの形態を示してきたが、修正や代わりが本発明の範囲内で実施可能であることは当業者には明白である。 依って、それは特許請求の範囲で指示される時にのみ本発明の範囲を限定するよう意図される。

    【0132】

    【発明の効果】この発明に係る文法チェックシステムは、以上説明したとおり、ある文と、その文が混同された他方の文の二つの文を仮定すると、どちらが正しい使用法であるかを決定することが可能である。 低エラー率でこれを決定することが出来るので、二つの利点が在る。 その第一の利点は二つの文のどちらが正しいかを明白に突き止めることである。 第二の利点は、正しい文を構築した後、その品詞は他の処理のための他の文法チェックモジュールにより使用できることである。

    【図面の簡単な説明】

    【図1】 この発明の実施例1に係る完全な文法チェックのために利用される種々のモジュールを示す完全な文法チェックシステムの全体を示すブロック図である。

    【図2】 この発明の実施例1に係る品詞列の可能性を利用する混同しやすい単語を訂正するモジュールを示すブロック図である。

    【図3】 図2の可能性決定構成要素のための混同しやすい単語の訂正のための確率的しきい値を決定するために平均する文長さを使用するモジュールを示すブロック図である。

    【図4】 不定冠詞「a」を使用すべき単語を示す図である。

    【図5】 不定冠詞「a」を使用すべき単語を示す図である。

    【図6】 不定冠詞「an」を使用すべき単語を示す図である。

    【図7】 この発明の実施例1に係る単語が冠詞の正しい使用法を得るために綴られる方法と対立するものとして単語が発音される方法に基づく英語の例外に関して詳説した図4、図5、図6を利用して、不定冠詞「a」や「an」を訂正するモジュールを示すフローチャートである。

    【図8】 この発明の実施例1に係る訂正された文を達成するために開始点と終了点検出モジュールの利用を通じて不適当な助動詞列を訂正するモジュールを示すブロック図である。

    【図9】 正しい動詞列を表す有向非循環グラフを利用する図8の開始点と終了点検出モジュールの構成を示すブロック図である。

    【図10】 英語の正しい助動詞列のセットを表す有向非循環グラフを示す図である。

    【図11】 不適当な助動詞列に対する訂正を提示するための有限状態変換モジュールを表す有向非循環グラフを示す図である。

    【図12】 この発明の実施例1に係る本当でない英単語辞書に対応する不適当な単語のリストが全ての英単語に組織的に適用される英単語形成の正常規則に基づいて計算される非ネイティブスピーカーのための改良スペルチェッカーを示すブロック図である。

    【図13】 原形と形態論的特徴が前に見いだされた不正英単語のリストに関して検出された不適当単語の解析に利用される、英単語辞書だけでなく図12のシステムから得られる不適当単語辞書を利用して正しく検出された不適当単語のプロセスを示すブロック図である。

    【図14】 この発明の実施例1に係る名詞句がどの品詞タグ列が、不明の限定詞、異質の限定詞、または数の不一致を確認するためのチェックを含む有効名詞句を構成するかを定義するパターンと最大限に一致させることにより識別される、限定詞の不正の使用を検出して、訂正するモジュールを示すフローチャートである。

    【図15】 名詞句がタイトル名であるかどうか、それが限定詞を含むかどうか、不明の限定詞の報告を可能にするためにそれが質量タイトル名詞、質量名詞、或いはイディオムの一部であるかどうかについての名詞句に対する決定をするモジュールを示すフローチャートである。

    【図16】 主要名詞が固有名詞であるかどうかの決定、それで異質の限定詞を報告することが出来るようにその名詞句が限定詞を含むかどうかを確認することを通して異質の限定詞に対する名詞句のチェックをするモジュールを示すフローチャートである。

    【図17】 主要名詞が固有名詞であるかどうか、もしそうでなければ、限定詞が存在するかどうかを、そして数の不一致を報告するためにその限定詞が主要名詞の数と一致するかどうかを検出することによりその決定が達成される数の不一致に対する名詞句のチェックをするモジュールを示すフローチャートである。

    【図18】 この発明の実施例1に係る改訂されたコーパスでトレーニングされたトリグラムモデルで、固有名詞ではないか、または本質的に大文字化されない非大文字化単語に改訂されたトレーニングコーパスを利用して名詞が固有名詞であるかどうかを確認するために前処理モジュールが利用される、語幹(underlyin
    g)のスペルを訂正するために固有名詞や他の本質的に大文字化される単語の認識のためのシステムを示すブロック図である。

    【図19】 次の単語/タグペアーを得て、その単語が大文字化されるかどうか、そして文の最初の単語であるか、または引用符の前半、またはコロンに続くかどうかを見るために利用される図18のトレーニングコーパスのタグ付け、またその単語が固有名詞、またはタイトルとしてタグ付けされているかどうか、またはそれが頭文字語、または代名詞「I」かどうかを見て、それによりその単語が非大文字化されるかどうかを確認するための検査をするモジュールを示すフローチャートである。

    【図20】 単語が大文字化されるかどうか、それは文の最初の単語であるか、または引用符の前半、またはコロンに続くか、その単語は頭字語であるか、そしてそうでなければ、非大文字化された単語を有する文の可能性が決定されて、それが大文字化された単語を有する文の可能性を超えるかどうかを見るために解析することにより図18で示されたように本質的に大文字化されるかどうかを決定するための決定プロセスを示すフローチャートである。

    【図21】 この発明の実施例1に係る単語が文脈で使用されるときに辞書のどのエントリーがその単語に対応するか、そしてそれが文脈で使用されるときに辞書のどのエントリーがその単語に対応しないかを決定するために品詞タグ付けモジュールと形態学的解析モジュールとの両方が利用される、文脈に基づいた辞書へのアクセスをするモジュールを示すブロック図である。

    【符号の説明】

    12 キーボード、14 CPU、16 単語処理システム(文法チェックシステム)、18 プリンタ。

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドリュー・アール・ゴールディング アメリカ合衆国、マサチューセッツ州、ケ ンブリッジ、ファイブ・フロスト・ストリ ート、アパートメント 1

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈