Analyzing device

阅读:15发布:2023-06-25

专利汇可以提供Analyzing device专利检索,专利查询,专利分析的服务。并且PURPOSE:To obtain an analyzing device which is applied to a natural language processor like a mechanical translator, etc., and adopts the pause information as a selection standard that excels in the executing facilitation and has the high calculation effect for selection of the highest assurance out of the ambiguity of analysis. CONSTITUTION:A morpheme analyzer 2 generates a morpheme string including the tone information from an input sentence including the tone information based on a dictionary 1. A parser engine 4 analyzes the structure of the input sentence based on the morpheme string and a grammatical rule 3. A pause information adding means 5 adds the tone information to each structure, and a tone validity calculator device 7 calculates the validity of each structure as the point from the pause information. Then a priority adding device 6 gives the priority to each structure, and an ambiguity selector 8 selects the structure of the input sentence based on the priority.,下面是Analyzing device专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 言語情報を格納した辞書と、前記辞書に格納された情報に基づき音調情報を含む入力文から音調情報を組み込んだ形態素列を生成する形態素解析手段と、前記形態素解析手段により生成された形態素列と文法規則に基づき入力文の構造を解析する構造解析手段と、前記入力文の構造に音調情報を付加する音調情報付加手段と、前記音調情報付加手段により付加された音調情報に基づき入力文の構造に優先度を付与する優先度付与手段と、前記優先度に基づき入力文の構造を選択する曖昧性選択手段とを備えた解析装置。
  • 【請求項2】 音調情報として単語間の句切りを示すポーズ情報を用いたことを特徴とする請求項1記載の解析装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、機械翻訳装置などの自然言語処理装置で利用される解析装置に関するものである。

    【0002】

    【従来の技術】従来の解析装置では、曖昧性により生じた複数の構造からもっとも正しいと思われる構造を選択するために、以下のような手段を単独あるいは組み合わせて利用し、それぞれの構造に優先度を付与し、優先度の比較により確からしいと思われる構造を選択していた。

    【0003】(1)読みの偏好や文法規則の強さによる優劣付与 (2)掛かり関係にある構造の主要部間の意味上の共起関係の強さによる優劣付与 (3)文脈情報を利用した文脈上での適合性の確認 (4)そこまでに解析した結果の学習情報の利用

    【0004】

    【発明が解決しようとする課題】従来の解析装置において、曖昧性により生じた複数の構造それぞれに、優先度を与える手段では、以下のような問題を持っている。

    【0005】(1)音調の情報を利用していない。 音調はその発話の統語構造に影響を受けるために、音調からその発話の統語構造を推理することができる。 しかし、
    上記に挙げた手段はすべて、音調の情報が利用できない。 このために、音調に明らかな違いがある場合でも、
    弱い規則から作られる意味上妥当な構造は、選ぶことができない。

    【0006】(2)計算が複雑であり、その計算が無駄になる場合も多い。 意味上の共起関係を用いる場合、実際の文おいて、掛かり関係の曖昧性として生じるそれぞれの構造は、その掛かり関係で解釈できる場合がほとんどであるため実質の効を持つ場合が少なく、計算が無駄になる場合が多い。 文脈情報を利用する場合、文脈情報を導き、保持・活用してゆくには多大な計算が必要とされる。

    【0007】学習によるものは、機械的に読みの偏好度を操作しているだけであり、固定されている読みの偏好、文法規則の強さとの違いを明確に出すことはできず、学習の保守管理の計算が無駄になる。

    【0008】(3)規則やデータの構築が困難である。
    意味上の共起関係を用いる場合、辞書に記述する語の情報にその語がどのカテゴリの単語と意味上共起できるかという情報を記述しなくてはいけないが、そのデータは個人の内省によって得られるもので、大規模に作成することは困難である。 文脈情報を利用する場合も、必要となるシステムの持つ知識や常識の構築が困難である。

    【0009】

    【課題を解決するための手段】本発明は上記課題を解決するためのもので、言語情報を格納した辞書と、前記辞書に格納された情報に基づきポーズ情報やピッチ情報、
    抑揚情報等の音調情報を含む入力文から音調情報を組み込んだ形態素列を生成する形態素解析手段と、前記形態素解析手段により生成された形態素列と文法規則に基づき入力文の構造を解析する構造解析手段と、前記入力文の構造に音調情報を付加する音調情報付加手段と、前記音調情報付加手段により付加された音調情報に基づき入力文の構造に優先度を付与する優先度付与手段と、前記優先度に基づき入力文の構造を選択する曖昧性選択手段とを有する構成と成っている。

    【0010】

    【作用】本発明では上記構成において、形態素解析手段が言語情報を格納した辞書に基づき音調情報を含む入力文から音調情報を組み込んだ形態素列を生成し、構造解析手段が前記形態素列と文法規則に基づき入力文の構造を解析し、前記の各構造に音調情報付加手段が音調情報を付加し、優先度付与手段が前記音調情報付加手段により付加された音調情報に基づき入力文の構造に優先度を付与し、曖昧性選択手段が前記優先度に基づき入力文の構造を選択することにより、膨大なデータの構築と複雑な計算を必要とすることなく音調情報に基づき的確な入力文の構造解析が可能となる。

    【0011】

    【実施例】以下に本発明の一実施例である音調情報としてポーズ情報を利用した解析装置について図面を参照しながら説明する。

    【0012】図1は、本発明の一実施例である解析装置の構成図を示す。 図1において、1は対象言語を解析するための辞書、2は入力文の形態素解析を行ない、ポーズの情報を形態素の素性に組入れる形態素解析装置、3
    は保持している構造と読み込んだ形態素から次の動作が記述されている文法規則、4は形態素を順次読み込み、
    文法規則3から、全体の構造を構築するパーサエンジン、5は作られる句の構造にポーズ情報を付与させるポーズ情報付与装置、6は作られる句の構造に優先度を与える優先度付与装置、7は作られる句の構造の音調上の妥当性を計算する音調妥当性計算装置、8はもっとも優先度の高い構造を取り出す曖昧性選択装置である。

    【0013】以下、説明のために利用する例文として「大学で研究した理論を発表した。」を用いる。

    【0014】まず、ポーズ情報と優先度の付与形態を説明する。 ポーズは、文字の間に現れるとし、ポーズの前の文字にそのポーズ情報を付与させておく。 ポーズ情報は、ポーズの位置と長さの組とする。 位置はその文字の位置とし、ここでは、長さを大中小の3通りに区分けし、大を3、中を2、小を1とする。 例文では、「大学で」と「理論を」のあとに、大きさ2と1のポーズがあるとし、「大学で」の「で」に位置3大きさ2のポーズ情報が与えられ、「理論を」の「を」に位置10大きさ1のポーズ情報が与えられているとする。 句の構造中には、句の中に持つポーズの位置と長さの情報を持つ。

    【0015】次に、上記の構成を持つ解析装置の動作例を示す。 入力文は、上記で挙げた例文とする。

    【0016】入力された文は、辞書1を参照することで形態素解析装置2により、形態素列に変換される。 このとき、各形態素は、その形態素を構成している文字のもつポーズの情報を引き継ぐ。 図2に入力例に対する形態素解析装置2によっ変換された形態素列を示す。 ここでの解析装置の形態素構造も含めた各構造は素性とその値の対の集合である素性集合とする。

    【0017】図3に、図2で示されている形態素「で」
    の構造例を示す。 poseという素性に(3,2)が入っている。 これは、位置が3、長さ2のポーズが、その形態素内にあったことを示している。

    【0018】形態素解析装置2により形態素列に区切られた入力文は、一形態素づつパーサエンジン4に入力される。 パーサエンジン4は、入力された形態素の構造、
    保持している構造から、文法規則3を参照し、行なうべき動作を決定し、その動作を行なう。 このとき、掛かり関係から、ある構造が作成される場合、その構造に対するポーズ情報がポーズ情報付与装置5から与えられ、その構造に対する優先度が優先度付与装置6から与えられる。

    【0019】ポーズ情報付与装置5は、掛かり源の構造(以下、被修飾句構造と呼ぶ)と、掛かり先の構造(以下、修飾句構造と呼ぶ)を入力とし、それぞれの持つポーズ情報の和集合を返す。 例えば、「大学」と「で」から、文節「大学で」が作成された場合、「大学」の持つポーズ情報は空であり、「で」は、(3,2)というポーズ情報を持っているので、その和集合である{(3,
    2)}が、ポーズ情報付与装置5の結果となる。

    【0020】優先度付与装置6は、例えば、読みの偏好規則、文法の使用頻度を基にした使用文法の強さ、主要部同士の共起性の強さなど様々なものを利用して、または、それらを組み合わせて作られる。

    【0021】本実施例の解析装置は、この優先度付与装置6に、音調妥当性計算装置7の処理結果を取り入れたことを特徴としている。

    【0022】優先度付与措置6は、被修飾句構造と修飾句構造を入力とし、上記したようなさまざまな手段から被修飾句構造と修飾句構造から作られる構造の優先度を計算し、被修飾句構造と修飾句構造の優先度の和に加えて、その合計値を出力とする。 ここでは、本装置の効果を示しやすいように、優先度付与装置6は、音調妥当性計算装置7からの点数のみを被修飾句構造と修飾句構造の優先度の和に加えて、その合計値を出力とすることにする。

    【0023】音調妥当性計算装置7では、優先度付与措置6に入力された被修飾句構造と修飾句構造を入力として、被修飾句構造に対応する句の最後の文字位置にあるポーズ情報以外のポーズ情報を取り出し、それらポーズの長さに対応した値を音調妥当性計算装置7の結果の値に加える。

    【0024】ここでは、一例として、図4のような対応によって、結果の値を求め、それを優先度付与措置6に返すことにする。 図4のポーズの長さと点数の関係は、
    1つのまとまった句と考えられたものは一息で発声されるという原則に基づき、まとまった句の中に、長いポーズがあるほど、その構造は音調上妥当ではないとし点数を低く設定する。 ここでは、図4に示したように、ポーズの長さに対して、ポーズの長さの絶対値のマイナス値を取ることで実現している。

    【0025】上記した手段によって、パーサエンジン4
    が最後の形態素を読み込み終ったとき作成された構造には、それぞれ優先度が付与されている。 曖昧性選択装置8は、その中からもっとも優先度の高い構造を選択し、
    それを解析装置の出力とする。 次に、上記した入力例文に対する具体的な優先度付与過程を示すことで、本発明の効果を示す。 入力例文には「大学で」が「研究した」に掛かるのか、「発表した」にかかるのかの曖昧性がある。

    【0026】ここでは、「大学で」が「発表した」に掛かる構造が正しいとする。 この場合、入力例文を発話したとき、「大学で」の直後に、息つぎによるポーズが入る。 ここでは、上記したようにその長さを2する。 また、「理論を」のあとに、長さ1のポーズがあるとする。

    【0027】上記の設定の場合、従来の解析装置では、
    「大学で」が「研究した」か「発表した」かのどちらに掛かるかは、意味上では判断できないために、読みの偏好や文法規則の強弱によって「研究した」に掛かってしまう。 本発明の装置では、正しく、「発表した」に掛けられることを示す。

    【0028】「大学で」が「研究した」に掛かる場合のパーサエンジン4による掛かり受けは、図5のようになる。 図5で示される各番号は、パーサエンジン4により、掛かり受けが起こった順番を示している。 また、その番号は、二分木構造のノードに対応しており、その番号のノードから出ている2つの枝先にある構造が、その番号の掛かり受けが起こった時の被修飾句と修飾句を示している。

    【0029】図5では、被修飾句と修飾句を示す枝に対して、被修飾句をM、修飾句をHを付記している。 図6
    に図5の各番号に対応する掛かり受けによって作られた構造の優先度を示す。 各形態素のもつ優先度は、0を設定しておく。

    【0030】計算の一例として、4番目の掛かり受けに注目してみる。 被修飾句構造は、「大学で研究した」に対応する構造であり、修飾句構造は、「理論」に対応する構造である。 被修飾句構造は、3番目の掛かり受けによって作成された構造であり、その構造のもつ優先度は、図6により0である。 また修飾句構造の優先度は0
    である。 この被修飾句構造と修飾句構造を音調妥当性計算装置に与えると、被修飾句構造の中に、長さ2のポーズがあることから、掛かり受けによって作成される構造は、0+0+(−2)=−2である。 注意として、3番目の掛かり受けによって作成された構造は、ポーズを間に挟むが、優先度は0であることを明記する。 これは、本実施例における音調妥当性計算装置では、掛かり受けによって作成する構造の優先度に、被修飾句と修飾句の間のポーズを考慮していないからである。

    【0031】上記の計算を、各掛かり受けの際に計算すると、図5に示される構造の優先度は、−6である。 一方、同様にして、「大学で」が「発表した」に掛かる場合のパーサエンジン4による掛かり受けの順序を図7に示し、図8に各番号に対応する掛かり受けによって作られた構造の優先度を示す。 これより、作成された構造の優先は、−1である。

    【0032】パーサエンジン4が最後に読み込んだ形態素の処理を終了した後、曖昧性として2つの構造が作成される。 これらの構造を曖昧性選択装置8に入力すると、「大学で」が「発表した」に掛かる方の構造が、
    「大学で」が「研究した」に掛かる方の構造よりも優先度が高いので、「大学で」が「発表した」に掛かる方の構造を出力し、正しい解析結果を得ることができる。

    【0033】また、本発明の音調妥当性計算装置7は、
    掛かり受けの被修飾句だけからその点数を計算したが、
    修飾句に対しても同様な計算を行ない、それを優先度に加味することもできる。 また、被修飾句と修飾句間のポーズも加味した点数を付与することもできる。

    【0034】また、本発明では曖昧性選択装置8は、パーサエンジン4が最後の形態素の処理終了によって起動されたが、パーサエンジン4が処理中に曖昧性をある一定量以下に押えるために随時起動することもできる。

    【0035】また、本発明の形態素解析装置2とパーサエンジン4を複合させ、形態素を切り出しながら、解析処理を行なうこともできる。

    【0036】尚、本実施例では音調情報としてポーズ情報を取り上げたが、抑揚情報やピッチ情報、およびそれらの組合せを用いた場合も、本実施例と同様に構成できる。

    【0037】

    【発明の効果】以上のように、本発明の解析装置では、
    音調情報を活用するうことにより複雑な規則や膨大なデータの構築を必要とすることなく、テキストの文面の解析だけではどちらの意味も採用できるという意味上では曖昧性を除けない場合においても容易に正しいものを導ける。

    【0038】また、音調情報からの優先度の点数は、掛かり受けが発生するさいに、構造内の音調情報だけから計算できるため曖昧性排除のための計算処理が容易となる。

    【図面の簡単な説明】

    【図1】本発明の一実施例の解析装置の構成を示すブロック図

    【図2】本発明の一実施例における例文に対する形態素解析装置の出力図

    【図3】本発明の一実施例における形態素の構造を示す説明図

    【図4】本発明の一実施例におけるポーズの長さと点数の対応図

    【図5】本発明の一実施例における例文において「大学で」が「研究した」に掛かる場合の構文木解析過程図

    【図6】図5における各掛かり受けの優先度付与装置の出力値図

    【図7】本発明の一実施例における例文において「大学で」が「発表した」に掛かる場合の構文木解析過程図

    【図8】図7における各掛かり受けの優先度付与装置の出力値図

    【符合の説明】

    1 辞書 2 形態素解析装置 3 文法規則 4 パーサエンジン 5 ポーズ情報付与装置 6 優先度付与装置 7 音調妥当性計算装置 8 曖昧性選択装置

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈