专利汇可以提供Device and method for canceling semantic ambiguity专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To attain high performance ambiguity cancelation be deleting a group of an unreliable evidence and word meaning supported by the evidence from a determination list and canceling semantic ambiguity based only on a reliable evidence.
SOLUTION: A determination list learning part 2 calculates logarithmic likelihood ratio between conditional probability values in the appearance of respective word meanings by using information appearing in contexts around a word in question in an input text as evidences and sets up the groups of evidences arranged in the descending order and word meanings supported by the evidences as a determination list. Then mutual information quantity between each evidence and the word in question is calculated and a group of an evidence of which mutual information volume does not exceed a threshold and a word meaning supported by the evidence is deleted from the list and stored in a determination list storing part 3. A semantic ambiguity canceling part 5 successively checks whether each evidence described in the list appears in contexts around the word in question in the input text or not and outputs a word meaning supported by the evidence described in the list as the meaning of the word is question.
COPYRIGHT: (C)1998,JPO,下面是Device and method for canceling semantic ambiguity专利的具体信息内容。
【0001】
【発明の属する技術分野】本発明は、語義曖昧性解消装置及び方法に関し、特に、音声合成システム、OCR
(Optical Charactor Reader;光学的文字読み取り)
システム、仮名漢字変換システム、機械翻訳システム、
テキスト分類システム等の情報処理システムに用いて好適な知識獲得、知識利用技術に関する。
【0002】
【従来の技術】語義の曖昧性解消とは、異なる語義(意味)をもつ単語の、ある文脈における語義を特定することである。
【0003】自然言語には、異なる語義をもつ単語が数多く存在する。 例えば、英単語「bank」には、「銀行」の意味もあるし、これとは別に「河岸」の意味もある。
【0004】このため、英語を日本語に自動翻訳する機械翻訳システムにおいては、例えば単語「bank」
の、ある文脈における語義を特定し、日本語に翻訳する必要がある。 この問題が、語義曖昧性解消の問題である。
【0005】また、Yarowsky(ヤロウスキ)が指摘したように、自然言語処理の数多くの問題は語義曖昧性解消の問題に帰着することができる。 例えば文献(1) (David
Yarowsky, One Sense per Collocation, in Pr
oceedings of ARPA HumanLanguage Technology Wo
rkshop, Princeton, 1993)参照。
【0006】また、例えば、テキストを入力し、そのテキストを読み上げる音声合成システムでは、異なる読みをもつ日本語(単語)の同形異音語について、該単語のテキストの各文における読みを決めなければならない。
同じ表記の「市場」は、文脈によっては、「いちば」と読むべきであるし、あるいは「しじょう」と読むべきである。 この場合、読みを語義と見なせば、この問題は、
語義曖昧性解消の問題に帰着する。
【0007】さらに、文章を含む画像データを取り込み、文章(文字情報)を記号データ(コード)に変換するOCR(光学的文字読み取り)システムでは、読み込んだ単語の画像から形の類似した単語を検索し、類似した単語の候補から、もっともらしい単語を一つ選択して出力する必要がある。
【0008】例えば、日本語では、漢字単語の「入口」
と、「人口」は極めて類似した形をもつ。 ある日本語のテキストに「入口」が挿入されており、OCRシステムがそのテキストを読み込む時、単語の形から、候補として、「入口」と「人口」を選んだとする。 この時、OC
Rシステムは、さらにその周りの文脈をみて、この単語が「入口」であると「認識」する必要がある。 この問題も語義曖昧性解消の問題に帰着する。
【0009】そして、仮名漢字変換システムにおいては、ユーザが入力した平仮名を漢字に変換する必要がある。 日本語には、仮名表記が共通で漢字表記が異なる単語が数多く存在する。 例えば、仮名の「かてい」は、
「仮定」、「過程」、「家庭」と「課程」等の漢字単語に変換できる。
【0010】ユーザが入力した「かてい」から、その意図する漢字単語を候補として先に提示することができれば、ユーザの作業の負担が軽減することになる。 入力された仮名からその漢字を推定することも、上記した語義曖昧性解消問題に帰着する。
【0011】さらに、テキストに現れるキーワードをみてそのテキストにラベルをつけ、分類する問題(技術)
がある、例えば、キーワード「ベース」、「ヒット」、
及び「ピッチャー」の現れるテキストに、「野球」のラベルを付ける。 あるラベル、例えば「野球」を付けることを一つの語義とみなし、付けないことをもう一つの語義とみなすことができる。 さらに、テキストに現れるキーワードの集合をラベルの「周り」の文脈とみなすこともできる。 このように、テキストに現れるキーワードをみて、ラベルをつけるかどうかを判断する問題も、語義曖昧性解消問題に帰着する。
【0012】また、Yarowskyは、決定リストを使った語義曖昧性解消法を提案している。 例えば文献(2) (David
Yarowsky, Decision Lists for Lexical Ambigu
ityResolution: Application to Accent Restorati
on in Spanish and French, Proceedings of th
e 32nd Annual Meeting of the Association fo
r Computational Linguistics, 1994, page 88-9
5)参照。
【0013】このYarowskyの方法は、予め語義曖昧性解消のための証拠を、その強さの順に並べ、決定リストとして記憶し、注目単語の語義曖昧性解消の時、その注目単語の周りの文脈をみて、決定リストの最も先に現れる証拠、すなわち周りの文脈における最も強い証拠で、語義の曖昧性解消を行うことを特徴とする。
【0014】しかし、最も強い証拠は、統計的に最も信頼できる証拠であるという保証はない。
【0015】信頼できる証拠の中の最も強い証拠で語義の曖昧性を解消すれば曖昧性解消の精度はさらに向上させることができる。
【0016】
【発明が解決しようとする課題】上記したように、語義の曖昧な単語の周りの文脈に現れる、信頼できる、最も強い証拠でその曖昧性を解消する装置の実現が期待されている。
【0017】したがって、本発明は、このような事情に鑑みてなされたものであって、その目的は、確率的アプローチにより、語義の曖昧な単語の周りの文脈に現れる、統計的にも信頼できる、最も強い証拠でその曖昧性を解消する語義曖昧性解消装置及び方法を提供することにある。
【0018】
【課題を解決するための手段】前記目的を達成するため、本発明の語義曖昧性解消装置及は、注目単語の語義が記されたテキストを記憶するテキスト記憶部と、決定リストを記憶する決定リスト記憶部と、前記テキスト記憶部から注目単語の語義が記されたテキストを入力し、
入力されたテキストにおける、注目単語の周りの文脈に現れる情報を語義曖昧性解消のための証拠とし、各証拠出現の条件の下での各語義出現の条件付き確率を推定し、各証拠に対して、その証拠出現の条件の下での各語義出現の条件付き確率の間の対数尤度比を計算し、対数尤度比の絶対値の降順に証拠とその証拠の支持する語義の組を並べ、並べた証拠とその証拠の支持する語義の組を決定リストとし、さらに、各証拠と注目単語の間の相互情報量を計算し、相互情報量が閾値を越えない証拠とその証拠の支持する語義の組を決定リストから削除し、
削除できた決定リストを前記決定リスト記憶部に記憶する決定リスト学習部と、注目単語の語義が曖昧なテキストを入力する入力部と、注目単語の語義を出力する出力部と、前記入力部から、注目単語の語義が曖昧なテキストの入力を受け、前記決定リスト記憶部から注目単語に関する決定リストを読み込み、読み込んだ決定リストに記述される証拠が入力されたテキストにおける注目単語の周りの文脈に現れたかどうかを順番にチェックし、その証拠が周りの文脈に現れたら、決定リストに記述されるその証拠の支持する語義を注目単語の語義とし、前記出力部にその語義を出力する語義曖昧性解消部と、を備えることを特徴とする。
【0019】また、本発明の語義曖昧性解消方法は、注目単語の曖昧性の解消されたテキストを入力し、語義曖昧性解消のための各証拠の出現の条件の下での各語義出現の条件付き確率を推定し、各証拠に対して該証拠出現の条件下での各語義出現の条件付き確率の間の対数尤度比を計算し、対数尤度比の絶対値の降順に証拠と該証拠の支持する語義の組を並べ決定リストを生成し、各証拠と注目する単語の間の相互情報量を計算し、相互情報量が予め定めた所定の閾値を越えない、証拠と該証拠の支持する語義との組を、前記生成された決定リストから削除して所定の記憶領域に記憶し、語義曖昧性解消処理では、前記記憶領域から注目単語に関する前記決定リストを読込み、前記決定リストに記述される証拠が注目単語の周りの文脈に現われるか否かを順に調査し、証拠が周りの文脈に現れた場合には、前記決定リストに記述される該証拠の支持する語義を、注目単語の語義とする、ことを特徴とする。
【0020】
【発明の実施の形態】本発明の好ましい実施の形態について以下に説明する。 本発明の好ましい実施の形態においては、予め語義曖昧性解消のための証拠とその証拠の支持する語義の組を証拠の強さの順に並べ、決定リストとする。
【0021】次に、各証拠の信頼度を計算し、信頼できない証拠とその証拠の支持する語義の組を決定リストから削除する。
【0022】最後に、信頼できる証拠とその証拠の支持する語義の組だけからなる決定リストを記憶する。
【0023】注目単語の語義曖昧性解消の時、上記決定リストに記される、その文脈に現れる最も強い証拠で語義の曖昧性解消を行うことにより、信頼でき、且つ、強い証拠で語義曖昧性を解消する。
【0024】本発明の好ましい実施の形態において、語義曖昧性解消装置は、注目単語の語義が記されたテキストを記憶するテキスト記憶部(図1の1)と、決定リストを記憶する決定リスト記憶部(図1の3)と、決定リスト学習部(図1の2)と、語義曖昧性解消部(図1の5)と、注目単語の語義が曖昧なテキストを入力する入力部(図1の4)と、注目単語の語義を出力する出力部(図1の6)と、を備えて構成される。
【0025】決定リスト学習部(図1の2)は、(a)
テキスト記憶部(図1の1)から注目単語の語義が記されたテキストを入力し(図4のステップ101)、
(b)入力されたテキストにおける、注目単語の周りの文脈に現れる情報を語義曖昧性解消のための証拠とし、
各証拠出現の条件の下での各語義出現の条件付き確率を推定し(図4のステップ102)、(c)各証拠に対して、その証拠出現の条件の下での各語義出現の条件付き確率の間の対数尤度比を計算し、対数尤度比の絶対値の降順に証拠とその証拠の支持する語義の組を並べ、並べた証拠とその証拠の支持する語義の組を決定リストとし(図4のステップ103)、さらに、(d)各証拠と注目単語の間の相互情報量を計算し(図4のステップ10
4)、(e)相互情報量が閾値を越えない証拠とその証拠の支持する語義の組を決定リストから削除し(図4のステップ105)、(f)削除できた決定リストを前記決定リスト記憶部に記憶する(図4のステップ10
6)。
【0026】語義曖昧性解消部(図1の5)は、(a)
入力部(図1の4)から注目単語の語義が曖昧なテキストの入力を受け、(b)決定リスト記憶部(図1の3)
から注目単語に関する決定リストを読み込み、(c)読み込んだ決定リストに記述される証拠が入力されたテキストにおける注目単語の周りの文脈に現れたかどうかを順番にチェックし、(e)その証拠が周りの文脈に現れたら、決定リストに記述されるその証拠の支持する語義を注目単語の語義とし、(f)前記出力部にその語義を出力する。
【0027】
【実施例】上記した本発明の実施の形態について更に詳細に説明すべく、本発明の実施例について図面を参照して以下に説明する。
【0028】本発明の一実施例について説明する。 本発明の一実施例に係る語義曖昧性解消装置は、日本語音声合成システムにおける同形異音語を読み分けるものである。 すなわち、ここでは、読みの決定問題を語義曖昧性解消の問題として捉えている。
【0029】図1は、本発明の一実施例の構成をブロック図にて示したものである。 図1を参照すると、本発明の一実施例に係る語義曖昧性解消装置は、テキスト記憶部1、決定リスト学習部2、決定リスト記憶部3、入力部4、語義曖昧性解消部5、及び出力部6を備える。
【0030】決定リスト学習部2は、まず、テキスト記憶部1から注目する同形異音語の読みの記されたテキストを入力する。
【0031】図2に、注目する同形異音語の読みを記したテキストの一例を示す。 ここでは、「今日」が注目する同形異音語で、その各文における読み「こんにち」あるいは「きょう」が記されている。
【0032】決定リスト学習部2は、注目する同形異音語に対応する確率変数を設ける。 その確率変数は、注目する同形異音語の各読みを値とする。 図2に示す例では、「今日」が注目する同形異音語であるので、確率変数「X今日」を設ける。 確率変数X今日のとる値は、
「きょう」と「こんにち」である。
【0033】決定リスト学習部2は、次に周りの文脈に現れる読みを決定するための一つの証拠に対して一つの確率変数を設ける。 このような確率変数の値は「1」と「0」を値とする。 「1」は、対応する証拠が現れることを意味し、「0」は対応する証拠が現れないことを意味する。
【0034】本発明の一実施例の語義曖昧性解消装置では、注目する同形異音語の周りの文脈に現れる単語を証拠とする。 ある単語が現れれば、その証拠が現れるとし、その単語が現れなければ、その証拠が現れないとする。
【0035】図2に示す例では、「今日」の周りの文脈に「料理」、「技術」という2つの単語が現れたので、
証拠は2つある。 さらに、2つの証拠に対応する2つの確率変数を設ける。 確率変数は「X料理」、「X技術」
とする。
【0036】決定リスト学習部2は、次に、各証拠の出現の条件の下での各読み出現の条件付き確率を推定する。
【0037】例えば、P(X今日=きょう|X料理=
1)、P(X今日=こんにち|X料理=1)、P(X今日=きょう|X技術=1)、P(X今日=こんにち|X
技術=1)、のような条件付き確率を推定する。
【0038】図2に示した例に対する統計の結果が、図3に示すようなものであるとする。 このデータを使って推定すると、以下の値が得られる。
【0039】
【数1】
【0040】決定リスト学習部2は、各証拠に対して、
その証拠に対して、その証拠出現の条件の下での読み出現の条件付き確率の間の対数尤度比を計算する。 但し、
対数の底が2であるとする。
【0041】
【数2】
【0042】また、読みの出現の確率の間の対数尤度比をも計算する。
【0043】
【数3】
【0044】決定リスト学習部2は、次に、対数尤度比の絶対値の降順に証拠とその支持する読みの組を並べ、
決定リストとする。 すなわち、対数尤度比の絶対値の大きさを証拠の「強さ」とする。 具体的には、以下のような決定リストを作成する。
【0045】
【数4】
【0046】この決定リストを以下のように解釈する。
【0047】すなわち、同形異音語「今日」が現れた時、その周りの文脈をみる。 「料理」という単語が現れたら、読みを「きょう」とする。 「料理」が現れなければ、別の証拠を探す。
【0048】もし「技術」が現れたら、読みを「こんにち」とする。 「技術」も現れなければ、読みをデフォルトの読みである「きょう」とする。
【0049】なお、上記Yarowskyが提案した方法もこれまでの処理を行う。
【0050】決定リスト学習部2は、次に、作成した決定リストの中の証拠の信頼度を計算し、信頼できない証拠とその支持する読みの組を決定リストから削除する。
信頼できない証拠とその支持する読みの組を決定リストから削除することは、本発明の語義曖昧性解消装置の特徴の一つである。
【0051】より具体的には、決定リスト学習部2は以下の処理を行う。
【0052】まず、証拠と同形異音語の間の相互情報量を計算する。 より詳細には、証拠に対応する確率変数と注目する同形異音語に対応する確率変数の間の相互情報量を計算する。 この相互情報量MI(X,Y)の計算式を次式(1)に示す。
【0053】
【数5】
【0054】本発明の一実施例では、この相互情報量を信頼度とみなす。
【0055】図2及び図3に示した例に対して、以下の結果が得られる。 MI(X今日、X料理)=0.002990、 MI(X今日、X技術)=0.091277
【0056】決定リスト学習部2は、次に、証拠と同形異音語の間の相互情報量が以下の閾値を越えるかどうかをチェックする。
【0057】
【数6】
【0058】但し、aはパラメータで、0と1の間の実数値をとる。 Kxは証拠に対応する確率変数の取り得る値の数で、Kyは注目する同形異音語に対応する確率変数の取り得る値の数である。 Nは注目同形異音語の現れる文の数である。
【0059】図2、及び図3に示した例では、Kx=
2、Ky=2、N=100。 a=1とすれば、閾値は0.033219となる。
【0060】決定リスト学習部2は、次に、相互情報量が閾値を越えない証拠とその支持する読みの組を決定リストから削除する。
【0061】上の例では、証拠「料理」の相互情報量、
すなわち、MI(X今日、X料理)=0.00299
0、が、この閾値を越えないので、その証拠とその支持する読みの組を決定リストから削除する。
【0062】従って、決定リストは以下のようになる。
【0063】
【数7】
【0064】相互情報量が閾値を越えない証拠とその支持する読みの組を決定リストから削除することは、実質的に、同形異音語と統計的に独立な証拠とその支持する読みの組を決定リストから削除することである。
【0065】すなわち、同形異音語に対応する確率変数とある証拠に対応する確率変数が独立であれば、その証拠とその支持する読みの組を決定リストから削除する。
これは、ある証拠が同形異音語と独立に発生するのであれば、それを曖昧性解消の証拠に利用するのは無意味であるという考えに基づく。
【0066】決定リスト学習部2は、次に、学習できた決定リストを決定リスト記憶部3に記憶する。
【0067】図4は、本実施例における決定リスト学習部2の処理フローを説明するためのフローチャートである。
【0068】図4を参照して、決定リスト学習部2は、
テキスト記憶部1から注目単語の語義が記されたテキストを入力し(ステップ101)、入力されたテキストにおける、注目単語の周りの文脈に現れる情報を語義曖昧性解消のための証拠とし、各証拠出現の条件の下での各語義出現の条件付き確率を推定し(ステップ102)、
各証拠に対して、その証拠出現の条件の下での各語義出現の条件付き確率の間の対数尤度比を計算し、対数尤度比の絶対値の降順に証拠とその証拠の支持する語義の組を並べ、並べた証拠とその証拠の支持する語義の組を決定リストとし(ステップ103)、各証拠と注目単語の間の相互情報量MI(X,Y)を計算し(ステップ10
4)、相互情報量が予め定めた閾値を越えない証拠とその証拠の支持する語義の組を決定リストから削除し(ステップ105)、削除できた、すなわち学習できた決定リストを決定リスト記憶部3に記憶する(ステップ10
6)。
【0069】語義曖昧性解消処理では、入力部4が読みが決まっていない注目する同形異音語の入っているテキストを入力する。 図5に、テキストの一例(「今日の料理は電子技術の進歩に頼ることが大きい」)を示す。
【0070】語義曖昧性解消部5は、入力部4から入力を受け取り、注目する同形異音語の読みを判断する。 例えば、注目する同形異音語が「今日」である場合、その読みが「きょう」か「こんにち」かを判断する。 以下ではその処理プロセスについて説明する。
【0071】語義曖昧性解消部5は、まず決定リスト記憶部3から同形異音語「今日」に関する決定リストを読み込む。 決定リストに記述される証拠が入力文における「今日」の周りの文脈に現れたかどうかを順番にチェックする。
【0072】周りの文脈に現れたら、決定リストに記述されるその証拠の支持する読みを注目する同形異音語の読みとする。
【0073】例えば、図5に示す例では、上記した決定リストに記述される証拠「技術」が現れているので、決定リストに示される読みを採用し、「今日」の読みが「こんにち」であると決定する。
【0074】語義曖昧性解消部5は、次に、決定できた読みを出力部6に出力する。
【0075】
【発明の効果】以上説明したように、本発明によれば、
信頼できない証拠とその証拠の支持する語義の組を決定リストから削除し、信頼できる証拠だけで語義曖昧性解消を行うように構成したことにより、高性能な曖昧性解消を実現することができる、という効果を奏する。
【図1】本発明の一実施例の語義曖昧性解消装置の構成を示す図である。
【図2】本発明の一実施例を説明するための図であり、
読みの記されたテキストの例を示す図である。
【図3】本発明の一実施例を説明するための図であり、
証拠の出現度数の一例を示す図である。
【図4】本発明の一実施例における決定リスト学習部2
の処理フローを説明するためののフローチャートである。
【図5】本発明の一実施例を説明するための図であり、
入力の例を示す図である。
1 テキスト記憶部 2 決定リスト学習部 3 決定リスト記憶部 4 入力部 5 語義曖昧性解消部 6 出力部
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于关联数据的自治数据湖构建系统及方法 | 2020-05-08 | 75 |
一种基于依存约束和知识的副词词义消歧方法和装置 | 2020-05-15 | 607 |
基于CRP聚类的词语多原型向量表示及词义消歧方法 | 2020-05-18 | 801 |
基于图像和文本语义相似度的图像语义消歧方法和装置 | 2020-05-20 | 53 |
一种信息处理的方法及服务器 | 2020-05-20 | 407 |
一种面向工程应用的领域语义网建模方法 | 2020-05-22 | 476 |
一种基于机器学习的中文商业文本预处理方法 | 2020-05-12 | 318 |
用于计算机学习和理解的体系结构和方法 | 2020-05-17 | 49 |
一种基于概念的语义识别方法及装置 | 2020-05-19 | 649 |
一种基于依存约束和知识的动词词义消歧方法和装置 | 2020-05-26 | 616 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。