学習者の口述音声から自動的に採点するプログラム、装置及び方法专利检索-音素信号处理专利检索查询-专利查询网

学習者の口述音声から自動的に採点するプログラム、装置及び方法

阅读：606发布：2020-05-12

专利汇可以提供学習者の口述音声から自動的に採点するプログラム、装置及び方法专利检索，专利查询，专利分析的服务。并且，下面是学習者の口述音声から自動的に採点するプログラム、装置及び方法专利的具体信息内容。

权利要求

学習者にとって他国言語となる口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する音声認識エンジンと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する特徴量抽出手段と、前記音声認識エンジンから出力された前記信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する特徴量選択エンジンと、前記特徴量選択エンジンによって選択された前記特徴量と、教師データの前記採点結果とを対応付けて学習する採点エンジンととして機能させ、採点段階として、学習者の口述音声を入力し、前記音声認識エンジンは、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力し、前記特徴量抽出手段は、学習者の口述音声に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出し、前記特徴量選択エンジンは、前記音声認識エンジンから出力された前記信頼度に応じて選択された特徴量を出力し、前記採点エンジンは、前記特徴量選択エンジンによって選択された特徴量を入力し、学習者の口述音声に基づく採点結果を出力するようにコンピュータを機能させることを特徴とするスピーキングテストプログラム。前記特徴量選択エンジンは、前記音声認識エンジンから出力された前記信頼度が低いほど、言語的特徴量よりも音声的特徴量を多く含むように特徴量を選択するようにコンピュータを機能させることを特徴とする請求項1に記載のスピーキングテストプログラム。学習段階として、前記教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力する発話環境合成手段として更に機能させ、前記音声認識エンジンは、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、前記特徴量抽出手段は、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出する特徴量差分検出手段として更に機能させ、前記特徴量選択エンジンは、前記特徴量差分検出手段から出力された言語的特徴量及び音声的特徴量と、前記音声認識エンジンから出力された信頼度とを対応付けて学習するようにコンピュータを機能させることを特徴とする請求項1又は2に記載のスピーキングテストプログラム。前記発話環境合成手段は、発話環境音として異なるノイズを合成するようにコンピュータを機能させることを特徴とする請求項3に記載のスピーキングテストプログラム。前記言語的特徴量は、口述テキストに基づくのべ単語数、異なり単語数、 Bag-of-Wordsの空間ベクトル、 Bag-of-ngramの空間ベクトル LSA(Latent Semantic Analysis)の次元ベクトル、 LDA(Latent Dirichlet Allocation)の次元ベクトル、分散表現ベクトル、文法誤り箇所の数及び/又は種別、難易度別の単語数における1つ以上であり、前記音声的特徴量は、口述音声に基づく発話時間、単位時間当たりの単語数、音響尤度、単位時間当たりの音素数における1つ以上であるようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のスピーキングテストプログラム。学習者にとって他国言語となる口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する音声認識エンジンと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する特徴量抽出手段と、前記音声認識エンジンから出力された前記信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する特徴量選択エンジンと、前記特徴量選択エンジンによって選択された前記特徴量と、教師データの前記採点結果とを対応付けて学習する採点エンジンととを有し、採点段階として、学習者の口述音声を入力し、前記音声認識エンジンは、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力し、前記特徴量抽出手段は、学習者に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出し、前記特徴量選択エンジンは、前記音声認識エンジンから出力された前記信頼度に応じて選択された特徴量を出力し、前記採点エンジンは、前記特徴量選択エンジンによって選択された特徴量を入力し、学習者に基づく採点結果を出力することを特徴とするスピーキングテスト装置。学習段階として、前記教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力する発話環境合成手段として更に機能させ、前記音声認識エンジンは、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、前記特徴量抽出手段は、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出する特徴量差分検出手段として更に機能させ、前記特徴量選択エンジンは、前記特徴量差分検出手段から出力された言語的特徴量及び音声的特徴量と、前記音声認識エンジンから出力された信頼度とを対応付けて学習することを特徴とする請求項6に記載のスピーキングテスト装置。学習者にとって他国言語となる口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、前記装置は、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、音声認識エンジンを用いて、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する第1のステップと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する第2のステップと、特徴量選択エンジンを用いて、第1のステップによって出力された前記信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する第3のステップと、採点学習エンジンを用いて、第3のステップによって選択された前記特徴量と、教師データの前記採点結果とを対応付けて学習する第4のステップとを実行し、採点段階として、学習者の口述音声を入力し、前記音声認識エンジンを用いて、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する第5のステップと、学習者に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する第6のステップと、前記特徴量選択エンジンを用いて、第5のステップから出力された前記信頼度に応じて選択された特徴量を出力する第7のステップと、前記採点エンジンを用いて、第7のステップによって選択された特徴量を入力し、学習者に基づく採点結果を出力する第8のステップとを実行することを特徴とする装置のスピーキングテスト方法。装置は、学習段階として、前記教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力し、第1のステップについて、前記音声認識エンジンを用いて、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、第2のステップについて、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出し、第3のステップについて、前記特徴量選択エンジンを用いて、第2のステップから出力された言語的特徴量及び音声的特徴量と、第1のステップの前記音声認識エンジンから出力された信頼度とを対応付けて学習することを特徴とする請求項8に記載の装置のスピーキングテスト方法。

说明书全文

本発明は、学習者の口述音声から自動的に採点するスピーキングテストの技術に関する。

語学学習のような記述問題(例えば翻訳問題)に対して、採点者は、学習者による解答文と正解文とを比較して、その一致度に応じて採点している。しかし、人による採点には、時間及びコストがかかるだけでなく、恣意的な判断が影響する場合もある。そのために、記述問題自体が、人による採点がしやすいようなものになってしまう。

従来、記述問題に対して、学習者による解答文を自動的に採点する技術がある(例えば特許文献1参照)。この技術によれば、E-Learningシステムと言語処理システムとが接続されている。E-Learningシステムは、学習者に出題し、その解答文を言語処理システムへ転送する。また、言語処理システムは、解答文と正解文とを言語的に比較し、その一致度をE-learningシステムへ応答する。これによって、E-learningシステムは、その一致度に応じた採点を付与する。

また、例えば翻訳問題に対して、学習者の解答文における表現の多様性を許容しながら、翻訳エージェントの翻訳能力を評価する技術もある(例えば特許文献2参照)。この技術によれば、解答文と正解文とが異なる表現で記述されていても、その翻訳能力を正当に評価することができる。具体的には、原言語テスト文に対する正解文と、原言語テスト文に類似する原言語参照文に対する正解翻訳文とをそれぞれ、原言語テスト文に対する解答文とを比較して翻訳正解率を算出する。

これら従来技術によれば、例えば一問一答の出題形式のように、記述問題に対する解答文の内容の自由度が低い場合には有効である。

特許2006−244003号公報

特開2004−013913号公報

特表2002−544570号公報

Shyamaa E. Sorour, Kazaumasa Goda and Tsunemori Mine, “Student performance Estimation Based on Topic Models Considering a Range of Lessons,” Proc.of AIED2015 pp.790-793, 2015.

Quoc Le、Tomas Mikolov、「Distributed Representations of Sentences and Documents」、[online]、[平成28年7月16日検索]、インターネット

Hwee Tou Ng、Siew Mei Wu、Yuanbin Wu and Christian Hadiwinoto、Joel Tetreault、「The CoNLL-2013 Shared Task on Grammatical Error Correction」、[online]、[平成28年7月16日検索]、インターネット

相澤一美、石川慎一郎、村田年、磯達夫、上村俊彦、小川貴宏、清水伸一、杉森直樹、羽井左昭彦、望月正道、「JACET8000英単語」、[online]、[平成28年7月16日検索]、インターネット

投野由紀夫、「CAN‐DOリスト作成・活用英語到達度指標CEFR‐Jガイドブック」、[online]、[平成28年7月16日検索]、インターネット

Julius、[online]、[平成28年7月8日検索]、インターネット

Generalized Word Posterior Probability(GWPP) for Measuring reliability of Recognized Words, Frank K. Soong et al. Proc. SWIM 2004. [online]、[平成28年9月5日検索]、インターネット

しかしながら、前述した従来技術によれば、学習者の口述音声に対して自動的に採点を付与するスピーキングテストに単に適用することはできない。会話の自由度が高いスピーキングテストになるほど、事前に正解文を準備しておくことが難しく、自動的な採点の精度が得られないという課題が生じる。

また、解答文と正解文との言語的な一致度が低くても、学習者の解答文の意味合いが、正解文の意味合いに近いと判断すべき場合もある。

更に、スピーキングテストによれば、学習者における解答誤りのみならず、音声認識システムにおける認識誤りが混在する場合がある。この場合、音声認識システムに標本音声を入力することによって、その音声認識システムにおける認識誤り精度を予め取得しておくことも必要となる(例えば特許文献3参照)。

そこで、本発明は、学習者の口述音声に対する自動的な採点精度を高めることができるスピーキングテストプログラム、装置及び方法を提供することを目的とする。

本発明によれば、学習者にとって他国言語となる口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する音声認識エンジンと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する特徴量抽出手段と、音声認識エンジンから出力された信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する特徴量選択エンジンと、特徴量選択エンジンによって選択された特徴量と、教師データの採点結果とを対応付けて学習する採点エンジンととして機能させ、採点段階として、学習者の口述音声を入力し、音声認識エンジンは、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力し、特徴量抽出手段は、学習者の口述音声に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出し、特徴量選択エンジンは、音声認識エンジンから出力された信頼度に応じて選択された特徴量を出力し、採点エンジンは、特徴量選択エンジンによって選択された特徴量を入力し、学習者の口述音声に基づく採点結果を出力するようにコンピュータを機能させることを特徴とする。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、特徴量選択エンジンは、音声認識エンジンから出力された信頼度が低いほど、言語的特徴量よりも音声的特徴量を多く含むように特徴量を選択するようにコンピュータを機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、学習段階として、教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力する発話環境合成手段として更に機能させ、音声認識エンジンは、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、特徴量抽出手段は、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出する特徴量差分検出手段として更に機能させ、特徴量選択エンジンは、特徴量差分検出手段から出力された言語的特徴量及び音声的特徴量と、音声認識エンジンから出力された信頼度とを対応付けて学習するようにコンピュータを機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、発話環境合成手段は、発話環境音として異なるノイズを合成するようにコンピュータを機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、言語的特徴量は、口述テキストに基づくのべ単語数、異なり単語数、 Bag-of-Wordsの空間ベクトル、 Bag-of-ngramの空間ベクトル LSA(Latent Semantic Analysis)の次元ベクトル、 LDA(Latent Dirichlet Allocation)の次元ベクトル、分散表現ベクトル、文法誤り箇所の数及び/又は種別、難易度別の単語数における1つ以上であり、音声的特徴量は、口述音声に基づく発話時間、単位時間当たりの単語数、音響尤度、単位時間当たりの音素数における1つ以上であるようにコンピュータを機能させることも好ましい。

本発明によれば、学習者にとって他国言語となる口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する音声認識エンジンと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する特徴量抽出手段と、音声認識エンジンから出力された信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する特徴量選択エンジンと、特徴量選択エンジンによって選択された特徴量と、教師データの採点結果とを対応付けて学習する採点エンジンととを有し、採点段階として、学習者の口述音声を入力し、音声認識エンジンは、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力し、特徴量抽出手段は、学習者に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出し、特徴量選択エンジンは、音声認識エンジンから出力された信頼度に応じて選択された特徴量を出力し、採点エンジンは、特徴量選択エンジンによって選択された特徴量を入力し、学習者に基づく採点結果を出力することを特徴とする。

本発明のスピーキングテスト装置における他の実施形態によれば、学習段階として、教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力する発話環境合成手段として更に機能させ、音声認識エンジンは、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、特徴量抽出手段は、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出する特徴量差分検出手段として更に機能させ、特徴量選択エンジンは、特徴量差分検出手段から出力された言語的特徴量及び音声的特徴量と、音声認識エンジンから出力された信頼度とを対応付けて学習することも好ましい。

本発明によれば、学習者にとって他国言語となる口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、装置は、学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、音声認識エンジンを用いて、教師データの口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する第1のステップと、教師データの口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する第2のステップと、特徴量選択エンジンを用いて、第1のステップによって出力された信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含むように特徴量を選択する第3のステップと、採点学習エンジンを用いて、第3のステップによって選択された特徴量と、教師データの採点結果とを対応付けて学習する第4のステップとを実行し、採点段階として、学習者の口述音声を入力し、音声認識エンジンを用いて、学習者の口述音声から音声認識された口述テキストと、その音声認識結果に対する信頼度とを出力する第5のステップと、学習者に基づく口述テキストから言語的特徴量と、音声認識エンジン内部から音声的特徴量とを抽出する第6のステップと、特徴量選択エンジンを用いて、第5のステップから出力された信頼度に応じて選択された特徴量を出力する第7のステップと、採点エンジンを用いて、第7のステップによって選択された特徴量を入力し、学習者に基づく採点結果を出力する第8のステップとを実行することを特徴とする。

本発明のスピーキングテスト方法における他の実施形態によれば、装置は、学習段階として、教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力し、第1のステップについて、音声認識エンジンを用いて、環境音合成無しの口述音声から音声認識された口述テキスト及び信頼度と、環境音合成有りの口述音声から音声認識された口述テキスト及び信頼度とを出力し、第2のステップについて、環境音合成無しの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成無しの口述音声に基づく音声認識エンジン内部からの音声的特徴量と、環境音合成有りの口述音声に基づく口述テキストからの言語的特徴量と、環境音合成有りの口述音声に基づく音声認識エンジン内部からの音声的特徴量とを抽出し、環境音合成無しの口述音声に基づく言語的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく言語的特徴量を検出すると共に、環境音合成無しの口述音声に基づく音声的特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、環境音合成有りの口述音声に基づく音声的特徴量を検出し、第3のステップについて、特徴量選択エンジンを用いて、第2のステップから出力された言語的特徴量及び音声的特徴量と、第1のステップの音声認識エンジンから出力された信頼度とを対応付けて学習することも好ましい。

本発明のスピーキングテストプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。

本発明のスピーキングテストプログラムにおける採点段階の機能構成図である。

音声認識エンジンを用いて抽出される特徴量を表す説明図である。

本発明のスピーキングテストプログラムにおける採点エンジンの学習段階の機能構成図である。

本発明のスピーキングテストプログラムにおける特徴量選択エンジンの学習段階の機能構成図である。

本発明におけるシーケンス図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

<採点段階> 図1は、本発明のスピーキングテストプログラムにおける採点段階の機能構成図である。

「採点段階」とは、学習者の口述音声を入力し、採点エンジンを用いて採点結果を自動的に出力する処理である。例えば、学習者自身が所持する端末によって実行される処理である。

語学学習におけるスピーキングテストプログラムの場合、学習者の口述音声は、その学習者にとって自国語(例えば日本語)とは異なる他国言語(例えば英語)である。本発明によれば、例えば日本人が、自ら考えた解答文を英語で発音し、その口述音声に対して自動的に採点することができる。

図1のスピーキングテストプログラム1は、音声認識エンジン11と、特徴量抽出部12と、特徴量選択エンジン13と、採点エンジン14としてコンピュータを機能させるものである。尚、これら機能構成部の処理の流れは、スピーキングテスト装置及び方法としても理解できる。

[音声認識エンジン11] 音声認識エンジン11は、学習者の口述音声から認識された「口述テキスト」と、その認識結果に対する「信頼度」とを出力する。口述テキストは、特徴量抽出部12へ出力される。音声認識エンジンとしては、例えば、数万語彙の連続音声認識を実時間で実行可能なJulius(登録商標)がある(例えば非特許文献6参照)。この音声認識エンジンは、GMM−HMM(Gaussian Mixture Model - Hidden Markov Model)又はDNN−HMM(Deep Neural Network - Hidden Markov Model)を用いた「音響モデル」(音響の特徴量を表すモデル)と、単語N-gram,記述文法及び単語辞書を用いた「言語モデル」(言語のつながりを表すモデル)とを搭載する。これら言語モデルや音響モデルのモジュールは、スピーキングテストの用途に応じて組み替えることができる。

音響モデルとは、音素毎の周波数特性を表現したものであり、一般に、隠れマルコフモデルが用いられる。言語モデルとは、単語の並び方に関する制約を表現したものである。例えば「私(watashi)」の直後に、「が」や「は」の単語が続く確率が高い、という制約のようなものである。

[特徴量抽出部12] 特徴量抽出部12は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、複数の特徴量を抽出する。

図2は、音声認識エンジンから抽出される特徴量を表す説明図である。

口述テキストから抽出される特徴量は、「言語的特徴量」である。音声認識エンジン内部から抽出される特徴量は、「音声的特徴量」である。これら特徴量は、特徴量選択エンジン14へ出力される。

<言語的特徴量> 言語的特徴量は、口述テキストに基づくのべ単語数、異なり単語数、 Bag-of-Wordsの空間ベクトル Bag-of-ngramの空間ベクトル LSA(Latent Semantic Analysis)の次元ベクトル、 LDA(Latent Dirichlet Allocation)の次元ベクトル、分散表現ベクトル、文法誤り箇所の数及び/又は種別、難易度別の単語数における1つ以上である。

「のべ単語数」とは、解答となる口述テキストに含まれる全ての単語(語彙)の数をいう。「異なり単語数」とは、同じ単語は1つとして数えた単語の数をいう。尚、活用形は問わず、全て同じとみなす。「Bag-of-Wordsの空間ベクトル」とは、テキストに含まれる各単語の出現頻度のみを表現したベクトルをいう。ここでは、単語の出現順は無視される。この空間ベクトルは、単語を軸とし、出現頻度を値として、その空間の1点にそのテキストを位置付けたものである。また、予め導出されたIDF(Inverse Document Frequency)を単語の重みとして、文章間の類似度を導出する。「Bag-of-ngramの空間ベクトル」とは、要素個数n=1とするBag-of-Wordsを含む枠組みのベクトルをいう。連続するn個の要素が何を表すかによって表現が異なる。「LSA(Latent Semantic Analysis)の次元ベクトル」とは、潜在意味解析に基づくものであって、文書群とそこに含まれる用語群とから生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。LSAによれば、文書毎の用語の出現を表した文書−単語マトリックスが用いられる。これは、各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには、TF−IDF(Term Frequency - Inverse Document Frequency)が用いられる。行列の各成分は、その文書でその単語が使用された回数に比例した値であり、単語は、その相対的重要性を反映するべく重み付けされる。「LDA(Latent Dirichlet Allocation)の次元ベクトル」とは、文書中の単語の「トピック」を確率的に生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。具体的には、テキストを、各トピックグループに属する確からしさ(トピック比率)で表したものである。単語は、独立に存在しているのではなく、潜在的にいずれか1つのトピックグループに分類することができ、同じトピックグループに含まれる単語は同じ文章に出現しやすい、という特徴を利用したものである。「分散表現(Distributed representation)」とは、テキスト中の単語を高次元で表現した実数ベクトルをいう(例えば非特許文献2参照)。意味が近い単語ほど、近いベクトルに対応させられる。加法構成性を有し、ベクトルの足し算が、意味の足し算に対応することとなる。例えばdoc2vecのようなツールがある。このようなツールを用いることで、分の意味を数百次元のベクトルで表現することができる。「文法誤り箇所の数及び/又は種別」によれば、文法誤り箇所が多いほど、採点も低くなる傾向がある(例えば非特許文献3参照)。「難易度別の単語数」とは、難易度付き語彙リストを用いて、難易度毎に、単語を計数したものである(例えば非特許文献4及び5参照)。

<音声的特徴量> 音声的特徴量は、口述音声に基づく発話時間、単位時間当たりの単語数、音響尤度、単位時間当たりの音素数における1つ以上であってもよい。

「発話時間」とは、解答となる口述音声の時間である。「単位時間当たりの単語数」とは、例えば口述音声を単位時間(例えば5秒)毎に区分し、その単位時間毎に単語数を検出し、それら単語数を平均した数をいう。「音響尤度」とは、当該音素について、音響モデルを用いた統計的観点からみた尤もらしさの度合いをいう。音響尤度が高い単語ほど音響的に正しく、音響尤度が低い単語ほど音響的に誤っている傾向がある。「単位時間当たりの音素数」とは、単位時間(例えば5秒)に検出された音素の数(話速)をいう。

音声認識エンジン11が出力する「信頼度」とは、例えばGWPP(Generalized Word Posterior Probability)等のConfidence Measureである(例えば非特許文献7参照)。信頼度の値が低いほど、音声認識の誤りが含まれる可能性が高いと判定される。

[特徴量選択エンジン13] 特徴量選択エンジン13は、信頼度と特徴量とを対応付けて予め学習したものであり、音声認識エンジン11から出力された信頼度に応じて、1つ以上の特徴量を選択する。1つの特徴量を選択するものであってもよいし、複数の特徴量を選択する場合、言語的特徴量と音声的特徴量とが混在するものであってもよい。

ここで具体的には、特徴量選択エンジン13は、信頼度が低いほど音声認識の誤りが高いために、言語的特徴量よりも、音声的特徴量が選択される。音声的特徴量は、音声認識エンジン11による音声認識の誤りの度合いに関係なく、安定して高い精度で抽出できるパラメータである。そのために、音声的特徴量は、音声認識誤りに対して、頑健な特徴量として用いることができる。即ち、特徴量選択エンジン13は、信頼度が高いほど、音声的特徴量よりも言語的特徴量を多く含む特徴量を選択し、信頼度が低いほど、言語的特徴量よりも音声的特徴量を多く含む特徴量を選択することが好ましい。

[採点エンジン14] 採点エンジン14は、特徴量と採点結果とを対応付けて予め学習したものであり、特徴量選択部13によって選択された特徴量に応じて、採点結果を出力する。ここでは、採点エンジン14が、自ら学習した採点モデルパラメータを内部に構築している。採点結果は、例えば0〜100点のように連続値であってもよいし、級や合否のような離散値であってもよい。

採点エンジン14は、採点結果が連続値である場合、例えば回帰分析や、重回帰分析、Lasso回帰、Ridge回帰、SVR(Support Vector Regression)、NN(Neural Net)のような機械学習方式を用いることができる。また、採点結果が離散値である場合、ロジスティック回帰や、SVM(Support Vector Machine)やNNのような機械学習方式を用いることができる。採点エンジンの学習方式の選択として、教師データで線形分離可能か否かが1つの基準となる。

回帰分析(regression analysis)とは、統計学について、連続尺度の従属変数(目的変数)Yと、独立変数(説明変数)Xとの間にモデルを当てはめることをいう(Y=f(X))。最も基本的なモデルは、Y=aX+bである。Xが1次元であれば単回帰といい、Xが2次元以上であれば重回帰という。重回帰分析は、多変量解析の1つであって、一般的には最小二乗法が用いられる。回帰分析の中でも、線形回帰として、Lasso回帰、Ridge回帰があり、非線形回帰として、SVRやNNがある。

ロジスティック回帰(Logistic regression)とは、ベルヌーイ分布に従う変数の統計的な分類モデルの一種である。サポートベクター回帰とは、カーネル法と称される非線形回帰分析の1つである。パターン認識の分野で用いられているサポートベクターマシン(Support Vector Machine)の回帰バージョンである。サポートベクター回帰とは、モデルを事前に仮定することのないノンパラメトリックモデルであり、データの分布を考慮する必要はない。ニューラルネットワーク(Neural Network)は、脳機能の特性を、計算機上のシミュレーションによって表現した数学モデルである。シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。

サポートベクターマシン(Support Vector Machine)は、教師あり学習を用いるパターン認識モデルの一つであって、分類や回帰に適用できる。サポートベクターマシンは、線形入力素子を用いて、2クラスのパターン識別器を構成する。教師データから、各データ点との距離が最大となるマージン最大化超平面を求めるという基準(超平面分離定理)で線形入力素子のパラメータを学習する。

<採点エンジン・学習段階> 図3は、本発明のスピーキングテストプログラムにおける採点エンジンの学習段階の機能構成図である。

「採点エンジン・学習段階」とは、教師データを入力し、採点エンジン内部で採点モデルパラメータを構築する処理である。その採点モデルパラメータは、採点エンジン内部へ組み込まれる。スピーキングテストの場合、例えばテストの運用事業者によって実行される。

本発明によって入力される教師データ群は、過去の多数の学習者における口述音声及び採点結果を対応付けたものである。 (口述音声)<->(採点) V1 <-> A1 V2 <-> A2 V3 <-> A3 ・・・・・・・教師データ群の口述音声は、音声認識エンジン11へ入力され、その採点結果は、採点エンジン14へ入力される。

[音声認識エンジン11] 音声認識エンジン11は、教師データの口述音声から口述テキストと、音声認識結果に対する信頼度とを出力する。口述テキストは、特徴量抽出部12へ出力され、信頼度は、特徴量選択エンジン13へ出力される。音声認識エンジン11自体は、図1で前述したものと全く同じものである。

[特徴量抽出部12] 特徴量抽出部12は、教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、複数の特徴量を抽出する。複数の特徴量は、特徴量選択エンジン13へ出力される。特徴量抽出部12自体は、図1で前述したものと全く同じものである。

[特徴量選択エンジン13] 特徴量選択エンジン13は、教師データに基づく信頼度に応じて、1つ以上の特徴量を選択する。特徴量選択エンジン13自体は、図1で前述したものと全く同じものである。

[採点エンジン14] 採点エンジン14は、特徴量選択エンジン13によって選択された特徴量と、教師データの採点結果とを対応付けて学習する。これによって、採点エンジン14の内部に、採点モデルパラメータを構築する。採点エンジン14自体は、図1で前述したものと全く同じであって、図3によって構築された採点モデルパラメータは、図1の採点段階の採点エンジン14で用いられる。

<特徴量選択エンジン・学習段階> 図4は、本発明のスピーキングテストプログラムにおける特徴量選択エンジンの学習段階の機能構成図である。

「特徴量選択エンジン・学習段階」とは、教師データの口述音声を入力し、特徴量選択エンジン内部で選択モデルパラメータを構築する処理である。その選択モデルパラメータは、特徴量選択エンジンへ組み込まれる。図4によれば、図1及び図3の機能構成部に加えて、発話環境合成部15と、特徴量差分検出部16を更に有する。

[発話環境合成部15] 発話環境合成部15は、教師データの口述音声に、異なる発話環境音を合成した1つ以上の口述音声を出力する。これら口述音声は、音声認識エンジン11へ入力される。発話環境合成部15は、教師データとしての同一の口述音声であっても、様々なノイズが合成された音声を、音声認識エンジン11へ入力する。これによって、同一の口述音声であれば、音声認識エンジン11から出力された口述テキストの認識に誤りがあっても、同一の採点が付与されるものとして学習する。即ち、学習段階について、学習者の口述音声に、発話環境音におけるノイズが混在していても、採点に対する耐性が高くなるような選択モデルパラメータを構築する。発話環境音における他の例としては、発話者の口述音声を収集するマイクの周波数特性や、発話者の存する部屋の反響特性等を模擬できるエフェクターが考えられる。

[音声認識エンジン11] 音声認識エンジン11は、ノイズ無しの口述音声から認識された口述テキストと、ノイズ有りの口述音声から認識された口述テキスト及びその認識結果に対する信頼度とを出力する。このとき、ノイズ有りの口述音声の口述テキストは、ノイズ無しの口述音声の口述テキストよりも、誤認識が多く、その信頼度も低くなる。音声認識エンジン11自体は、図1及び図3で前述したものと全く同じものである。

[特徴量抽出部12] 特徴量抽出部12は、ノイズ無しの口述音声及びノイズ有りの口述音声それぞれについて、認識された口述テキストから及び/又は音声認識エンジン内部から、1つ以上の特徴量を抽出する。言語的特徴量は、信頼度が低いほど音声認識の誤りが高い。一方で、音声的特徴量は、音声認識の誤りの影響を受けにくい。特徴量抽出部12自体は、図1及び図3で前述したものと全く同じものである。

[特徴量差分検出部16] 特徴量差分検出部16は、ノイズ無しの口述音声に基づく特徴量に対して、所定閾値よりも差分が小さい、又は、差分が小さい順に所定数となる、ノイズ有りの口述音声に基づく特徴量を検出する。特徴量に対する所定閾値又は所定数は、予め設定されたものである。ここでは、ノイズ無しとノイズ有りとで、口述音声に基づく特徴量の差分が小さい、即ち、ノイズの影響を受けにくい特徴量を検出しようとしている。検出された1つ以上の特徴量は、特徴量選択エンジン13へ出力される。

[特徴量選択エンジン13] 特徴量選択エンジン13は、特徴量差分検出部16から出力された特徴量と、音声認識エンジン11から出力された信頼度とを対応付けて学習する。これによって、特徴量選択エンジン13の内部に、選択モデルパラメータを構築する。特徴量選択エンジン13自体は、図1及び図3で前述したものと全く同じであって、図4によって構築された選択モデルパラメータは、図1の採点段階及び図3の採点エンジン・学習段階における特徴量選択エンジン13で用いられる。

図5は、本発明におけるシーケンス図である。

図5によれば、スピーキングテストの事業者が運用するサーバと、学習者が所持する端末とが、ネットワークを介して接続されている。端末としては、マイク及びディスプレイのようなユーザインタフェースを予め搭載した、スマートフォンやタブレット端末であることが好ましい。

図5(a)によれば、学習段階は、スピーキングテストの事業者が運用するサーバによって実行され、採点段階は、学習者が所持する端末によって実行される。サーバは、学習段階で生成した採点モデルパラメータ及び選択モデルパラメータを、端末へ送信する。端末は、受信した採点モデルパラメータ及び選択モデルパラメータを保持し、学習者の口述音声から採点する。

図5(b)によれば、学習段階及び採点段階の両方とも、スピーキングテストの事業者が運用するサーバによって実行される。サーバは、学習段階で生成した採点モデルパラメータ及び選択モデルパラメータを保持する。端末は、学習者の口述音声をそのまま、サーバへ送信する。サーバは、端末から受信した口述音声から採点し、その採点結果を端末へ返信する。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。特に、会話の自由度が高いスピーキングテストであっても、事前に正解文を準備しておく必要がない。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

1 スピーキングテストプログラム 11 音声認識エンジン 12 特徴量抽出部 13 特徴量選択エンジン 14 採点エンジン 15 発話環境合成部 16 特徴量差分検出部

标题	发布/更新时间	阅读量
基于深度学习的VR智能语音交互英语方法	2020-05-12	409
说话人确认方法和装置	2020-05-08	972
快速识别性别的方法及装置、用于识别性别的算法模型的生成方法	2020-05-08	880
一种基于画屏的语音交互方法、画屏及存储介质	2020-05-08	8
基于神经网络的语音与情绪的同步识别方法	2020-05-11	486
チケット有効性判定システム、チケット有効性判定方法、チケット有効性判定プログラム、チケット有効性判定プログラムを記憶する記憶媒体	2020-05-08	941
音声合成システム、及び音声合成装置	2020-05-11	784
キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム	2020-05-11	643
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム	2020-05-11	452
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	926

学習者の口述音声から自動的に採点するプログラム、装置及び方法

该功能需要专业版企业版VIP权限，您可以：