首页 / 专利库 / 信号处理 / 音素 / 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

阅读:585发布:2020-05-08

专利汇可以提供音声認識用コンピュータプログラム、音声認識装置及び音声認識方法专利检索,专利查询,专利分析的服务。并且,下面是音声認識用コンピュータプログラム、音声認識装置及び音声認識方法专利的具体信息内容。

ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、 前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、 ことをコンピュータに実行させるための音声認識用コンピュータプログラム。前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、請求項1に記載の音声認識用コンピュータプログラム。前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、請求項1または2に記載の音声認識用コンピュータプログラム。前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから前記第1の系列及び前記第2の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、請求項1〜3の何れか一項に記載の音声認識用コンピュータプログラム。前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、請求項1〜4の何れか一項に記載の音声認識用コンピュータプログラム。前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、請求項1〜5の何れか一項に記載の音声認識用コンピュータプログラム。ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、 前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、 ことを含む音声認識方法。ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、かつ、前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出する音素系列抽出部と、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、 を有する音声認識装置。

说明书全文

本発明は、例えば、音声認識用コンピュータプログラム、音声認識装置及び音声認識方法に関する。

従来より、話者が発した音声を集音して得られる音声信号から、話者が発した内容を認識する音声認識技術がユーザインターフェースにおいて利用されている。このような音声認識技術を利用するユーザインターフェースが採用された装置では、ユーザが所望の操作を行うためには、ユーザが予めその操作に対応付けられたキーワードを発することが求められる。したがって、もし、ユーザがその操作を行うためのキーワードを正確に覚えていないと、ユーザは不正確なキーワードを繰り返し発声するものの、ユーザインターフェースがその操作用のキーワードを認識できず、その結果としてその操作が行われない事態となる。

一方、繰り返し発声される音声に基づいて、音声認識を行う技術が提案されている(例えば、特許文献1を参照)。

特開2007−248529号公報

特許文献1に記載の技術では、与えられる音声信号中の繰返発声部分が検出される。検出された繰返発声がDPマッチングされ、繰返発声中で互いに対応する音声フレームのパワースペクトル上の各周波数ビンでパワーの小さな方を選択することで繰返発声を統合したパワースペクトルが生成される。そしてその統合されたパワースペクトルを用いて音声認識が行われる。

特許文献1に記載の技術では、統合されたパワースペクトルがキーワードを表すものとなるために、ユーザが正しいキーワードを繰り返し発声することが前提となっている。したがって、ユーザが発声の度に異なる語句を発声する場合、統合されたパワースペクトルは、正しいキーワードを表さず、その結果として、キーワードが認識されないこととなる。

一つの側面では、本発明は、ユーザが音声認識装置に認識させようと意図したキーワードを選択可能な音声認識用コンピュータプログラムを提供することを目的とする。

一つの実施形態によれば、音声認識用コンピュータプログラムが提供される。この音声認識用コンピュータプログラムは、ユーザの第1の音声信号からその第1の音声信号中に含まれる音素の第1の系列を抽出し、ユーザの第2の音声信号からその第2の音声信号中に含まれる音素の第2の系列を抽出し、第1の系列と第2の系列間で共通する音素の系列を抽出し、登録されている複数のキーワードのそれぞれについて、そのキーワードに対応する音素の系列と共通する音素の系列との類似度を算出し、複数のキーワードの中から、キーワードごとの類似度に基づいて所定数のキーワードを選択する、ことをコンピュータに実行させるための命令を含む。

ユーザが音声認識装置に認識させようと意図したキーワードを選択できる。

一つの実施形態による音声認識装置の概略構成図である。

音声認識装置が有する処理部の機能ブロック図である。

キーワード辞書の一例を示す図である。

最尤音素系列と共通音素系列の一例を示す図である。

本実施形態により利用されるDPマッチングを用いた、最適パスの探索手順の説明図である。

変形例による、類似度算出の一例を示す図である。

音声認識処理の動作フローチャートである。

音素グループと代表音素の関係を表すテーブルの一例を示す図である。

変形例による、最尤音素系列の補正に関するフローチャートである。

実施形態またはその変形例による音声認識装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、音声認識装置、及び、音声認識装置で利用される音声認識方法及び音声認識用コンピュータプログラムについて説明する。ユーザが操作に必要なキーワードを正確に覚えていない場合、ユーザは、発声の度にそのキーワードと類似する異なる語句を発声することが想定される。例えば、音声認識を利用するユーザインターフェースが採用されたナビゲーションシステムにおいて、ユーザの自宅への経路を探索する操作を実行するためのキーワードが「自宅へ帰る」であるとする。この場合において、例えば、1回目の発声では、ユーザは、「えっと自宅、じゃなかった、家に帰る」と発声したとする。しかし、この発声には、正しいキーワードは含まれないので、ユーザが意図した操作が行われない。そのため、2回目の発声では、例えば、ユーザは、「違うか、自宅、自分の住んでいるところ、に帰る」と発声したとする。この場合も、その発声には、正しいキーワードは含まれないので、そのキーワードが認識されず、ユーザが意図した操作は行われない。このように、意図した操作が行われないまま、ユーザは、何度も発声を繰り返すことになる。

また、音声認識の結果、登録されているキーワードのうち、最も類似するものから順に幾つかのキーワードを選択してユーザに提示することも考えられる。しかし、この場合でも、ユーザが正しいキーワードを発声していないので、ユーザに提示されるキーワードの中に、ユーザが意図した操作に対応するキーワードが含まれるとは限らない。

一方、ユーザが意図する操作のために繰り返し発声する場合、ユーザは、発声の度に、その操作と関連する語句を発声すると考えられる。そのため、各回の発声には、その操作に対応するキーワードの少なくとも一部が含まれることが想定される。

そこで、この音声認識装置は、話者の一例であるユーザにより繰り返し発声された音声から共通する音素系列を抽出し、抽出した音素系列と、キーワード辞書に登録されている各キーワードの音素系列とを比較して、最も類似するキーワードを選択する。そしてこの音声認識装置は、選択したキーワードをユーザに提示する。なお、キーワードは、個々の単語であってもよく、あるいは、複数の単語を含むフレーズであってもよい。

この音声認識装置、及び、音声認識装置で利用される音声認識方法及び音声認識用コンピュータプログラムは、音声認識を利用するユーザインターフェースを採用する様々な装置、例えば、ナビゲーションシステム、携帯電話機またはコンピュータなどに実装できる。

図1は、一つの実施形態による音声認識装置の概略構成図である。音声認識装置1は、インターフェース部11と、アナログ/デジタルコンバータ12と、処理部13と、記憶部14と、通信インターフェース部15とを有する。

インターフェース部11は、音声入部の一例であり、オーディオインターフェースを有する。そしてインターフェース部11は、例えば、マイクロホン(図示せず)から、アナログ信号であり、かつ、ユーザが発声した音声が表されたモノラルの音声信号を取得する。そしてインターフェース部11は、その音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部13へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。

処理部13は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部13は、音声認識処理を実行することで、音声信号から、キーワード辞書に登録されている何れかのキーワードを選択し、選択したキーワードを表す情報を通信インターフェース部15を介して出力する。あるいは、処理部13は、選択したキーワードを表示装置(図示せず)を介して表示してもよい。なお、処理部13による音声認識処理の詳細は後述する。

記憶部14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。さらに、記憶部14は、磁気記録媒体あるいは光記録媒体及びそのアクセス装置を有していてもよい。そして記憶部14は、処理部13上で実行される音声認識処理で利用される各種のデータ及び音声認識処理の途中で生成される各種のデータを記憶する。例えば、記憶部14は、音声信号からその音声信号についての最尤音素系列を推定するために利用される各種の情報、及び、音声信号から求められた最尤音素系列及び共通音素系列を記憶する。なお、最尤音素系列及び共通音素系列については後述する。さらに、記憶部14は、音声認識装置1が認識対象とするキーワードごとの音素系列を記憶するキーワード辞書を記憶する。

通信インターフェース部15は、音声認識装置1を他の装置、例えば、ナビゲーションシステムと接続するための通信インターフェース回路を有する。そして通信インターフェース部15は、処理部13から受け取った、選択されたキーワードを表す情報を他の装置へ出力する。なお、音声認識装置1自体が他の装置の一部として実装される場合には、通信インターフェース部15は省略されてもよい。

以下、処理部13の詳細について説明する。

図2は、処理部13の機能ブロック図である。処理部13は、音声区間検出部21と、特徴抽出部22と、最尤音素系列探索部23と、判定部24と、共通音素系列抽出部25と、照合部26と、提示部27とを有する。 処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部13が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。

音声区間検出部21は、音声信号を所定長を持つフレームごとに分割する。フレーム長は、例えば、数10msec〜100msecに設定される。そして音声区間検出部21は、音声信号の各フレームのうち、ユーザが声を発しているフレームを検出することで、ユーザが発声している区間である音声区間を検出する。

一般に、ユーザが声を発しているフレームにおける音声信号のパワーは、ユーザが声を発していないフレームにおける音声信号のパワーよりも大きい。そこで音声区間検出部21は、例えば、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、音声区間検出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そして音声区間検出部21は、各周波数帯域のスペクトル信号を2乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの総和を求めてその総和の対数化値(以下、対数パワーと呼ぶ)を算出する。そして音声区間検出部21は、その対数パワーが所定のパワー閾値よりも大きいフレームを、ユーザが声を発しているフレームとして検出する。パワー閾値は、例えば、背景雑音の対数パワーに所定のオフセットを加算した値に設定される。その背景雑音の対数パワーは、例えば、予め設定されてもよく、あるいは、フレーム単位で更新されてもよい。例えば、音声区間検出部21は、対数パワーがパワー閾値以下となったフレームの対数パワーに忘却係数α(例えば、α=0.01)を乗じた値を、その時点の背景雑音の対数パワーに(1-α)を乗じた値に加えることで、背景雑音の対数パワーを更新する。 なお、音声区間検出部21は、発話区間を検出する他の方法に従って、各フレームについてユーザが声を発しているフレームであるか否かを判定してもよい。

音声区間検出部21は、音声信号について、ユーザが声を発していると判定されたフレームが連続する区間を音声区間として検出する。そして音声区間検出部21は、音声区間が検出される度に、その音声区間の開始時刻と終了時刻とを特徴抽出部22に通知する。

特徴抽出部22は、音声区間内のフレームごとに、ユーザの声の特徴を表す複数の特徴量を算出する。そして特徴抽出部22は、フレームごとに、各特徴量を要素とする特徴ベクトルを生成し、その特徴ベクトルを出力する。

例えば、特徴抽出部22は、ユーザの声の特徴を表す特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)と、それらのΔケプストラム及びΔΔケプストラムを求める。

特徴抽出部22は、フレームごとに、例えば、FFTを行って周波数係数を算出する。そして特徴抽出部22は、各周波数係数から算出されるパワースペクトルを、中心周波数がメル尺度で等間隔になるように配置したフィルタバンクに通したときの出力をパワー値として求める。その後、特徴抽出部22は、そのパワー値の対数に対して離散コサイン変換(Discrete Cosign Transform,DCT)などの周波数変換を行って得られるDCT係数のうちの所定の次数以下の係数を取り出すことによりMFCCを算出する。

また、特徴抽出部22は、フレームごとにケプストラムを算出し、そのケプストラムを用いてΔケプストラムを算出する。Δケプストラムは、次式によって算出される。

ここで、Cn(t)は、フレームtのn次のケプストラム係数を表し、ΔCn(t)は、n次のΔケプストラム係数を表す。また、hkは、時間幅(2K+1)の対称形の窓関数である。なお、hk=1であってもよい。さらに、特徴抽出部22は、(1)式において、Cn(t)の代わりにΔCn(t)を入力することで、n次のΔΔケプストラム係数を算出できる。

特徴抽出部22は、MFCC、Δケプストラム及びΔΔケプストラムのそれぞれについて、所定の次数(例えば、1〜12次)の係数を、特徴量とすることができる。

なお、変形例によれば、特徴抽出部22は、パワーの積算値及びピッチ周波数なども、MFCC、Δケプストラム及びΔΔケプストラムの所定の次数の係数とともに、あるいは、所定の次数の係数の代わりに、特徴量として算出してもよい。

特徴抽出部22は、フレームごとの特徴ベクトルを最尤音素系列探索部23へ出力する。

最尤音素系列探索部23は、音素系列抽出部の一例であり、音声区間の各フレームから抽出された特徴量に基づいて、音声区間についての最尤音素系列を探索する。なお、最尤音素系列は、最も確からしいと推定される、音声に含まれる各音素をその発声順に並べた音素系列である。

そのために、最尤音素系列探索部23は、例えば、音響モデルとして隠れマルコフモデル(Hidden Markov Model, HMM)を利用し、音声の特徴ベクトルに対する各音素の出力確率を混合正規分布(Gaussian Mixture Model, GMM)により算出するGMM-HMMを用いる。

具体的に、最尤音素系列探索部23は、音声区間中のフレームごとに、そのフレームの特徴ベクトルをGMMに入力することで、そのフレームについての、各音素に対応するHMMの各状態の出力確率を算出する。また、最尤音素系列探索部23は、特徴ベクトルをGMMに入力する前に、各フレームから算出された特徴ベクトルに対して、特徴ベクトルの次元ごとに平均値を推定してその次元の値から推定した平均値を差し引くCepstral Mean Normalization(CMN)と呼ばれる正規化を実行してもよい。

最尤音素系列探索部23は、フレームごとに、得られた出力確率を音素HMMの対応する状態についての出力確率として用いることで、着目する音声区間について、累積対数尤度が最大となる音素系列を最尤音素系列として求める。

例えば、最尤音素系列探索部23は、遷移元である前のフレームの音素候補のHMMの状態から遷移先である現在のフレームのある音素候補のHMMの状態へ遷移する確率(状態遷移確率)の対数化値と、現在のフレームのある音素候補のHMMの状態における出力確率の対数化値とを算出する。そして最尤音素系列探索部23は、それらの対数化値を、前のフレームまでの音素候補のHMMの状態における累積対数尤度に加算することで、現在のフレームのある音素候補のHMMの状態における累積対数尤度を算出する。その際、最尤音素系列探索部23は、遷移元の音素候補のHMMの状態の中から、遷移先である現在のフレームのある音素候補のHMMの状態に遷移した場合に、尤も累積対数尤度が大きい遷移元の音素候補を選択する。最尤音素系列探索部23は、その選択を現在のフレームにおけるすべての音素候補のHMMの状態について行うViterbi演算を音声区間の最後のフレームまで進める。なお、最尤音素系列探索部23は、上記の合計が所定値以上となる状態遷移を選択してもよい。そして最尤音素系列探索部23は、最後のフレームにおける累積対数尤度が最大となる状態を選び、その状態に到達するまでの状態遷移の履歴(Viterbiパス)をバックトラックすることにより求め、Viterbiパスに基づいてその音声区間における最尤音素系列を求める。

なお、最尤音素系列探索部23は、音声信号から最尤音素系列を探索する他の様々な技術の何れかを利用して、音声区間についての最尤音素系列を探索してもよい。 最尤音素系列探索部23は、求めた最尤音素系列を判定部24へ出力する。

判定部24は、音声区間の最尤音素系列と、キーワード辞書に登録された各キーワードの発声を表す音素系列とを比較することにより、音声区間においてユーザが何れかのキーワードを発声したか否かを判定する。

図3は、キーワード辞書の一例を示す図である。キーワード辞書300には、キーワードごとに、そのキーワードの表記を表す文字列と、そのキーワードの発音を表す音素系列が登録される。例えば、キーワード「自宅へ帰る」に対して、その音素系列"jitakuekaeru"が登録されている。

例えば、判定部24は、キーワード辞書に登録されたキーワードごとに、そのキーワードの音素系列と最尤音素系列との類似度Pを、例えば、次式に従って算出する。

ここで、Cは、最尤音素系列と着目するキーワードの音素系列間で一致する音素の数であり、Dは、着目するキーワードの音素系列に含まれるものの、最尤音素系列には含まれない音素の数である。そしてSは、着目するキーワードの音素系列に含まれ、かつ、最尤音素系列の対応位置の音素と異なる音素の数である。

判定部24は、各キーワードの類似度のうちの最大値を、一致判定閾値と比較する。そしてその最大値が一致判定閾値よりも大きい場合、判定部24は、その最大値に対応するキーワードが音声区間においてユーザにより発声されたと判定する。そして処理部13は、ユーザにより発声されたと判定されたキーワードを表す情報を、例えば、通信インターフェース(図示せず)を介して音声認識装置1と接続される装置へ出力する。あるいは、処理部13は、ユーザにより発声されたと判定されたキーワードに応じた処理を実行してもよい。また、処理部13は、記憶部14に保存されている最尤音素系列を削除してもよい。そして処理部13は、その音声区間に対する音声認識処理を終了する。

一方、類似度の最大値が一致判定閾値以下である場合、判定部24は、最尤音素系列を記憶部14に保存する。

なお、判定部24は、音声認識により特定のキーワードを認識する他の技術を利用して、キーワード辞書に登録されている何れかのキーワードが発声されたか否かを判定してもよい。この場合でも、判定部24は、キーワード辞書に登録されている何れのキーワードについても発声されていないと判定した場合、最尤音素系列を記憶部14に保存する。

共通音素系列抽出部25は、最尤音素系列が二つ以上記憶部14に保存されると、すなわち、何れのキーワードも認識されずに、ユーザが繰り返し発声すると、最尤音素系列同士で共通する音素を発声順に並べた系列(以下、単に共通音素系列と呼ぶ)を抽出する。

本実施形態では、共通音素系列抽出部25は、二つの最尤音素系列のそれぞれから、無音を表す音素を削除することが好ましい。無音を表す音素は、認識対象となるキーワードと無関係であるためである。例えば、単語の直前の無音が"silB"、単語の直後の無音が"silE"、そしてショートポーズが"sp"という音素で表される場合、これら音素"silB"、"silE"及び"sp"が最尤音素系列から削除される。また、共通音素系列抽出部25は、二つの最尤音素系列のうちの一方にしか表れない音素も、各最尤音素系列から削除することが好ましい。二つの最尤音素系列のうちの一方にしか表れない音素は、それら最尤音素系列で共通することはないためである。

無音を表す音素、及び、一方の最尤音素系列にしか表れない音素が各最尤音素系列から削除された後、共通音素系列抽出部25は、その二つの最尤音素系列の先頭から順に、互いに一致する音素を抽出する。そして共通音素系列抽出部25は、抽出した音素を先頭から並べたものを共通音素系列とする。

図4は、最尤音素系列と共通音素系列の一例を示す図である。図4に示されるように、ユーザが1回目に、「えっと自宅、じゃなかった、家に帰る」と発声したとする。この発声に対して、最尤音素系列401が得られる。一方、ユーザが2回目に、「違うか。自宅、自分の住んでいるところ、に帰る」と発声したとする。この発声に対して、最尤音素系列402が得られる。なお、最尤音素系列401及び最尤音素系列402において、音素"sp"、"silB"、及び"silE"は、無音を表す音素である。

上記のように、無音を表す音素、及び、一方の最尤音素系列にしか表れない音素が最尤音素系列401及び最尤音素系列402からそれぞれ削除されることにより、修正された最尤音素系列411及び最尤音素系列412が得られる。このうち、共通する音素を先頭から順に抽出することにより、共通音素系列("oitakuertknikaeuq")420が得られる。

共通音素系列抽出部25は、抽出した共通音素系列を記憶部14に保存する。

照合部26は、共通音素系列と、キーワード辞書に登録されている各キーワードの音素系列との類似度を算出し、各キーワードのうち、共通音素系列に最も類似する音素系列を持つキーワードを特定する。

共通音素系列は、キーワード辞書に登録されている何れのキーワードもユーザが発声していない場合に抽出されるので、共通音素系列は、キーワード辞書に登録されている何れのキーワードの音素系列とも完全には一致しない可能性がある。一方、ユーザは、意図した操作に対応する音声を発しているので、その操作に対応するキーワードと類似した語句を発していると考えられる。特に、ユーザが繰り返し発声した音声において共通する部分は、その意図した操作に対応するキーワードの一部を含んでいる可能性がある。そこで、本実施形態では、照合部26は、動的計画法(Dynamic Programming)にしたがって、共通音素系列とキーワード辞書に登録されている各キーワードの音素系列とを照合して、キーワードごとに共通音素系列に対する類似度を算出する。そして照合部26は、各キーワードの類似度に基づいて共通音素系列と最も類似する音素系列を持つキーワードを特定する。なお、以下では、動的計画法に従った照合を、DPマッチングと呼ぶ。

例えば、照合部26は、キーワード辞書に登録されているキーワードごとに、そのキーワードに対応する音素系列と共通音素系列との間のレーベンシュタイン距離(編集距離とも呼ばれる)を算出する。その際、照合部26は、DPマッチングにより、累積距離が最小となる最短パスを求める。

図5は、本実施形態により利用されるDPマッチングを用いた、最適パスの探索手順の説明図である。図5において、横軸には、格子点ごとに、共通音素系列に含まれる各音素が左から順に示される。また、縦軸には、格子点ごとに、着目するキーワードの音素系列に含まれる各音素が下から順に示される。

照合部26は、左下端の格子点から右上端の格子点へ向かう経路のうち最適パスを探索する。すなわち、照合部26は、レーベンシュタイン距離が最小となるパスを探索する。この場合、左下端の格子点が最初の注目格子点となる。そして照合部26は、注目格子点の右側、上側及び右上側に隣接する格子点の何れかを次の注目格子点とする。例えば、照合部26は、現在の注目格子点から右上に隣接する注目格子点へ遷移した場合に、次の注目格子点が属する行に対応するキーワードの音素と、注目格子点が属する列に対応する、共通音素系列の音素が一致するか否か判定する。そして一致すれば、編集距離に加算されるポイントは'0'となる。しかし、一致しなければ、編集距離に加算されるポイントは'+1'となる。なお、両者が一致しないことは、共通音素系列の次の注目格子点に対応する音素が着目するキーワードの音素系列において置換されたことに相当する。

また、現在の注目格子点に対して上側に隣接する格子点が次の注目格子点となる場合、編集距離に加算されるポイントは'+1'となる。なお、この上側への遷移は、着目するキーワードに対応する音素系列への音素の挿入に相当する。さらに、現在の注目格子点に対して右側に隣接する格子点が次の注目格子点となる場合も、編集距離に加算されるポイントは'+1'となる。なお、この右側への遷移は、着目するキーワードに対応する音素系列中の音素の欠落に相当する。 図5に示した例では、矢印で示される経路501が最短パスとなり、また、各点502は、その最短パスにおいて、共通音素系列と着目するキーワードに対応する音素系列との間で一致した音素を表す。したがって、この例では、レーベンシュタイン距離D(I,J)は"7"となる。

照合部26は、キーワード辞書に登録されている各キーワードについて、DPマッチングの結果を利用してそのキーワードの音素系列と共通音素系列間の類似度を算出する。例えば、照合部26は、次式に従って類似度Pを算出する。

ここで、D(I,J)は、着目するキーワードの音素系列と共通音素系列間のレーベンシュタイン距離を表す。またI、Jは、それぞれ、着目するキーワードの音素系列に含まれる音素の数、共通音素系列に含まれる音素の数を表す。そしてαは予め設定される定数であり、例えば、1である。(3)式から明らかなように、レーベンシュタイン距離が小さいほど、かつ、着目するキーワードの音素系列に含まれる音素の数、及び共通音素系列に含まれる音素の数が多いほど、類似度Pは大きくなる。

あるいは、照合部26は、(2)式に従って、着目するキーワードの音素系列と共通音素系列間の一致度合に基づいて類似度Pを算出してもよい。この場合には、Cは、共通音素系列と着目するキーワードの音素系列間で一致する音素の数であり、Dは、着目するキーワードの音素系列に含まれるものの、共通音素系列には含まれない音素の数である。そしてSは、着目するキーワードの音素系列に含まれ、かつ、共通音素系列の対応位置の音素と異なる音素の数である。

図6は、この変形例による、類似度算出の一例を示す図である。上側に示される、着目するキーワードの音素系列601と、下側に示される、共通音素系列602とで、互いに一致する音素は四で囲まれている。この例では、C=13、D=0、S=3となるので、類似度Pは略81%となる。

なお、この例では、共通音素系列には含まれるものの、着目するキーワードの音素系列には含まれない音素の数は、類似度Pにおいて考慮されていない。この理由は、もともと、ユーザがキーワード辞書に登録されているキーワードを発声しておらず、共通音素系列には、キーワード辞書に登録されている何れのキーワードに対しても、そのキーワードの音素系列に含まれない音素が含まれると想定されるためである。

照合部26は、類似度が最大となるキーワードを特定する。そして照合部26は、特定したキーワードを提示部27に通知する。なお、照合部26は、類似度の最大値が所定の閾値以下である場合には、共通音素系列からはユーザが意図しているキーワードを検出できないとして、類似度が最大となるキーワードを提示部27に通知しなくてもよい。この場合には、処理部13は、記憶部14に保存されている各最尤音素系列(または、古い方の最尤音素系列)と共通音素系列を消去してもよい。そして処理部13は、類似度の最大値が所定の閾値よりも大きくなるまで、発声ごとに最尤音素系列の探索、共通音素系列の抽出及びキーワードの音素系列と共通音素系列間の類似度の算出を繰り返してもよい。

提示部27は、特定されたキーワードをユーザに提示する。例えば、提示部27は、音声認識装置1と接続された表示装置(図示せず)に、そのキーワードを表示させる。あるいは、提示部27は、特定されたキーワードが何らかの操作と関連付けられている場合、その操作の内容を表す語句を表示装置に表示させてもよい。例えば、特定されたキーワードが「自宅へ帰る」である場合、提示部27は、「自宅へのルートを設定してもよろしいでしょうか」との語句を表示する。なお、提示部27は、そのような語句を決定するために、キーワードと操作の内容及び表示する語句とを関連付けたテーブルを参照して、特定されたキーワードに対応する操作の内容及び表示する語句を決定すればよい。そのようなテーブルは、予め記憶部14に保存される。

あるいはまた、提示部27は、特定されたキーワードを表す文字列、あるいはキーワードと関連する操作の内容を表す文字列に基づいてそのキーワードに対応する合成音声信号を生成してもよい。そして提示部27は、その合成音声信号を、音声認識装置1と接続されたスピーカを介して再生してもよい。その際、提示部27は、文字列から合成音声信号を生成する様々な音声合成技術の何れを利用してもよい。これにより、音声認識装置1がナビゲーションシステムに実装されている場合のように、ユーザが表示装置を視認することができない場合でも、提示部27は、ユーザにキーワードを提示することができる。

そしてユーザが、提示されたキーワードを確認して所定の入力操作を行うことで、音声認識装置1と接続された装置、あるいは、音声認識装置1が実装された装置が、そのキーワードに対応する操作を行ってもよい。あるいは、ユーザが承認か非承認かを表す音声を発し、音声認識装置1がその音声を認識することで承認か非承認かを判定してもよい。そして音声認識装置1が、ユーザが承認したことを表す音声を発したと判定した場合、音声認識装置1と接続された装置、あるいは、音声認識装置1が実装された装置が、そのキーワードに対応する操作を行ってもよい。

図7は、本実施形態による、音声認識処理の動作フローチャートである。処理部13は、下記の動作フローチャートに従って音声認識処理を実行する。

音声区間検出部21は、入力された音声信号から音声区間を検出する(ステップS101)。特徴抽出部22は、音声区間内のフレームごとに、ユーザの声の特徴を表す複数の特徴量を含む特徴ベクトルを算出する(ステップS102)。

最尤音素系列探索部23は、各フレームの特徴ベクトルに基づいて、音声区間において発声された音声に対応する最尤音素系列を探索する(ステップS103)。そして判定部24は、最尤音素系列とキーワード辞書に基づいて、音声区間においてキーワード辞書に登録されている何れかのキーワードが検出されたか否か判定する(ステップS104)。何れかのキーワードが検出された場合(ステップS104−Yes)、処理部13は、そのキーワードを表す情報を出力して、音声認識処理を終了する。

一方、音声区間におけるユーザの音声が、キーワード辞書に登録されている何れのキーワードとも一致しないと判定した場合(ステップS104−No)、判定部24は、最尤音素系列を記憶部14に保存する(ステップS105)。

その後、処理部13は、最尤音素系列が二つ以上記憶部14に保存されているか否か判定する(ステップS106)。保存されている最尤音素系列が1個である場合(ステップS106−No)、処理部13は、新たに入力された音声信号に対してステップS101以降の処理を繰り返す。

一方、保存されている最尤音素系列が2以上である場合(ステップS106−Yes)、共通音素系列抽出部25は、各最尤音素系列から、共通音素系列を抽出する(ステップS107)。そして照合部26は、DPマッチングに従って、キーワード辞書に登録されている各キーワードの音素系列と共通音素系列間の類似度を算出する(ステップS108)。そして照合部26は、類似度の最大値に対応するキーワードをユーザに提示する(ステップS109)。そして処理部13は、音声認識処理を終了する。

以上に説明してきたように、この音声認識装置は、ユーザが発声した音声からキーワード辞書に登録された何れのキーワードも認識されなかった場合において、繰り返し発声された複数の音声区間の最尤音素系列間で共通して出現する共通音素系列を抽出する。そしてこの音声認識装置は、共通音素系列と、キーワード辞書に登録されている各キーワードの音素系列との類似度をDPマッチングに基づいて算出し、その類似度の最大値に対応するキーワードを特定してユーザに提示する。そのため、この音声認識装置は、ユーザがキーワード辞書に登録されているキーワードを正確に発声せず、発声の度に異なる語句を発しても、ユーザが音声認識装置に認識させようとしたキーワードを特定できる。そのため、この音声認識装置は、ユーザがキーワードを正確に覚えていない場合でも、ユーザがそのキーワードを発声しようとして繰り返し発声することを止めることができる。

なお、変形例によれば、発音の際に互いに置換され得る音素のグループを表す情報が予め記憶部14に保存されてもよい。そして共通音素系列抽出部25は、各最尤音素系列において、音素グループに含まれる音素を、その音素グループの代表音素に置換してから共通音素系列を抽出してもよい。これにより、共通音素系列抽出部25は、より適切な共通音素系列を抽出できる。

図8は、音素グループと代表音素の関係を表すテーブルの一例を示す図である。この例では、テーブル800の行ごとに、一つの音素グループが示される。この例では、調音形態が似ている音素同士がグループ化される。例えば、1番目の音素グループには、音素"s"と音素"z"が含まれており、この音素グループに含まれる音素は、代表音素"s"で置換される。また、2番目の音素グループには、音素"t"と音素"d"が含まれており、この音素グループに含まれる音素は、代表音素"t"で置換される。

なお、音素グループは、音声認識実験を行って得られる音素置換誤りに関するコンフュージョンマトリックスに基づいて、互いに誤り易い音素同士をグループ化することで求められてもよい。また音素グループごとの代表音素は、その音素グループに含まれる何れの音素に設定されてもよい。

図9は、この変形例による、最尤音素系列の補正に関するフローチャートである。共通音素系列抽出部25は、最尤音素系列ごとに、このフローチャートに従って補正した後に、共通音素系列を抽出すればよい。

共通音素系列抽出部25は、着目する最尤音素系列に含まれる音素のうち、何れかの音素グループに含まれる音素をその音素グループの代表音素で置換する(ステップS201)。そして共通音素系列抽出部25は、その最尤音素系列から、無音を表す音素を削除する(ステップS202)。その後、共通音素系列抽出部25は、その最尤音素系列に含まれるものの、共通音素系列の抽出の際に参照される他方の最尤音素系列に含まれない音素を削除する(ステップS203)。そして共通音素系列抽出部25は、最尤音素系列の補正を終了する。 なお、共通音素系列抽出部25は、ステップS201の処理とステップS202の処理の順序を入れ替えてもよい。

同様に、照合部26も、キーワード辞書に登録されている各キーワードの音素系列について、音素グループに含まれる音素をその音素グループの代表音素に置換してから、共通音素系列との類似度を算出してもよい。これにより、照合部26は、より正確に各キーワードの音素系列と共通音素系列との類似度を算出できる。

さらに他の変形例によれば、共通音素系列抽出部25は、3個以上の最尤音素系列から共通音素系列を抽出してもよい。この場合、共通音素系列抽出部25は、二つの最尤音素系列が得られると、その二つの最尤音素系列から共通音素系列を抽出して、記憶部14に保存する。そして共通音素系列抽出部25は、次の最尤音素系列が得られると、保存されている共通音素系列と最新の最尤音素系列とから共通音素系列をさらに抽出して、記憶部14に保存する。このように、共通音素系列抽出部25は、新たに最尤音素系列が得られる度に、既に得られている共通音素系列との間で共通音素系列を抽出することで、共通音素系列を更新する。これにより、キーワード辞書に登録されているキーワードの音素系列には含まれず、かつ、共通音素系列に含まれる音素の数が減少する。そのため、照合部26により、ユーザが意図した正しいキーワードが選択される精度が向上する。

なお、この変形例において、共通音素系列抽出部25は、3個以上の最尤音素系列において、過半数の最尤音素系列に共通する音素を抽出して、抽出した音素を発声順に並べることにより共通音素系列を抽出してもよい。この場合、共通音素系列抽出部25は、ユーザが発声の度に繰り返した語句に対応する音素以外でも、比較的多い回数繰り返した語句に対応する音素を共通音素系列に含めることができる。そのため、ユーザが意図したキーワードと異なる類似の語句を毎回繰り返さなくても、そのキーワードを特定できる可能性が向上する。

さらに他の変形例によれば、照合部26は、類似度が大きい方から順に、2以上の所定数のキーワードを特定してもよい。そして提示部27は、その所定数のキーワードをユーザに表示してもよい。これにより、ユーザが意図したキーワードが提示されたキーワードに含まれる可能性が高くなる。

また上記の実施形態または変形例による音声認識装置は、サーバクライアント型のシステムに実装されてもよい。 図10は、上記の何れかの実施形態またはその変形例による音声認識装置が実装されたサーバクライアントシステムの概略構成図である。 サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。

端末110は、音声入力部111と、記憶部112と、通信部113と、制御部114とを有する。音声入力部111、記憶部112及び通信部113は、例えば、制御部114とバスを介して接続されている。

音声入力部111は、例えば、オーディオインターフェースとA/Dコンバータを有する。そして音声入力部111は、例えば、マイクロホンからアナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部111は、デジタル化された音声信号を制御部114へ出力する。

記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、音声認識処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。

通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取った特徴ベクトルを、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。

制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、上記の各実施形態または変形例による処理部の各機能のうち、音声区間検出部21、特徴抽出部22及び提示部27の機能を実現する。すなわち、制御部114は、音声信号から音声区間を検出し、音声区間内の各フレームから人の声の特徴を表す複数の特徴量を含む特徴ベクトルを算出する。そして制御部114は、フレームごとの特徴ベクトルを、端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。また制御部114は、サーバ120から受け取った、特定されたキーワードをディスプレイ(図示せず)に表示するか、あるいは、特定されたキーワードに対応する合成音声信号をスピーカ(図示せず)を介して再生する。

サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。

通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、フレームごとの特徴ベクトルと端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。

記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。また記憶部122は、音声認識処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴ベクトルを記憶していてもよい。

処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による音声認識装置の処理部の各機能のうち、音声区間検出部21、特徴抽出部22及び提示部27以外の各部の機能を実現する。すなわち、処理部123は、端末110から受信した、フレームごとの特徴ベクトルを用いて最尤音素系列を求め、その最尤音素系列に基づいてキーワード辞書に登録されたキーワードを検出できるか否か判定する。処理部123は、一つの音声信号からキーワードを検出できない場合には、複数の音声信号のそれぞれから得られた最尤音素系列から共通音素系列を抽出し、共通音素系列に最も類似する音素系列を持つキーワードを特定する。そして処理部123は、特定したキーワードを表す情報またはそのキーワードに対応する合成音声信号を通信部121及び通信ネットワーク130を介して端末110へ送信する。

なお、端末110は、音声信号そのものをサーバ120へ送信してもよい。この場合には、サーバ120の処理部123が、上記の各実施形態または変形例による音声認識装置の処理部の機能のうち、提示部27以外の機能を実現する。

上記の各実施形態または変形例による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定のキーワードは、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。 (付記1) ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、 前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、 ことをコンピュータに実行させるための音声認識用コンピュータプログラム。 (付記2) 前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、付記1に記載の音声認識用コンピュータプログラム。 (付記3) 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、付記1または2に記載の音声認識用コンピュータプログラム。 (付記4) 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから前記第1の系列及び前記第2の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、付記1〜3の何れかに記載の音声認識用コンピュータプログラム。 (付記5) 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、付記1〜4の何れかに記載の音声認識用コンピュータプログラム。 (付記6) 前記第1の音声信号中で前記ユーザが発声している第1の音声区間を検出し、かつ、前記第2の音声信号中で前記ユーザが発声している第2の音声区間を検出することをさらにコンピュータに実行させ、 前記第1の系列を抽出することは、前記第1の音声区間に含まれる音素の系列を前記第1の系列として抽出し、 前記第2の系列を抽出することは、前記第2の音声区間に含まれる音素の系列を前記第2の系列として抽出する、付記1〜5の何れかに記載の音声認識用コンピュータプログラム。 (付記7) 前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、付記1〜6の何れかに記載の音声認識用コンピュータプログラム。 (付記8) 前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値に基づいて前記類似度を算出する、付記7に記載の音声認識用コンピュータプログラム。 (付記9) 前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値となるときの当該キーワードに対応する音素の系列と前記共通する音素の系列間の一致度合に基づいて前記類似度を算出する、付記7に記載の音声認識用コンピュータプログラム。 (付記10) 前記ユーザの声が表された第3の音声信号から当該第3の音声信号中に含まれる音素の第3の系列を抽出することをさらにコンピュータに実行させ、 前記共通する音素の系列を抽出することは、前記第1の系列と、前記第2の系列と、前記第3の系列との間で共通する音素の系列を抽出する、付記1〜9の何れかに記載の音声認識用コンピュータプログラム。 (付記11) 選択された前記所定数のキーワードを前記ユーザに提示することをさらにコンピュータに実行させる、付記1〜7の何れかに記載の音声認識用コンピュータプログラム。 (付記12) ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、 前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、 ことを含む音声認識方法。 (付記13) ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、かつ、前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出する音素系列抽出部と、 前記第1の系列と前記第2の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、 登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、 を有する音声認識装置。

1 音声認識装置 11 インターフェース部 12 A/Dコンバータ 13 処理部 14 記憶部 15 通信インターフェース部 21 音声区間検出部 22 特徴抽出部 23 最尤音素系列探索部 24 判定部 25 共通音素系列抽出部 26 照合部 27 提示部 100 サーバクライアントシステム 110 端末 111 音声入力部 112 記憶部 113 通信部 114 制御部 120 サーバ 121 通信部 122 記憶部 123 処理部 130 通信ネットワーク

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈