Hidden markov model learning method专利检索-隐马尔可夫模型数学与统计专利检索查询-专利查询网

Hidden markov model learning method

阅读：674发布：2021-08-19

专利汇可以提供Hidden markov model learning method专利检索，专利查询，专利分析的服务。并且PURPOSE: To provide the hidden Markov model learning method which enables highly precise learning even with a small amount of information.
CONSTITUTION: The phoneme HMM of a standard speaker is regarded as the initial model of the phoneme HMM of an unknown speaker (SP1); and the HMM of the unknown speaker is coupled so as to correspond to the phoneme series of the input speech of the unknown speaker and only the mean values of the transition probability, appearance probability, and distribution probability of the HMM are coupled and learnt (SP2). The difference in mean vector between HMMs before and after the coupling and learning is regarded as a moving vector and the moving vector of the mean vector of an unlearnt HMM is prescribed (SW3). The mean vector of the unlearnt HMM is estimated by moving the mean vector (SP4). As for the model which is thus obtained, the restriction conditions of continuity is included in the moving vector for movement in a speaker space and smoothing is performed to absorb an estimation error.
COPYRIGHT: (C)1994,JPO&Japio，下面是Hidden markov model learning method专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】連続分布型隠れマルコフモデル（ＨＭ
Ｍ）を用いて音声を認識する方法において、入力された音声または音声の分析結果を用いて前記入力された情報を表現するように既学習ＨＭＭを学習することにより再学習ＨＭＭを作成し、前記既学習ＨＭＭのパラメータと当該パラメータに対応する再学習ＨＭＭのパラメータの差分を求め、修正すべきパラメータに関する差分を、当該パラメータに関する差分と他のパラメータに関する差分の一部またはすべてを用いて修正し、修正された差分を用いて、既学習ＨＭＭのパラメータを移動することによりＨＭＭを再学習する隠れマルコフモデル学習方法。

【請求項２】前記入力された音声または音声の分析結果を用いて前記入力された情報を表現するように既学習ＨＭＭを学習する場合に、音声の発声内容に対応するように、係る既学習用ＨＭＭを連結することにより、既学習ＨＭＭを学習する連結学習の手法を用いることを特徴とする、請求項１の隠れマルコフモデル学習方法。

【請求項３】前記修正すべきパラメータに関する差分を、当該パラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正する場合に、当該パラメータに関する差分と他のパラメータに関する差分の重み付け平均を行なうことにより求めることを特徴とする、請求項１または２の隠れマルコフモデル学習方法。

【請求項４】前記修正すべきパラメータに関する差分を修正するために、既学習ＨＭＭの当該パラメータの値と近い値を有している任意個数のパラメータに関する差分のみを用いることを特徴とする、請求項１〜３のいずれかの隠れマルコフモデル学習方法。

【請求項５】前記重みの値をファジィ級関数値に基づき決定することを特徴とする、請求項３の隠れマルコフモデル学習方法。

【請求項６】前記既学習ＨＭＭを作成するために使用した音声と、前記再学習に用いる入力音声とに異なる話者の音声を用いることにより、話者適応を実現することを特徴とする、請求項１または２の隠れマルコフモデル学習方法。

【請求項７】連続分布型隠れマルコフモデルを用いて音声を認識する方法において、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習ＨＭＭを学習して再学習ＨＭＭを求める場合に、学習のための入力情報が既学習ＨＭＭのすべてには対応せず、一部の既学習ＨＭＭが学習されなかった場合は既学習ＨＭＭのパラメータと当該パラメータに対応する再学習ＨＭＭのパラメータの差分を求め、前記求めた差分の一部またはすべてを用いて学習されなかったＨＭＭのパラメータに関する差分を推定した後、
修正すべきパラメータに関する差分を、当該パラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正し、前記修正された差分を用いて、既学習ＨＭＭのパラメータを移動することによりＨＭＭを再学習することを特徴とする、隠れマルコフモデル学習方法。

【請求項８】前記入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習ＨＭ
Ｍを学習する場合に、音声の発声内容に対応するように、係る既学習ＨＭＭを連結することにより、既学習Ｈ
ＭＭを学習する連結学習の手法を用いることを特徴とする、請求項７の隠れマルコフモデル学習方法。

【請求項９】前記修正すべきパラメータに関する差分を、当該パラメータに関する差分と、付加パラメータに関する差分の一部またはすべてを用いて修正する場合に、当該パラメータに関する差分と他のパラメータに関する差分の重み付き平均を行なうことにより求めることを特徴とする、請求項６または７の隠れマルコフモデル学習方法。

【請求項１０】前記修正すべきパラメータに関する差分を修正するために、既学習ＨＭＭの当該パラメータの値と近い値を有している任意個数のパラメータに関する差分のみを用いることを特徴とする、請求項７〜９のいずれかの隠れマルコフモデル学習方法。

【請求項１１】前記重みの値をファジィ級関数値に基づき決定することを特徴とする、請求項９の隠れマルコフモデル学習方法。

【請求項１２】前記既学習ＨＭＭを作成するために使用した音声と、再学習に用いる入力音声とに異なる話者の音声を用いることにより、話者適応を実現することを特徴とする、請求項７または８の隠れマルコフモデル学習方法。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は隠れマルコフモデル学習方法に関し、特に、音声認識分野において、連続分布型隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ：ＨＭＭ）の高精度の学習を少量の情報により可能にするような隠れマルコフモデル学習方法に関する。

【０００２】

【従来の技術】“ａ”，“ｉ”，“ｕ”，“ｅ”という音素を単位とした４つの連続分布ＨＭＭがある場合について説明する。連結学習のために、／あい／（“ａ
ｉ”），／あう／（“ａｕ”）という音声が与えられた場合、音素ＨＭＭ“ａ”と“ｉ”とを連結し、“ａｉ”
のモデルを作り、音素ＨＭＭ“ａ”と音素ＨＭＭ“ｉ”
を学習し、音素ＨＭＭ“ａ”と“ｕ”を連結し、“ａ
ｕ”のモデルを作り、音素ＨＭＭ“ａ”と音素ＨＭＭ
“ｕ”を学習する。

【０００３】

【発明が解決しようとする課題】ところで、ＨＭＭの学習において、不十分な学習資料しか得られない場合、未学習モデルが存在していたり、学習されたモデルの推定誤差が生じ、再学習の枠組では解決できない問題がある。たとえば、前述の例をとれば、“ｅ”という音声が存在しなければ、音素ＨＭＭ“ｅ”を学習することができない。

【０００４】また、学習できた音素ＨＭＭ“ａ”，
“ｉ”，“ｕ”において音声は各発声ごとにばらつきをもっているので、１音素当り１，２回の発声ではこのようなばらつきを表現しきれず、与えられた学習資料特有の特徴を学習してしまい、モデルの推定誤差を生じてしまうという欠点がある。

【０００５】それゆえに、この発明の主たる目的は、少量の情報でも高精度に学習をできるような隠れマルコフモデル学習方法を提供することである。

【０００６】

【課題を解決するための手段】請求項１に係る発明は連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習ＨＭＭを学習することにより再学習ＨＭＭを作成し、既学習ＨＭＭ
のパラメータとそのパラメータに対応する再学習ＨＭＭ
のパラメータの差分を求め、修正すべきパラメータに関する差分を、そのパラメータに関する差分と他のパラメータに関する差分の一部またはすべてを用いて修正し、
修正された差分を用いて、既学習ＨＭＭのパラメータを移動することによりＨＭＭを再学習する。

【０００７】請求項７に係る発明は、連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習ＨＭＭを学習して再学習Ｈ
ＭＭを求める場合に、学習のための入力情報が既学習Ｈ
ＭＭのすべてには対応せず、一部の既学習ＨＭＭが学習されなかった場合は既学習ＨＭＭのパラメータとそのパラメータに対応する再学習ＨＭＭのパラメータの差分を求め、求めた差分の一部またはすべてを用いて学習されなかったＨＭＭのパラメータに関する差分を推定した後、修正すべきパラメータに関する差分を、そのパラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正し、修正された差分を用いて、既学習ＨＭＭのパラメータを移動することによりＨ
ＭＭを再学習する。

【０００８】

【作用】この発明に係る隠れマルコフモデル学習方法は、連結学習前後のＨＭＭの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったＨＭＭの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったＨＭＭの平均ベクトルを推定できる。このステップで得られたモデルは、十分な適応個数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れ、平滑化を行なうことにより、そのような推定誤差の吸収を行なう。

【０００９】

【実施例】図１はこの発明の一実施例の電気的構成を説明するための概略ブロック図である。図１を参照して、
この発明による隠れマルコフモデル学習方法を実行するために、アンプ１とローパスフィルタ２とＡ／Ｄ変換器３と処理装置４とが設けられる。アンプ１は入力された音声信号を増幅し、ローパスフィルタ２は増幅された音声信号から繰返し雑音を除去する。Ａ／Ｄ変換器３は音声信号を１２ｋＨｚのサンプリング信号により、１６ビットのデジタル信号に変換する。処理装置４はコンピュータ５と磁気ディスク６と端末類７とプリンタ８とを含む。コンピュータ５はＡ／Ｄ変換器３から入力された音声のデジタル信号に基づいて、後述の図２および図３に示した手法を用いて隠れマルコフモデル学習を行なう。

【００１０】図２および図３はこの発明の一実施例の動作を説明するためのフロー図である。

【００１１】次に、図１ないし図３を参照して、この発明の一実施例の動作について説明する。未知話者の入力音声は図１に示したアンプ１で増幅され、ローパスフィルタ２によって増幅された音声信号から繰返し雑音が除去され、Ａ／Ｄ変換器３でデジタル化され、処理装置４
に与えられる。処理装置４は図２および図３に示すフロー図に基づく処理を行なう。この発明では、未知話者の適応用音声の発話内容が既知である条件下において、図２に示すＨＭＭの連結学習による移動ベクトルの推定と、図３に示す平滑化の処理が行なわれ、最終的に平滑化移動ベクトルを用いて再学習モデルを求める。

【００１２】まず、図２に示すＨＭＭの連結学習と移動ベクトルの推定および移動について説明する。この動作は、連結学習前後のＨＭＭの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったＨＭＭの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動する。ステップＳＰ１において、標準話者の音素ＨＭＭを未知話者の音素ＨＭＭの初期モデルとする。ステップＳ
Ｐ２において、未知話者の入力音声の音素系列に対応するように未知話者のＨＭＭを連結し、ＨＭＭの遷移確率，出現確率（平均，分散）および分岐確率のうち平均のみを連結学習する。

【００１３】ステップＳＰ３において、未知話者の全音素ＨＭＭのガウス分布の平均ベクトルの組（Ｃ ^I ＝（ｃ
^I ₁ ，…，ｃ ^I _K ），Ｋ：すべてのガウス分布の個数）
のうち、学習されたｋ番目の平均ベクトルｃ ^I _k （ｋ∈
Ｋ ₁ ，Ｋ ₁ ：学習音声中に存在した音素ＨＭＭの平均ベクトルの番号の集合）と、標準話者のガウス分布の平均ベクトルの組Ｃ ^R中で対応するｃ ^R _kより、平均ベクトルの差分ベクトルｖ _kを求め、これを話者空間の移動ベクトルとする。

【００１４】ｖ _k ＝ｃ ^I _k −ｃ ^R _k （ｋ∈Ｋ ₁ ）平均ベクトルの組Ｃ ^Iのうち、学習音声中に存在しなかった音素ＨＭＭに属する平均ベクトルｃ ^I _n （ｎ∈
Ｋ ₂ ，ｋ ₂ ：学習音声中に存在しなかった音素ＨＭＭの平均ベクトルの番号の集合）を学習されたｋ番目（ｋ∈
Ｋ ₁ ）の移動ベクトルｖ _kおよびｃ ^R _nとｃ ^R _k間のファジィ級関数μ _n ， _kから求めた移動ベクトルｖ _nを用いてｃ ^I _nに移動する。

【００１５】

【数１】

【００１６】上述のステップＳＰ３およびＳＰ４について、図４を参照してより詳細に説明する。図４はすべてのＨＭＭに含まれるガウス分布の合計が４個である場合について示したものであり、連結学習により、ｃ ^R ₁ ，
ｃ ^R ₂ ，ｃ ^R ₃が、ｃ ^I ₁ ，ｃ ^I ₂ ，ｃ ^I ₃にそれぞれ移動し、ｃ ^R ₄ （図４ではｃ ^R _nと表示）が学習されなかった場合を示している。この場合、ｃ ^I _nはｃ ^R ₁ ，
ｃ ^R ₂ ，ｃ ^R ₃と移動ベクトルｖ ₁ ，ｖ ₂ ，ｖ ₃と、これに対応するμ _n1 ，μ _n2 ，μ _n3を用いて計算される。

【００１７】次に、図３を参照して、平滑化について説明する。前述の図２に示したステップＳＰ１〜ＳＰ４によって得られたモデルは、十分な適応語数が得られていない場合に推定誤差を含んでいる。そこで、図３に示したステップＳＰ５〜ＳＰ８において、話者空間を移動するための移動ベクトルに連続性の拘束条件を入れ、次に述べる平滑化を行なうことにより推定誤差の吸収を行なう。まず、ステップＳＰ５において、ｃ ^R _kのｋ近傍にあるｃ ^R _mとｃ ^R _kとの間のファジィ級関数μ _k ，
_m （ｋ≠ｍ）を求める。次に、ステップＳＰ６において、ｃ ^I _kとｋ近傍にあるｍ番目の平均ベクトルｃ ^I _m
とｃ ^R _mの差分ベクトルｖ _mを求める。ステップＳＰ７
において、μ _k ， _mを用いて、差分ベクトルｖ _mに平滑化を行ない、平滑化移動ベクトルｖ ^S _kを求める。

【００１８】

【数２】

【００１９】ここで、Ｎ（ｋ）はｃ ^R _kのｋ近傍にある平均ベクトルの番号を示し、α _mはｖ _mの信頼度を与える定数であり、ｋ＝ｍの場合、μ _k ， _m ＝１とする。

【００２０】次に、ステップＳＰ８において、ｖ ^S _kとｃ ^R _kを用いて、ｃ ^R _kを未知話者へ適応する。

【００２１】ｃ ^S _k ＝ｃ ^R _k ＋ｖ ^S _kここで、ｃ ^S _kは、平滑化を行なって得られた話者適応後の音素ＨＭＭのガウス分布の平均ベクトルである。この発明では、α _m ＝１（ｍ∈Ｋ ₁ ）、α _m ＝０（ｍＫ
₂ ）とした。また、μ _k ， _m ：ｋ≠ｍは、ｍ∈Ｋ ₁であるｃ ^R _mすべてを用いて求めた。

【００２２】これらの処理を図５を参照して説明する。
図５はすべてのＨＭＭに含まれるガウス分布の合計が４
個である場合についての図である。平滑化までの処理により、ｃ ^R ₁ ，ｃ ^R ₂ ，ｃ ^R ₃ ，ｃ ^R ₄がｃ ^I ₁ ，ｃ ^I
₂ ，ｃ ^I ₃ ，ｃ ^I ₄に移動したものとする。ｃ ^I ₄は図５ではｃ ^I _kと表示してある。今、ｃ ^I _kに対応する移動ベクトルｖ _kを考える。移動ベクトルｖ _kは、ｖ ₁ ，
ｖ ₂ ，ｖ ₃ ，ｖ _kとそれぞれに対応するファジィ級関数（ｍｅｍｂｅｒｓｈｉｐｆｕｎｃｔｉｏｎ）と各移動ベクトルに対する信頼性の重みα _mにより平滑化されたｖ ^S _kが計算される。

【００２３】上述の処理によるこの発明の一実施例の効果について説明する。移動ベクトルの推定時のｋ近傍として、連結学習で求められた平均ベクトルすべてを使用し、ファジィ級関数を計算する場合のファジネスは、
１．２〜２．０と変化させた。学習に５０単語を用いた場合、表１に示したように、ファジネスの制御により認識率が変化しており、ファジネスにより平滑化の強度を制御でき、この発明の一実施例の効果が分かる。

【００２４】

【表１】

【００２５】さらに、表２より、学習単語が少なく連結学習だけでは標準話者のＨＭＭがほとんど再学習されない５単語の学習において、連結学習と内外挿を用いた認識率（４４．９％）は、連結学習のみを用いた場合の認識率（４４．３％）を上回っており、内外挿が有効であることが分かる。

【００２６】また、学習に５、５０、２１６単語を用いたどの場合も、“連結学習と移動ベクトルの推定および平滑化を行なった場合”の認識率（５単語の場合（５
０．７％）、５０単語の場合（７１．８％）、２１６単語の場合（８２．１％））は、“連結学習と移動ベクトルの推定を行ない平滑化を行なわない場合”の認識率を上回っており、平滑化を用いたこの発明の一実施例の効果が分かる。

【００２７】

【表２】

【００２８】

【発明の効果】以上のように、この発明によれば、連結学習前後のＨＭＭの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったＨＭＭの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったＨＭＭの平均ベクトルを推定できる。このような処理で得られたモデルは十分な適応語数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れて平滑化を行なうことにより、そのような推定誤差を吸収することができる。

【図面の簡単な説明】

【図１】この発明の一実施例の電気的構成を示す概略ブロック図である。

【図２】この発明の一実施例の動作を説明するためのフロー図であり、ＨＭＭの連結学習と移動ベクトルの推定および移動のための処理を示す。

【図３】この発明の一実施例による平均化の処理を説明するためのフロー図である。

【図４】この発明の一実施例による移動ベクトルの推定の概念を説明するための図である。

【図５】この発明の一実施例による平均化の概念を説明するための図である。

【符号の説明】

１アンプ２ローパスフィルタ３Ａ／Ｄ変換器４処理装置５コンピュータ６磁気ディスク７端末類８プリンタ

标题	发布/更新时间	阅读量
基于深度学习的VR智能语音交互英语方法	2020-05-11	297
用于改善非母语者语音的语音识别的方法	2020-05-12	926
自动混音装置	2020-05-12	838
基于WiFi的船舶驾驶室人员值班行为识别方法及系统	2020-05-11	437
一种基于隐马尔可夫模型的部分可靠视频传输方法	2020-05-11	705
一种行为分析方法及装置	2020-05-14	884
序列标注方法、系统、计算机设备及计算机可读存储介质	2020-05-13	246
一种三维手势识别方法及装置	2020-05-13	752
一种基于语音控制的测量仪器测试系统及方法	2020-05-14	111
用于预测实体行为的系统和方法	2020-05-14	74

Hidden markov model learning method

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：