专利汇可以提供Hidden markov model learning method专利检索,专利查询,专利分析的服务。并且PURPOSE: To provide the hidden Markov model learning method which enables highly precise learning even with a small amount of information.
CONSTITUTION: The phoneme HMM of a standard speaker is regarded as the initial model of the phoneme HMM of an unknown speaker (SP1); and the HMM of the unknown speaker is coupled so as to correspond to the phoneme series of the input speech of the unknown speaker and only the mean values of the transition probability, appearance probability, and distribution probability of the HMM are coupled and learnt (SP2). The difference in mean vector between HMMs before and after the coupling and learning is regarded as a moving vector and the moving vector of the mean vector of an unlearnt HMM is prescribed (SW3). The mean vector of the unlearnt HMM is estimated by moving the mean vector (SP4). As for the model which is thus obtained, the restriction conditions of continuity is included in the moving vector for movement in a speaker space and smoothing is performed to absorb an estimation error.
COPYRIGHT: (C)1994,JPO&Japio,下面是Hidden markov model learning method专利的具体信息内容。
【0001】
【産業上の利用分野】この発明は隠れマルコフモデル学習方法に関し、特に、音声認識分野において、連続分布型隠れマルコフモデル(Hidden Markov
Model:HMM)の高精度の学習を少量の情報により可能にするような隠れマルコフモデル学習方法に関する。
【0002】
【従来の技術】“a”,“i”,“u”,“e”という音素を単位とした4つの連続分布HMMがある場合について説明する。 連結学習のために、/あい/(“a
i”),/あう/(“au”)という音声が与えられた場合、音素HMM“a”と“i”とを連結し、“ai”
のモデルを作り、音素HMM“a”と音素HMM“i”
を学習し、音素HMM“a”と“u”を連結し、“a
u”のモデルを作り、音素HMM“a”と音素HMM
“u”を学習する。
【0003】
【発明が解決しようとする課題】ところで、HMMの学習において、不十分な学習資料しか得られない場合、未学習モデルが存在していたり、学習されたモデルの推定誤差が生じ、再学習の枠組では解決できない問題がある。 たとえば、前述の例をとれば、“e”という音声が存在しなければ、音素HMM“e”を学習することができない。
【0004】また、学習できた音素HMM“a”,
“i”,“u”において音声は各発声ごとにばらつきをもっているので、1音素当り1,2回の発声ではこのようなばらつきを表現しきれず、与えられた学習資料特有の特徴を学習してしまい、モデルの推定誤差を生じてしまうという欠点がある。
【0005】それゆえに、この発明の主たる目的は、少量の情報でも高精度に学習をできるような隠れマルコフモデル学習方法を提供することである。
【0006】
【課題を解決するための手段】請求項1に係る発明は連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習HMMを学習することにより再学習HMMを作成し、既学習HMM
のパラメータとそのパラメータに対応する再学習HMM
のパラメータの差分を求め、修正すべきパラメータに関する差分を、そのパラメータに関する差分と他のパラメータに関する差分の一部またはすべてを用いて修正し、
修正された差分を用いて、既学習HMMのパラメータを移動することによりHMMを再学習する。
【0007】請求項7に係る発明は、連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習HMMを学習して再学習H
MMを求める場合に、学習のための入力情報が既学習H
MMのすべてには対応せず、一部の既学習HMMが学習されなかった場合は既学習HMMのパラメータとそのパラメータに対応する再学習HMMのパラメータの差分を求め、求めた差分の一部またはすべてを用いて学習されなかったHMMのパラメータに関する差分を推定した後、修正すべきパラメータに関する差分を、そのパラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正し、修正された差分を用いて、既学習HMMのパラメータを移動することによりH
MMを再学習する。
【0008】
【作用】この発明に係る隠れマルコフモデル学習方法は、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったHMMの平均ベクトルを推定できる。 このステップで得られたモデルは、十分な適応個数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れ、平滑化を行なうことにより、そのような推定誤差の吸収を行なう。
【0009】
【実施例】図1はこの発明の一実施例の電気的構成を説明するための概略ブロック図である。 図1を参照して、
この発明による隠れマルコフモデル学習方法を実行するために、アンプ1とローパスフィルタ2とA/D変換器3と処理装置4とが設けられる。 アンプ1は入力された音声信号を増幅し、ローパスフィルタ2は増幅された音声信号から繰返し雑音を除去する。 A/D変換器3は音声信号を12kHzのサンプリング信号により、16ビットのデジタル信号に変換する。 処理装置4はコンピュータ5と磁気ディスク6と端末類7とプリンタ8とを含む。 コンピュータ5はA/D変換器3から入力された音声のデジタル信号に基づいて、後述の図2および図3に示した手法を用いて隠れマルコフモデル学習を行なう。
【0010】図2および図3はこの発明の一実施例の動作を説明するためのフロー図である。
【0011】次に、図1ないし図3を参照して、この発明の一実施例の動作について説明する。 未知話者の入力音声は図1に示したアンプ1で増幅され、ローパスフィルタ2によって増幅された音声信号から繰返し雑音が除去され、A/D変換器3でデジタル化され、処理装置4
に与えられる。 処理装置4は図2および図3に示すフロー図に基づく処理を行なう。 この発明では、未知話者の適応用音声の発話内容が既知である条件下において、図2に示すHMMの連結学習による移動ベクトルの推定と、図3に示す平滑化の処理が行なわれ、最終的に平滑化移動ベクトルを用いて再学習モデルを求める。
【0012】まず、図2に示すHMMの連結学習と移動ベクトルの推定および移動について説明する。 この動作は、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動する。 ステップSP1において、標準話者の音素HMMを未知話者の音素HMMの初期モデルとする。 ステップS
P2において、未知話者の入力音声の音素系列に対応するように未知話者のHMMを連結し、HMMの遷移確率,出現確率(平均,分散)および分岐確率のうち平均のみを連結学習する。
【0013】ステップSP3において、未知話者の全音素HMMのガウス分布の平均ベクトルの組(C I =(c
I 1 ,…,c I K ),K:すべてのガウス分布の個数)
のうち、学習されたk番目の平均ベクトルc I k (k∈
K 1 ,K 1 :学習音声中に存在した音素HMMの平均ベクトルの番号の集合)と、標準話者のガウス分布の平均ベクトルの組C R中で対応するc R kより、平均ベクトルの差分ベクトルv kを求め、これを話者空間の移動ベクトルとする。
【0014】v k =c I k −c R k (k∈K 1 ) 平均ベクトルの組C Iのうち、学習音声中に存在しなかった音素HMMに属する平均ベクトルc I n (n∈
K 2 ,k 2 :学習音声中に存在しなかった音素HMMの平均ベクトルの番号の集合)を学習されたk番目(k∈
K 1 )の移動ベクトルv kおよびc R nとc R k間のファジィ級関数μ n , kから求めた移動ベクトルv nを用いてc I nに移動する。
【0015】
【数1】
【0016】上述のステップSP3およびSP4について、図4を参照してより詳細に説明する。 図4はすべてのHMMに含まれるガウス分布の合計が4個である場合について示したものであり、連結学習により、c R 1 ,
c R 2 ,c R 3が、c I 1 ,c I 2 ,c I 3にそれぞれ移動し、c R 4 (図4ではc R nと表示)が学習されなかった場合を示している。 この場合、c I nはc R 1 ,
c R 2 ,c R 3と移動ベクトルv 1 ,v 2 ,v 3と、これに対応するμ n1 ,μ n2 ,μ n3を用いて計算される。
【0017】次に、図3を参照して、平滑化について説明する。 前述の図2に示したステップSP1〜SP4によって得られたモデルは、十分な適応語数が得られていない場合に推定誤差を含んでいる。 そこで、図3に示したステップSP5〜SP8において、話者空間を移動するための移動ベクトルに連続性の拘束条件を入れ、次に述べる平滑化を行なうことにより推定誤差の吸収を行なう。 まず、ステップSP5において、c R kのk近傍にあるc R mとc R kとの間のファジィ級関数μ k ,
m (k≠m)を求める。 次に、ステップSP6において、c I kとk近傍にあるm番目の平均ベクトルc I m
とc R mの差分ベクトルv mを求める。 ステップSP7
において、μ k , mを用いて、差分ベクトルv mに平滑化を行ない、平滑化移動ベクトルv S kを求める。
【0018】
【数2】
【0019】ここで、N(k)はc R kのk近傍にある平均ベクトルの番号を示し、α mはv mの信頼度を与える定数であり、k=mの場合、μ k , m =1とする。
【0020】次に、ステップSP8において、v S kとc R kを用いて、c R kを未知話者へ適応する。
【0021】c S k =c R k +v S kここで、c S kは、平滑化を行なって得られた話者適応後の音素HMMのガウス分布の平均ベクトルである。 この発明では、α m =1(m∈K 1 )、α m =0(m K
2 )とした。 また、μ k , m :k≠mは、m∈K 1であるc R mすべてを用いて求めた。
【0022】これらの処理を図5を参照して説明する。
図5はすべてのHMMに含まれるガウス分布の合計が4
個である場合についての図である。 平滑化までの処理により、c R 1 ,c R 2 ,c R 3 ,c R 4がc I 1 ,c I
2 ,c I 3 ,c I 4に移動したものとする。 c I 4は図5ではc I kと表示してある。 今、c I kに対応する移動ベクトルv kを考える。 移動ベクトルv kは、v 1 ,
v 2 ,v 3 ,v kとそれぞれに対応するファジィ級関数(membership function)と各移動ベクトルに対する信頼性の重みα mにより平滑化されたv S kが計算される。
【0023】上述の処理によるこの発明の一実施例の効果について説明する。 移動ベクトルの推定時のk近傍として、連結学習で求められた平均ベクトルすべてを使用し、ファジィ級関数を計算する場合のファジネスは、
1.2〜2.0と変化させた。 学習に50単語を用いた場合、表1に示したように、ファジネスの制御により認識率が変化しており、ファジネスにより平滑化の強度を制御でき、この発明の一実施例の効果が分かる。
【0024】
【表1】
【0025】さらに、表2より、学習単語が少なく連結学習だけでは標準話者のHMMがほとんど再学習されない5単語の学習において、連結学習と内外挿を用いた認識率(44.9%)は、連結学習のみを用いた場合の認識率(44.3%)を上回っており、内外挿が有効であることが分かる。
【0026】また、学習に5、50、216単語を用いたどの場合も、“連結学習と移動ベクトルの推定および平滑化を行なった場合”の認識率(5単語の場合(5
0.7%)、50単語の場合(71.8%)、216単語の場合(82.1%))は、“連結学習と移動ベクトルの推定を行ない平滑化を行なわない場合”の認識率を上回っており、平滑化を用いたこの発明の一実施例の効果が分かる。
【0027】
【表2】
【0028】
【発明の効果】以上のように、この発明によれば、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったHMMの平均ベクトルを推定できる。 このような処理で得られたモデルは十分な適応語数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れて平滑化を行なうことにより、そのような推定誤差を吸収することができる。
【図1】この発明の一実施例の電気的構成を示す概略ブロック図である。
【図2】この発明の一実施例の動作を説明するためのフロー図であり、HMMの連結学習と移動ベクトルの推定および移動のための処理を示す。
【図3】この発明の一実施例による平均化の処理を説明するためのフロー図である。
【図4】この発明の一実施例による移動ベクトルの推定の概念を説明するための図である。
【図5】この発明の一実施例による平均化の概念を説明するための図である。
1 アンプ 2 ローパスフィルタ 3 A/D変換器 4 処理装置 5 コンピュータ 6 磁気ディスク 7 端末類 8 プリンタ
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于深度学习的VR智能语音交互英语方法 | 2020-05-11 | 297 |
用于改善非母语者语音的语音识别的方法 | 2020-05-12 | 926 |
自动混音装置 | 2020-05-12 | 838 |
基于WiFi的船舶驾驶室人员值班行为识别方法及系统 | 2020-05-11 | 437 |
一种基于隐马尔可夫模型的部分可靠视频传输方法 | 2020-05-11 | 705 |
一种行为分析方法及装置 | 2020-05-14 | 884 |
序列标注方法、系统、计算机设备及计算机可读存储介质 | 2020-05-13 | 246 |
一种三维手势识别方法及装置 | 2020-05-13 | 752 |
一种基于语音控制的测量仪器测试系统及方法 | 2020-05-14 | 111 |
用于预测实体行为的系统和方法 | 2020-05-14 | 74 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。