首页 / 专利库 / 数学与统计 / 隐马尔可夫模型 / Hidden markov model learning method

Hidden markov model learning method

阅读:674发布:2021-08-19

专利汇可以提供Hidden markov model learning method专利检索,专利查询,专利分析的服务。并且PURPOSE: To provide the hidden Markov model learning method which enables highly precise learning even with a small amount of information.
CONSTITUTION: The phoneme HMM of a standard speaker is regarded as the initial model of the phoneme HMM of an unknown speaker (SP1); and the HMM of the unknown speaker is coupled so as to correspond to the phoneme series of the input speech of the unknown speaker and only the mean values of the transition probability, appearance probability, and distribution probability of the HMM are coupled and learnt (SP2). The difference in mean vector between HMMs before and after the coupling and learning is regarded as a moving vector and the moving vector of the mean vector of an unlearnt HMM is prescribed (SW3). The mean vector of the unlearnt HMM is estimated by moving the mean vector (SP4). As for the model which is thus obtained, the restriction conditions of continuity is included in the moving vector for movement in a speaker space and smoothing is performed to absorb an estimation error.
COPYRIGHT: (C)1994,JPO&Japio,下面是Hidden markov model learning method专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 連続分布型隠れマルコフモデル(HM
    M)を用いて音声を認識する方法において、 入力された音声または音声の分析結果を用いて前記入力された情報を表現するように既学習HMMを学習することにより再学習HMMを作成し、 前記既学習HMMのパラメータと当該パラメータに対応する再学習HMMのパラメータの差分を求め、修正すべきパラメータに関する差分を、当該パラメータに関する差分と他のパラメータに関する差分の一部またはすべてを用いて修正し、 修正された差分を用いて、既学習HMMのパラメータを移動することによりHMMを再学習する隠れマルコフモデル学習方法。
  • 【請求項2】 前記入力された音声または音声の分析結果を用いて前記入力された情報を表現するように既学習HMMを学習する場合に、音声の発声内容に対応するように、係る既学習用HMMを連結することにより、既学習HMMを学習する連結学習の手法を用いることを特徴とする、請求項1の隠れマルコフモデル学習方法。
  • 【請求項3】 前記修正すべきパラメータに関する差分を、当該パラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正する場合に、当該パラメータに関する差分と他のパラメータに関する差分の重み付け平均を行なうことにより求めることを特徴とする、請求項1または2の隠れマルコフモデル学習方法。
  • 【請求項4】 前記修正すべきパラメータに関する差分を修正するために、既学習HMMの当該パラメータの値と近い値を有している任意個数のパラメータに関する差分のみを用いることを特徴とする、請求項1〜3のいずれかの隠れマルコフモデル学習方法。
  • 【請求項5】 前記重みの値をファジィ級関数値に基づき決定することを特徴とする、請求項3の隠れマルコフモデル学習方法。
  • 【請求項6】 前記既学習HMMを作成するために使用した音声と、前記再学習に用いる入力音声とに異なる話者の音声を用いることにより、話者適応を実現することを特徴とする、請求項1または2の隠れマルコフモデル学習方法。
  • 【請求項7】 連続分布型隠れマルコフモデルを用いて音声を認識する方法において、 入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習HMMを学習して再学習HMMを求める場合に、学習のための入力情報が既学習HMMのすべてには対応せず、一部の既学習HMMが学習されなかった場合は既学習HMMのパラメータと当該パラメータに対応する再学習HMMのパラメータの差分を求め、 前記求めた差分の一部またはすべてを用いて学習されなかったHMMのパラメータに関する差分を推定した後、
    修正すべきパラメータに関する差分を、当該パラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正し、 前記修正された差分を用いて、既学習HMMのパラメータを移動することによりHMMを再学習することを特徴とする、隠れマルコフモデル学習方法。
  • 【請求項8】 前記入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習HM
    Mを学習する場合に、音声の発声内容に対応するように、係る既学習HMMを連結することにより、既学習H
    MMを学習する連結学習の手法を用いることを特徴とする、請求項7の隠れマルコフモデル学習方法。
  • 【請求項9】 前記修正すべきパラメータに関する差分を、当該パラメータに関する差分と、付加パラメータに関する差分の一部またはすべてを用いて修正する場合に、当該パラメータに関する差分と他のパラメータに関する差分の重み付き平均を行なうことにより求めることを特徴とする、請求項6または7の隠れマルコフモデル学習方法。
  • 【請求項10】 前記修正すべきパラメータに関する差分を修正するために、既学習HMMの当該パラメータの値と近い値を有している任意個数のパラメータに関する差分のみを用いることを特徴とする、請求項7〜9のいずれかの隠れマルコフモデル学習方法。
  • 【請求項11】 前記重みの値をファジィ級関数値に基づき決定することを特徴とする、請求項9の隠れマルコフモデル学習方法。
  • 【請求項12】 前記既学習HMMを作成するために使用した音声と、再学習に用いる入力音声とに異なる話者の音声を用いることにより、話者適応を実現することを特徴とする、請求項7または8の隠れマルコフモデル学習方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】この発明は隠れマルコフモデル学習方法に関し、特に、音声認識分野において、連続分布型隠れマルコフモデル(Hidden Markov
    Model:HMM)の高精度の学習を少量の情報により可能にするような隠れマルコフモデル学習方法に関する。

    【0002】

    【従来の技術】“a”,“i”,“u”,“e”という音素を単位とした4つの連続分布HMMがある場合について説明する。 連結学習のために、/あい/(“a
    i”),/あう/(“au”)という音声が与えられた場合、音素HMM“a”と“i”とを連結し、“ai”
    のモデルを作り、音素HMM“a”と音素HMM“i”
    を学習し、音素HMM“a”と“u”を連結し、“a
    u”のモデルを作り、音素HMM“a”と音素HMM
    “u”を学習する。

    【0003】

    【発明が解決しようとする課題】ところで、HMMの学習において、不十分な学習資料しか得られない場合、未学習モデルが存在していたり、学習されたモデルの推定誤差が生じ、再学習の枠組では解決できない問題がある。 たとえば、前述の例をとれば、“e”という音声が存在しなければ、音素HMM“e”を学習することができない。

    【0004】また、学習できた音素HMM“a”,
    “i”,“u”において音声は各発声ごとにばらつきをもっているので、1音素当り1,2回の発声ではこのようなばらつきを表現しきれず、与えられた学習資料特有の特徴を学習してしまい、モデルの推定誤差を生じてしまうという欠点がある。

    【0005】それゆえに、この発明の主たる目的は、少量の情報でも高精度に学習をできるような隠れマルコフモデル学習方法を提供することである。

    【0006】

    【課題を解決するための手段】請求項1に係る発明は連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入された音声または音声の分析結果を用いて入力された情報を表現するように既学習HMMを学習することにより再学習HMMを作成し、既学習HMM
    のパラメータとそのパラメータに対応する再学習HMM
    のパラメータの差分を求め、修正すべきパラメータに関する差分を、そのパラメータに関する差分と他のパラメータに関する差分の一部またはすべてを用いて修正し、
    修正された差分を用いて、既学習HMMのパラメータを移動することによりHMMを再学習する。

    【0007】請求項7に係る発明は、連続分布型隠れマルコフモデルを用いて音声を認識する方法であって、入力された音声または音声の分析結果を用いて入力された情報を表現するように既学習HMMを学習して再学習H
    MMを求める場合に、学習のための入力情報が既学習H
    MMのすべてには対応せず、一部の既学習HMMが学習されなかった場合は既学習HMMのパラメータとそのパラメータに対応する再学習HMMのパラメータの差分を求め、求めた差分の一部またはすべてを用いて学習されなかったHMMのパラメータに関する差分を推定した後、修正すべきパラメータに関する差分を、そのパラメータに関する差分と、他のパラメータに関する差分の一部またはすべてを用いて修正し、修正された差分を用いて、既学習HMMのパラメータを移動することによりH
    MMを再学習する。

    【0008】

    【作用】この発明に係る隠れマルコフモデル学習方法は、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったHMMの平均ベクトルを推定できる。 このステップで得られたモデルは、十分な適応個数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れ、平滑化を行なうことにより、そのような推定誤差の吸収を行なう。

    【0009】

    【実施例】図1はこの発明の一実施例の電気的構成を説明するための概略ブロック図である。 図1を参照して、
    この発明による隠れマルコフモデル学習方法を実行するために、アンプ1とローパスフィルタ2とA/D変換器3と処理装置4とが設けられる。 アンプ1は入力された音声信号を増幅し、ローパスフィルタ2は増幅された音声信号から繰返し雑音を除去する。 A/D変換器3は音声信号を12kHzのサンプリング信号により、16ビットのデジタル信号に変換する。 処理装置4はコンピュータ5と磁気ディスク6と端末類7とプリンタ8とを含む。 コンピュータ5はA/D変換器3から入力された音声のデジタル信号に基づいて、後述の図2および図3に示した手法を用いて隠れマルコフモデル学習を行なう。

    【0010】図2および図3はこの発明の一実施例の動作を説明するためのフロー図である。

    【0011】次に、図1ないし図3を参照して、この発明の一実施例の動作について説明する。 未知話者の入力音声は図1に示したアンプ1で増幅され、ローパスフィルタ2によって増幅された音声信号から繰返し雑音が除去され、A/D変換器3でデジタル化され、処理装置4
    に与えられる。 処理装置4は図2および図3に示すフロー図に基づく処理を行なう。 この発明では、未知話者の適応用音声の発話内容が既知である条件下において、図2に示すHMMの連結学習による移動ベクトルの推定と、図3に示す平滑化の処理が行なわれ、最終的に平滑化移動ベクトルを用いて再学習モデルを求める。

    【0012】まず、図2に示すHMMの連結学習と移動ベクトルの推定および移動について説明する。 この動作は、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動する。 ステップSP1において、標準話者の音素HMMを未知話者の音素HMMの初期モデルとする。 ステップS
    P2において、未知話者の入力音声の音素系列に対応するように未知話者のHMMを連結し、HMMの遷移確率,出現確率(平均,分散)および分岐確率のうち平均のみを連結学習する。

    【0013】ステップSP3において、未知話者の全音素HMMのガウス分布の平均ベクトルの組(C I =(c
    I 1 ,…,c I K ),K:すべてのガウス分布の個数)
    のうち、学習されたk番目の平均ベクトルc I k (k∈
    1 ,K 1 :学習音声中に存在した音素HMMの平均ベクトルの番号の集合)と、標準話者のガウス分布の平均ベクトルの組C R中で対応するc R kより、平均ベクトルの差分ベクトルv kを求め、これを話者空間の移動ベクトルとする。

    【0014】v k =c I k −c R k (k∈K 1 ) 平均ベクトルの組C Iのうち、学習音声中に存在しなかった音素HMMに属する平均ベクトルc I n (n∈
    2 ,k 2 :学習音声中に存在しなかった音素HMMの平均ベクトルの番号の集合)を学習されたk番目(k∈
    1 )の移動ベクトルv kおよびc R nとc R k間のファジィ級関数μ nkから求めた移動ベクトルv nを用いてc I nに移動する。

    【0015】

    【数1】

    【0016】上述のステップSP3およびSP4について、図4を参照してより詳細に説明する。 図4はすべてのHMMに含まれるガウス分布の合計が4個である場合について示したものであり、連結学習により、c R 1
    R 2 ,c R 3が、c I 1 ,c I 2 ,c I 3にそれぞれ移動し、c R 4 (図4ではc R nと表示)が学習されなかった場合を示している。 この場合、c I nはc R 1
    R 2 ,c R 3と移動ベクトルv 1 ,v 2 ,v 3と、これに対応するμ n1 ,μ n2 ,μ n3を用いて計算される。

    【0017】次に、図3を参照して、平滑化について説明する。 前述の図2に示したステップSP1〜SP4によって得られたモデルは、十分な適応語数が得られていない場合に推定誤差を含んでいる。 そこで、図3に示したステップSP5〜SP8において、話者空間を移動するための移動ベクトルに連続性の拘束条件を入れ、次に述べる平滑化を行なうことにより推定誤差の吸収を行なう。 まず、ステップSP5において、c R kのk近傍にあるc R mとc R kとの間のファジィ級関数μ k
    m (k≠m)を求める。 次に、ステップSP6において、c I kとk近傍にあるm番目の平均ベクトルc I m
    とc R mの差分ベクトルv mを求める。 ステップSP7
    において、μ kmを用いて、差分ベクトルv mに平滑化を行ない、平滑化移動ベクトルv S kを求める。

    【0018】

    【数2】

    【0019】ここで、N(k)はc R kのk近傍にある平均ベクトルの番号を示し、α mはv mの信頼度を与える定数であり、k=mの場合、μ km =1とする。

    【0020】次に、ステップSP8において、v S kとc R kを用いて、c R kを未知話者へ適応する。

    【0021】c S k =c R k +v S kここで、c S kは、平滑化を行なって得られた話者適応後の音素HMMのガウス分布の平均ベクトルである。 この発明では、α m =1(m∈K 1 )、α m =0(m K
    2 )とした。 また、μ km :k≠mは、m∈K 1であるc R mすべてを用いて求めた。

    【0022】これらの処理を図5を参照して説明する。
    図5はすべてのHMMに含まれるガウス分布の合計が4
    個である場合についての図である。 平滑化までの処理により、c R 1 ,c R 2 ,c R 3 ,c R 4がc I 1 ,c I
    2 ,c I 3 ,c I 4に移動したものとする。 c I 4は図5ではc I kと表示してある。 今、c I kに対応する移動ベクトルv kを考える。 移動ベクトルv kは、v 1
    2 ,v 3 ,v kとそれぞれに対応するファジィ級関数(membership function)と各移動ベクトルに対する信頼性の重みα mにより平滑化されたv S kが計算される。

    【0023】上述の処理によるこの発明の一実施例の効果について説明する。 移動ベクトルの推定時のk近傍として、連結学習で求められた平均ベクトルすべてを使用し、ファジィ級関数を計算する場合のファジネスは、
    1.2〜2.0と変化させた。 学習に50単語を用いた場合、表1に示したように、ファジネスの制御により認識率が変化しており、ファジネスにより平滑化の強度を制御でき、この発明の一実施例の効果が分かる。

    【0024】

    【表1】

    【0025】さらに、表2より、学習単語が少なく連結学習だけでは標準話者のHMMがほとんど再学習されない5単語の学習において、連結学習と内外挿を用いた認識率(44.9%)は、連結学習のみを用いた場合の認識率(44.3%)を上回っており、内外挿が有効であることが分かる。

    【0026】また、学習に5、50、216単語を用いたどの場合も、“連結学習と移動ベクトルの推定および平滑化を行なった場合”の認識率(5単語の場合(5
    0.7%)、50単語の場合(71.8%)、216単語の場合(82.1%))は、“連結学習と移動ベクトルの推定を行ない平滑化を行なわない場合”の認識率を上回っており、平滑化を用いたこの発明の一実施例の効果が分かる。

    【0027】

    【表2】

    【0028】

    【発明の効果】以上のように、この発明によれば、連結学習前後のHMMの平均ベクトルの差分を移動ベクトルと見なし、学習されなかったHMMの平均ベクトルの移動ベクトルを推定し、平均ベクトルを移動することにより、学習されなかったHMMの平均ベクトルを推定できる。 このような処理で得られたモデルは十分な適応語数が得られていない場合に推定誤差を含んでいるが、空間を移動するための移動ベクトルに連続性の拘束条件を入れて平滑化を行なうことにより、そのような推定誤差を吸収することができる。

    【図面の簡単な説明】

    【図1】この発明の一実施例の電気的構成を示す概略ブロック図である。

    【図2】この発明の一実施例の動作を説明するためのフロー図であり、HMMの連結学習と移動ベクトルの推定および移動のための処理を示す。

    【図3】この発明の一実施例による平均化の処理を説明するためのフロー図である。

    【図4】この発明の一実施例による移動ベクトルの推定の概念を説明するための図である。

    【図5】この発明の一実施例による平均化の概念を説明するための図である。

    【符号の説明】

    1 アンプ 2 ローパスフィルタ 3 A/D変換器 4 処理装置 5 コンピュータ 6 磁気ディスク 7 端末類 8 プリンタ

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈