首页 / 专利库 / 软件 / 通配符 / Voice recognizing device

Voice recognizing device

阅读:279发布:2021-06-14

专利汇可以提供Voice recognizing device专利检索,专利查询,专利分析的服务。并且PURPOSE: To perform voice recognition processing at high speed.
CONSTITUTION: A connection model is generated by connecting wild card models before and behind a Markovian model stored in a Markovian model storage part 7. From this connection model, the probability of generating a symbol from a voice is calculated according to a Viterbi method, for example, at an acoustic analysis part 4 and based on the calculated result, the voice block of the voice is spotted.
COPYRIGHT: (C)1994,JPO&Japio,下面是Voice recognizing device专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 マルコフモデルを用いた音声認識装置において、 音声から生成された前記マルコフモデルとともに、ワイルドカードモデルを記憶している記憶手段と、 前記音声からシンボルを生成するシンボル生成手段と、 前記記憶手段に記憶されている前記マルコフモデルの前後に、前記ワイルドカードモデルを接続し、接続モデルを生成するモデル生成手段と、 前記モデル生成手段により生成された前記接続モデルから、前記シンボル生成手段から出力された前記シンボルが生起される確率を計算する計算手段とを備え、 前記計算手段の計算結果に基づいて、前記音声を認識することを特徴とする音声認識装置。
  • 【請求項2】 マルコフモデルを用いた音声認識装置において、 音声から生成された前記マルコフモデルとともに、ワイルドカードモデルを記憶している記憶手段と、 前記音声からシンボルを生成するシンボル生成手段と、 前記記憶手段に記憶されている前記マルコフモデルの前後に、前記ワイルドカードモデルを連結し、接続モデルを生成するモデル生成手段と、 前記モデル生成手段により生成された前記接続モデルから、前記シンボル生成手段から出力された前記シンボルが生起される確率を計算する計算手段と、 前記計算手段の計算結果に基づいて、前記音声の音声区間をスポッティングするスポッティング手段とを備えることを特徴とする音声認識装置。
  • 【請求項3】 前記計算手段は、前記確率をビタビ法にしたがって計算することを特徴とする請求項1または2
    に記載の音声認識装置。
  • 【請求項4】 前記記憶手段は、音素、音韻、単語、文節、または文に対応する音声から生成されたマルコフモデルを記憶していることを特徴とする請求項1乃至3のいずれかに記載の音声認識装置。
  • 【請求項5】 前記シンボル生成手段は、前記音声の特徴量をベクトル化またはベクトル量子化して、前記シンボルを生成することを特徴とする請求項1乃至4のいずれかに記載の音声認識装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、HMM(Hidden Marko
    v Models)法を用いて音声認識を行う場合に用いて好適な音声認識装置に関する。

    【0002】

    【従来の技術】近年、音声を認識するためのアルゴリズムとして、例えば「確率モデルによる音声認識」(電子情報通信学会)などに記載されているHMM(Hidden M
    arkovModels)法が注目されている。

    【0003】HMMは観測不可能な(Hidden)基礎統計過程を有する2重統計過程であり、そのモデルは、図6
    (a)に示すように、いくつかの状態S 1 ,S 2 ,・・
    ・,S Nと、その状態間の遷移を表すパスから構成され、状態が遷移するときにシンボルを出(生起)する。

    【0004】なお、音声認識では、図6(b)に示すような自分自身と、次の状態に遷移するパスのみを有するモデルが一般的に使用される。

    【0005】音声認識に通常適用される離散型HMMでは、音声から生成されたコード列としてのシンボル系列Y={y 1 ,y 2 ,・・・,y T }が、各モデルで生起される確率(事後確率)が計算され、その確率が最も大きいモデルが認識結果とされる。

    【0006】即ち、HMMでは、 N:モデルの有する状態数 Y(={y 1 ,y 2 ,・・・,y T }):シンボル系列 T:シンボル系列長 a ij :状態iから状態jへ遷移する遷移確率 b ij (k):状態iから状態jへ遷移するときにシンボルkが生起される生起確率 シンボル数:K π(=π 1 ,π 2 ,・・・,π N ):初期状態が状態iである初期状態確率 のようにパラメータを表すとすると、モデルからシンボル系列Yは、次のようにして生起される。

    【0007】(S1)初期状態確率πに基づいて初期状態i S(INITIAL)を決定 (S2)遷移確率a ijに基づいて状態のiからjへの遷移を決定 (S3)生起確率b ij (k)に基づいて、状態がiからjに遷移するときに出力(生起)されるシンボルy tを決定 (S4)t<Tであれば、S2へ戻る

    【0008】従って、モデルは、 状態数N シンボル数K 遷移確率a ij生起確率b ij (k) 初期状態確率π iにより特徴づけられることになる。

    【0009】なお、音声認識においては、初期状態または最終状態は、それぞれ1つであるとするのが一般的であり、以下、初期状態(時刻t=1における状態)を、
    S( INITIAL)だけに限定したモデルを考える。

    【0010】従って、初期状態確率はπi S(INITIAL)のみ1となり、他はすべて0となる。

    【0011】さらに、最終状態(時刻t=Tにおける状態)も、以下i S(FINAL)だけに限定したモデルを考える。

    【0012】モデルλがシンボル系列y 1 ,y 2 ,・・
    ・,y tを出力して状態iにいる前方予測確率をα
    i (t)とすると、上述したモデルのシンボルの出力の定義((S1)乃至(S4))から、モデルλがシンボル系列Y={y 1 ,y 2 ,・・・,y T }を出力する確率P(Y|λ)は、次の漸化式によって計算することができる。

    【0013】

    【数1】

    なお、上式のjに関するサメーションは、与えられたモデルにおいて、状態jから状態iへの遷移が許されている場合にのみとられる。

    【0014】そして、HMM法を用いた音声認識では、
    音声から生成されたコード列としてのシンボル系列Y=
    {y 1 ,y 2 ,・・・,y T }に対して、上式から計算される確率P(Y|λ)を最大にするモデルλが認識結果とされることになる。

    【0015】次に、シンボル系列Y={y 1 ,y 2 ,・・
    ・,y T }に対して、確率P(Y|λ)を最大にするモデルのパラメータとしての遷移確率a ij 、生起確率b ij
    (k)は、以下のようにして求められる。

    【0016】即ち、モデルの学習では、まず、上述したα i (t)が求められるとともに、時刻tにおいて、状態iにいて、以後、シンボル系列y t+1 ,y t+2 ,・・
    ・,y Tを出力する後方予測確率β i (t)が次式により求められる。

    【0017】

    【数2】

    なお、上式のjに関するサメーションは、与えられたモデルにおいて、状態iから状態jへの遷移が許されている場合にのみとられる。

    【0018】そして、次式にしたがってモデルのパラメータとしての遷移確率a ij 、生起確率b ij (k)が更新(学習)される。

    【0019】

    【数3】

    なお、上式においてドット(・)を付したa

    ij 、またはb

    ij (k)は、更新した遷移確率または生起確率をそれぞれ意味する。 また、上式のhに関するサメーションは、状態iから状態hへの遷移が許されている場合にのみとられる。 さらに、t:y

    t =kに関するサメーションは、時刻tにおいて、kなるシンボルy

    tが生起される場合についてのみとられる。

    【0020】上式にしたがって、遷移確率a ij 、生起確率b ij (k)が更新(再推定)されることにより、それぞれ局所的に最適な値へ収束する。 即ち、モデルの学習が行われる。

    【0021】なお、上述のようにして遷移確率a ij 、生起確率b ij (k)を更新(再推定)する方法は、Baum-W
    elchの再推定法と呼ばれる。

    【0022】ここで、式(2)で計算される遷移確率a
    ij 、生起確率b ij (k)は、ある学習用のシンボル系列1つに対してだけであり、これにより学習が行われたモデルは、ある1つのシンボル系列を高い確率で出力するようになる。 しかしながら、音声認識では、調音結合や話者による音声(音声のシンボル系列)のばらつきがあり、単一のシンボル系列のみ高い確率で出力するモデルでは、このばらつきに対処することができない。

    【0023】そこで、いくつかのシンボル系列を高い確率で出力するように、モデルの学習を行う必要がある。
    これには、例えばQ種類のシンボル系列の、q番目のシンボル系列をY q ={y 1 q ,y 2 q ,・・・,y T q }としたとき、各シンボル系列Y q (q=1,2,・・・,
    Q)が観測される確率P(Y q |λ)の積が最大になるように、モデルλの学習を行えばよい。

    【0024】これは、上述したBaum-Welchの再推定法を多重系列に拡張することにより、次のように再帰的に求めることができる。

    【0025】

    【数4】

    【0026】次に、上式(3)により遷移確率a ij 、生起確率b ij (k)を更新(再推定)することは、モデルの学習を個別に行っていることに他ならない。 過去、H
    MM法を用いて音声認識を行う場合においては、単語認識に適用されるときが多く、単語に対応するモデルの学習を、上述したように個別に行うだけで問題はなかった。

    【0027】しかしながら、最近は、音韻や音素に対応するモデルを連結して、意味のある音声(単語や文)を認識するのが一般的になり、このため、モデルの連結学習を行う必要が生じできた。

    【0028】モデルの連結学習では、例えばあらかじめ用意した単語辞書に登録されている単語に基づき、音韻または音素モデルどうしを連結し、それを単語モデルとみなして、単語のシンボル系列として用意されたシンボル系列Y qに対する学習が行われる。

    【0029】即ち、M個の音韻または音素モデルの学習を個別に行った場合、そのうちのm番目のモデル(モデルm)のパラメータ(遷移確率、生起確率それぞれ)をa ij m ,b ij m (k)と表し、そのモデルmに音韻または音素モデルを連結したモデル(連結モデル)の状態をu
    またはvと表すとともに、連結モデルの状態のuからv
    への遷移において、状態uがモデルmに属する状態であるときを(u→v)∈mと表すと、式(3)を変形した次式にしたがって、モデルmの遷移確率a ij m 、生起確率b ij m (k)が更新(再推定)される。

    【0030】

    【数5】

    【0031】ここで、連結モデルがモデルmを複数使用して構成されている場合、即ち連結モデルが、例えば3
    状態S 1 ,S 2 ,S 3からなるモデルmを2回使用して構成されている場合、連結モデルは、S 1 ,S 2 ,S 3
    1 ,S 2 ,S 3の6状態を有することになる。 従って、
    この場合、モデルmの状態S 1 ,S 2 ,S 3のうちの、例えば先頭の状態S 1は、連結モデルの状態S 1 ,S 2
    3 ,S 1 ,S 2 ,S 3の先頭の状態、および先頭から4番目の状態と同一であり、このように連結モデルの複数の状態u(v)が、モデルmの1つ状態i(j)と同一であるときがある。

    【0032】上式(4)において、u≡i,v≡jに関するサメーション、およびu≡iに関するサメーションは、上述したように連結モデルの状態u(v)が、モデルmの状態i(j)と同一である場合についてとられることを意味する。

    【0033】また、h:(u→h)∈mに関するサメーションは、連結モデルの状態uから状態hへの遷移が許されている場合に、連結モデルの状態uが、モデルmに属するときのみとられる。

    【0034】さらに、上式(4)において、モデルmの後続にモデルが連結されており、連結モデルの状態u
    が、モデルmの最終状態(u=i S(FINAL) )となった場合、状態uからの遷移先である状態vは、モデルmの直後に連結したモデルの初期状態となるものとする。

    【0035】次に、以上説明したHMM法を用いて、例えば図7に示すようなS 1 ,S 2 ,S 3の3状態からなり、自分自身と、次の状態に遷移するパスのみを有するとともに、初期状態または最終状態を、それぞれS 1またはS 3とするモデルにより音声認識が行われる場合には、まず上述した式(3)または(4)(以下、式(4)におけるa ij m ,b ij m (k)は、式(3)における場合と同様にそれぞれa ij ,b ij (k)と記載する)
    にしたがってモデルの学習(連結学習)が行われ、モデルの遷移確率a ijおよび生起確率b ij (k)が求められる。

    【0036】なお、モデルの学習において(音声認識を行う場合においても同様であるが)、シンボル系列は、
    音声から、所定のフレームごとに時系列に抽出した特徴パラメータ(例えば、線形予測係数やLPCケプストラム、周波数帯域ごとのエネルギなど)をベクトル量子化したものが一般的に使用される。

    【0037】ここで、シンボルがaとbの2つであり、
    学習により、例えばモデルλの遷移確率a ijおよび生起確率b ij (k)が、次のように算出されたとする。

    【0038】a 11 =0.2,b 11 (a)=0.6,b 11
    (b)=0.4,a 12 =0.8,b 12 (a)=0.5,
    12 (b)=0.5,a 22 =0.4,b 22 (a)=0.
    2,b 22 (b)=0.8,a 23 =0.6,b 23 (a)=
    0.4,b 23 (b)=0.6

    【0039】そして、音声から、例えばシンボル系列a,b,aが観測された場合、このモデルλがそのシンボル系列を出力(生起)する確率P({a,b,a}|
    λ)が、式(1)にしたがって計算される。

    【0040】以上の処理が、モデルλ以外のモデルにも対して行われ、前述したように、確率Pが最も大きいモデルが認識結果とされることになる。

    【0041】ところで、HMM法により音声認識を行う場合において、モデルλからシンボル系列Yが出力される確率(尤度)を計算する方法としては、式(1)にしたがって計算する方法の他、例えばビタビ(Viterbi)
    法によって計算する方法が知られている。

    【0042】即ち、ビタビ法においては、モデルλからシンボル系列Yが出力される確率(尤度)が、次式にしたがって計算される。

    【0043】

    【数6】

    【0044】図8は、学習結果が上述のようになった図7のモデルλがシンボル系列{a,b,a}を出力する確率(尤度)を、ビタビ法によって計算する場合に描かれるトレリスを示している。

    【0045】図7のモデルλのトレリスを示す図8においては、箱が各時刻における状態を示し、その中には、
    各時刻においてその状態にいる確率が書き入れてある。
    さらに、矢印は、状態の遷移を示しており、図7のモデルλは、前述したように自分自身と、次の状態にしか状態が遷移しないので、矢印は、自分自身への遷移を示す平方向の矢印と、次の状態への遷移を示す斜め上方向の矢印のみとなっている。

    【0046】また、図7のモデルは、最終状態が状態S
    3であり、前述したように最終状態からの状態の遷移はないものとしたので、図8において、状態S 3の箱から状態の遷移を示す矢印は書き込まれていない。

    【0047】さらに、図8のトレリスにおいては、縦方向はモデルの状態の並びになっており、横方向は時間の進みを表している。

    【0048】このようなトレリスにしたがって、図7のモデルλがシンボル系列{a,b,a}を出力する確率が計算される場合、まず、時刻t=1においては、前述したように初期状態は、必ず状態i S(INITIAL)となるから(使用するモデルを、初期状態が状態i S(INITIAL)となるモデルとしたから)、状態i S(INITIAL)としての状態S 1にいる確率ν 1 (1)が1で、他の状態S 2 ,S 3にいる確率ν 2 (1),ν 3 (1)は0であり、従って状態S 1の箱のみ1が書き込まれ、他の状態S 2 ,S 3の箱には0が書き込まれる。

    【0049】そして、状態が遷移してシンボルaが出力された場合に、状態S 1にいる確率ν 1 (2)は、時刻t
    =1に状態S 1にいて、シンボルaを出力しながら状態S 1に遷移する確率であるから、 1.0×a 11 ×b 11 (a)=1.0×0.2×0.6=
    0.12 となり、時刻t=2における状態S 1の箱には、0.1
    2が書き込まれる。

    【0050】また、この場合に、状態S 2にいる確率は、時刻t=1に状態S 1にいて、シンボルaを出力しながら状態S 2に遷移する確率と、時刻t=1に状態S 2
    にいて、シンボルaを出力しながら状態S 2に遷移する確率との和であるが、ビタビ法においては、式(5)にしたがってそのうちの最大値が、時刻t=2に状態S 2
    にいる確率ν 2 (2)とされる。

    【0051】即ち、時刻t=1に状態S 1にいて、シンボルaを出力しながら状態S 2に遷移する確率は、 ν 1 (1)×a 12 ×b 12 (a)=1.0×0.8×0.
    5=0.4 であり、時刻t=1に状態S 2にいて、シンボルaを出力しながら状態S 2に遷移する確率は、 ν 2 (1)×a 22 ×b 22 (a)=0.0×0.4×0.
    2=0 であるから、ビタビ法においては、このうちの最大値、
    つまり0.4が、時刻t=2に状態S 2にいる確率ν
    2 (2)とされる。 従って、時刻t=2における状態S 2
    の箱には、0.4が書き込まれる。

    【0052】さらに、この場合に、状態S 3にいる確率ν 3 (2)は、時刻t=1に状態S 2にいて、シンボルa
    を出力しながら状態S 3に遷移する確率であるから、 ν 2 (1)×a 23 ×b 23 (a)=0.0×0.6×0.
    4=0 となり、時刻t=2における状態S 3の箱には、0が書き込まれる。

    【0053】次に、シンボルaが出力された後に、さらに状態が遷移してシンボルbが出力された場合に、状態S 1にいる確率ν 1 (3)は、時刻t=2に状態S 1にいて、シンボルbを出力しながら状態S 1に遷移する確率であるから、 ν 1 (2)×a 11 ×b 11 (b)=0.12×0.2×
    0.4=0.0096 となり、時刻t=3における状態S 1の箱には、0.0
    096が書き込まれる。

    【0054】また、この場合に、状態S 2にいる確率ν 2
    (3)は、時刻t=2に状態S 1にいて、シンボルbを出力しながら状態S 2に遷移する確率と、時刻t=2に状態S 2にいて、シンボルbを出力しながら状態S 2に遷移する確率との和であるが、ビタビ法においては、上述した場合と同様に、式(5)にしたがってそのうちの最大値が、時刻t=3に状態S 2にいる確率ν 2 (3)とされる。

    【0055】即ち、時刻t=2に状態S 1にいて、シンボルbを出力しながら状態S 2に遷移する確率は、 ν 1 (2)0.12×a 12 ×b 12 (b)=0.12×
    0.8×0.5=0.048 であり、時刻t=2に状態S 2にいて、シンボルbを出力しながら状態S 2に遷移する確率は、 ν 2 (2)×a 22 ×b 22 (a)=0.4×0.4×0.
    8=0.128 であるから、ビタビ法においては、このうちの最大値、
    つまり0.128が、時刻t=3に状態S 2にいる確率ν 2 (3)とされる。 従って、時刻t=2における状態S 2の箱には、0.128が書き込まれる。

    【0056】さらに、この場合に、状態S 3にいる確率ν 3 (3)は、時刻t=2に状態S 2にいて、シンボルb
    を出力しながら状態S 3に遷移する確率であるから、 ν 2 (2)×a 23 ×b 23 (b)=0.4×0.6×0.
    6=0.144 となり、時刻t=3における状態S 3の箱には、0.1
    44が書き込まれる。

    【0057】そして、以上のようにシンボルa,bが出力された後に、さらに状態が遷移してシンボルaが出力された場合における、各状態S 1 ,S 2 ,S 3にいる確率が上述したときと同様にして計算され、図中最右端の各状態S 1 ,S 2 ,S 3の箱に書き込まれる。

    【0058】トレリスにおいては、モデルがシンボル系列を出力する確率(尤度)は、その最も左上にある箱に書き込まれた確率になるので、図8のトレリスにおいては、モデルλがシンボル系列{a,b,a}を出力する確率(尤度)P(λ|{a,b,a})は0.0307
    になる。

    【0059】以上の処理が、モデルλ以外のモデルにも対して行われ、確率(尤度)が最も大きいモデルが認識結果とされることになる。

    【0060】なお、ビタビ法によって状態iにいる確率を計算する場合、上述したように、状態jから状態iに遷移することを示すパス(図8において、状態iに対応する箱に入ってくる矢印)に沿って計算される確率のうちの最大値が選択されるが、このとき同時に、この選択された確率を得ることができた前の状態j(図8において、矢印の始点側の箱に対応する状態)を、バックポインタとして保存しておくようにすることができる。

    【0061】これにより、図8において、最も左上にある箱に書き込まれた確率を計算した後に、バックポインタをたどっていけば、そのとき遷移した状態系列(以下、最適状態系列と記載する)を求めることができる。

    【0062】図8には、モデルλがシンボル系列{a,
    b,a}を出力する確率(尤度)が最も高いときの状態系列、即ち最適状態系列を太線で示してある。

    【0063】次に、図9は、以上説明したようにして所定の音声(例えば、単語など)を認識してスポッティングする(音声区間を検出する)音声認識装置の一例の構成を示すブロック図である。 マイク1は、入力された音声を電気信号としての音声信号に変換する。 マイク1からの音声信号は、LPF(ローパスフィルタ)2に入力され、そこでフィルタリングされて、音声信号の周波数帯域成分のうち、次段に接続されているA/D変換器3
    におけるサンプリングレートの1/2以上の周波数帯域成分がカットされる。

    【0064】A/D変換器3は、マイク1よりLPF2
    を介して出力される音声信号を所定のサンプリングレートでA/D変換し、ディジタル信号としての音声信号を出力する。 A/D変換器3より出力された音声信号は、
    音響分析部4に入力される。 音響分析部4では、A/D
    変換器3より出力された音声信号が、所定のフレーム周期ごとに音響分析され、音声の特徴パラメータとしての、例えば線形予測係数やLPCケプストラム、周波数帯域ごとのエネルギなどが抽出される。 そして、音響分析部4は、音声信号から抽出した特徴パラメータを、例えば256種類のシンボル(コード)にベクトル量子化し、シンボル系列Y(={y 1 ,y 2 ,・・・,y T })
    をトレリス計算回路6に出力する。

    【0065】同時に、A/D変換器3の出力信号は、音声区間判定回路5にも入力される。 音声区間判定回路5
    では、A/D変換器3の出力信号の、例えばパワーなどが計算され、そのパワーからマイク1から音声が入力されているか否かが判定される。 即ち、音声区間判定回路5では、大まかな音声区間が判定される。 そして、音声区間判定回路5は、A/D変換回路3の出力信号から判定した大まかな音声区間をトレリス計算回路6に出力する。

    【0066】ここで、マルコフモデル記憶部21には、
    前述したようにして学習、および連結学習が行われた、
    例えば音韻モデル(遷移確率a ijおよび生起確率b
    ij (k))、単語辞書、並びに例えば遷移確率a ij (生起確率b ij (k))が、i,j(i,j,k)に関わらずほぼ等しいような、任意の音声モデルに成り得るワイルドカードモデルが記憶されている。 マルコフモデル記憶部21においては、まず単語辞書に登録されている単語が参照され、その単語を構成するように音韻モデルが連結される。 そして、その連結モデルとしてのマルコフモデルの先頭にのみワイルドカードモデルが接続され、
    トレリス計算回路6に供給されるようになっている。

    【0067】トレリス計算回路6は、マルコフモデル記憶部21より供給された、先頭にワイルドカードモデルが接続されたマルコフモデルλが、音声区間判定回路5
    から出力された大まかな音声区間の間に、音響分析部4
    より供給されたシンボル系列を出力する確率(尤度)の計算、即ちトレリスの計算を、例えば上述したビタビ法にしたがって行う。

    【0068】そして、トレリス計算回路6は、先頭にワイルドカードモデルが接続されたマルコフモデルλの最終状態にいる確率(以下、最終確率と記載する)を計算し終わるたびに、その最終確率が計算されたフレームを、マルコフモデルλに対応するスポッティング対象音声の音声区間の終点であると仮定し、音声区間判定回路5から出力された大まかな音声区間における、最終確率を時系列に算出するとともに、その最終確率を得ることができた最適状態系列を算出する。

    【0069】トレリス計算回路6で算出された最終確率は、時系列にスポッティング判定回路22に供給される。 スポッティング判定回路22は、トレリス計算回路6から出力された最終確率が所定の閾値より高いフレーム区間が存在するか否かを判定し、最終確率が所定の閾値より高いフレーム区間が存在すると判定した場合、音声区間判定回路5から出力された大まかな音声区間中に、マルコフモデルλに対応するスポッティング対象の音声が存在すると認識する。

    【0070】そして、スポッティング判定回路22は、
    最終確率が所定の閾値より高いフレーム区間のうち、最終確率が最大となるフレームを検出し、そのフレームをマルコフモデルλに対応するスポッティング対象音声の音声区間の終点として決定する。 さらに、スポッティング判定回路22は、決定したスポッティング対象音声の音声区間の終点(フレーム)において、最終状態にいる最適状態系列を、トレリス計算回路6から得て、その最適状態系列において、モデルλの先頭の状態に接続されたワイルドカードモデルの状態から、音声に対応するモデルλの先頭の状態に遷移したときのフレームを、モデルλに対応するスポッティング対象音声の音声区間の始点として決定する。

    【0071】スポッティング判定回路22は、以上のようにしてモデルλに対応するスポッティング対象音声の音声区間の始点および終点を決定すると、その始点および終点並びにスポッティング対象音声としてのマルコフモデルλを認識結果として出力する。

    【0072】なお、トレリス計算回路6およびスポッティング判定回路22における処理は、マルコフモデル記憶部21の単語辞書に基づいて連結されるマルコフモデルすべてに対して行われる。

    【0073】

    【発明が解決しようとする課題】以上のように、HMM
    を用いた音声認識装置においては、スポッティング対象音声の音声区間の始点は、その終点から容易に決定することができるが、それに比較して、スポッティング対象音声の音声区間の終点を決定するには、上述したように時系列の最終確率が所定の閾値より高いフレーム区間を検出し、さらにそのフレーム区間から、最終確率が最大となるフレームを検出しなければならず、処理が繁雑になり、実時間処理が困難になる課題があった。

    【0074】本発明は、このような状況に鑑みてなされたものであり、音声認識処理を高速に行うことができるようにするものである。

    【0075】

    【課題を解決するための手段】請求項1に記載の音声認識装置は、マルコフモデルを用いた音声認識装置において、音声から生成されたマルコフモデルとともに、ワイルドカードモデルを記憶している記憶手段としてのマルコフモデル記憶部7と、音声からシンボルを生成するシンボル生成手段としての音響分析部4と、マルコフモデル記憶部7に記憶されているマルコフモデルの前後に、
    ワイルドカードモデルを接続し、接続モデルを生成するモデル生成手段としてのマルコフモデル接続回路8と、
    マルコフモデル接続回路8により生成された接続モデルから、音響分析部4から出力されたシンボルが生起される確率を計算する計算手段としてのトレリス計算回路6
    とを備え、トレリス計算回路6の計算結果に基づいて、
    音声を認識することを特徴とする。

    【0076】請求項2に記載の音声認識装置は、マルコフモデルを用いた音声認識装置において、音声から生成されたマルコフモデルとともに、ワイルドカードモデルを記憶している記憶手段としてのマルコフモデル記憶部7と、音声からシンボルを生成するシンボル生成手段としての音響分析部4と、マルコフモデル記憶部7に記憶されているマルコフモデルの前後に、ワイルドカードモデルを接続し、接続モデルを生成するモデル生成手段としてのマルコフモデル接続回路8と、マルコフモデル接続回路8により生成された接続モデルから、音響分析部4から出力されたシンボルが生起される確率を計算する計算手段としてのトレリス計算回路6と、トレリス計算回路6の計算結果に基づいて、音声の音声区間をスポッティングするスポッティング手段としてのスポッティング判定回路9とを備えることを特徴とする。

    【0077】請求項3に記載の音声認識装置は、トレリス計算回路6が、確率をビタビ法にしたがって計算することを特徴とする。

    【0078】請求項4に記載の音声認識装置は、マルコフモデル記憶部7が、音素、音韻、単語、文節、または文に対応する音声から生成されたマルコフモデルを記憶していることを特徴とする。

    【0079】請求項5に記載の音声認識装置は、音響分析部4が、音声の特徴量をベクトル化またはベクトル量子化して、シンボルを生成することを特徴とする。

    【0080】

    【作用】上記構成の音声認識装置においては、マルコフモデル記憶部7に記憶されているマルコフモデルの前後に、ワイルドカードモデルを接続し、接続モデルを生成する。 そして、この接続モデルから、音響分析部4で音声から生成されたシンボルが生起される確率を、例えばビタビ法にしたがって計算し、その計算結果に基づいて、音声を認識し、また音声の音声区間をスポッティングする。 従って、音声認識処理を高速に行うことができる。

    【0081】

    【実施例】図1は、本発明の音声認識装置の一実施例の構成を示すブロック図である。 図中、図9における場合と対応する部分については、同一の符号を付してある。
    マルコフモデル記憶部7には、前述したようにして学習が行われた、例えば音韻モデル(遷移確率a ijおよび生起確率b ij (k))、および例えば遷移確率a ij (生起確率b ij (k))が、i,j(i,j,k)に関わらずほぼ等しいような、任意の音声モデルに成り得るワイルドカードモデルが記憶されている。

    【0082】マルコフモデル接続回路8は、マルコフモデル記憶部7に記憶されている音韻モデルおよびワイルドカードモデルを読み出し、音韻モデルの前後にワイルドカードモデルを連結して連結モデルを生成する。

    【0083】即ち、マルコフモデル接続回路8は、例えば3つの状態S 1 ,S 2 、およびS 3からなる音韻モデルλ、並びに例えば1つの状態S W1 ,S W2からそれぞれなる2つのワイルドカードモデルλ W1 ,λ W2をマルコフモデル記憶部7から読み出した場合、状態S 1の前に状態S W1を接続するとともに、状態S 3の後に状態S W2を接続し、図2に示すような5つの状態S W1 ,S 1 ,S 2 ,S
    3 ,S W2からなる接続モデルλ Sを生成する。 マルコフモデル接続回路8で生成された接続モデルは、トレリス計算回路6に供給されるようになされている。

    【0084】スポッティング判定回路9は、音声区間判定回路5から出力された大まかな音声区間の終点に対応する時刻T(フレーム)に、即ちマイク1への発声が終了したときに、トレリス計算回路6から出力される、接続モデルλ Sの最終確率の、例えば対数をとり、それに、音声区間判定回路5から出力された大まかな音声区間に対応するフレーム数(以下、正規化フレーム数と記載する)Fを乗算して正規化した正規化値を計算する。

    【0085】そして、その正規化値が、所定の閾値より大きい場合、スポッティング判定回路9は、音声区間判定回路5から出力された大まかな音声区間中に、接続モデルλ S (音韻モデルλ)に対応するスポッティング対象の音声が存在すると認識し、トレリス計算回路6で算出された接続モデルλ Sの最適状態系列を参照して、その最適状態系列において、音韻モデルλの最後の状態S
    3から、そこに接続されたワイルドカードモデルλ W2の状態S W2に遷移したときの時刻t 2 (フレーム)を、音韻モデルλに対応するスポッティング対象音声の音声区間の終点として決定する。

    【0086】さらに、スポッティング判定回路9は、トレリス計算回路6で算出された接続モデルλ Sの最適状態系列において、音韻モデルλの最初の状態S 1に接続されたワイルドカードモデルλ W1の状態S W1から、音韻モデルλの最初の状態S 1に遷移したときの時刻t 1 (フレーム)を、音韻モデルλに対応するスポッティング対象音声の音声区間の始点として決定する。

    【0087】スポッティング判定回路9は、以上のようにしてスポッティング対象音声の音声区間の始点t 1および終点t 2を決定すると、その始点t 1および終点t 2
    並びにスポッティング対象音声を認識結果として出力する。

    【0088】以上のように構成される音声認識装置においては、マイク1に入力された音声が、電気信号としての音声信号に変換され、LPF2を介してA/D変換器3に出力される。

    【0089】A/D変換器3において、マイク1よりL
    PF2を介して出力された音声信号が所定のサンプリングレートでA/D変換され、ディジタル信号としての音声信号が音響分析部4および音声区間判定回路5に出力される。 音響分析部4では、A/D変換器3より出力された音声信号が、所定のフレーム周期ごとに音響分析され、音声の特徴パラメータとしての、例えば線形予測係数やLPCケプストラム、周波数帯域ごとのエネルギなどが抽出される。 そして、音声信号から抽出した特徴パラメータがベクトル量子化され、シンボル系列Y(=
    {y 1 ,y 2 ,・・・,y T })がトレリス計算回路6に出力される。

    【0090】同時に、音声区間判定回路5では、A/D
    変換器3の出力信号の、例えばパワーなどが計算され、
    そのパワーからマイク1から音声が入力されているか否かが判定され、これにより、大まかな音声区間が検出(判定)される。 そして、この大まかな音声区間はトレリス計算回路6に出力される。

    【0091】音声区間判定回路5からトレリス計算回路6に大まかな音声区間が出力されると、マルコフモデル接続回路8において、マルコフモデル記憶部7に記憶されている音韻モデルおよびワイルドカードモデルが読み出され、音韻モデルの前後にワイルドカードモデルが連結されて連結モデルが生成される。

    【0092】即ち、マルコフモデル接続回路8において、例えば図2に示すような、状態S 1 ,S 2 、およびS
    3からなる音韻モデルλの前後に、状態S W1 ,S W2からそれぞれなる2つのワイルドカードモデルλ W1 ,λ W2が接続され、状態S W1 ,S 1 ,S 2 ,S 3 ,S W2からなる接続モデルλ Sが生成される。

    【0093】マルコフモデル接続回路8で生成された接続モデルλ Sは、トレリス計算回路6に供給され、そこで、その接続モデルλ Sが、音声区間判定回路5から出力された大まかな音声区間の間に、音響分析部4より供給されたシンボル系列を出力する確率(尤度)の計算、
    即ちトレリスの計算が、例えば上述したビタビ法にしたがって行われる。

    【0094】ここで、図2に示す接続モデルλ Sから、
    シンボル系列Yが出力(生起)される場合のトレリスを図3に示す。

    【0095】トレリス計算回路6においては、接続モデルλ Sの最終状態にいる確率(最終確率)の計算が終了するたびに、その最終確率が計算されたフレームが、マルコフモデルλに対応するスポッティング対象音声の音声区間の終点であると仮定され、音声区間判定回路5から出力された大まかな音声区間における、最終確率が時系列に算出されるとともに、その最終確率を得ることができた、例えば図4に示すような最適状態系列が算出される。

    【0096】なお、図4は、音声区間判定回路5から出力された大まかな音声区間の終点における最終確率を得ることができた最適状態系列を示している。

    【0097】トレリス計算回路6で算出された最終確率は、時系列にスポッティング判定回路9に供給される。

    【0098】スポッティング判定回路9では、音声区間判定回路5から出力された大まかな音声区間の終点に対応する時刻T(フレーム)に、トレリス計算回路6から出力された、接続モデルλ Sの最終確率(図3において、斜線を付してある状態にいる確率)の対数がとれられ、さらにそれに、音声区間判定回路5から出力された大まかな音声区間に対応する正規化フレーム数Fが乗算されて正規化される。

    【0099】ここで、最終確率は、音声区間判定回路5
    から出力された音声区間がより長いほど、1未満の正数(遷移確率および生起確率)がより乗算されて計算されるため、スポッティング判定回路9では、最終確率(本実施例においては、最終確率の対数をとった値)に、音声区間に対応する正規化フレーム数Fを乗算して正規化するようになっている。

    【0100】そして、スポッティング判定回路9において、正規化値が所定の閾値と比較され、正規化値が所定の閾値より大きいと判定された場合、音声区間判定回路5から出力された大まかな音声区間中に、接続モデルλ
    S (音韻モデルλ)に対応するスポッティング対象の音声が存在すると認識される。 さらに、この場合、スポッティング判定回路9では、トレリス計算回路6で算出された接続モデルλ Sの最適状態系列(図4)が参照され、その最適状態系列において、音韻モデルλの最後の状態S 3から、そこに接続されたワイルドカードモデルλ W2の状態S W2に遷移したときの時刻t 2 (フレーム)
    が、音韻モデルλに対応するスポッティング対象音声(音韻)の音声区間の終点として決定される。

    【0101】さらに、スポッティング判定回路9では、
    トレリス計算回路6で算出された接続モデルλ Sの最適状態系列において、音韻モデルλの最初の状態S 1に接続されたワイルドカードモデルλ W1の状態S W1から、音韻モデルλの最初の状態S 1に遷移したときの時刻t
    1 (フレーム)が、音韻モデルλに対応するスポッティング対象音声(音韻)の音声区間の始点として決定される。

    【0102】スポッティング判定回路9においては、以上のようにしてスポッティング対象音声の音声区間の始点t 1および終点t 2が決定されると、その始点t 1および終点t 2並びにスポッティング対象音声が認識結果として出力される。

    【0103】なお、上述のトレリス計算回路6およびスポッティング判定回路9における処理は、マルコフモデル記憶部7からマルコフモデル接続部8を介してトレリス計算回路6に供給されるマルコフモデルすべてに対して行われる。

    【0104】以上のように、音声モデルとしてのマルコフモデルの前後に、ワイルドカードモデルを接続して生成した接続モデルから、音響分析部4より出力されたシンボル系列が生起される確率を計算するようにしたので、その確率を得ることができた最適状態系列から容易に音声区間をスポッティングすることができる。

    【0105】なお、本実施例においては、音響分析部4
    より出力されたシンボル系列Yが、接続モデルλ Sから生起される確率P(λ|Y)をビタビ法によって計算し、最適状態系列を算出するようにしたが、確率P(λ
    |Y)を他の方法によって計算するようにすることができる。 さらに、最適状態系列も、図4に示すように1つだけ求めるのではなく、複数求めるようにしても良い。

    【0106】また、スポッティング判定回路9において、正規化値と比較される所定の閾値は、トレリス計算回路6の出力値に対応して動的に変化させるようにすることができる。

    【0107】さらに、音声区間判定回路5は、トレリス計算回路6と一体化して構成するようにすることができる。

    【0108】また、本実施例においては、スポッティング対象音声を音韻として、音韻に対応するマルコフモデルをマルコフモデル記憶部7に記憶させておくようにしたが、音韻だけでなく、例えば音素や、単語、文節、文などに対応するマルコフモデルをマルコフモデル記憶部7に記憶させておくようにすることができる。 例えば、
    6つの状態S 1乃至S 6からなる単語マルコフモデルの前後にワイルドカードモデルが接続された接続モデルを図5に示す。

    【0109】さらに、マルコフモデル記憶部7に、学習、および連結学習が行われた、例えば音韻モデルや音素モデルとともに、単語辞書を記憶させておき、単語辞書に登録されている単語を参照して、単語モデルを構成するように音韻モデルや音素モデルを連結するようにすることができる。

    【0110】また、枝分かれのあるようなマルコフモデルをマルコフモデル記憶部7に記憶させておくようにすることもできる。

    【0111】さらに、本実施例では、音声に対応するマルコフモデルの前後に1つの状態からなるワイルドカードモデルを接続するようにしたが、複数の状態からなるワイルドカードモデルを接続するようにしても良い。

    【0112】また、スポッティング判定回路9に、フレームごとの正規化値を算出させ、この正規化値が、所定のフレーム区間だけ連続して所定の閾値より大きい場合に、モデルに対応するスポッティング対象音声が、音声区間判定回路5より出力される大まかな音声区間中に存在すると認識させるようにすることができる。

    【0113】さらに、本実施例においては、離散型のH
    MMについてのみ言及したが、連続型のHMMを用いるようにしても問題はない。

    【0114】

    【発明の効果】以上の如く、本発明の音声認識装置によれば、記憶手段に記憶されているマルコフモデルの前後に、ワイルドカードモデルを接続し、接続モデルを生成する。 そして、この接続モデルから、シンボル生成手段により音声から生成されたシンボルが生起される確率を計算し、その計算結果に基づいて、音声を認識し、また音声の音声区間をスポッティングする。 従って、音声認識処理を高速に行うことができる。

    【図面の簡単な説明】

    【図1】本発明の音声認識装置の一実施例の構成を示すブロック図である。

    【図2】音韻に対応するマルコフモデルの前後にワイルドカードモデルを接続した接続モデルの一実施例の構成を示す図である。

    【図3】トレリスを示す図である。

    【図4】最適状態系列を示す図である。

    【図5】単語に対応するマルコフモデルの前後にワイルドカードモデルを接続した接続モデルの一実施例の構成を示す図である。

    【図6】マルコフモデルを示す図である。

    【図7】マルコフモデルを示す図である。

    【図8】トレリスの計算を説明する図である。

    【図9】従来の音声認識装置の一例の構成を示す図である。

    【符号の説明】

    1 マイク 2 ローパスフィルタ(LPF) 3 A/D変換器 4 音響分析部 5 音声区間判定回路 6 トレリス計算回路 7 マルコフモデル記憶部 8 マルコフモデル接続回路 9 スポッティング判定回路 21 マルコフモデル記憶部 22 スポッティング判定回路

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈