首页 / 专利库 / 人工智能 / 认知计算 / Voice recognizing device for unspecified speaker

Voice recognizing device for unspecified speaker

阅读:749发布:2022-08-30

专利汇可以提供Voice recognizing device for unspecified speaker专利检索,专利查询,专利分析的服务。并且PURPOSE:To improve the rate of recognition. CONSTITUTION:At the voice recognizing device which transforms an input voice to a discrete vector quantizing code sequence (VQ code sequence) by a vector quantizer 14 and calculates the existing probability of the voice element concerning the VQ code sequence by using a hidden Markovian model memory 17, a VQ code chain probability model in each voice element block is stored in a memory 18 concerning the VQ code sequences of the voices of a lot of speakers and concerning the input voice VQ code sequence, a probability calculation part 15 calculates the existent probability of the voice element by using the hidden Markovian model in the memory 17 and the chain probability model in the memory 18. Namely, when the probability of outputting a j-th VQ code cj at current time is defined as o(cj) and the chain probability of codes ci and cj is defined as (ci¦cj), the probability o(cj¦ci) of cj appearance is calculated by p(cj¦ci)o(cj)/[SIGMAp(cm¦ci)o(cm)] when the VQ code at preceding time is ci. In this formula, sigma shows m=from '1' to N(the number of VQ codes).,下面是Voice recognizing device for unspecified speaker专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 多数話者の音声の音素または単語のベクトル量子化コード系列を統計的に表現する隠れマルコフモデルを記憶した不特定話者用隠れマルコフモデルメモリを備え、不特定話者が発声した入力音声から音響パラメータベクトルを抽出し、その音響パラメータベクトルを有限個の離散的なベクトル量子化コード系列に変換し、上記入力音声の発声内容を認識する不特定話者用音声認識装置において、 多数話者の音声ベクトル量子化コード系列において、各音素または各単語区間内のベクトル量子化コード連鎖確率モデルを記憶したベクトル量子化コード連鎖確率モデルメモリと、 上記入力音声のベクトル量子化コード系列に対し、上記音素または単語の不特定話者用隠れマルコフモデルと上記ベクトル量子化コード連鎖確率モデルとの両方を用いて音素または単語モデルに対する確率を計算するモデル確率計算部と、 を設けたことを特徴とする不特定話者用音声認識装置。
  • 【請求項2】 多数話者の音声の音素または単語のベクトル量子化コード系列を統計的に表現する隠れマルコフモデルを記憶した不特定話者用隠れマルコフモデルメモリを備え、入力話者が発声した認識すべき音声から音響パラメータベクトルを抽出し、その音響パラメータベクトルを有限個の離散的なベクトル量子化コード系列に変換し、上記入力音声の発声内容を認識する不特定話者用音声認識装置において、 上記入力話者が予め話者適応化用に発声した音声のベクトル量子化コード系列のベクトル量子化コード連鎖確率を計算するベクトル量子化コード連鎖確率計算部と、 そのベクトル量子化コード連鎖確率を表現したベクトル量子化コード連鎖確率モデルを記憶したベクトル量子化コード連鎖確率モデルメモリと、 上記入力話者が発声した認識すべき音声のベクトル量子化コード系列に対し、上記音素または単語の不特定話者用隠れマルコフモデルと上記入力話者のベクトル量子化コード連鎖確率モデルとの両方を用いて音素または単語モデルに対する確率を計算するモデル確率計算部と、 を設けたことを特徴とする不特定話者用音声認識装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】この発明は、音素単位、あるいは単語単位の認識に基づく不特定話者用の音声認識装置に関するものである。 不特定話者用の音声認識装置は、話者適応用音声を使用しない不特定話者音声認識装置と、
    話者適応用音声を使用する話者適応型不特定話者音声認識装置とがある。 話者適応用音声を使用しない不特定話者音声認識装置は、入された音声をただちに認識しなければならないシステムに用いられる。 例えば、音声自動ダイヤルシステムや音声自動券買機などである。 話者適応型不特定話者音声認識装置は、入力話者がシステムを使用する前にいくらかの音声を発声し、この音声を用いてシステムを入力話者に適応化する。 例えば、音声ワープロなど、使用者が限定されており、システムが話者に適応化する時間が許されるシステムに使用される。

    【0002】

    【従来の技術】従来における、音素単位、あるいは単語単位の認識に基づく不特定話者用の音声認識装置においては、予め、多数話者の音声から切り出した音素、あるいは単語を用いて、短時間ごとに音声の音響パラメータ(例えばケプストラムや振幅)を求め、そのパラメータ系列を用いて音素、あるいは単語をモデル化する。 音素や単語の音響パラメータ系列のモデル化には、統計的な手法の1つである隠れマルコフモデル(Hidden Markov
    Model,以下HMMと略す。 ;例えば中川聖一著)を用いた手法がある。 多次元の音響パラメータはベクトル量子化(Vector Quantization)の手法を用い有限個(例えば256個)の離散的なベクトル量子化コード(以下VQ
    コードと略す。 )に変換することができる。 よって、音素または単語モデルは、各VQコードに対する出現確率を用いて表現される。 これは離散型HMMと呼ばれている。 図6のHMMメモリ7に最も簡単な1状態の離散型HMMの例を示している。 ここでは、VQコードの種類は4個(0から3まで)で、音素(ここでは/ア/、/
    イ/)ごとに、それぞれのVQコードに対する出現確率が与えられている。 実際には、認識すべきすべての音素あるいは単語の数だけHMMを用意する。 それぞれのモデルにおいて、すべてのVQコードに対する出力確率の和は1.0である。

    【0003】図7に、従来の離散型HMMを用いた音声認識装置の構成例を示している。 入力端子1から入力された音声は、A/D変換部2においてディジタル信号に変換される。 このディジタル信号は音響パラメータ抽出部3において音響パラメータが抽出される。 この音響パラメータはベクトル量子化器4において有限個のVQコードに変換される。 この段階で、入力音声はVQコード系列に変換されている。 モデル確率計算部5において、
    変換されたVQコード系列の各音素、あるいは単語の離散型HMMを不特定話者用HMMメモリ7から読みだし、入力音声のVQコード系列との確率を計算する。

    【0004】このモデル確率計算部5における処理内容の例を図6に示す。 ここでは、VQコードの種類は4個(0から3まで)であるとする。 入力音声のVQコード系列が与えられ、時刻1から時刻4(VQコード列:1
    −1−2−0)に音素/ア/、音素/イ/が存在する確率をそれぞれ計算したいとする。 各音素の存在確率は、
    それぞれの時刻のVQコードに対する出現確率を各音素のHMMから参照し、それらの積で求められる。 図6の例では、音素/ア/に対する確率が8.0×10 -4で、
    音素/イ/に対する確率が5.0×10 -5であり、音素/ア/が存在する確率が高いとする。 この様な処理を入力音声のVQコード列の任意の区間で行ない、確率を最も大きくする音素系列を認識結果として認識結果出力部6より出力する。

    【0005】

    【発明が解決しようとする課題】不特定話者音声認識においては、様々な話者に対応するためにたくさんの話者の音声データを用いてモデルを学習する。 しかし、話者のバリエーションが増加するに従い、ある話者のある音素の音響パラメータの分布が、他の話者の異なる音素の音響パラメータの分布と重なることがしばしば起こる。
    例えば、話者Aの音素/イ/が、話者Bの音素/エ/に音響的に類似しており、それぞれの音素区間中に出現するVQコードの種類、出現頻度も類似していることがある。 これが、認識誤りの原因となっていた。

    【0006】従来のHMMは、VQコードの出現確率のみを表現しており、その時間的な出現順序は表現していない。 図8に、VQコードの時間的な出現順序が考慮されないために起こる問題点を示している。 仮にVQコード系列1−1−0−0がモデル確率計算部に送られたとする。 従来法では、図8に示すように、VQコード0とVQコード1に対する出力確率が、音素/イ/のHMM
    と音素/エ/のHMMとで同じであったために、VQコード系列に対し、同一の出現確率が与えられる。 これは、たとえ1−1というVQコード連鎖や0−0というVQコード連鎖が音素/イ/にたいへん特徴的であり、
    音素/エ/にはそのような特徴がなく、本来は音素/イ/と音素/エ/とは区別可能であったとしても、局所的なVQコード連鎖に関する情報が音素HMMに保存されていないので同一の出現確率が与えられてしまい、区別できないという問題点があり、認識性能が不十分であった。

    【0007】

    【課題を解決するための手段】この発明によれば、新たに音素あるいは単語区間内のVQコード連鎖確率を表現するモデルを作成し、これを従来の音素または単語単位の離散型HMMと共に用いることによって音声を認識する。 つまり、この発明では、音声の静的な音響特徴のみならず、動的な特徴にも着目している。 例えば、話者A
    と話者Bの異なる音素区間中に出現するVQコードの種類が類似していても、それらが時間的に出現する順序が異なれば、区別することが可能である。 時系列パタン情報は、VQコードの2つ組、または3つ組の連鎖確率で表現される。

    【0008】入力音声のVQコード系列において、それぞれの時刻のVQコードに対し、離散型HMMから出現確率が与えられるが、この発明では更に、現時刻のVQ
    コードの1つ前の時刻のVQコード、あるいは1つ前と2つ前の両方の時刻のVQコードを参照する。 そして、
    現時刻に至るまでのVQコード連鎖が認識しようとする音素または単語に特徴的である場合、即ちVQコード連鎖確率が高い場合は現時刻のVQコードに対する出現確率を高くし、そうでない場合は低くする。 VQコード連鎖確率は、予め、学習データを音素ごとにセグメンテーションしたデータから求められる。 VQコード連鎖確率は、音素ごとに独立に計算される。

    【0009】2つ組のVQコード連鎖確率を利用した場合の処理を式で表すと(1)式のようになる。 o(c j |c i )=p(c j |c i )o(c j )/ 〔Σp(c m |c i )o(c m )〕 (1) ここで、o(c j )は現時刻にj番目のVQコードc j
    が出力する確率であり、Σはm=1からN(VQコードの数)までである。 従来の不特定話者用HMMは、この確率のみを用いて認識を行なっていた。 p(c j
    i )はVQコードc iとVQコードc jのVQコード連鎖確率である。 このVQコード連鎖確率が音素によって異なる。 p(c j |c i )とo(c j )の積をとることによって、現時刻のVQコードc jに対する出力確率を変更する。 (1)式の分母は、各時刻ですべてのVQ
    コードに対する出力確率の和が1.0になるようにするためのものである。 o(c j |c i )は前時刻のVQコードがc iであった場合に現時刻でVQコードc j出現する確率である。 この発明では、この確率を用いて音素を認識する。

    【0010】この発明は、VQコード連鎖確率を計算するデータによって2つの利用方法がある。 1つは、VQ
    コード連鎖確率を多数話者の音声から計算した場合で、
    もう1つは、入力話者が予め発声した話者適応用音声から計算した場合である。 VQコード連鎖確率を多数話者の音声から計算した場合は、多数話者にみられる、より一般的な各音素のVQコード連鎖情報がVQコード連鎖確率に表現される。 一方、入力話者が予め発声した話者適応用音声から計算した場合は、入力話者特有のVQコード連鎖情報がVQコード連鎖確率に表現される。 したがって、入力話者がシステムを使用する前にいくらかの音声を発声する必要があるが、入力話者に依存した、より精密な確率計算を行なうことが可能で、認識性能がより向上する。

    【0011】

    【作用】図1,2は、VQコード連鎖確率を利用する効果を示す。 離散HMMとVQコード連鎖確率モデルは予め学習音声データから作成しておく。 仮にVQコード系列1−1−0−0がモデル確率計算部に与えられたとき、時刻2のVQコード”1”に対する出力確率は、従来の離散HMMでは、単に音素/イ/と音素/エ/の出現確率を参照し、両方とも確率0.4を与えた。 しかしこの発明によれば、音素/イ/と音素/エ/の各VQコード連鎖確率を用いてこの確率値を変更する。 この例では、時刻2の1つ前の時刻1のVQコードが”1”であるので、VQコード”1”からVQコード”1”となる連鎖確率を音素/イ/と音素/エ/の各VQコード連鎖確率テーブルからそれぞれ参照し、これを用いて時刻2
    のVQコードに対する確率値の変更を行なう。 すなわちこの例では1−1というVQコード連鎖は音素/イ/において、0.8という高い確率で発生し、たいん特徴的であるので、(1)式に従い、従来の離散HMMの与える確率値よりも高く評価される。 一方、音素/エ/では、1−1というVQコード連鎖は0.05という低い確率で発生し特徴的でないので、従来の離散HMMの与える確率値よりも低く評価される。

    【0012】上述したように、VQコードの出現確率のみならず、音素または単語におけるVQコードの連鎖確率も考慮することによって、VQコードの出現確率が同じであっても出現順序が異なる音素を区別して認識するので認識性能がより向上する。

    【0013】

    【実施例】図2に、請求項1の発明の実施例を示す。 入力端子11から入力された音声は、A/D変換部12においてディジタル信号に変換される。 このディジタル信号は音響パラメータ抽出部13において音響パラメータ(例えばケプストラムや振幅)を抽出される。 この音響パラメータはベクトル量子化器14において有限個のV
    Qコードに変換される。 VQコードの数は、例えば25
    6個である。

    【0014】予め、多数話者の音声を上記VQコードに変換した後、音素あるいは単語ごとにVQコード系列を切り出し、いくつかの状態数(例えば3状態)で表現されたHMMを用いて音素または単語のモデルを作成する。 これらのモデルは、不特定話者用HMMメモリ17
    に記憶しておく。 また、上記多数話者の音声をVQコードに変換した系列から、2つ組あるいは3つ組のVQコードの連鎖確率を計算する。 このモデルは、VQコード連鎖確率モデルメモリ18に記憶しておく。

    【0015】モデル確率計算部15では、音素あるいは単語のHMMを不特定話者用HMMメモリ7より読みだし、また、VQコード連鎖確率モデルをVQコード連鎖確率モデルメモリ18より読みだし、入力音声のVQコード系列と照合しながら、最大の確率を与えるモデルを調べる。 このようにして、最大の確率を与えるモデルの音素あるいは単語を認識結果として認識結果出力部16
    から出力する。

    【0016】図3に、請求項2の発明の実施例を示し、
    図2と対応する部分に同一符号を付けてある。 図2で説明したように、予め多数話者の音声を用いて、音素または単語のHMMを作成し、不特定話者用HMMメモリ1
    7に記憶しておく。 この発明は話者適応型装置に適用されるものであって、はじめに、話者適応化モード音声認識モード切り替えスイッチ20を話者適応化側にして、
    入力話者に話者適応化用音声を発声してもらう。 ベクトル量子化器14までの処理は図2の場合と同一である。
    この音声をVQコードに変換した系列から、2つ組あるいは3つ組のVQコードの連鎖確率を、話者適応化音声VQコード連鎖確率計算部18で計算する。 この際、話者適応化音声に対し、音素境界を検出する処理を施し、
    音素ごとにVQコード連鎖確率を計算して複数のモデルで表現してもよいし、音素境界を検出せずに、話者適応化音声全体で1個のモデルを作成してもよい。 前者は、
    入力話者の各音素におけるVQコード連鎖情報を保有しており、後者は、音素を考慮しない入力話者に特有なV
    Qコード連鎖情報を保有している。 もちろん、音素ごとにVQコード連鎖確率を計算したほうが、より精密に情報を保存できるので性能がよい。 これらのモデルを話者適応化音声VQコードの連鎖確率モデルメモリ19に記憶する。 但し、音素ごとにVQコード連鎖確率を計算する場合、話者適応化音声中の音素区間の検出をする必要があるので、話者適応化モードでの処理量が増える。

    【0017】次に、話者適応化モード音声認識モード切り替えスイッチ20を音声認識側にして、入力話者に認識すべき単語を発声してもらう。 モデル確率計算部15
    では、音素あるいは単語のHMMを、不特定話者用HM
    Mメモリ17より読みだし、同時に、入力話者のVQコード連鎖確率モデルを話者適応化音声VQコード連鎖確率モデルメモリ19より読みだし、入力音声のVQコード系列と照合しながら、最大の確率を与えるモデルを調べる。

    【0018】このようにして、最大の確率を与えるモデルの音素あるいは単語を認識結果として認識結果出力部16から出力する。 図3の実施例において、入力話者に話者適応化用音声を発声してもらった時に、従来の話者適応音声認識装置と同様に、不特定話者用HMMをその入力話者に適応化したものとし、その適応化されたHM
    Mをモデル確率計算部15の計算に用いてもよい。 この場合連鎖確率モデルもHMMのパラメータの変更に合わせて変更する必要がある。

    【0019】

    【発明の効果】以上述べたように、この発明においては、音素あるいは単語中のVQコードの出現確率だけでなく、VQコードの連鎖も考慮しているので、より精密なモデルを作成することができ認識性能が向上する。 図2に示した構成に従い、不特定話者音声認識を行なった18子音の認識実験結果を示す。 使用した音声データは20名(男性10名、女性10名)のアナウンサーが発声した5240単語である。 はじめに、16名(男性8
    名、女性8名)の5240単語セットの偶数番目の単語から切り出した子音を用いて、音素ごとにHMMを学習した。 この際使用された音響パラメータは、16次のケプストラム、16次のデルタケプストラム、1次のデルタパワーである。 これらは、それぞれケプストラム25
    6個、デルタケプストラム256個、デルタパワー64
    個のVQコードに変換されたのち使用された。 また、同じデータで音素ごとに2つ組のVQコードの連鎖確率モデルを作成した。 2つのVQコードの時間間隔は8ms
    である。 認識実験は、上記とは異なる4名(男性2名、
    女性2名)を評価話者とし、それぞれが発声した524
    0単語セットの奇数番目の単語から切り出した子音を用いて行なった。 図4に、この発明による18子音の認識実験結果を従来法と共に示す。 アルファベット(MT
    T,MXM,FYM,FYN)は4人の評価用話者のイニシャルである。 従来の手法では、平均認識率が70.
    8%であったが、この発明により76.3%にまで改善された。

    【0020】次に、図3に示した構成に従い、話者適応型不特定話者音声認識を行なった18子音の認識実験結果を示す。 実験条件は、上記とほぼ同一である。 ただし、4名の評価用話者(入力話者)が発声した、上記5
    240単語セットとは異なる216単語を話者適応化音声として使用した。 この音声から各話者ごとに、2つ組のVQコードの連鎖確率モデルを作成した。 VQコードの連鎖確率モデルを、音素ごとに作成した場合と、音素を考慮せずに1個のモデルを作成した場合の2つの条件について実験した。 認識実験は、図2の装置についての実験と同様に、評価用話者4名の5240単語セットの奇数番目の単語から切り出した子音を用いて行なった。
    図5に、この発明による18子音の認識実験結果を従来法と共に示す。 アルファベット(MTT,MXM,FY
    M,FYN)は4人の評価用話者のイニシャルである。
    従来の手法では、平均認識率が70.8%であったが、
    この発明により、音素を考慮しないVQコードの連鎖確率モデルを用いて74.9%に、音素ごとに作成したV
    Qコードの連鎖確率モデルを用いて78.6%まで改善された。 入力話者の話者適応化音声からVQコードの連鎖確率モデルを音素ごとに作成すれば、図4の多数話者の音声からVQコードの連鎖確率モデルを音素ごとに作成する場合に比べて、より入力話者に対し精密なモデルになっているので更に性能が向上している。

    【図面の簡単な説明】

    【図1】この発明の原理を説明するための図。

    【図2】請求項1の発明の実施例を示すブロック図。

    【図3】請求項2の発明の実施例を示すブロック図。

    【図4】請求項1の発明の効果を示す図。

    【図5】請求項2の発明の効果を示す図。

    【図6】従来装置におけるVQコード列についてHMM
    を用いた音素の存在確率を求める演算例を示す図。

    【図7】従来の不特定話者音声認識装置を示すブロック図。

    【図8】従来装置における問題点を説明するための図。

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈