首页 / 专利库 / 信号处理 / 梅尔频率倒谱 / Equalizer of frequency characteristic of speech

Equalizer of frequency characteristic of speech

阅读:739发布:2021-01-12

专利汇可以提供Equalizer of frequency characteristic of speech专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide an equalizer of frequency characteristics of speech capable of stably correcting the change in the transmission characteristics of a sound recording system while taking human auditory characteristics into consideration.
SOLUTION: The equalizer 20 includes a source PSD forming section 34 which calculates the difference of the power spectral density (PSD) between source speech 30 and target speech 32, a target PSD forming section 36 and a dividing section 38, and a cepstrum filter section 40 which filters the source speech 30 by a filter parameter smoothed by using cepstrum transformations 70 and 72 and mel warping transformation 74 for the difference, and reverse transformation thereof 76.
COPYRIGHT: (C)2005,JPO&NCIPI,下面是Equalizer of frequency characteristic of speech专利的具体信息内容。

  • 処理対象となる音声と基準となる音声との間のパワースペクトル密度(PSD)の差分を算出するための手段と、
    前記差分をケプストラムにより表される周波数特性の特徴空間に変換するための手段と、
    前記ケプストラムにより表された差分を用いてフィルタパラメータが設定される、前記処理対象となる音声をフィルタリングするための、予め定められたフィルタリング手段とを含む、音声の周波数特性の等化装置。
  • 前記フィルタリング手段は、
    前記差分のケプストラムをメルケプストラムに変換するための手段と、
    前記メルケプストラムにより表された差分をフィルタパラメータとし、前記処理対象となる音声を入力として受ける様に接続されるMLSA(mel−logarithmic spectral approximation)フィルタとを含む、請求項1に記載の音声の周波数特性の等化装置。
  • 前記フィルタリング手段は、
    前記PSDの差分に対し平滑化処理を行なうためのPSD差分平滑化手段と、
    前記PSD差分平滑化手段により平滑化されたPSDによりフィルタパラメータが設定される、前記処理対象となる音声を受ける様に接続されるFIR(finite impulse response)フィルタとを含む、請求項1に記載の音声の周波数特性の等化装置。
  • 前記音声の周波数特性の等化装置は、前記PSDの差分を、予め定める第1の次数を有する差分のケプストラムに変換するための手段をさらに含み、
    前記PSD差分平滑化手段は 前記差分のケプストラムに対し前記第1の次数のケプストラムから前記第1の次数よりも小さな第2の次数を有するメルケプストラムへの周波数軸ワーピングを行なうための第1のメルワーピング手段と、
    前記第1のメルワーピング手段の出力に対し、前記第1のメルワーピング手段によるメルワーピングの逆変換を行ない逆変換された差分のケプストラムを出力するための第2のメルワーピング変換手段と、
    前記第2のメルワーピング変換手段の出力する前記逆変換された差分のケプストラムをスペクトルに変換することで平滑化されたPSDの差分を出力し、前記FIRフィルタにフィルタパラメータとして与えるための手段とを含む、請求項3に記載の音声の周波数特性の等化装置。
  • 说明书全文

    この発明は、音声の補正技術に関し、特に、波形素片接続型音声合成システム等において、入される音声の音質を、ターゲット音声に近い音質に補正するための技術に関する。

    コンピュータ技術及びデータコミュニケーション技術の発達に伴い、人間と機械との間のインターフェイスが重要となっている。 人間にとっては、人と話をするのと同様に機械とのコミュニケーションを行なえることが望ましく、そのための技術開発が進められている。

    人間から機械への情報の伝達としては、音声認識、画像認識等の認知技術が主として用いられる。 また機械から人間への情報の伝達方法は種々あるが、中でも音声合成技術が用いられる機会が増加している。 音声応答システム、音声翻訳システム、コンピュータゲーム等が代表的な応用例である。 さらに、近年のロボット等の開発の進展に伴い、音声認識及び画像認識と音声合成とを組合せることで、人間とロボットとのコミュニケーションを人間同士のコミュニケーションと同様に実現することが期待される。

    音声合成では、如何にして自然な音声を合成するかが重要である。 最近では、数十時間規模の大規模な音声コーパスを使用して音声素片を作成しておき、入力されるテキストデータに応じて適切な音声素片を選択し接続する、いわゆる音声素片接続型音声合成が主流となっている。 この技術では、如何に自然に音声波形素片を接続するかが重要となる。

    上述した様に現在の波形素片音声合成システムでは、音質向上のために大規模な音声コーパスを使用している。 多くの場合、単一の話者の音声を長期間かけて収録する。 場合によってはその収録に数ヶ月から数年の期間を必要とする。

    こうした場合、録音時期が異なると、録音系の特性が経年変化し、そのために録音された音声を再生した場合、その音質が変化してしまうことがある。 波形接続を行なう場合、その様に互いに異なる音質の音声を接続すると、合成された音声が不自然なものとなる問題がある。

    こうした問題を解決するための音声の補正技術に関し、一つの提案が非特許文献1においてなされている。 図4に、非特許文献1に記載されたチャネル等化装置のブロック図を示す。 図4を参照して、この装置200は、ソース音声30を受け、ソース音声30の発話内容でターゲット音声32とほぼ同じ周波数特性の音声を発生するためのものである。 なお、本明細書では、ターゲット音声32は予め録音されていた、基準となる音声を指す。 ソース音声30は、ターゲット音声32とは別の時期に録音された音声であり、録音系の特性の経年変化により、その周波数特性がターゲット音声32とは異なっている可能性があるものとする。

    この装置200は、ソース音声30のパワースペクトル密度(PSD)を生成するためのソースPSD生成部34と、ターゲット音声32のPSDを生成するためのターゲットPSD生成部36と、ソース音声30のPSDとターゲット音声32のPSDとの差分(ターゲットPSD/ソースPSD)を計算するための除算部38と、除算部38の出力に基づくLPC(線形予測係数)分析の結果を用いたIIR(Infinite Impulse Response)フィルタでソース音声30をフィルタリングし等化処理済みの音声212を出力するためのLPCフィルタ部210とを含む。

    ソースPSD生成部34及びターゲットPSD生成部36は同様の構成を有する。 ソースPSD生成部34は、ソース音声30のデータに含まれる各音声フレームを検出するための音声フレーム検出部50と、音声フレーム検出部により検出された各音声フレームに所定の窓掛け処理を行なうための窓掛け処理部52と、窓掛け処理部52により窓掛け処理された音声フレームデータから高速フーリエ変換(FFT)により当該音声フレームのPSDを算出するためのパワースペクトル算出部54と、パワースペクトル算出部54により算出された、所定期間のソース音声30のフレームのPSDの平均を算出するためのフレーム平均部56とを含む。

    ターゲットPSD生成部36も同様に、音声フレーム検出部60と、窓掛け処理部62と、パワースペクトル算出部64と、フレーム平均部66とを含む。

    LPCフィルタ部210は、除算部38の出力に逆FFT(IFFT)処理を行なうためのIFFT部220と、IFFT部220の出力に対しLPC変換を行なうためのLPC変換部222と、LPC変換部222の出力するLPC係数により決定されるフィルタパラメータを持ち、ソース音声30に対するフィルタリング処理を行なってソース音声30の周波数特性をターゲット音声32の周波数特性に等化させるためのIIRフィルタ224とを含む。

    ソース音声30とターゲット音声32との周波数特性の差分を除算部38で算出し、その差分に対するLPC変換を行なってIIRのフィルタパラメータを設定する。 このチャネル等化装置200により、ソース音声30の周波数特性をターゲット音声32のそれとほぼ等しいものに等化できる。

    ユー シ、エリック チャン、フ ペン、ミン チュウ、「接続型TTSシステムのための、大規模音声データベースについてのパワースペクトル密度に基づくチャネル等化」、ICSLP2002予稿集、pp. 2369−2372、米国、2002(Yu Shi,Eric Chang,Hu Peng,and Min Chu,"Power Specral Dencity Based Channel Equalization Of Large Speech Database For Concatenative TTS System,Proc of ICSLP2002,pp.2369−2372、USA,2002)

    図4に示す従来の等化装置については、その有効性が示されている。

    しかし従来法では、LPC変換における次数をどの様に選択すべきかについて、困難な問題がある。 すなわち、LPC変換の次数を小さくすると、補正の効果がほとんどなくなる一方、次数を大きくすると音質の劣化が甚だしくなるという問題がある。 そのためLPC変換の次数を適切な値に決めるのが困難である。

    本発明に係る音声の周波数特性の等化装置は、処理対象となる音声と基準となる音声との間のパワースペクトル密度(PSD)の差分を算出するための手段と、差分をケプストラムにより表される周波数特性の特徴空間に変換するための手段と、ケプストラムにより表された差分を用いてフィルタパラメータが設定される、処理対象となる音声をフィルタリングするための、予め定められたフィルタリング手段とを含む。

    好ましくは、フィルタリング手段は、差分のケプストラムをメルケプストラムに変換するための手段と、メルケプストラムにより表された差分をフィルタパラメータとし、処理対象となる音声を入力として受ける様に接続されるMLSA(mel−logarithmic spectral approximation)フィルタとを含む。

    又は、フィルタリング手段は、PSDの差分に対し平滑化処理を行なうためのPSD差分平滑化手段と、PSD差分平滑化手段により平滑化されたPSDによりフィルタパラメータが設定される、処理対象となる音声を受ける様に接続されるFIR(finite impulse response)フィルタとを含んでもよい。

    音声の周波数特性の等化装置は、PSDの差分を、予め定める第1の次数を有する差分のケプストラムに変換するための手段をさらに含んでもよい。 PSD差分平滑化手段は、差分のケプストラムに対し前記第1の次数のケプストラムから前記第1の次数よりも小さな第2の次数を有するメルケプストラムへの周波数軸ワーピングを行なうための第1のメルワーピング手段と、第1のメルワーピング手段の出力に対し、第1のメルワーピング手段によるメルワーピングの逆変換を行ない逆変換された差分のケプストラムを出力するための第2のメルワーピング変換手段と、第2のメルワーピング変換手段の出力する逆変換された差分のケプストラムをスペクトルに変換することで平滑化されたPSDの差分を出力し、FIRフィルタにフィルタパラメータとして与えるための手段とを含んでもよい。

    処理対象となる音声と基準となる音声とのパワースペクトル密度の差分がケプストラムにより表される周波数特性の特徴空間に変換される。 それをさらにメルスケールに変換してMLSAフィルタを設定する。 又は、ケプストラムに変換した後、メルワーピング及びその逆変換を行なって逆変換されたケプストラムを得て、それをさらにスペクトルに戻すことでPSDの差分を平滑化し、そのPSDの差分でフィルタを設定する。 こうして設定されたフィルタは人間の聴覚特性に近い特性を持つ。 またこうして設定されるフィルタの特性は、LPC変換によるフィルタと異なり、パラメータ次数に敏感でない。 フィルタの精度を高める様にパラメータの算出を行なう場合にも、音質の劣化が生じることがない。 また従来のチャネル等価装置と同程度の音質で、処理対象となる音声の周波数特性を基準となる音声の周波数特性に等化させることができる。

    [第1の実施の形態]
    図1に、本発明の第1の実施の形態に係るチャネル等価装置20のブロック図を示す。 図1において、図4と同じ部品には同じ参照番号を付してある。 それらの機能も同一である。 従ってそれらについての詳細な説明は繰返さない。

    図1に示すチャネル等価装置20が図4のチャネル等価装置200と異なるのは、図4のLPCフィルタ部210に代えて、PSDの差分を平滑化したフィルタパラメータで設定されたFIR(Finite Impulse Response)フィルタを用いて等化を行なうケプストラムフィルタ部40を含む点である。

    ケプストラムフィルタ部40は、除算部38の出力するソース音声30とターゲット音声32とのPSDの平均の差分について平方根をとりさらにその対数を算出するための対数算出部70と、対数算出部70の出力に対しm次のIFFT処理を実行することにより除算部38の出力に対するケプストラムを算出するためのIFFT処理部72と、IFFT処理部72の出力するケプストラムについて、その横軸(周波数軸)をメルスケールに変換する(メルワーピングする)ための第1のメルワーピング部74とを含む。

    第1のメルワーピング部74での変換をメルワーピング(m、n、a)と表しているが、mは変換前のケプストラムの次数、nは変換後の次数である。 ここではn<mとなる様にmとnとが選ばれている。 aは周波数軸伸縮のパラメータである定数であり、サンプリング周波数に応じて定められる。

    ケプストラムフィルタ部40はさらに、第1のメルワーピング部74の出力に対してメルワーピング(n、m、−a)を実行するための第2のメルワーピング部76を含む。 第2のメルワーピング部76でのメルワーピングと第1のメルワーピング部74でのメルワーピングとは、互いに逆変換の関係になる。 すなわちこれら二つの処理を直列に実行することにより周波数軸は元の線形軸に戻る。 ただしm、nの値がn<mとなる様に選ばれているため、これら二つの処理を直列に実行した場合、メル変換後の周波数軸上の値の高い部分のケプストラムが除去される。

    ケプストラムフィルタ部40はさらに、第2のメルワーピング部76の出力に対してFFT処理を行なうためのFFT処理部78と、FFT処理部78の出力に指数変換を行なうための指数変換部80と、指数変換部80の出力に対しIFFT処理を行なってフィルタパラメータを出力するためのIFFT処理部82とを含む。 IFFT処理部82の出力は、第1のメルワーピング部74及び第2のメルワーピング部76によるメルワーピングとその逆変換とにより、除算部38の出力のPSDが平滑化されたものとなる。

    ケプストラムフィルタ部40はさらに、IFFT処理部82の出力するフィルタパラメータにより設定され、ソース音声30に対しフィルタ処理を行なうことにより、ソース音声30の周波数特性を補正し、ターゲット音声32の周波数特性とほぼ同じ周波数特性の音声42として出力するためのFIR84を含む。

    チャネル等価装置20は以下の様に動作する。 図2を参照して、ソース音声30の波形90に対して図1に示す音声フレーム検出部50、窓掛け処理部52、パワースペクトル算出部54、及びフレーム平均部56によってソースPSD100が得られる。 同様にターゲット音声32の波形92に対して音声フレーム検出部60、窓掛け処理部62、パワースペクトル算出部64、及びフレーム平均部66によってターゲットPSD102が得られる。 除算部38が後者を前者で除算することにより、PSDの差分110が得られる。

    このPSDの差分110に対し、対数算出部70、IFFT処理部72、及び第1のメルワーピング部74での処理を行なうことにより、メルケプストラム120が得られる。 このメルケプストラム120に対し、第2のメルワーピング部76、FFT処理部78、及び指数変換部80での処理を実行することにより、PSDの差分110の平滑化されたPSD130が得られる。 この平滑化されたPSD130に対しIFFT処理部82の処理を行なうことにより、FIR84のフィルタパラメータを設定する。 この様に設定されたFIR84を用いてソース音声30をフィルタリングすることにより得られる音声42の周波数特性は、ターゲット音声32の周波数特性とほぼ等しいものとなる。

    メルワーピングによってケプストラムを一旦メルスケールに変換した後、その逆変換によってその高周波数成分を除去することで、PSDの差分を平滑化している。 従ってこうして得られたフィルタパラメータにより設定されたFIR84は人間の聴覚特性に近い特性を持つ。 さらに、この様に設定されるFIR84の特性は、LPC変換によるフィルタと異なり、パラメータ次数に敏感でない。 フィルタの精度を高める様にフィルタパラメータの算出を行なった場合にも音質の劣化が生じることがなく、従来のチャネル等価装置200と同程度の音質でソース音声30の周波数特性の等化を行なうことができる。

    [第2の実施の形態]
    上記した第1の実施の形態の装置では、フィルタリングはFIRで行なっている。 しかし本発明はその様にFIRを用いるものには限定されない。 図1に示す第1のメルワーピング部74の出力するメルケプストラム係数で直接設定できるフィルタを使用する場合、構成はより簡単となる。 図3にそうしたフィルタとしてMLSA(mel−logarithmic spectral approximation)フィルタを用いた、本発明の第2の実施の形態に係るチャネル等価装置140のブロック図を示す。

    図3において、図1及び図4と同一部品には同一の参照符号を付してある。 それらの機能も同一である。 従ってここではそれらについての詳細な説明は繰返さない。

    図3を参照して、この第3の実施の形態に係るチャネル等価装置140が図1に示すチャネル等価装置20と異なるのは、図1に示すケプストラムフィルタ部40に代えて、MLSAフィルタを含むMLSAフィルタ部150を含む点である。 そしてMLSAフィルタ部150が図1のケプストラムフィルタ部40と異なるのは、図1の第2のメルワーピング部76、FFT処理部78、指数変換部80、及びIFFT処理部82に代えて、第2のメルワーピング部76から出力されるメルケプストラムによって直接にフィルタパラメータが設定されるMLSAフィルタ160を含む点である。

    この第2の実施の形態に係るチャネル等価装置140の動作は、第1のメルワーピング部74の出力によってMLSAフィルタ160が設定される点を除き、第1の実施の形態のチャネル等価装置20と同じである。

    チャネル等価装置140によっても、第1の実施の形態のチャネル等価装置20と同様の効果を得ることができる。 それに加えて、MLSAフィルタ160は、メルケプストラムをパラメータとするフィルタであり、第1のメルワーピング部74の出力によって直接設定できる。 従って、第1の実施の形態のチャネル等価装置20と比較して、メルケプストラムからFIRのフィルタパラメータを作成するための種々の部品が不要となり、回路構成が簡単となる。

    今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。 本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

    第1の実施の形態に係るチャネル等価装置のブロック図である。

    第1の実施の形態に係るチャネル等価装置の動作を説明するための模式図である。

    第2の実施の形態に係るチャネル等価装置のブロック図である。

    従来技術に係るチャネル等価装置のブロック図である。

    符号の説明

    20,140,200 チャネル等価装置、30 ソース音声、32 ターゲット音声、34 ソースPSD生成部、36 ターゲットPSD生成部、38 除算部、40 ケプストラムフィルタ部、50,60 音声フレーム検出部、52,62 窓掛け処理部、54,64 パワースペクトル算出部、56,66 フレーム平均部、74 第1のメルワーピング部、76 第2のメルワーピング部、84 FIR、150 MLSAフィルタ部、160 MLSAフィルタ、210 LPCフィルタ部

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈