発話リズム変換装置、方法及びプログラム专利检索-音素信号处理专利检索查询-专利查询网

発話リズム変換装置、方法及びプログラム

阅读：1026发布：2020-06-03

专利汇可以提供発話リズム変換装置、方法及びプログラム专利检索，专利查询，专利分析的服务。并且，下面是発話リズム変換装置、方法及びプログラム专利的具体信息内容。

权利要求

第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号のその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、予め用意された複数の発話リズム変換則のうち、上記入力発話リズムを最も良く表現する上記第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、上記入力された音声信号の特徴量を用いて、上記入力された音声信号を変換した音声信号を生成する音声合成部と、を含む発話リズム変換装置。請求項1の発話リズム変換装置であって、上記発話リズム変換則は、上記第一発話リズムと上記第二発話リズムとを結合したベクトルをM個のガウス分布を混合したガウス混合分布でモデル化したものであり、上記M個のガウス分布の各々における上記第一発話リズムをモデル化した部分を第一ガウス分布として、上記入力発話リズムを最もよく表現する第一ガウス分布を決定する決定部をさらに含み、上記音声合成部は、上記M個のガウス分布のうち上記決定部で決定された第一ガウス分布を含むガウス分布において上記第二発話リズムをモデル化した部分を第二ガウス分布として、当該第二ガウス分布を用いて上記入力発話リズムを変換することにより、上記変換した音声信号を生成する、発話リズム変換装置。第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号のその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、音声合成部が、予め用意された複数の発話リズム変換則のうち、上記入力発話リズムを最も良く表現する上記第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、上記入力された音声信号の特徴量を用いて、上記入力された音声信号を変換した音声信号を生成する音声合成ステップと、を含む発話リズム変換方法。請求項1又は2の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム。

说明书全文

この発明は、音声信号の発話リズムを変換する技術に関する。

第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセント、イントネーション、発音、発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。

これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた(例えば、非特許文献1)。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。

廣谷定男, “発話リズムを抽出・制御する音声信号処理”, NTT技術ジャーナル, 2013, pp.26-29.

非特許文献1の方法により発話リズム変換を行う場合、予めネイティブが同一文章を発声した音声から、目標となる発話リズムを求めておく必要があった。すなわち、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号が必要であった。

この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供することである。

この発明の一態様による発話リズム変換装置は、第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げたテキストの音声信号である第二音声信号に共通の音素について、第一音声信号のその音素の発話リズムである第一発話リズムと、第一音声信号に対応する第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、予め用意された複数の発話リズム変換則のうち、入力発話リズムを最も良く表現する第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、入力された音声信号の特徴量を用いて、入力された音声信号を変換した音声信号を生成する音声合成部と、を備えている。

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる。

発話リズム変換装置の例を説明するためのブロック図。

発話リズム変換方法の例を説明するための流れ図。

時間関数φ

_k(t)を説明するための図。

[実施形態] 以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図1に示すように、第一特徴抽出部1、第二特徴抽出部2、ガウス混合モデル生成部3、入力音声特徴抽出部4、重み決定部5、変換部6及び音声合成部7を例えば備えている。発話リズム変換装置の各部が、図2の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。

〔発話リズムの学習〕 <第一特徴抽出部1,第二特徴抽出部2> 第一グループの話者にテキストを読み上げてもらい、その音声信号(以下、「第一音声信号」とする。)を第一特徴抽出部1に入力する。

同様に、第二グループの話者に上記テキストと同じテキストを読み上げてもらい、その音声信号(以下、「第二音声信号」とする。)を第二特徴抽出部2に入力する。上記テキストは、少なくとも1個の文章を含むとする。

第一グループの話者の人数及び第二グループの話者の人数は、それぞれ少なくとも1人以上とする。

第一グループの話者とは例えば日本語母語話者であり、第二グループの話者とは例えば英語母語話者である。以下、第一グループの話者が日本語母語話者であり、第二グループの話者が英語母語話者である場合を例に挙げて説明する。

第一特徴抽出部1は、第一音声信号に対して音素のラべリングを行う。この例では、第一音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

第一音声信号、言い換えれば、この例では日本語母語話者の英語音声に対しては、日本語母語話者英語特有の挿入母音を特別な音素として割り当ててもよい。例えば、英単語’round’の最後の/d/を日本語母語話者は/ド/と発声するため、/d/の後ろに/o/を割り当ててもよい。また、息継ぎのタイミングの変換を行うために、無音を表す特別な音素を割り当ててもよい。

同様に、第二特徴抽出部2は、第二音声信号に対して音素のラべリングを行う。この例では、第二音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

つぎに、第一特徴抽出部1は、時系列信号Yである第一音声信号から声道スペクトルy(例えば、p次のLSPパラメータ)を抽出し、音素ラベルを用いて、非負値時空間分解法(例えば、参考文献1参照。)により、

の二乗誤差を最小にするΦを決定する。すなわち、y_i(t)とy_i(t_k-1)φ_k-1(t)+ y_i(t_k)φ_k(t)との二乗誤差を最小にするΦを決定する。

≪参考文献1≫S. Hiroya, “Non-negative temporal decomposition of speech parameters by multiplicative update rules”, IEEE Trans. Audio, Speech, Lang. Process., 2013, pp.2108-2117.

ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y₁(t),…,y_i(t),…,y_p(t)}である。よって、y_i(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータy_i(t)とも記載する。

また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(K-2)とし、kを音素を表すインデックス、k=1,…,Kとすると(ただし、k=1、k=Kをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ₁(t),…,φ_k(t),…,φ_K(t)}である。φ_k(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φ_k(t)とも記載する。t_kは、音素kの中心時刻を表す。

時刻t_k-1≦t≦t_k+1において、φ_k(t)は単峰性かつ[0,1]の範囲の値をとる。ここで、時刻t_k-1≦t≦t_k+1において、φ_k(t)の値が0.5となる時刻が2つ存在するが、それぞれt_sとt_eとすると、D_k=t_e-t_s+1は当該音素の継続時間長と考えることができる。D_kについては、図3を参照のこと。図3において横軸は時刻を表し、縦軸は大きさをφ_k(t)の大きさを表す。図3の破線はφ_k-1(t)を表し、太線はφ_k+1(t)を表す。φ_k(t)が単峰性であるとは、時間関数φ_k(t)を時間tで2回微分した関数φ_k''(t)が、時刻t_k-1≦t≦t_k+1においてφ_k''(t)≦0であることを意味する。D={D₁,…,D_k,…,D_K}とする。

隣り合う音素のみが影響を及ぼすことを考慮して、発話リズム(Φ,D)は音素単位で表現されている。

第一特徴抽出部1は、t_sとt_eの間を予め決められた点数N(例えばN=30)で、[0.5,1,0.5]の範囲の音素k(k=1,2,…,K)のφ_k(t)をサンプリングし直しφ_k’とする。t_sとt_eの間のサンプリング点を1,…,n,…,Nと表記すると、φ_k’={φ_k'(1),…,φ_k'(n),…, φ_k'(N)}である。Φ'={φ₁’,…,φ_k’,…,φ_K’}として、第一特徴抽出部1が求めた、サンプリングし直された、第一音声信号についての発話リズム(Φ',D)を(Φ_J',D_J)と表記する。各音素kの発話リズム(Φ_J',D_J)は、ガウス混合モデル生成部3に出力される。

第二特徴抽出部2は、第一特徴抽出部1と同様にして、第二音声信号から、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を求める。第二特徴抽出部2が求めた、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を(Φ_E',D_E)と表記する。各音素kの発話リズム(Φ_E',D_E)は、ガウス混合モデル生成部3に出力される。

<ガウス混合モデル生成部3> 日本語母語話者及び英語母語話者の発話リズム(Φ_J',D_J)と(Φ_E',D_E)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。

ガウス混合モデル生成部3は、音素kjの発話リズム(φ_J,kj’,D_kj)と、音素keの発話リズム(φ_E,ke’,D_ke)とをベクトルとして、ガウス混合モデル(GMM)により発話リズム変換則の学習を行う。混合数Mは、予め定められた正の整数である。例えばM=1024とする。

すなわち、φ_J,kj’=(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N))とし、φ_E,ke’=(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))として、ガウス混合モデル生成部3は、2N+2次元のベクトル(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N),D_kj, φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N),D_ke)を、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeの全ての音素についての、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとを用いて学習する。

ここで、φ_J,kj’=(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N))は、第一音声信号の音素kjについてのφ_k'=(φ_k’(1),…,φ_k’(n),…,φ_k’(N))である。また、φ_E,ke’=(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))は、第二音声信号の音素keについてのφ_k'=(φ_k’(1),…,φ_k’(n),…,φ_k’(N))である。

このようにして、ある音素kj,keについての発話リズム変換則ベクトルを、第一特徴抽出部1で求まったその音素kjの発話リズム(φ_J,kj’,D_kj)と、第二特徴抽出部2で求まったその音素に基づく発話リズム(φ_E,ke’,D_ke)とを少なくとも要素とするベクトルとして、ガウス混合モデル生成部3は、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習する。生成されたガウス混合モデルは、重み決定部5に出力される。

なお、発話リズム変換則ベクトルには、Dとφ’以外にも、声道スペクトル、文章の開始から何番目の音素かを表わすインデックス、無音であれば0、それ以外は1、または前後の音素におけるこれらのパラメータなどを加えてもよい。

〔発話リズムの変換〕 <入力音声特徴抽出部4> 入力音声特徴抽出部4は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部7に出力される。

発話リズムの変換の対象となる音声信号とは、この例では、日本語母語話者の英語の音声信号である。日本語母語話者が読み上げる英文のテキストは任意であり、学習で用いたテキストである必要はない。

音声信号の特徴量は、例えば、p次のLSPパラメータである。

入力音声特徴抽出部4による入力された音声信号についての各音素kの発話リズム(φ_k’,D_k)の求め方は、第一音声信号から第一特徴抽出部1による各音素kの発話リズム(φ_k’,D_k)の求め方と同様であるため、ここでは説明を省略する。

なお、以下では、入力音声特徴抽出部4で求まった発話リズムを(φ’,D)と表記する。ここで、φ=(φ₁’,…,φ_k’,…,φ_K’)であり、D={D₁,…,D_k,…,D_K}である。

<重み決定部5> 重み決定部5は、ガウス混合モデル生成部3で生成されたガウス混合モデルの中の、第一特徴抽出部1で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部4で求まった各音素kの発話リズム(φ_k’,D_k)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部6に出力される。

すなわち、重み決定部5は、 P(φ_k’,D_k) = Σ_m=1^M π_mN(φ_k’,D_k|λ_m) を最大にするような重みπ_m(m=1,2,…,M。ただしΣ_m=1^M π_m=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λ_mは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。

そのために、重み決定部5は例えば、 π_m = N(φ_k’,D_k|λ_m) /Σ_m=1^M N(φ_k’,D_k|λ_m) となる重みπ_m(m=1,2,…,M)を求める。この式により求まる重みπ_m(m=1,2,…,M)の和は1となる。

なお、重み決定部5の処理は、入力音声特徴抽出部4で求まった各音素kについて行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する重みπ_m(m=1,2,…,M)が求まる。

<変換部6> 変換部6は、ガウス混合モデルの中の、第二特徴抽出部2で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπ_m(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。

すなわち、変換部6は、変換後の発話リズムである(φ_mod’,D_mod)を以下の式により求める。ここで、φ_μ,mは、第二ガウス混合分布の中の、(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))に対応する次元のガウス分布のm番目のガウス分布の平均値ベクトルである。D_μ,mは、第二ガウス混合分布の中のD_keに対応する次元のガウス分布のm番目のガウス分布の平均値である。

変換部6の処理は、入力音声特徴抽出部4で求まった各音素kに対応する重みπ_m(m=1,2,…,M)ごとに行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する(φ_mod’,D_mod)が求まる。

なお、重み付け和を求める代わりに、最も大きい重みπ_mを1、それ以外を0とすることで変換を行ってもよい。この際、求められたある音素の音素継続長が、前後の音素の音素継続長と大きく異なり、不自然な音声が合成される可能性があることから、最も大きい重みπ_mを1とする代わりに、動的計画法により音素継続長の時間的連続性も考慮して求めたガウス分布の重みを1としてもよい。また、変換の際、日本語母語話者英語特有の挿入母音や無音に対応する発話リズムを取り除いても良い。

<音声合成部7> 音声合成部7は、変換後の発話リズム(φ_mod’,D_mod)と、入力音声特徴抽出部4で求まった入力された音声の特徴量とを用いて、音声を合成する。

そのために、音声合成部7は、まず、変換したφ_mod’とD_modより、[0.5,1,0.5]の範囲のφ_modを求める。具体的には、φ_mod’={φ_mod’(1),…,φ_mod’(n),…,φ_mod’(N)}として、φ_mod’(1),…,φ_mod’(n),…,φ_mod’(N)を、D_modに基づいて伸縮し、サンプリング点間の値を線形補間や、スプライン補間することにより、[0.5,1,0.5]の範囲のφ_mod(t)を求めることができる。

つぎに、音声合成部7は、入力された音声信号の音素の順番に従ってφ_mod(t)を接続する。すなわち、音素kについてのφ_mod(t)をφ_mod,k(t)として、入力された音声信号の全ての音素についての各時刻tにおけるφ_mod,k(t)を求める。

φ_mod,k-1(t),φ_mod,k(t),φ_mod,k+1(t)は[0.5,1,0.5]の範囲で定義されており、かつ、時間関数の定義よりφ_mod,k-1(t)+φ_mod,k(t)=1であるため、時刻t_k-1≦t≦t_sにおいてφ_mod,k-1(t)が決まれば、時刻t_k-1≦t≦t_sのφ_mod,k(t)は、φ_mod,k(t)=1-φ_mod,k-1(t)により計算することができる。また、時間関数の定義よりφ_mod,k(t)+φ_mod,k+1(t)=1であるため、時刻t_e≦t≦t_k+1においてφ_mod,k+1(t)が決まれば、時刻t_e≦t≦t_k+1におけるφ_mod,k(t)は、φ_mod,k(t)=1-φ_mod,k+1(t)により計算することができる。t

k-1,t>t

_k+1のφ

_mod,k(t)は0とする。これを、各音素kについてのφ

_mod,k(t)について行うことにより、入力された音声信号の全ての音素についての各時刻tにおけるφ

_mod,k(t)を求めることができる。

そして、音声合成部7は、

により、発話リズムを変換した声道スペクトルを生成する。音声合成部7は、生成された声道スペクトルに基づいて音源信号をたたみ込むことにより、発話リズムが変換された音声を生成する。

非特許文献1では、目標となる発話リズムはネイティブのそれとなる。一方、この例による発話リズム変換では、日本語母語話者の音素情報と発話リズムを与え、目標となる発話リズムはGMMによる変換により求められる。つまり、非特許文献1では、同一文章発声においては、どの話者が発声しても同一の発話リズムに変換されてしまうが、この例による発話リズム変換では、話者の発話スタイル(話速など)を考慮した発話リズムを目標として与えることができるため、より自然な音声を合成することが可能である。

[変形例] 音声信号に対する音素ラべリングは、人手で行ってもよい。

上記方法によりD_modを求めた場合、GMMの平均値が選ばれることとなり、文章全体として発話リズムにメリハリがない音声が出力される可能性がある。そこで、重み決定部5は、学習データに含まれる英語母語話者の1文章あたりの音素継続長の分散の平均値および分散をM,Vとして、 ωN(D_mod|λ_m) + N(D_modの分散 | M,V) を最大にするようなD_modを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる(例えば、参考文献2参照。)。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。

また、上記実施形態では、第一グループとして日本語母語話者、第二グループとして英語母語話者、テキストとして英語を用いたが、第一グループとしてイギリス英語母語話者、第二グループとしてアメリカ英語母語話者や、テキストとして日本語などを用いてもよい。

≪参考文献2≫T. Toda, K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis”, IEICE Trans. Inf. & Syst., 2007, pp.816-824.

[プログラム及び記録媒体] 発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、発話リズム変換装置における各処理をコンピュータによって実現する場合、発話リズム変換装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

1 第一特徴抽出部 2 第二特徴抽出部 3 ガウス混合モデル生成部 4 入力音声特徴抽出部 5 重み決定部 6 変換部 7 音声合成部

标题	发布/更新时间	阅读量
一种基于CLDNN+CTC声学模型的语音识别方法	2020-05-11	970
一种跨语言情感语音合成方法及系统	2020-05-12	743
一种样本生成方法、装置、服务器及存储介质	2020-05-12	609
基于深度学习的VR智能语音交互英语方法	2020-05-12	409
一种实时音频驱动的虚拟人物口型同步控制方法	2020-05-08	665
音频生成方法、装置、计算机可读存储介质及计算设备	2020-05-11	524
语音数据重构方法、装置及电子设备	2020-05-08	610
音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法	2020-05-08	811
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	212
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム	2020-05-11	452

発話リズム変換装置、方法及びプログラム

该功能需要专业版企业版VIP权限，您可以：