首页 / 专利库 / 信号处理 / 音素 / 発話リズム変換装置、方法及びプログラム

発話リズム変換装置、方法及びプログラム

阅读:1026发布:2020-06-03

专利汇可以提供発話リズム変換装置、方法及びプログラム专利检索,专利查询,专利分析的服务。并且,下面是発話リズム変換装置、方法及びプログラム专利的具体信息内容。

第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号のその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、 入された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、 予め用意された複数の発話リズム変換則のうち、上記入力発話リズムを最も良く表現する上記第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、上記入力された音声信号の特徴量を用いて、上記入力された音声信号を変換した音声信号を生成する音声合成部と、 を含む発話リズム変換装置。請求項1の発話リズム変換装置であって、 上記発話リズム変換則は、上記第一発話リズムと上記第二発話リズムとを結合したベクトルをM個のガウス分布を混合したガウス混合分布でモデル化したものであり、 上記M個のガウス分布の各々における上記第一発話リズムをモデル化した部分を第一ガウス分布として、上記入力発話リズムを最もよく表現する第一ガウス分布を決定する決定部をさらに含み、 上記音声合成部は、上記M個のガウス分布のうち上記決定部で決定された第一ガウス分布を含むガウス分布において上記第二発話リズムをモデル化した部分を第二ガウス分布として、当該第二ガウス分布を用いて上記入力発話リズムを変換することにより、上記変換した音声信号を生成する、 発話リズム変換装置。第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号のその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、 入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、 音声合成部が、予め用意された複数の発話リズム変換則のうち、上記入力発話リズムを最も良く表現する上記第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、上記入力された音声信号の特徴量を用いて、上記入力された音声信号を変換した音声信号を生成する音声合成ステップと、 を含む発話リズム変換方法。請求項1又は2の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム。

说明书全文

この発明は、音声信号の発話リズムを変換する技術に関する。

第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセント、イントネーション、発音、発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。

これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた(例えば、非特許文献1)。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。

廣谷定男, “発話リズムを抽出・制御する音声信号処理”, NTT技術ジャーナル, 2013, pp.26-29.

非特許文献1の方法により発話リズム変換を行う場合、予めネイティブが同一文章を発声した音声から、目標となる発話リズムを求めておく必要があった。すなわち、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号が必要であった。

この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供することである。

この発明の一態様による発話リズム変換装置は、第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げたテキストの音声信号である第二音声信号に共通の音素について、第一音声信号のその音素の発話リズムである第一発話リズムと、第一音声信号に対応する第二音声信号のその音素の発話リズムである第二発話リズムとを対応付けた規則を発話リズム変換則として、入された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、予め用意された複数の発話リズム変換則のうち、入力発話リズムを最も良く表現する第一発話リズムに対応付けられた発話リズム変換則に対応付けられた第二発話リズムに基づき、入力された音声信号の特徴量を用いて、入力された音声信号を変換した音声信号を生成する音声合成部と、を備えている。

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる。

発話リズム変換装置の例を説明するためのブロック図。

発話リズム変換方法の例を説明するための流れ図。

時間関数φ

k(t)を説明するための図。

[実施形態] 以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図1に示すように、第一特徴抽出部1、第二特徴抽出部2、ガウス混合モデル生成部3、入力音声特徴抽出部4、重み決定部5、変換部6及び音声合成部7を例えば備えている。発話リズム変換装置の各部が、図2の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。

〔発話リズムの学習〕 <第一特徴抽出部1,第二特徴抽出部2> 第一グループの話者にテキストを読み上げてもらい、その音声信号(以下、「第一音声信号」とする。)を第一特徴抽出部1に入力する。

同様に、第二グループの話者に上記テキストと同じテキストを読み上げてもらい、その音声信号(以下、「第二音声信号」とする。)を第二特徴抽出部2に入力する。上記テキストは、少なくとも1個の文章を含むとする。

第一グループの話者の人数及び第二グループの話者の人数は、それぞれ少なくとも1人以上とする。

第一グループの話者とは例えば日本語母語話者であり、第二グループの話者とは例えば英語母語話者である。以下、第一グループの話者が日本語母語話者であり、第二グループの話者が英語母語話者である場合を例に挙げて説明する。

第一特徴抽出部1は、第一音声信号に対して音素のラべリングを行う。この例では、第一音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

第一音声信号、言い換えれば、この例では日本語母語話者の英語音声に対しては、日本語母語話者英語特有の挿入母音を特別な音素として割り当ててもよい。例えば、英単語’round’の最後の/d/を日本語母語話者は/ド/と発声するため、/d/の後ろに/o/を割り当ててもよい。また、息継ぎのタイミングの変換を行うために、無音を表す特別な音素を割り当ててもよい。

同様に、第二特徴抽出部2は、第二音声信号に対して音素のラべリングを行う。この例では、第二音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

つぎに、第一特徴抽出部1は、時系列信号Yである第一音声信号から声道スペクトルy(例えば、p次のLSPパラメータ)を抽出し、音素ラベルを用いて、非負値時空間分解法(例えば、参考文献1参照。)により、

の二乗誤差を最小にするΦを決定する。すなわち、yi(t)とyi(tk-1k-1(t)+ yi(tkk(t)との二乗誤差を最小にするΦを決定する。

≪参考文献1≫S. Hiroya, “Non-negative temporal decomposition of speech parameters by multiplicative update rules”, IEEE Trans. Audio, Speech, Lang. Process., 2013, pp.2108-2117.

ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y1(t),…,yi(t),…,yp(t)}である。よって、yi(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータyi(t)とも記載する。

また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(K-2)とし、kを音素を表すインデックス、k=1,…,Kとすると(ただし、k=1、k=Kをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ1(t),…,φk(t),…,φK(t)}である。φk(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φk(t)とも記載する。tkは、音素kの中心時刻を表す。

時刻tk-1≦t≦tk+1において、φk(t)は単峰性かつ[0,1]の範囲の値をとる。ここで、時刻tk-1≦t≦tk+1において、φk(t)の値が0.5となる時刻が2つ存在するが、それぞれtsとteとすると、Dk=te-ts+1は当該音素の継続時間長と考えることができる。Dkについては、図3を参照のこと。図3において横軸は時刻を表し、縦軸は大きさをφk(t)の大きさを表す。図3の破線はφk-1(t)を表し、太線はφk+1(t)を表す。φk(t)が単峰性であるとは、時間関数φk(t)を時間tで2回微分した関数φk''(t)が、時刻tk-1≦t≦tk+1においてφk''(t)≦0であることを意味する。D={D1,…,Dk,…,DK}とする。

隣り合う音素のみが影響を及ぼすことを考慮して、発話リズム(Φ,D)は音素単位で表現されている。

第一特徴抽出部1は、tsとteの間を予め決められた点数N(例えばN=30)で、[0.5,1,0.5]の範囲の音素k(k=1,2,…,K)のφk(t)をサンプリングし直しφk’とする。tsとteの間のサンプリング点を1,…,n,…,Nと表記すると、φk’={φk'(1),…,φk'(n),…, φk'(N)}である。Φ'={φ1’,…,φk’,…,φK’}として、第一特徴抽出部1が求めた、サンプリングし直された、第一音声信号についての発話リズム(Φ',D)を(ΦJ',DJ)と表記する。各音素kの発話リズム(ΦJ',DJ)は、ガウス混合モデル生成部3に出力される。

第二特徴抽出部2は、第一特徴抽出部1と同様にして、第二音声信号から、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を求める。第二特徴抽出部2が求めた、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を(ΦE',DE)と表記する。各音素kの発話リズム(ΦE',DE)は、ガウス混合モデル生成部3に出力される。

<ガウス混合モデル生成部3> 日本語母語話者及び英語母語話者の発話リズム(ΦJ',DJ)と(ΦE',DE)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。

ガウス混合モデル生成部3は、音素kjの発話リズム(φJ,kj’,Dkj)と、音素keの発話リズム(φE,ke’,Dke)とをベクトルとして、ガウス混合モデル(GMM)により発話リズム変換則の学習を行う。混合数Mは、予め定められた正の整数である。例えばM=1024とする。

すなわち、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))とし、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))として、ガウス混合モデル生成部3は、2N+2次元のベクトル(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N),Dkj, φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N),Dke)を、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeの全ての音素についての、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとを用いて学習する。

ここで、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))は、第一音声信号の音素kjについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。また、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))は、第二音声信号の音素keについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。

このようにして、ある音素kj,keについての発話リズム変換則ベクトルを、第一特徴抽出部1で求まったその音素kjの発話リズム(φJ,kj’,Dkj)と、第二特徴抽出部2で求まったその音素に基づく発話リズム(φE,ke’,Dke)とを少なくとも要素とするベクトルとして、ガウス混合モデル生成部3は、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習する。生成されたガウス混合モデルは、重み決定部5に出力される。

なお、発話リズム変換則ベクトルには、Dとφ’以外にも、声道スペクトル、文章の開始から何番目の音素かを表わすインデックス、無音であれば0、それ以外は1、または前後の音素におけるこれらのパラメータなどを加えてもよい。

〔発話リズムの変換〕 <入力音声特徴抽出部4> 入力音声特徴抽出部4は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部7に出力される。

発話リズムの変換の対象となる音声信号とは、この例では、日本語母語話者の英語の音声信号である。日本語母語話者が読み上げる英文のテキストは任意であり、学習で用いたテキストである必要はない。

音声信号の特徴量は、例えば、p次のLSPパラメータである。

入力音声特徴抽出部4による入力された音声信号についての各音素kの発話リズム(φk’,Dk)の求め方は、第一音声信号から第一特徴抽出部1による各音素kの発話リズム(φk’,Dk)の求め方と同様であるため、ここでは説明を省略する。

なお、以下では、入力音声特徴抽出部4で求まった発話リズムを(φ’,D)と表記する。ここで、φ=(φ1’,…,φk’,…,φK’)であり、D={D1,…,Dk,…,DK}である。

<重み決定部5> 重み決定部5は、ガウス混合モデル生成部3で生成されたガウス混合モデルの中の、第一特徴抽出部1で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部4で求まった各音素kの発話リズム(φk’,Dk)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部6に出力される。

すなわち、重み決定部5は、 P(φk’,Dk) = Σm=1M πmN(φk’,Dkm) を最大にするような重みπm(m=1,2,…,M。ただしΣm=1M πm=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λmは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。

そのために、重み決定部5は例えば、 πm = N(φk’,Dkm) /Σm=1M N(φk’,Dkm) となる重みπm(m=1,2,…,M)を求める。この式により求まる重みπm(m=1,2,…,M)の和は1となる。

なお、重み決定部5の処理は、入力音声特徴抽出部4で求まった各音素kについて行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)が求まる。

<変換部6> 変換部6は、ガウス混合モデルの中の、第二特徴抽出部2で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπm(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。

すなわち、変換部6は、変換後の発話リズムである(φmod’,Dmod)を以下の式により求める。ここで、φμ,mは、第二ガウス混合分布の中の、(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))に対応する次元のガウス分布のm番目のガウス分布の平均値ベクトルである。Dμ,mは、第二ガウス混合分布の中のDkeに対応する次元のガウス分布のm番目のガウス分布の平均値である。

変換部6の処理は、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)ごとに行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する(φmod’,Dmod)が求まる。

なお、重み付け和を求める代わりに、最も大きい重みπmを1、それ以外を0とすることで変換を行ってもよい。この際、求められたある音素の音素継続長が、前後の音素の音素継続長と大きく異なり、不自然な音声が合成される可能性があることから、最も大きい重みπmを1とする代わりに、動的計画法により音素継続長の時間的連続性も考慮して求めたガウス分布の重みを1としてもよい。また、変換の際、日本語母語話者英語特有の挿入母音や無音に対応する発話リズムを取り除いても良い。

<音声合成部7> 音声合成部7は、変換後の発話リズム(φmod’,Dmod)と、入力音声特徴抽出部4で求まった入力された音声の特徴量とを用いて、音声を合成する。

そのために、音声合成部7は、まず、変換したφmod’とDmodより、[0.5,1,0.5]の範囲のφmodを求める。具体的には、φmod’={φmod’(1),…,φmod’(n),…,φmod’(N)}として、φmod’(1),…,φmod’(n),…,φmod’(N)を、Dmodに基づいて伸縮し、サンプリング点間の値を線形補間や、スプライン補間することにより、[0.5,1,0.5]の範囲のφmod(t)を求めることができる。

つぎに、音声合成部7は、入力された音声信号の音素の順番に従ってφmod(t)を接続する。すなわち、音素kについてのφmod(t)をφmod,k(t)として、入力された音声信号の全ての音素についての各時刻tにおけるφmod,k(t)を求める。

φmod,k-1(t),φmod,k(t),φmod,k+1(t)は[0.5,1,0.5]の範囲で定義されており、かつ、時間関数の定義よりφmod,k-1(t)+φmod,k(t)=1であるため、時刻tk-1≦t≦tsにおいてφmod,k-1(t)が決まれば、時刻tk-1≦t≦tsのφmod,k(t)は、φmod,k(t)=1-φmod,k-1(t)により計算することができる。また、時間関数の定義よりφmod,k(t)+φmod,k+1(t)=1であるため、時刻te≦t≦tk+1においてφmod,k+1(t)が決まれば、時刻te≦t≦tk+1におけるφmod,k(t)は、φmod,k(t)=1-φmod,k+1(t)により計算することができる。t

k-1,t>t

k+1のφ

mod,k(t)は0とする。これを、各音素kについてのφ

mod,k(t)について行うことにより、入力された音声信号の全ての音素についての各時刻tにおけるφ

mod,k(t)を求めることができる。

そして、音声合成部7は、

により、発話リズムを変換した声道スペクトルを生成する。音声合成部7は、生成された声道スペクトルに基づいて音源信号をたたみ込むことにより、発話リズムが変換された音声を生成する。

非特許文献1では、目標となる発話リズムはネイティブのそれとなる。一方、この例による発話リズム変換では、日本語母語話者の音素情報と発話リズムを与え、目標となる発話リズムはGMMによる変換により求められる。つまり、非特許文献1では、同一文章発声においては、どの話者が発声しても同一の発話リズムに変換されてしまうが、この例による発話リズム変換では、話者の発話スタイル(話速など)を考慮した発話リズムを目標として与えることができるため、より自然な音声を合成することが可能である。

[変形例] 音声信号に対する音素ラべリングは、人手で行ってもよい。

上記方法によりDmodを求めた場合、GMMの平均値が選ばれることとなり、文章全体として発話リズムにメリハリがない音声が出力される可能性がある。そこで、重み決定部5は、学習データに含まれる英語母語話者の1文章あたりの音素継続長の分散の平均値および分散をM,Vとして、 ωN(Dmodm) + N(Dmodの分散 | M,V) を最大にするようなDmodを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる(例えば、参考文献2参照。)。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。

また、上記実施形態では、第一グループとして日本語母語話者、第二グループとして英語母語話者、テキストとして英語を用いたが、第一グループとしてイギリス英語母語話者、第二グループとしてアメリカ英語母語話者や、テキストとして日本語などを用いてもよい。

≪参考文献2≫T. Toda, K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis”, IEICE Trans. Inf. & Syst., 2007, pp.816-824.

[プログラム及び記録媒体] 発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、発話リズム変換装置における各処理をコンピュータによって実現する場合、発話リズム変換装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

1 第一特徴抽出部 2 第二特徴抽出部 3 ガウス混合モデル生成部 4 入力音声特徴抽出部 5 重み決定部 6 変換部 7 音声合成部

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈