首页 / 专利库 / 信号处理 / 音素 / 音声合成システム、及び音声合成装置

音声合成システム、及び音声合成装置

阅读:784发布:2020-05-11

专利汇可以提供音声合成システム、及び音声合成装置专利检索,专利查询,专利分析的服务。并且【課題】入 力 される中間言語に基づき高い品質の音声を合成する。 【解決手段】音声合成システムは、発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成し、音声合成の対象となる中間言語に基づき形態素の候補を生成し、形態素の候補から中間言語の韻律記号に基づき形態素を選択し、選択した形態素に基づきテキストを生成し、テキスト又はテキストに基づき生成される中間言語を入力として統計モデルに基づき音声合成を行う。韻律記号による形態素選択部は、例えば、中間言語に含まれている韻律記号について、アクセント辞書、ポーズ挿入ルール、アクセント句境界情報等を参照して形態素を選択する。統計モデルは、例えば、発話テキストと音声データとを対応づけた学習データを学習することにより生成される。 【選択図】図7,下面是音声合成システム、及び音声合成装置专利的具体信息内容。

発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成するモデル学習部、 音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部、 前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部、 選択した前記形態素に基づきテキストを生成するテキスト生成部、及び、 前記テキスト又は前記テキストに基づき生成される中間言語を入として前記統計モデルに基づき音声合成を行う音声合成処理部、 を備えた音声合成システム。請求項1に記載の音声合成システムであって、 前記韻律記号による形態素選択部は、 前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、 前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、 前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、 のうちの少なくともいずれかを含む、 音声合成システム。請求項1に記載の音声合成システムであって、 前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、 前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、 音声合成システム。請求項1に記載の音声合成システムであって、 前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第1の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、 前記テキストに基づき生成される第2の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、 前記音声合成処理部は、生成した前記第2の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、 音声合成システム。請求項4に記載の音声合成システムであって、 前記韻律記号による形態素選択部は、前記中間言語に含まれている韻律記号と韻律に関する情報とに基づき前記形態素の候補から形態素を選択し、 前記第1の言語情報の生成は、前記韻律に関する情報と共通の情報に基づき行われる、 音声合成システム。請求項5に記載の音声合成システムであって、 前記韻律に関する情報は、アクセント辞書、ポーズ挿入ルール、及びアクセント句境界 情報のうちの少なくともいずれかである、 音声合成システム。請求項1に記載の音声合成システムであって、 前記形態素候補検出部は、音声合成の対象となる前記中間言語の発音記号列に対応する形態素を形態素解析辞書から検出することにより形態素の候補を生成する、 音声合成システム。請求項1に記載の音声合成システムであって、 前記テキスト生成部は、接続コスト最小法、n文節最長一致法、及びうしろ向きn文節評価最大法のうちのいずれかにより前記テキストを生成する、 音声合成システム。請求項1に記載の音声合成システムであって、 前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、 前記音素らしさ特徴と前記音声コーパスの前記音声データとを対応づけた学習データを学習することにより音声合成に用いるVocoderモデルを生成するVocoder学習部、 発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第1の音素らしさ特徴を生成する音素らしさ特徴推定部、 及び、 前記中間言語の音声データから第2の音素らしさ特徴を抽出する音素らしさ特徴抽出部、 をさらに有し、 前記音声合成処理部は、前記第1の音素らしさ特徴と前記第2の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるVocoderモデルに基づき合成する、 音声合成システム。請求項1に記載の音声合成システムであって、 前記モデル学習部は、DNN(Deep Neural Network)により前記統計モデルを生成する、 音声合成システム。音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部と、 前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部と、 選択した前記形態素に基づきテキストを生成するテキスト生成部と、 前記テキスト又は前記テキストに基づき生成される中間言語を入力として、発話テキストと音声データとが対応づけられた音声コーパスに基づくデータを学習することにより生成される統計モデルに基づき音声合成を行う音声合成処理部と、 を備える、音声合成装置。請求項11に記載の音声合成装置であって、 前記韻律記号による形態素選択部は、 前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、 前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、 前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、 のうちの少なくともいずれかを含む、 音声合成装置。請求項11に記載の音声合成装置であって、 前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、 前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、 音声合成装置。請求項11に記載の音声合成装置であって、 前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第1の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、 前記テキストに基づき生成される第2の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、 前記音声合成処理部は、生成した前記第2の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、 音声合成装置。請求項11に記載の音声合成装置であって、 前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、 発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第1の音素らしさ特徴を生成する音素らしさ特徴推定部、 及び、 前記中間言語の音声データから第2の音素らしさ特徴を抽出する音素らしさ特徴抽出部、 をさらに有し、 前記音声合成処理部は、前記第1の音素らしさ特徴と前記第2の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるVocoderモデルに基づき合成する、 音声合成装置。

说明书全文

本発明は、音声合成システム、及び音声合成装置に関する。

近年、音声認識、機械翻訳、対話生成等の技術が飛躍的に向上し、音声自動翻訳、音声対話サービス、サービスロボット等の人工知能を利用した音声コミュニケーションシステムの実用化が急激に進展している。

特許文献1には、電子化された入文書を音声に変換する際の出力技術に関し、入力されたテキストや記号列を音声に変換し、読み上げを行なう音声出力装置において、英数仮名辞書を具備し、入力テキストが英数仮名文字列の場合、該英数仮名辞書を用いて入力文字列を音声に変換して読み上げを行なうことが記載されている。

非特許文献1には、直接音声波形を生成する方法について記載されている。非特許文献2には、テキスト分析フロントエンド、音響モデル、音声合成モジュール等を備えた、ETE(End-To-End)型の音声合成方式のテキスト−音声合成システムについて記載されている。非特許文献3には、DNN(Deep Neural Network)で選択した音声素片をつなぎ合わせることで音声合成する技術について記載されている。

特開2001−5479号公報

"WaveNet: A Generative Model for Raw Audio". Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray .2016-09-12.

" Tacotron: A fully end-toend text-to-speech synthesis model". Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al. 2017.

"Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets", Vincent Pollet, Enrico Zovato, Sufian Irhimeh, Pier Batzu, Interspeech. 2017.

音声合成の方式の一つとしてテキスト音声合成技術(TTS: text-to-speech)がある。 テキスト音声合成技術は、テキストを記号化された言語表現(symbolic linguistic representation)である中間言語に変換するフロントエンド(Front-End)処理と、中間言語 から音声波形を生成するバックエンド(Back-End)処理とを含む。ここでいう中間言語は、音素や音節を表す発音記号と、アクセントやポーズなどを表す韻律記号とを含む。

近年、フロントエンド処理とバックエンド処理の夫々にDNN等の統計的技術を適用したものが実用化されている。上記統計的技術の導入により、中間言語から音声波形を生成するバックエンド処理においてこれまで以上にリッチ(rich)な言語情報(品詞情報、係り受け情報、構文情報等)からの音声合成が可能となり、合成音声の品質が大きく向上した。昨今では、非特許文献2に記載されているように、中間言語を経由することなく、入力されたテキスト(テキストデータ)から直接音声波形を取得して合成音声を生成する、いわゆるETE(End-To-End)型の音声合成方式も登場している。

ところで、現在流通している音声合成製品(とくに車載向け製品)においては、サービス品質を確保するために、例えば、ニュースの配信や住所の読み上げ等については中間言語に基づき音声を合成する方式が一般的である。

しかし中間言語から音声を合成する場合、中間言語の仕様により一部の言語情報が欠落してしまうことがある。例えば、JEITA(Japan Electronic Industry Development Association:日本電子工業振興協会)が定める中間言語の規格では品詞情報や漢字情報 が含まれていないため、バックエンド処理における音声合成(中間言語からの音声合成)にリッチな言語情報を利用することができず、DNN音声合成の長所を発揮することができない。とくに上記のETE型の音声合成方式では、漢字混じり文の入力しか対応することができず、中間言語からの音声合成が不可能である。

本発明はこうした背景に鑑みてなされたものであり、その目的は、入力される中間言語に基づき高い品質の音声を合成することが可能な、音声合成システム、及び音声合成装置を提供することにある。

上記課題を解決するための本発明のうちの一つは、音声合成システムであって、発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成するモデル学習部、音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部、前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部、選択した前記形態素に基づきテキストを生成するテキスト生成部、及び、前記テキスト又は前記テキストに基づき生成される中間言語を入力として前記統計モデルに基づき音声合成を行う音声合成処理部、を備える。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、入力される中間言語に基づき高い品質の音声を合成することができる。

ETE(End-To-End)型の音声合成システムの概略的な構成を示す図である。

音声合成システムの実現に用いるハードウェアの一例として示す情報処理装置のブロック図である。

第1実施形態の音声合成システムの概略的な構成を示す図である。

テキスト変換部の詳細を説明する図である。

形態素候補検出部が形態素解析辞書から中間言語の発音記号列に対応する形態素を検出した例を示す図である。

韻律記号による形態素選択部の詳細を示す図である。

第2実施形態の音声合成システムのベースとなるシステムの概略的な構成を示す図である。

第2実施形態の音声合成システムの概略的な構成を示す図である。

言語情報復元部の詳細を示す図である。

第3実施形態の音声合成システムの概略的な構成を示す図である。

音声合成処理部が合成音声を生成する様子を説明する図である。

以下、本発明に係る実施形態を図面に参照しつつ説明する。尚、以下の説明において、同一の又は類似する構成について共通の符号を付して重複した説明を省略することがある。

[第1実施形態] 図1に、後述する第1実施形態の音声合成システム10のベースとなる、ETE(End-To-End)型の音声合成システム(以下、音声合成システム1と称する。)の概略的な構成を示している。

音声合成システム1は、音声コーパス50の発話テキスト51と音声データ52(音声波形)との関係を統計的手法により学習(機械学習等)することにより事前に統計モデル60を生成しておき、音声合成の対象となるテキスト(文章や句)のデータ(以下、入力テキスト700と称する。)に対する音声データ(音声波形)を統計モデル60から取得して合成音声800を生成する。

尚、本実施形態では、上記の統計的手法がDNN(Deep Neural Network)である場合 を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の他の統計的手法を用いてもよい。また本実施形態 では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語であってもよいし、テキストに複数の言語が混在していてもよい。

同図に示すように、音声合成システム1は、音声コーパス50と、音声コーパス50に基づき統計モデル60を生成する統計モデル生成部100と、統計モデル60から入力テキスト700に対する音声データ(音声波形)を取得して合成音声800を生成する音声合成部200と、を含む。

音声コーパス50は、発話テキスト51と、発話テキスト51に対応づけられた音声データ52(音声波形)とを含む。音声コーパス50の内容は、統計モデル生成部100が統計モデル60を生成する際の学習データとして用いられる。

図2は音声合成システム1の実現に用いるハードウェアの一例として示す情報処理装置150(コンピュータ、計算機リソース)のブロック図である。同図に示すように、情報処理装置150は、プロセッサ151、主記憶装置152、補助記憶装置153、入力装置154、出力装置155、及び通信装置156を備える。これらは図示しないバス等の通信手段を介して互いに通信可能に接続されている。

尚、情報処理装置150は、その全ての構成が必ずしもハードウェアで実現されている必要はなく、例えば、構成の一部又は全部がクラウドシステム(cloud system)のクラウドサーバ(cloud server)のような仮想的な資源によって実現されていてもよい。

プロセッサ151は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)等を用いて構成される。プロセッサ151が、主記憶装置152に格納 されているプログラムを読み出して実行することにより、音声合成システム1の様々な機能が実現される。

主記憶装置152は、プログラムやデータを記憶する装置であり、例えば、ROM(Re ad Only Memory)、RAM(Random Access Memory)、不揮発性半導体メモリ(NVRAM(Non Volatile RAM))等である。

補助記憶装置153は、例えば、ハードディスクドライブ、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、 ストレージシステム、ICカード、SDメモリカード、FD(フレキシブルディスク)等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置153に格納されているプログラムやデータは主記憶装置152に随時読み込まれる。

入力装置154は、音声コーパス50や入力テキスト700を入力するためのインタフェース(又はユーザインタフェース)であり、例えば、キーボード、マウス、タッチパネル、カードリーダ、マイクロフォン、アンプ等である。尚、情報処理装置150が、通信装置156を介して他の装置との間で情報の入力を受け付ける構成としてもよい。

出力装置155は、各種の情報を出力するインタフェース(又はユーザインタフェース)であり、例えば、合成音声を出力する音声出力装置(スピーカ、アンプ等)を含む。尚、情報処理装置150は、ユーザに処理経過や処理結果等の各種情報を提供するインタフェース(例えば、音声出力装置(スピーカ等)、画面表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、印字装置等)を出力装置155として更に備えていてもよい。また情報処理装置150が、通信装置156を介して他の装置との間で情報の出力を行う構成としてもよい。

通信装置156は、LANやインターネット等の通信手段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、各種無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール、モデム等である。

統計モデル生成部100、音声合成部200、音声コーパス50、及び統計モデル60は、これらの全てが共通のハードウェアで実現されていなくてもよく、通信可能に接続された複数のハードウェアに分散して配置されていてもよい。例えば、音声コーパス50及び統計モデル生成部100と、統計モデル60及び音声合成部200とを、独立した資源により構成してもよい。統計モデル60及び音声合成部200は、例えば、カーナビゲーション装置、スマートフォン、携帯電話機、自動翻訳機、パーソナルコンピュータ等のデバイスに組み込まれる。

統計モデル生成部100と音声合成部200を夫々独立したハードウェアにより実現し、統計モデル生成部100によって生成された統計モデル60を、有線方式又は無線方式の通信ネットワークや物理的な記録媒体(光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ハードディスクドライブ、SSD、ICカード、SDメモリカード等)を介して音声合成部200に提供するようにしてもよい。

音声コーパス50や統計モデル60をクラウドサーバ等の通信ネットワークを介して接続される資源に配置し、統計モデル生成部100や音声合成部200が有線方式又は無線方式の通信ネットワークを通じて音声コーパス50や統計モデル60に適宜アクセスする構成としてもよい。

情報処理装置150は、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の他の機能をさらに備えていてもよい。音声コーパス50等の音声合成システム1が管理するデータは、例えば、ファイルシステムや、補助記憶装置153をデータの格納領域として利用するDBMSのデー タベースに管理される。

図1に示すように、統計モデル生成部100はモデル学習部120を有する。モデル学習部120は、音声コーパス50に含まれている全ての発話テキスト51と音声データ52(音声波形)との組合せを学習データとし、例えば、テキストの系列の入力に対して対応する音声波形を出力するように学習した統計モデル60を生成する。

同図に示すように、音声合成部200は音声合成処理部220を有する。音声合成処理部220は、統計モデル60から入力テキスト700に対応する音声データ(音声波形)を取得して合成音声を生成する。例えば、音声合成部200は、入力テキスト700について、指定された発音や発話スタイル(会話調である、感情がこもっているといった、発声上の特徴。例えば、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴)に従って音声を合成する。また音声合成処理部220は、例えば、非特許文献1のように直接音声波形を生成する方法、非特許文献2のようにフレームごとに音声パラメータを生成した後に音声を生成する手法、非特許文献3のようなDNNで選択した音声素片をつなぎ合わせることで音声を合成する手法等により合成音声800を生成する。

図3は、以上の構成からなる音声合成システム1をベースとして構成した、第1実施形態として示す音声合成システム10の概略的な構成を示す図である。同図において、音声コーパス50、統計モデル生成部100、及び統計モデル60については図1に示した音声合成システム1と同様である。

音声合成システム10の音声合成部200は、図1に示した音声合成部200が備える音声合成処理部220に加え、テキスト変換部210を備える。また図1の音声合成システム1と異なり、音声合成システム10の音声合成部200には、入力テキスト700ではなく中間言語650が入力される。

尚、本実施形態(第1〜第3実施形態を含む)において、中間言語は、音素や音節を表す発音記号列とアクセントやポーズなどを表す韻律記号とを含む。以下の説明において、例えば、「オイコ'シ|シャセンオ/マタ'イタ゛.」のように中間言語を表記する。記の表 記において、半カタカナで表した部分は発音記号列であり、「’」、「/」、「|」、「.」はいずれも韻律記号であり、「’」はアクセント核位置を表し、「/」はアクセント句境界を表し、「|」はフレーズ境界を表し、「.」は文境界を表す。

テキスト変換部210は、中間言語650を、音声合成処理部220に入力することが可能なノーマルテキスト形式のデータである入力テキスト700に変換する。例えば、テキスト変換部210は、入力された中間言語650「コンニチワ.」を「こんにちは。」 という入力テキスト700に変換する。テキスト変換部210は、形態素解析辞書を用いて入力された中間言語650から形態素の候補(以下、形態素候補とも称する。)を検出(抽出)し、中間言語650に含まれている韻律記号に基づき、抽出した形態素候補から形態素を選択して入力テキスト700を生成する。

図4にテキスト変換部210の詳細を示す。テキスト変換部210は、形態素候補検出部211、韻律記号による形態素選択部212、及びテキスト生成部213の各機能を有する。またテキスト変換部210は、形態素解析辞書251、アクセント辞書252、ポーズ挿入ルール253、アクセント句境界情報254等の韻律に関する情報(データ)を記憶する。

上記のアクセント辞書252は、形態素(単語)のアクセントを示す情報を含む。ポー ズ挿入ルール253は、入力文書に対して、最適なポーズ位置を決定するルールに関する情報を含む。アクセント句境界情報254は、アクセント句境界の推定に用いる情報(韻律境界情報)を含む。

上記機能のうち、形態素候補検出部211は、中間言語650の発音記号列に対応する形態素を形態素解析辞書251から検出(リストアップ)し、検出した結果を形態素候補2111として生成(記憶)する。形態素解析辞書251は、例えば、形態素毎に、表記、読み、形態素自身のコスト、形態素接続コストが記録された一般的な形態素解析用のものである。

図5に、中間言語650「コンニチワ.」について、形態素候補検出部211が、形態 素解析辞書251から、当該中間言語650の発音記号列に対応する形態素を検出した例を示す。

図6に韻律記号による形態素選択部212の詳細を示す。韻律記号による形態素選択部212は、形態素候補検出部211が生成した形態素候補2111から、中間言語650に含まれている韻律記号に基づき形態素を選択する。韻律記号による形態素選択部212は、アクセントによる形態素選択部2121、ポーズ位置による形態素選択部2122、アクセント句境界による形態素選択部2123、の各機能を含む。

上記機能のうち、アクセントによる形態素選択部2121は、アクセント辞書252(アクセント結合ルールを含む)とテキスト変換部210に入力された中間言語650の韻律記号とにより特定されるアクセントに基づき、形態素候補2111から最適な形態素を選択する。例えば、入力された中間言語650が「コノハシ'ワ/キ'レーテ゛スネ.」であり、検出された形態素候補2111が「この箸はきれいですね」と「この橋はきれいですね」である場合、「この箸はきれいですね」のアクセントは「コノハ'シワ/キ'レーテ゛ スネ.」となり、「この橋はきれいですね」のアクセントは「コノハシ'ワ/キ'レーテ゛スネ.」となるので、アクセントによる形態素選択部2121は、アクセント辞書252に 基づき、後者の形態素「この橋はきれいですね」を選択する。

上記機能のうち、ポーズ位置による形態素選択部2122は、ポーズ挿入ルール253とテキスト変換部210に入力された中間言語650の韻律記号とにより特定されるポーズ位置に基づき、 形態素候補2111から最適な形態素を選択する。例えば、入力された中間言語650が「オイコ'シ|シャセンオ/マタ'イタ゛.」であり、検出された形態素 候補2111が「追い越し、車線を跨いだ」と「追い越し車線を跨いだ」である場合、前者は動詞未然形の「追い越し」と名詞の「車線」で構成され、後者は複合名詞の「追い越し車線」であるので、ポーズ位置による形態素選択部2122は、ポーズ挿入ルール253に「動詞未然形の後ろにポーズが入りやすい」という情報に基づき、前者の「追い越し、車線を跨いだ」を選択する。

上記機能のうち、アクセント句境界による形態素選択部2123は、アクセント句境界情報254とテキスト変換部210に入力された中間言語650の韻律記号とにより特定されるアクセント句境界に基づき、形態素候補2111から最適な形態素を選択する。例えば、入力された中間言語650が「オイコ'シ/シャセンオ/マタ'イタ゛.」である場合 、アクセント句境界情報254によれば「オイコ'シ」と「シャセン」の間にアクセント 句境界が存在することから、動詞未然形の「追い越し」と名詞の「車線」で構成されている可能性が高く、複合名詞の「追い越し車線」でないことがわかるので、アクセント句境界による形態素選択部2123は前者を選択する。

以上のように、韻律記号により形態素を選択する仕組みは、アクセント辞書252、ポ ーズ挿入ルール253、アクセント句境界情報254を用いて実現することができる。尚、以上では、韻律記号に基づき形態素候補2111から形態素を選択する方法として、アクセントに基づく方法、ポーズ位置に基づく方法、及びアクセント句境界に基づく方法を示したが、以上に示した方法以外の韻律記号に基づく方法により形態素を選択するようにしてもよい。

また以上では、韻律記号による形態素選択部212について、中間言語650が日本語に基づくものである場合を例として説明したが、中間言語650は日本語以外の言語に基づくものであってもよい。例えば、中間言語650が英語に基づくものである場合であれば、ストレス位置、音節境界、ワード境界、Prosody Word境界、フレーズ境界、文境界等の韻律記号等を用いて形態素候補2111から形態素を選択するようにすればよい。また中間言語650が中国語に基づくものであれば、声調情報やワード境界、Prosody Word境界、フレーズ境界、文境界等の韻律記号を用いて形態素候補2111から形態素を選択するようにすればよい。このように、韻律記号による形態素選択部212は、特定の言語に限定されることなく様々な言語に対応させることができる。

図4に戻り、テキスト生成部213は、形態素候補2111のうち、韻律記号による形態素選択部212によっては一意に選択することができなかった形態素について、例えば、IME(Input Method Editor)等で用いられている公知の技術(例えば、形態素解析 辞書251から取得される形態素コストや形態素接続コストを用い接続コスト最小法、n文節最長一致法、うしろ向きn文節評価最大法等)を用いて文全体として最適な形態素の系列を決定し、決定した内容と韻律記号による形態素選択部212の結果とに基づき入力テキスト700を生成する。

以上に説明したように、本実施形態の仕組みによれば、テキストの入力を基本とするETE型の音声合成システム10の音声合成部200に中間言語650が入力された場合でも、欠落した言語情報を復元して高い品質の音声を合成することができる。また以上の仕組みは、形態素解析辞書251、アクセント辞書252、ポーズ挿入ルール253、アクセント句境界情報254等の既存の資源を用いてシンプルかつ低コストで実現することができる。

[第2実施形態] 図7に第2実施形態の音声合成システム20のベースとなる音声合成システム(以下、音声合成システム2と称する。)の概略的な構成を示す。音声合成システム2のハードウェア構成や音声合成システム2が備える各機能の実現方法については第1実施形態と同様である。音声コーパス50の構成も第1実施形態と同様であり、発話テキスト51と、発話テキスト51に対応づけられた音声データ52(音声波形)とを含む。

音声合成システム2は、音声コーパス50の発話テキスト51を言語解析することにより得られる言語情報(言語特徴量)を含んだ中間言語550と、音声データ52を音響分析することにより得られる音響特徴量505との関係をDNN (Deep Neural Network) 等の統計的手法で学習(機械学習等)することにより事前に統計モデル60を生成しておき、音声合成の対象となる中間言語650に対応する音響特徴量を有する系列を統計モデル60に基づき生成して音声を合成する。

尚、本実施形態では、上記の統計的手法がDNN(Deep Neural Network)である場合 を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の他の統計的手法を用いてもよい。これは後述の第 3実施形態についても同様である。また本実施形態では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語で あってもよいし、テキストに複数種の言語が混在していてもよい(後述の第3実施形態も同様)。

同図に示すように、音声合成システム2の統計モデル生成部100は、音響分析部105、言語情報生成部110、及びモデル学習部120を含む。

音響分析部105は、音声コーパス50の音声データ52を音響分析することにより音響特徴量505を生成する。

言語情報生成部110は、音声コーパス50の発話テキスト51を言語解析することにより言語情報(言語特徴量)を生成し、生成した言語情報に基づき中間言語550を生成する。

モデル学習部120は、中間言語550と音響特徴量505との関係をDNN等の統計的手法で学習することにより統計モデル60を生成する。より詳細には、モデル学習部120は、中間言語550を入力として、対応する音響特徴量505の系列を出力するように学習する。

音声合成部200の音声合成処理部220は、入力される中間言語650と統計モデル60とに基づき音響特徴量の系列を生成し、生成した音響特徴量に基づき合成音声800を生成する。例えば、音声合成処理部220は、中間言語650の言語情報(言語特徴量)に基づき音素毎に時間長を推定し、推定した時間長に相当するフレーム数分の音響特徴量の系列を生成し、生成した音響特徴量に基づき音韻や声質、声の高さ、大きさ、雑音性度合いの時間変化を表現することにより合成音声800を生成する。

図8は、図7に示した音声合成システム2をベースとして構成した、第2実施形態の音声合成システム20の概略的な構成を示す図である。

同図に示すように、統計モデル生成部100の言語情報生成部110は、第1実施形態で示した、形態素解析辞書251と、アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等の韻律に関する情報とを用いて言語解析を行うことにより、音声コーパス50の発話テキスト51から、言語情報(品詞情報、係り受け情報、構文情報等)を含む中間言語である言語情報付き中間言語560を生成する。

音響分析部105は、音声コーパス50の音声データ52を音響分析することにより音響特徴量505を生成する。

モデル学習部120は、言語情報付き中間言語560と音響特徴量505との関係をDNN等の統計的手法で学習することにより統計モデル60を生成する。より詳細には、モデル学習部120は、言語情報付き中間言語560を入力として、対応する音響特徴量505の系列を出力するように学習する。

同図に示すように、音声合成システム20の音声合成部200は、図7に示した音声合成部200が備える音声合成処理部220に加え、言語情報復元部215を備える。言語情報復元部215は、第1実施形態で示した、形態素解析辞書251と、アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等の韻律に関する情報とを用いて、入力された中間言語650から言語情報を復元し、復元した言語情報を用いて言語情報付き中間言語670を生成する。

図9に言語情報復元部215の詳細を示す。同図に示すように、言語情報復元部215 は、形態素候補検出部216、韻律記号による形態素選択部217、テキスト生成部218、及び言語情報生成部219の各機能を有する。

このうち形態素候補検出部216、韻律記号による形態素選択部217、及びテキスト生成部218については、第1実施形態の形態素候補検出部211、韻律記号による形態素選択部212、及びテキスト生成部213の各機能と同様であるので説明を省略する。

言語情報生成部219は、形態素候補検出部216、韻律記号による形態素選択部217、及びテキスト生成部218によって生成されるテキストについて言語解析を行うことにより言語情報(品詞情報、係り受け情報、構文情報等)を生成し、生成した言語情報を含んだ中間言語である言語情報付き中間言語670を生成する。

図8に戻り、音声合成部200の音声合成処理部220は、言語情報付き中間言語670と統計モデル60とに基づき、第1実施形態の音声合成処理部220と同様に音響特徴量の系列を生成し、生成した音響特徴量に基づき合成音声800を生成する。

以上のように、音声合成部200は、入力される中間言語650から言語情報を復元することにより言語情報付き中間言語670を生成し、生成した言語情報付き中間言語670と統計モデル60とに基づき、合成音声800を生成する。そのため、例えば、仕様により一部の言語情報が欠落した中間言語650が音声合成部200に入力された場合でも、リッチな言語情報(品詞情報、係り受け情報、構文情報等)に基づき高い品質の音声合成を行うことができる。

尚、音声合成の精度を高めるべく、統計モデル生成部100の言語情報生成部110が言語解析に際して用いる、形態素解析辞書251並びに韻律に関する情報(アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等)は、音声合成部200の言語情報復元部215がテキストを生成する際に用いる形態素解析辞書251並びに韻律に関する情報(アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254)と共通のものを用いることが好ましい。

[第3実施形態] 例えば、外国語のネイティブな発音や、咳やくしゃみの音等、異なる言語や非言語の音声を合成したい場合に規定の中間言語の仕様(JEITA(Japan Electronic Industry Development Association:日本電子工業振興協会)の日本語の中間言語の仕様(日本語 テキスト音声合成用記号)等)では表現することができないことがある。そのような場合、例えば「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」のように、中間言語を実際の音声波形(例えば、ネイティブスピーカが発声 した「Hello」の音声波形)を記録した音声ファイル(音声データ)の所在を示す表記( 上記の例では「<wavfile=hello.wav>」の部分)が可能な仕様とし、音声合成に際して上 記の音声ファイルを再生するようにすることが考えられる。そしてこの場合、上記の音声ファイルを再生する際の合成音声は、聞き手に違和感を生じさせないように、上記の中間言語(以下、音声付き中間言語と称する。)の他の部分(上記の例では音声ファイルの表記「<wavfile=hello.wav>」以外の部分)の合成音声と同質(同じ話者の音声)とするこ とが好ましい。

図10に、以上の方法により音声合成を行う、図8に示す第2実施形態の音声合成システム20をベースとして構成した、第3実施形態の音声合成システム30の概略的な構成を示す。音声合成システム30のハードウェア構成や音声合成システム30が備える各機能の実現方法については第1実施形態の音声合成システム10や第2実施形態の音声合成システム20と同様である。音声コーパス50についても第1実施形態の音声合成システ ム10や第2実施形態の音声合成システム20と同様であり、発話テキスト51と、発話テキスト51に対応づけられた音声データ52(音声波形)とを含む。

同図に示すように、音声合成システム30の統計モデル生成部100は、第2実施形態の音声合成システム20の構成に加えて、言語情報生成部110、音素らしさ特徴抽出部115、モデル学習部120、及びVocoder学習部125を含む。

言語情報生成部110は、第2実施形態と同様に、第1実施形態で示した、形態素解析辞書251と、アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等の韻律に関する情報とを用いて言語解析を行うことにより、音声コーパス50の発話テキスト51から、言語情報(品詞情報、係り受け情報、構文情報等)を含む中間言語である言語情報付き中間言語560を生成する。

音素らしさ特徴抽出部115は、音声コーパス50の音声データ52に基づき、音素らしさ特徴515を生成する。ここで音素らしさ特徴とは、音声データから個人性や発話スタイル等の情報を除くことにより得られる音響特徴量であり、合成する音声の音素に対する類似度を示す指標となる。音素らしさ特徴の一例として、音声認識技術等で用いられるPPG(PhoneticPosterior-Grams)がある。

モデル学習部120は、言語情報付き中間言語560と音素らしさ特徴515との関係をDNNや隠れマルコフモデル等の統計的手法により学習することにより統計モデル60を生成する。

一方、Vocoder学習部125は、音声コーパス50の音声データ52と音素らしさ特徴515との関係をDNN等の統計的手法により学習することによりVocoderモデル65を生成する。尚、Vocoderモデル65は、例えば、クラウドサーバ等の通信ネットワーク上の資源に配置し、統計モデル生成部100や音声合成部200が有線方式又は無線方式の通信ネットワークを通じてVocoderモデル65にアクセスするようにしてもよい。またVocoderモデル65を、有線方式又は無線方式の通信ネットワークや物理的な記録媒体(光学式記憶装置、DVD等)、ハードディスクドライブ、SSD、ICカード、SDメモリカード等)を介して音声合成部200に提供するようにしてもよい。

同図に示すように、第3実施形態の音声合成部200は、第2実施形態の音声合成部200と同様に言語情報復元部215を備える。言語情報復元部215には、音声付き中間言語660の音声ファイルの表記以外の部分が入力される。言語情報復元部215は、第2実施形態と同様に、第1実施形態で示した、形態素解析辞書251と、アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等の韻律に関する情報とを用いて、入力された中間言語650から言語情報を復元し、言語情報付き中間言語670を生成する。

尚、第2実施形態と同様、統計モデル生成部100の言語情報生成部110が言語解析に際して用いる、形態素解析辞書251並びに韻律に関する情報(アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254等)は、音声合成部200の言語情報復元部215がテキストを生成する際に用いる形態素解析辞書251並びに韻律に関する情報(アクセント辞書252、ポーズ挿入ルール253、及びアクセント句境界情報254)と共通とすることが好ましい。

同図に示すように、音声合成システム30の音声合成部200は、音素らしさ特徴抽出部241、音素らしさ特徴推定部242、及び音声合成処理部225を含む。

音素らしさ特徴抽出部241には、音声付き中間言語660の音声ファイルの所在を示す表記で特定される音声ファイルに基づく音声波形が入力される。音素らしさ特徴抽出部241は、入力された音声波形に基づき音素らしさ特徴681(第2の音素らしさ特徴)を生成し、生成した音素らしさ特徴681を音声合成処理部225に入力する。

音素らしさ特徴推定部242には、音声付き中間言語660の音声ファイル表記以外の部分が入力される。音素らしさ特徴推定部242は、入力された音声付き中間言語660に基づき音素らしさ特徴682(第1の音素らしさ特徴)を生成し、生成した音素らしさ特徴682を音声合成処理部225に入力する。

音声合成処理部225は、音素らしさ特徴681と音素らしさ特徴652との組み合わせに対応する合成音声800をVocoderモデル65に基づき生成する。

図11は、音声合成処理部225が合成音声800を生成する様子を説明する図である。同図に示すように、この例では、音声付き中間言語660として、「エーコ゜ネ'イテ ィフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」が音声合成部200に入力される場合である。この例では、上記音声付き中間言語660のうち、「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|」と「ト/ハツオンスル.」については言語情報復元部215に入力される。また音声ファイルの所在を示す<wavfile=hello.wav>で特 定される音声ファイルに基づく音声波形が、音素らしさ特徴抽出部241に入力される。

音素らしさ特徴抽出部241は、音素らしさ特徴681を生成し、生成した音素らしさ特徴681を音声合成処理部225に入力する。また言語情報復元部215は、上記音声付き中間言語660のうち、「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|」と「ト/ハツオンスル.」の夫々について言語情報付き中間言語670を生成し、音素らしさ特徴推定部242に入力する。音素らしさ特徴推定部242は、入力された言語情報付き中間言語670に基づき、音素らしさ特徴682を生成し、生成した音素らしさ特徴682を音声合成処理部225に入力する。

音声合成処理部225は、入力された音素らしさ特徴681と音素らしさ特徴652との組み合わせに対応する合成音声800をVocoderモデル65に基づき生成する。

以上のように、第3実施形態の音声合成システム30によれば、入力される音声つき中間言語650の全体について同質の合成音声を生成することができ、入力される中間言語に基づき、聞き手に違和感を生じさせることなく、高い品質の音声を合成することができる。

以上、本発明について実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることができる。

また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはI Cカード、SDカード、DVD等の記録媒体に置くことができる。

また各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

また以上に説明した情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、各情報処理装置がハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

1 音声合成システム、15 情報処理装置、50 音声コーパス、51 発話テキスト、52 音声データ、60 統計モデル、65 Vocoderモデル、100 統計モデル生成部、105 音響分析部、110 言語情報生成部、115 音素らしさ特徴抽出部、120 モデル学習部、125 Vocoder学習部、200 音声合成部、210 テキスト変換部、211 形態素候補検出部、2111 形態素候補、212 韻律記号による形態素選択部、2121 アクセントによる形態素選択部、2122 ポーズ位置による形態素選択部、2123 アクセント句境界による形態素選択部、213 テキスト生成部、215 言語情報復元部、216 形態素候補検出部、2161 形態素候補、217 韻律記号による形態素選択部、218 テキスト生成部、219 言語情報生成部、220 音声合成処理部、225 音声合成処理部、241 音素らしさ特徴抽出部、242 音素らしさ特徴推定部、251 形態素解析辞書、252 アクセント辞書、253 ポーズ挿入ルール、254 アクセント句境界情報、515 音素らしさ特徴、560 言語情報付き中間言語、650 中間言語、660 音声付き中間言語、670 言語情報付き中間言語、681 音素らしさ特徴、682 音素らしさ特徴、700 入力テキスト、800 合成音声

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈